Кластеризація текстових документів на основі методу k-найближчих сусідів
Вантажиться...
Дата
2023
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Метою дипломної роботи є дослідження методу kнайближчих сусідів, а також створення на його основі алгоритму
кластеризації текстових документів, також слід провести аналіз
інших методів кластеризації, а також можливості адаптувати метод
k-найближчих сусідів для кластеризації даних, оскільки зазвичай
він використовується для класифікації даних, а не кластеризації.
Впродовж дослідження даної теми, біло виявлено відсутність
будь-яких напрацювань, щодо алгоритму кластеризації на основі
методу k-найближчих сусідів. Тому вважаю дослідження в цій
області, і розробку відповідного алгоритму цілком виправданими.
Також окрім створення відповідного алгоритму, тема моєї
дипломної роботи включає досить важливе уточнення, а саме
кластеризацію саме текстових документів, що також під собою
включає ряд інших запитань, а саме препроцесінг тексту, для
кращої кластеризації наших вхідних даних.
Не зважаючи на те що в області препроцесінгу тексту як для
кластеризації так і класифікації текстових документів, вже є багато
готових рішень, втім підбір правильної комбінації цих функцій є
також досить важливим.
В результаті виконання нашої дипломної роботи ми
розробимо новий алгоритм для кластеризації, а також розробимо
додаток, що буде реалізовувати кластеризації текстових документів
на основі розробленого алгоритму.
В кінці буде проведена оцінка працездатності цього
алгоритму, на підібраному наборі текстових даних, яким буде також
приділена увага. А також візуалізувавши наші тестові дані, ми
оцінимо, чи коректно працює наш алгоритм.
Створений додаток та алгоритм можна буде використовувати
в подальших дослідженнях в області кластеризації даних, а також
не зважаючи на відносну трудоємкість цього алгоритму,
використовувати в певних задачах в області кластеризації текстових
даних.
Загальний обсяг роботи 99 с., 14 рис., 10 таблиць, 3
додатки, 17 джерела.
Опис
Ключові слова
кластеризація, k-найближчих сусідів, додаток для кластеризації, текстові документи, clusterization, k-nearest neighbors, cluster application, text documents
Бібліографічний опис
Мельник, А. М. Кластеризація текстових документів на основі методу k-найближчих сусідів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Мельник Антоній Михайлович . – Київ, 2023. – 99 с.