Кластеризація текстових документів на основі методу k-найближчих сусідів

dc.contributor.advisorРогоза, Валерій Станіславович
dc.contributor.authorМельник, Антоній Михайлович
dc.date.accessioned2023-10-24T10:24:48Z
dc.date.available2023-10-24T10:24:48Z
dc.date.issued2023
dc.description.abstractМетою дипломної роботи є дослідження методу kнайближчих сусідів, а також створення на його основі алгоритму кластеризації текстових документів, також слід провести аналіз інших методів кластеризації, а також можливості адаптувати метод k-найближчих сусідів для кластеризації даних, оскільки зазвичай він використовується для класифікації даних, а не кластеризації. Впродовж дослідження даної теми, біло виявлено відсутність будь-яких напрацювань, щодо алгоритму кластеризації на основі методу k-найближчих сусідів. Тому вважаю дослідження в цій області, і розробку відповідного алгоритму цілком виправданими. Також окрім створення відповідного алгоритму, тема моєї дипломної роботи включає досить важливе уточнення, а саме кластеризацію саме текстових документів, що також під собою включає ряд інших запитань, а саме препроцесінг тексту, для кращої кластеризації наших вхідних даних. Не зважаючи на те що в області препроцесінгу тексту як для кластеризації так і класифікації текстових документів, вже є багато готових рішень, втім підбір правильної комбінації цих функцій є також досить важливим. В результаті виконання нашої дипломної роботи ми розробимо новий алгоритм для кластеризації, а також розробимо додаток, що буде реалізовувати кластеризації текстових документів на основі розробленого алгоритму. В кінці буде проведена оцінка працездатності цього алгоритму, на підібраному наборі текстових даних, яким буде також приділена увага. А також візуалізувавши наші тестові дані, ми оцінимо, чи коректно працює наш алгоритм. Створений додаток та алгоритм можна буде використовувати в подальших дослідженнях в області кластеризації даних, а також не зважаючи на відносну трудоємкість цього алгоритму, використовувати в певних задачах в області кластеризації текстових даних. Загальний обсяг роботи 99 с., 14 рис., 10 таблиць, 3 додатки, 17 джерела.uk
dc.description.abstractotherThe purpose of the thesis is to study the method of k-nearest neighbors, as well as to create an algorithm of clustering text documents based on it, and also to analyze other methods of clustering, and the possibility of adapting the method for k-clustering data, as it is usually used to classify data rather than cluster. Thro the study of this topic, the absence of any findings was revealed regarding the cluster algorithm based on the method of knearest neighbors. Therefore, I consider research in this area, and the development of the appropriate algorithm, quite justified. Also, in addition to creating the corresponding algorithm, the topic of my thesis includes a very important clustering, namely the clustering of text documents, which also includes a number of other questions, i.e. text preprocessing, to better cluster our input data. Despite the fact that in the field of text preprocessing for both clustering and classification of text documents, there are already many ready-made solutions, however, the selection of the right combination of these functions is also quite important. As a result of our thesis, we will develop a new algorithm for clustering, as well as develop an application that will implement clusters of text documents based on the developed algorithm. At the end, the performance of this algorithm will be assessed, on the selected set of text data, which will also be paid attention. And also by visualizing our test data, we evaluate whether our algorithm works correctly. The created application and algorithm can be used in further research in the field of data clustering, as well as, despite the relative labor-intensive of this algoritm, to use in certain tasks in the area of text data clustering. Total volume of work 99 s., 14 figures, 10 tables, 3 appendices, 17 sources.uk
dc.format.extent99 с.uk
dc.identifier.citationМельник, А. М. Кластеризація текстових документів на основі методу k-найближчих сусідів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Мельник Антоній Михайлович . – Київ, 2023. – 99 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/61719
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectкластеризаціяuk
dc.subjectk-найближчих сусідівuk
dc.subjectдодаток для кластеризаціїuk
dc.subjectтекстові документиuk
dc.subjectclusterizationuk
dc.subjectk-nearest neighborsuk
dc.subjectcluster applicationuk
dc.subjecttext documentsuk
dc.titleКластеризація текстових документів на основі методу k-найближчих сусідівuk
dc.title.alternativeClustering of text documents based on the k-nearest neighbors methoduk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Melnyk_bakalavr.pdf
Розмір:
1.82 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: