Кластеризація текстових документів на основі методу k-найближчих сусідів

Мельник, Антоній Михайлович

Кластеризація текстових документів на основі методу k-найближчих сусідів

dc.contributor.advisor	Рогоза, Валерій Станіславович
dc.contributor.author	Мельник, Антоній Михайлович
dc.date.accessioned	2023-10-24T10:24:48Z
dc.date.available	2023-10-24T10:24:48Z
dc.date.issued	2023
dc.description.abstract	Метою дипломної роботи є дослідження методу kнайближчих сусідів, а також створення на його основі алгоритму кластеризації текстових документів, також слід провести аналіз інших методів кластеризації, а також можливості адаптувати метод k-найближчих сусідів для кластеризації даних, оскільки зазвичай він використовується для класифікації даних, а не кластеризації. Впродовж дослідження даної теми, біло виявлено відсутність будь-яких напрацювань, щодо алгоритму кластеризації на основі методу k-найближчих сусідів. Тому вважаю дослідження в цій області, і розробку відповідного алгоритму цілком виправданими. Також окрім створення відповідного алгоритму, тема моєї дипломної роботи включає досить важливе уточнення, а саме кластеризацію саме текстових документів, що також під собою включає ряд інших запитань, а саме препроцесінг тексту, для кращої кластеризації наших вхідних даних. Не зважаючи на те що в області препроцесінгу тексту як для кластеризації так і класифікації текстових документів, вже є багато готових рішень, втім підбір правильної комбінації цих функцій є також досить важливим. В результаті виконання нашої дипломної роботи ми розробимо новий алгоритм для кластеризації, а також розробимо додаток, що буде реалізовувати кластеризації текстових документів на основі розробленого алгоритму. В кінці буде проведена оцінка працездатності цього алгоритму, на підібраному наборі текстових даних, яким буде також приділена увага. А також візуалізувавши наші тестові дані, ми оцінимо, чи коректно працює наш алгоритм. Створений додаток та алгоритм можна буде використовувати в подальших дослідженнях в області кластеризації даних, а також не зважаючи на відносну трудоємкість цього алгоритму, використовувати в певних задачах в області кластеризації текстових даних. Загальний обсяг роботи 99 с., 14 рис., 10 таблиць, 3 додатки, 17 джерела.	uk
dc.description.abstractother	The purpose of the thesis is to study the method of k-nearest neighbors, as well as to create an algorithm of clustering text documents based on it, and also to analyze other methods of clustering, and the possibility of adapting the method for k-clustering data, as it is usually used to classify data rather than cluster. Thro the study of this topic, the absence of any findings was revealed regarding the cluster algorithm based on the method of knearest neighbors. Therefore, I consider research in this area, and the development of the appropriate algorithm, quite justified. Also, in addition to creating the corresponding algorithm, the topic of my thesis includes a very important clustering, namely the clustering of text documents, which also includes a number of other questions, i.e. text preprocessing, to better cluster our input data. Despite the fact that in the field of text preprocessing for both clustering and classification of text documents, there are already many ready-made solutions, however, the selection of the right combination of these functions is also quite important. As a result of our thesis, we will develop a new algorithm for clustering, as well as develop an application that will implement clusters of text documents based on the developed algorithm. At the end, the performance of this algorithm will be assessed, on the selected set of text data, which will also be paid attention. And also by visualizing our test data, we evaluate whether our algorithm works correctly. The created application and algorithm can be used in further research in the field of data clustering, as well as, despite the relative labor-intensive of this algoritm, to use in certain tasks in the area of text data clustering. Total volume of work 99 s., 14 figures, 10 tables, 3 appendices, 17 sources.	uk
dc.format.extent	99 с.	uk
dc.identifier.citation	Мельник, А. М. Кластеризація текстових документів на основі методу k-найближчих сусідів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Мельник Антоній Михайлович . – Київ, 2023. – 99 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/61719
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.subject	кластеризація	uk
dc.subject	k-найближчих сусідів	uk
dc.subject	додаток для кластеризації	uk
dc.subject	текстові документи	uk
dc.subject	clusterization	uk
dc.subject	k-nearest neighbors	uk
dc.subject	cluster application	uk
dc.subject	text documents	uk
dc.title	Кластеризація текстових документів на основі методу k-найближчих сусідів	uk
dc.title.alternative	Clustering of text documents based on the k-nearest neighbors method	uk
dc.type	Bachelor Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Melnyk_bakalavr.pdf
Розмір:: 1.82 MB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Бакалаврські роботи (СП)
Бакалаврські роботи