Кластеризація текстових документів на основі методу k-найближчих сусідів
| dc.contributor.advisor | Рогоза, Валерій Станіславович | |
| dc.contributor.author | Мельник, Антоній Михайлович | |
| dc.date.accessioned | 2023-10-24T10:24:48Z | |
| dc.date.available | 2023-10-24T10:24:48Z | |
| dc.date.issued | 2023 | |
| dc.description.abstract | Метою дипломної роботи є дослідження методу kнайближчих сусідів, а також створення на його основі алгоритму кластеризації текстових документів, також слід провести аналіз інших методів кластеризації, а також можливості адаптувати метод k-найближчих сусідів для кластеризації даних, оскільки зазвичай він використовується для класифікації даних, а не кластеризації. Впродовж дослідження даної теми, біло виявлено відсутність будь-яких напрацювань, щодо алгоритму кластеризації на основі методу k-найближчих сусідів. Тому вважаю дослідження в цій області, і розробку відповідного алгоритму цілком виправданими. Також окрім створення відповідного алгоритму, тема моєї дипломної роботи включає досить важливе уточнення, а саме кластеризацію саме текстових документів, що також під собою включає ряд інших запитань, а саме препроцесінг тексту, для кращої кластеризації наших вхідних даних. Не зважаючи на те що в області препроцесінгу тексту як для кластеризації так і класифікації текстових документів, вже є багато готових рішень, втім підбір правильної комбінації цих функцій є також досить важливим. В результаті виконання нашої дипломної роботи ми розробимо новий алгоритм для кластеризації, а також розробимо додаток, що буде реалізовувати кластеризації текстових документів на основі розробленого алгоритму. В кінці буде проведена оцінка працездатності цього алгоритму, на підібраному наборі текстових даних, яким буде також приділена увага. А також візуалізувавши наші тестові дані, ми оцінимо, чи коректно працює наш алгоритм. Створений додаток та алгоритм можна буде використовувати в подальших дослідженнях в області кластеризації даних, а також не зважаючи на відносну трудоємкість цього алгоритму, використовувати в певних задачах в області кластеризації текстових даних. Загальний обсяг роботи 99 с., 14 рис., 10 таблиць, 3 додатки, 17 джерела. | uk |
| dc.description.abstractother | The purpose of the thesis is to study the method of k-nearest neighbors, as well as to create an algorithm of clustering text documents based on it, and also to analyze other methods of clustering, and the possibility of adapting the method for k-clustering data, as it is usually used to classify data rather than cluster. Thro the study of this topic, the absence of any findings was revealed regarding the cluster algorithm based on the method of knearest neighbors. Therefore, I consider research in this area, and the development of the appropriate algorithm, quite justified. Also, in addition to creating the corresponding algorithm, the topic of my thesis includes a very important clustering, namely the clustering of text documents, which also includes a number of other questions, i.e. text preprocessing, to better cluster our input data. Despite the fact that in the field of text preprocessing for both clustering and classification of text documents, there are already many ready-made solutions, however, the selection of the right combination of these functions is also quite important. As a result of our thesis, we will develop a new algorithm for clustering, as well as develop an application that will implement clusters of text documents based on the developed algorithm. At the end, the performance of this algorithm will be assessed, on the selected set of text data, which will also be paid attention. And also by visualizing our test data, we evaluate whether our algorithm works correctly. The created application and algorithm can be used in further research in the field of data clustering, as well as, despite the relative labor-intensive of this algoritm, to use in certain tasks in the area of text data clustering. Total volume of work 99 s., 14 figures, 10 tables, 3 appendices, 17 sources. | uk |
| dc.format.extent | 99 с. | uk |
| dc.identifier.citation | Мельник, А. М. Кластеризація текстових документів на основі методу k-найближчих сусідів : дипломний проект … бакалавра : 122 Комп'ютерні науки / Мельник Антоній Михайлович . – Київ, 2023. – 99 с. | uk |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/61719 | |
| dc.language.iso | uk | uk |
| dc.publisher | КПІ ім. Ігоря Сікорського | uk |
| dc.publisher.place | Київ | uk |
| dc.subject | кластеризація | uk |
| dc.subject | k-найближчих сусідів | uk |
| dc.subject | додаток для кластеризації | uk |
| dc.subject | текстові документи | uk |
| dc.subject | clusterization | uk |
| dc.subject | k-nearest neighbors | uk |
| dc.subject | cluster application | uk |
| dc.subject | text documents | uk |
| dc.title | Кластеризація текстових документів на основі методу k-найближчих сусідів | uk |
| dc.title.alternative | Clustering of text documents based on the k-nearest neighbors method | uk |
| dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Melnyk_bakalavr.pdf
- Розмір:
- 1.82 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 1.71 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: