Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації
Вантажиться...
Дата
2020-06
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Метою роботи є застосування кластеризації науково-технічних даних не тільки для наглядного представлення об’єктів, але і для розпізнавання нових. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп не задаються заздалегідь.
Для видалення неінформативних слів розглянуто методи: видалення стоп-слів, стеммінг, N-діаграми, приведення регістра.
Для виділення ключових слів та класифікації результатів використано наступні методи: словниковий, статистичний та побудований на основі Y-інтерпретації закону Бредфорда, TF-IDF міра, F-міра та метод лакричних шаблонів.
Для реалізації системи кластерного аналізу науково-технічних даних обрано високорівневу мову програмування Python, реалізація інтерпретатора 2.7. Даний програмний код читається легше, його багаторазове використання і обслуговування виконується набагато простіше, ніж використання програмного коду на інших мовах.
Опис
Ключові слова
видалення стоп-слів, алгоритм DBSCAN, ієрархічна класифікація, стеммін
Бібліографічний опис
Крамар, І. І. Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації : дипломна робота ... бакалавра : 121 Інженерія програмного забезпечення / Крамар Іван Ігорович. – Київ, 2020. – 128 с.