Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації

Вантажиться...
Ескіз

Дата

2020-06

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Метою роботи є застосування кластеризації науково-технічних даних не тільки для наглядного представлення об’єктів, але і для розпізнавання нових. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп не задаються заздалегідь. Для видалення неінформативних слів розглянуто методи: видалення стоп-слів, стеммінг, N-діаграми, приведення регістра. Для виділення ключових слів та класифікації результатів використано наступні методи: словниковий, статистичний та побудований на основі Y-інтерпретації закону Бредфорда, TF-IDF міра, F-міра та метод лакричних шаблонів. Для реалізації системи кластерного аналізу науково-технічних даних обрано високорівневу мову програмування Python, реалізація інтерпретатора 2.7. Даний програмний код читається легше, його багаторазове використання і обслуговування виконується набагато простіше, ніж використання програмного коду на інших мовах.

Опис

Ключові слова

видалення стоп-слів, алгоритм DBSCAN, ієрархічна класифікація, стеммін

Бібліографічний опис

Крамар, І. І. Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації : дипломна робота ... бакалавра : 121 Інженерія програмного забезпечення / Крамар Іван Ігорович. – Київ, 2020. – 128 с.

DOI