Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації

Коваль, Олександр ВасильовичКрамар, Іван Ігорович2020-10-072020-10-072020-06Крамар, І. І. Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації : дипломна робота ... бакалавра : 121 Інженерія програмного забезпечення / Крамар Іван Ігорович. – Київ, 2020. – 128 с.https://ela.kpi.ua/handle/123456789/36639Метою роботи є застосування кластеризації науково-технічних даних не тільки для наглядного представлення об’єктів, але і для розпізнавання нових. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп не задаються заздалегідь. Для видалення неінформативних слів розглянуто методи: видалення стоп-слів, стеммінг, N-діаграми, приведення регістра. Для виділення ключових слів та класифікації результатів використано наступні методи: словниковий, статистичний та побудований на основі Y-інтерпретації закону Бредфорда, TF-IDF міра, F-міра та метод лакричних шаблонів. Для реалізації системи кластерного аналізу науково-технічних даних обрано високорівневу мову програмування Python, реалізація інтерпретатора 2.7. Даний програмний код читається легше, його багаторазове використання і обслуговування виконується набагато простіше, ніж використання програмного коду на інших мовах.ukвидалення стоп-слівалгоритм DBSCANієрархічна класифікаціястеммінКластеризація даних, що збираються з відібраних джерел науково-технічної інформаціїBachelor Thesis128 c.