Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації

dc.contributor.advisorКоваль, Олександр Васильович
dc.contributor.authorКрамар, Іван Ігорович
dc.date.accessioned2020-10-07T16:37:29Z
dc.date.available2020-10-07T16:37:29Z
dc.date.issued2020-06
dc.description.abstractМетою роботи є застосування кластеризації науково-технічних даних не тільки для наглядного представлення об’єктів, але і для розпізнавання нових. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп не задаються заздалегідь. Для видалення неінформативних слів розглянуто методи: видалення стоп-слів, стеммінг, N-діаграми, приведення регістра. Для виділення ключових слів та класифікації результатів використано наступні методи: словниковий, статистичний та побудований на основі Y-інтерпретації закону Бредфорда, TF-IDF міра, F-міра та метод лакричних шаблонів. Для реалізації системи кластерного аналізу науково-технічних даних обрано високорівневу мову програмування Python, реалізація інтерпретатора 2.7. Даний програмний код читається легше, його багаторазове використання і обслуговування виконується набагато простіше, ніж використання програмного коду на інших мовах.uk
dc.description.abstractenThe aim of the work is to use the clustering of scientific and technical data not only for the visual representation of objects, but also for the recognition of new ones. The purpose of document clustering is to automatically detect groups of semantically similar documents among a given fixed set. Groups are formed only on the basis of pairwise similarity of document descriptions, and no characteristics of these groups are set in advance. Methods for deleting uninformative words are considered: deletion of stop words, stemming, N-diagrams, case reduction. The following methods were used to highlight keywords and classify the results: dictionary, statistical and based on the Y-interpretation of Bradford's law, TF-IDF measure, F-measure and the method of licorice patterns. Python programming language was chosen to implement the system of cluster analysis of scientific and technical data, a high-level, the implementation of the interpreter 2.7. This program code is easier to read, its reuse and maintenance is much easier than using program code in other languages.uk
dc.description.abstractruЦелью работы является применение кластеризации научно-технических данных не только для наглядного представления объектов, но и для распознавания новых. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданной фиксированной множества. Группы формируются только на основе попарно сходства описаний документов, и никакие характеристики этих групп не задаются заранее. Для удаления неинформативных слов рассмотрены методы: удаление стоп-слов, стемминг, N-диаграммы, приведение регистра. Для выделения ключевых слов и классификации результатов использованы следующие методы: словарный, статистический и построен на основе Y-интерпретации закона Брэдфорда, TF-IDF мера, F-мера и способ лакричным шаблонов. Для реализации системы кластерного анализа научно-технических данных избран высокоуровневый язык программирования Python, реализация интерпретатора 2.7. Данный программный код читается легче, его многократное использование и обслуживание выполняется гораздо проще, чем использование программного кода на других языках.uk
dc.format.page128 c.uk
dc.identifier.citationКрамар, І. І. Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації : дипломна робота ... бакалавра : 121 Інженерія програмного забезпечення / Крамар Іван Ігорович. – Київ, 2020. – 128 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/36639
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectвидалення стоп-слівuk
dc.subjectалгоритм DBSCANuk
dc.subjectієрархічна класифікаціяuk
dc.subjectстеммінuk
dc.titleКластеризація даних, що збираються з відібраних джерел науково-технічної інформаціїuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kramar_bakalavr.pdf
Розмір:
2.54 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: