Модифікований метод острівної кластеризації природномовних текстових даних

Вантажиться...
Ескіз

Дата

2018

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

У даній магістерській дисертації було представлено дослідження на тему кластеризації природномовних текстових даних. У роботі розглянуто постановку задачі кластеризації, проаналізовано найбільш популярні існуючі методи кластеризації текстових корпусів та на основі результатів цього аналізу обрано метод острівної кластеризації для подальшого вдосконалення. На основі цього запропоновано нові підходи до попереднього оброблення графу сумісної зустрічальності термів (глобальний, відсотковий, ефективного опору та відмова від оброблення) в методі острівної кластеризації; запропоновано та проаналізовано використання методу k medoids для кластеризації отриманого після оброблення наближення графу; запропоновано модифікований метод кластеризації природномовних текстових даних та його різновиди, які відрізняються використовуваними підходами до оброблення графу сумісної зустрічальності термів та до вибору кількості кластерів. Також в рамках даної роботи розроблено програмне забезпечення для автоматичної кластеризації текстів, що використовує запропонований метод, та наведено практичні результати його застосування.

Опис

Ключові слова

кластеризація, природномовні текстові дані, острівна кластеризація, k medoids, кластеризація графу

Бібліографічний опис

Юсин, Я. О. Модифікований метод острівної кластеризації природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Юсин Яків Олексійович. – Київ, 2018. – 103 с.

DOI