Модифікований I-Match метод виявлення нечітких дублікатів в текстових даних

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorПастушенко, Андрій Сергійович
dc.date.accessioned2018-06-25T21:59:13Z
dc.date.available2018-06-25T21:59:13Z
dc.date.issued2018
dc.description.abstractenThis dissertation is devoted to the natural language processing and, in particular, to the development of near-duplicate detection method in text data. In this work the study of existing methods in near-duplicate detection was conducted and analysis of existing solutions was performed. The advantages and disadvantages of existing methods have been analyzed, after which the corresponding hypotheses concerning the possibility of modification were formulated. Based on these hypotheses, a modified method for near-duplicates detection based on the I-Match method was formulated. Based on the conducted research, the tools for implementing the method were selected and a modified method for near-duplicates detection was implemented. In this dissertation the estimation of efficiency of the offered method is conducted and ways of further improvement are given.uk
dc.description.abstractukДана дисертація присвячена обробці природномовних текстових даних та, зокрема, розробленню методу пошуку нечітких дублікатів в текстових даних. У роботі було досліджено існуючі аналоги в області визначення нечітких дублікатів та проведено порівняльний аналіз існуючих програмних комплексів, що реалізують можливість пошуку дублікатів. Було проаналізовано переваги та недоліки існуючих методів, після чого було сформульовано відповідні гіпотези щодо можливості модифікації. На основі даних гіпотез було сформульовано модифікаований метод визначення нечітких дублікатів на основі методу I-Match. На основі проведеного дослідження було обрано засоби реалізації методу та реалізовано модифікований метод пошуку нечітких дублікатів. У даній дисертації виконано оцінку ефективності запропонованого методу та надано шляхи подальшого вдосконалення.uk
dc.format.page100 с.uk
dc.identifier.citationПастушенко, А. С. Модифікований I-Match метод виявлення нечітких дублікатів в текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Пастушенко Андрій Сергійович. – Київ, 2018. – 100 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/23657
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subject.udc004.91uk
dc.titleМодифікований I-Match метод виявлення нечітких дублікатів в текстових данихuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Pastushenko_magistr.pdf
Розмір:
2.04 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: