Модифікований I-Match метод виявлення нечітких дублікатів в текстових даних
dc.contributor.advisor | Заболотня, Тетяна Миколаївна | |
dc.contributor.author | Пастушенко, Андрій Сергійович | |
dc.date.accessioned | 2018-06-25T21:59:13Z | |
dc.date.available | 2018-06-25T21:59:13Z | |
dc.date.issued | 2018 | |
dc.description.abstracten | This dissertation is devoted to the natural language processing and, in particular, to the development of near-duplicate detection method in text data. In this work the study of existing methods in near-duplicate detection was conducted and analysis of existing solutions was performed. The advantages and disadvantages of existing methods have been analyzed, after which the corresponding hypotheses concerning the possibility of modification were formulated. Based on these hypotheses, a modified method for near-duplicates detection based on the I-Match method was formulated. Based on the conducted research, the tools for implementing the method were selected and a modified method for near-duplicates detection was implemented. In this dissertation the estimation of efficiency of the offered method is conducted and ways of further improvement are given. | uk |
dc.description.abstractuk | Дана дисертація присвячена обробці природномовних текстових даних та, зокрема, розробленню методу пошуку нечітких дублікатів в текстових даних. У роботі було досліджено існуючі аналоги в області визначення нечітких дублікатів та проведено порівняльний аналіз існуючих програмних комплексів, що реалізують можливість пошуку дублікатів. Було проаналізовано переваги та недоліки існуючих методів, після чого було сформульовано відповідні гіпотези щодо можливості модифікації. На основі даних гіпотез було сформульовано модифікаований метод визначення нечітких дублікатів на основі методу I-Match. На основі проведеного дослідження було обрано засоби реалізації методу та реалізовано модифікований метод пошуку нечітких дублікатів. У даній дисертації виконано оцінку ефективності запропонованого методу та надано шляхи подальшого вдосконалення. | uk |
dc.format.page | 100 с. | uk |
dc.identifier.citation | Пастушенко, А. С. Модифікований I-Match метод виявлення нечітких дублікатів в текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Пастушенко Андрій Сергійович. – Київ, 2018. – 100 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/23657 | |
dc.language.iso | uk | uk |
dc.publisher.place | Київ | uk |
dc.subject.udc | 004.91 | uk |
dc.title | Модифікований I-Match метод виявлення нечітких дублікатів в текстових даних | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Pastushenko_magistr.pdf
- Розмір:
- 2.04 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 7.74 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: