Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів
dc.contributor.advisor | Заболотня, Тетяна Миколаївна | |
dc.contributor.author | Сєчин, Ілля Янович | |
dc.date.accessioned | 2024-08-22T09:33:22Z | |
dc.date.available | 2024-08-22T09:33:22Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Дана магістерська дисертація присвячена розробці комбінованого методу та програмного забезпечення для виявлення нечітких дублікатів текстових документів. У роботі проаналізовано існуючі методи виявлення нечітких дублікатів, такі як обчислення відстані між рядками, хешування вмісту, частотний аналіз слів та семантичний аналіз. Розглянуто їхні особливості, переваги та обмеження. Вперше запропоновано комбінований метод, який інтегрує можливості BERT (Bidirectional Encoder Representations from Transformers) та TF-IDF (Term Frequency-Inverse Document Frequency). Це дозволяє ефективно враховувати як контекстуальні зв'язки між словами, так і частотні параметри. Розроблений метод досягає показників метрики F-міри на 3-4% вищих, ніж BERT, і на 13-14% вищих, ніж TF-IDF. У роботі детально описано програмну реалізацію комбінованого методу для виявлення нечітких дублікатів текстових документів. Розроблене програмне забезпечення продемонструвало високу ефективність у виявленні нечітких дублікатів текстових документів порівняно з існуючими методами. | |
dc.description.abstractother | This master's thesis is dedicated to the development of a combined method and software for detecting near-duplicate text documents. The work analyzes existing methods for detecting near-duplicates, such as string distance calculation, content hashing, word frequency analysis, and semantic analysis. Their features, advantages, and limitations are considered. For the first time, a combined method is proposed that integrates the capabilities of BERT (Bidirectional Encoder Representations from Transformers) and TF-IDF (Term Frequency-Inverse Document Frequency). This allows for effectively considering both contextual relationships between words and frequency parameters. The developed method achieves F-measure metric scores that are 3-4% higher than BERT and 13-14% higher than TF-IDF. The work provides a detailed description of the software implementation of the combined method for detecting near-duplicate text documents. The developed software demonstrated high efficiency in detecting near-duplicate text documents compared to existing methods. | |
dc.format.extent | 143 с. | |
dc.identifier.citation | Сєчин, І. Я. Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів : магістерська дис. : 121 Інженерія програмного забезпечення / Заболотня Тетяна Миколаївна. – Київ, 2024. – 143 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/68478 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | виявлення нечітких дублікатів текстових документів | |
dc.subject | комбінований метод | |
dc.subject | обробка природної мови | |
dc.subject | семантична близькість | |
dc.subject | bert | |
dc.subject | tf-idf | |
dc.subject.udc | 004.89 | |
dc.title | Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Siechyn-magistr.pdf
- Розмір:
- 8.54 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: