Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorСєчин, Ілля Янович
dc.date.accessioned2024-08-22T09:33:22Z
dc.date.available2024-08-22T09:33:22Z
dc.date.issued2024
dc.description.abstractДана магістерська дисертація присвячена розробці комбінованого методу та програмного забезпечення для виявлення нечітких дублікатів текстових документів. У роботі проаналізовано існуючі методи виявлення нечітких дублікатів, такі як обчислення відстані між рядками, хешування вмісту, частотний аналіз слів та семантичний аналіз. Розглянуто їхні особливості, переваги та обмеження. Вперше запропоновано комбінований метод, який інтегрує можливості BERT (Bidirectional Encoder Representations from Transformers) та TF-IDF (Term Frequency-Inverse Document Frequency). Це дозволяє ефективно враховувати як контекстуальні зв'язки між словами, так і частотні параметри. Розроблений метод досягає показників метрики F-міри на 3-4% вищих, ніж BERT, і на 13-14% вищих, ніж TF-IDF. У роботі детально описано програмну реалізацію комбінованого методу для виявлення нечітких дублікатів текстових документів. Розроблене програмне забезпечення продемонструвало високу ефективність у виявленні нечітких дублікатів текстових документів порівняно з існуючими методами.
dc.description.abstractotherThis master's thesis is dedicated to the development of a combined method and software for detecting near-duplicate text documents. The work analyzes existing methods for detecting near-duplicates, such as string distance calculation, content hashing, word frequency analysis, and semantic analysis. Their features, advantages, and limitations are considered. For the first time, a combined method is proposed that integrates the capabilities of BERT (Bidirectional Encoder Representations from Transformers) and TF-IDF (Term Frequency-Inverse Document Frequency). This allows for effectively considering both contextual relationships between words and frequency parameters. The developed method achieves F-measure metric scores that are 3-4% higher than BERT and 13-14% higher than TF-IDF. The work provides a detailed description of the software implementation of the combined method for detecting near-duplicate text documents. The developed software demonstrated high efficiency in detecting near-duplicate text documents compared to existing methods.
dc.format.extent143 с.
dc.identifier.citationСєчин, І. Я. Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів : магістерська дис. : 121 Інженерія програмного забезпечення / Заболотня Тетяна Миколаївна. – Київ, 2024. – 143 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/68478
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectвиявлення нечітких дублікатів текстових документів
dc.subjectкомбінований метод
dc.subjectобробка природної мови
dc.subjectсемантична близькість
dc.subjectbert
dc.subjecttf-idf
dc.subject.udc004.89
dc.titleКомбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Siechyn-magistr.pdf
Розмір:
8.54 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: