Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів

Вантажиться...
Ескіз

Дата

2024

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дана магістерська дисертація присвячена розробці комбінованого методу та програмного забезпечення для виявлення нечітких дублікатів текстових документів. У роботі проаналізовано існуючі методи виявлення нечітких дублікатів, такі як обчислення відстані між рядками, хешування вмісту, частотний аналіз слів та семантичний аналіз. Розглянуто їхні особливості, переваги та обмеження. Вперше запропоновано комбінований метод, який інтегрує можливості BERT (Bidirectional Encoder Representations from Transformers) та TF-IDF (Term Frequency-Inverse Document Frequency). Це дозволяє ефективно враховувати як контекстуальні зв'язки між словами, так і частотні параметри. Розроблений метод досягає показників метрики F-міри на 3-4% вищих, ніж BERT, і на 13-14% вищих, ніж TF-IDF. У роботі детально описано програмну реалізацію комбінованого методу для виявлення нечітких дублікатів текстових документів. Розроблене програмне забезпечення продемонструвало високу ефективність у виявленні нечітких дублікатів текстових документів порівняно з існуючими методами.

Опис

Ключові слова

виявлення нечітких дублікатів текстових документів, комбінований метод, обробка природної мови, семантична близькість, bert, tf-idf

Бібліографічний опис

Сєчин, І. Я. Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів : магістерська дис. : 121 Інженерія програмного забезпечення / Заболотня Тетяна Миколаївна. – Київ, 2024. – 143 с.

DOI