Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів

Сєчин, Ілля Янович

Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів

dc.contributor.advisor	Заболотня, Тетяна Миколаївна
dc.contributor.author	Сєчин, Ілля Янович
dc.date.accessioned	2024-08-22T09:33:22Z
dc.date.available	2024-08-22T09:33:22Z
dc.date.issued	2024
dc.description.abstract	Дана магістерська дисертація присвячена розробці комбінованого методу та програмного забезпечення для виявлення нечітких дублікатів текстових документів. У роботі проаналізовано існуючі методи виявлення нечітких дублікатів, такі як обчислення відстані між рядками, хешування вмісту, частотний аналіз слів та семантичний аналіз. Розглянуто їхні особливості, переваги та обмеження. Вперше запропоновано комбінований метод, який інтегрує можливості BERT (Bidirectional Encoder Representations from Transformers) та TF-IDF (Term Frequency-Inverse Document Frequency). Це дозволяє ефективно враховувати як контекстуальні зв'язки між словами, так і частотні параметри. Розроблений метод досягає показників метрики F-міри на 3-4% вищих, ніж BERT, і на 13-14% вищих, ніж TF-IDF. У роботі детально описано програмну реалізацію комбінованого методу для виявлення нечітких дублікатів текстових документів. Розроблене програмне забезпечення продемонструвало високу ефективність у виявленні нечітких дублікатів текстових документів порівняно з існуючими методами.
dc.description.abstractother	This master's thesis is dedicated to the development of a combined method and software for detecting near-duplicate text documents. The work analyzes existing methods for detecting near-duplicates, such as string distance calculation, content hashing, word frequency analysis, and semantic analysis. Their features, advantages, and limitations are considered. For the first time, a combined method is proposed that integrates the capabilities of BERT (Bidirectional Encoder Representations from Transformers) and TF-IDF (Term Frequency-Inverse Document Frequency). This allows for effectively considering both contextual relationships between words and frequency parameters. The developed method achieves F-measure metric scores that are 3-4% higher than BERT and 13-14% higher than TF-IDF. The work provides a detailed description of the software implementation of the combined method for detecting near-duplicate text documents. The developed software demonstrated high efficiency in detecting near-duplicate text documents compared to existing methods.
dc.format.extent	143 с.
dc.identifier.citation	Сєчин, І. Я. Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів : магістерська дис. : 121 Інженерія програмного забезпечення / Заболотня Тетяна Миколаївна. – Київ, 2024. – 143 с.
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/68478
dc.language.iso	uk
dc.publisher	КПІ ім. Ігоря Сікорського
dc.publisher.place	Київ
dc.subject	виявлення нечітких дублікатів текстових документів
dc.subject	комбінований метод
dc.subject	обробка природної мови
dc.subject	семантична близькість
dc.subject	bert
dc.subject	tf-idf
dc.subject.udc	004.89
dc.title	Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів
dc.type	Master Thesis

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Siechyn-magistr.pdf
Розмір:: 8.54 MB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ПЗКС)
Магістерські роботи