Заболотня, Тетяна МиколаївнаСєчин, Ілля Янович2024-08-222024-08-222024Сєчин, І. Я. Комбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документів : магістерська дис. : 121 Інженерія програмного забезпечення / Заболотня Тетяна Миколаївна. – Київ, 2024. – 143 с.https://ela.kpi.ua/handle/123456789/68478Дана магістерська дисертація присвячена розробці комбінованого методу та програмного забезпечення для виявлення нечітких дублікатів текстових документів. У роботі проаналізовано існуючі методи виявлення нечітких дублікатів, такі як обчислення відстані між рядками, хешування вмісту, частотний аналіз слів та семантичний аналіз. Розглянуто їхні особливості, переваги та обмеження. Вперше запропоновано комбінований метод, який інтегрує можливості BERT (Bidirectional Encoder Representations from Transformers) та TF-IDF (Term Frequency-Inverse Document Frequency). Це дозволяє ефективно враховувати як контекстуальні зв'язки між словами, так і частотні параметри. Розроблений метод досягає показників метрики F-міри на 3-4% вищих, ніж BERT, і на 13-14% вищих, ніж TF-IDF. У роботі детально описано програмну реалізацію комбінованого методу для виявлення нечітких дублікатів текстових документів. Розроблене програмне забезпечення продемонструвало високу ефективність у виявленні нечітких дублікатів текстових документів порівняно з існуючими методами.143 с.ukвиявлення нечітких дублікатів текстових документівкомбінований методобробка природної мовисемантична близькістьberttf-idfКомбінований метод та програмне забезпечення виявлення нечітких дублікатів текстових документівMaster Thesis004.89