Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах
Вантажиться...
Дата
2022
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дана магістерська дисертація присвячена розробленню та реалізації модифікованого метода виявлення нечітких дублікатів в електронних текстових документах, на основі існуючого методу Term Frequency.
В дисертації проаналізовано існуючі методи, способи та алгоритми, які були розроблені для вирішення даної наукової проблеми, визначено вимоги до реалізації та запропоновано модифікований метод виявлення нечітких дублікатів. Даний метод відрізняється від існуючих тим, що використовує підхід розбиття документів на блоки визначених розмірів. Розроблений метод дозволяє отримати показники метрики повноти тесту в середньому на 2% вищі ніж базовий метод.
У даній магістерській дисертації розроблено програмне забезпечення, яке дозволяє виявляти нечіткі дублікати в електронних текстових документах за допомогою модифікованого методу.
Опис
Ключові слова
виявлення нечітких дублікатів, попереднє оброблення текстових даних, модифікований метод, detection of fuzzy duplicates, preprocessing of textual data, modified method
Бібліографічний опис
Чумак, М. C. Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах : магістерська дис. : 121 Інженерія програмного забезпечення / Чумак Михайло Сергійович. – Київ, 2022. – 135 с.