Заболотня, Тетяна МиколаївнаЧумак, Михайло Сергійович2023-01-172023-01-172022Чумак, М. C. Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах : магістерська дис. : 121 Інженерія програмного забезпечення / Чумак Михайло Сергійович. – Київ, 2022. – 135 с.https://ela.kpi.ua/handle/123456789/51908Дана магістерська дисертація присвячена розробленню та реалізації модифікованого метода виявлення нечітких дублікатів в електронних текстових документах, на основі існуючого методу Term Frequency. В дисертації проаналізовано існуючі методи, способи та алгоритми, які були розроблені для вирішення даної наукової проблеми, визначено вимоги до реалізації та запропоновано модифікований метод виявлення нечітких дублікатів. Даний метод відрізняється від існуючих тим, що використовує підхід розбиття документів на блоки визначених розмірів. Розроблений метод дозволяє отримати показники метрики повноти тесту в середньому на 2% вищі ніж базовий метод. У даній магістерській дисертації розроблено програмне забезпечення, яке дозволяє виявляти нечіткі дублікати в електронних текстових документах за допомогою модифікованого методу.ukвиявлення нечітких дублікатівпопереднє оброблення текстових данихмодифікований методdetection of fuzzy duplicatespreprocessing of textual datamodified methodМодифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документахModified Term Frequency method for detecting fuzzy duplicates in electronic text documentsMaster Thesis135 с.004.912