Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorЧумак, Михайло Сергійович
dc.date.accessioned2023-01-17T13:02:41Z
dc.date.available2023-01-17T13:02:41Z
dc.date.issued2022
dc.description.abstractenThis master's thesis is devoted to the development and implementation of a modified method of detecting vague duplicates in electronic text documents, based on the existing Term Frequency method. The dissertation analyzed the existing methods, methods and algorithms that were developed to solve this scientific problem, defined the requirements for implementation, and proposed a modified method for detecting unclear duplicates. This method differs from the existing ones in that it uses the approach of dividing documents into blocks of defined sizes. The developed method makes it possible to obtain test completeness metrics on average 2% higher than the basic method. In this master's thesis, software was developed that allows detecting fuzzy duplicates in electronic text documents using a modified method.uk
dc.description.abstractukДана магістерська дисертація присвячена розробленню та реалізації модифікованого метода виявлення нечітких дублікатів в електронних текстових документах, на основі існуючого методу Term Frequency. В дисертації проаналізовано існуючі методи, способи та алгоритми, які були розроблені для вирішення даної наукової проблеми, визначено вимоги до реалізації та запропоновано модифікований метод виявлення нечітких дублікатів. Даний метод відрізняється від існуючих тим, що використовує підхід розбиття документів на блоки визначених розмірів. Розроблений метод дозволяє отримати показники метрики повноти тесту в середньому на 2% вищі ніж базовий метод. У даній магістерській дисертації розроблено програмне забезпечення, яке дозволяє виявляти нечіткі дублікати в електронних текстових документах за допомогою модифікованого методу.uk
dc.format.page135 с.uk
dc.identifier.citationЧумак, М. C. Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах : магістерська дис. : 121 Інженерія програмного забезпечення / Чумак Михайло Сергійович. – Київ, 2022. – 135 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/51908
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectвиявлення нечітких дублікатівuk
dc.subjectпопереднє оброблення текстових данихuk
dc.subjectмодифікований методuk
dc.subjectdetection of fuzzy duplicatesuk
dc.subjectpreprocessing of textual datauk
dc.subjectmodified methoduk
dc.subject.udc004.912uk
dc.titleМодифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документахuk
dc.title.alternativeModified Term Frequency method for detecting fuzzy duplicates in electronic text documentsuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Chumak_magistr.pdf
Розмір:
4.6 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: