Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах
dc.contributor.advisor | Заболотня, Тетяна Миколаївна | |
dc.contributor.author | Чумак, Михайло Сергійович | |
dc.date.accessioned | 2023-01-17T13:02:41Z | |
dc.date.available | 2023-01-17T13:02:41Z | |
dc.date.issued | 2022 | |
dc.description.abstracten | This master's thesis is devoted to the development and implementation of a modified method of detecting vague duplicates in electronic text documents, based on the existing Term Frequency method. The dissertation analyzed the existing methods, methods and algorithms that were developed to solve this scientific problem, defined the requirements for implementation, and proposed a modified method for detecting unclear duplicates. This method differs from the existing ones in that it uses the approach of dividing documents into blocks of defined sizes. The developed method makes it possible to obtain test completeness metrics on average 2% higher than the basic method. In this master's thesis, software was developed that allows detecting fuzzy duplicates in electronic text documents using a modified method. | uk |
dc.description.abstractuk | Дана магістерська дисертація присвячена розробленню та реалізації модифікованого метода виявлення нечітких дублікатів в електронних текстових документах, на основі існуючого методу Term Frequency. В дисертації проаналізовано існуючі методи, способи та алгоритми, які були розроблені для вирішення даної наукової проблеми, визначено вимоги до реалізації та запропоновано модифікований метод виявлення нечітких дублікатів. Даний метод відрізняється від існуючих тим, що використовує підхід розбиття документів на блоки визначених розмірів. Розроблений метод дозволяє отримати показники метрики повноти тесту в середньому на 2% вищі ніж базовий метод. У даній магістерській дисертації розроблено програмне забезпечення, яке дозволяє виявляти нечіткі дублікати в електронних текстових документах за допомогою модифікованого методу. | uk |
dc.format.page | 135 с. | uk |
dc.identifier.citation | Чумак, М. C. Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах : магістерська дис. : 121 Інженерія програмного забезпечення / Чумак Михайло Сергійович. – Київ, 2022. – 135 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/51908 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | виявлення нечітких дублікатів | uk |
dc.subject | попереднє оброблення текстових даних | uk |
dc.subject | модифікований метод | uk |
dc.subject | detection of fuzzy duplicates | uk |
dc.subject | preprocessing of textual data | uk |
dc.subject | modified method | uk |
dc.subject.udc | 004.912 | uk |
dc.title | Модифікований Term Frequency метод виявлення нечітких дублікатів в електронних текстових документах | uk |
dc.title.alternative | Modified Term Frequency method for detecting fuzzy duplicates in electronic text documents | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Chumak_magistr.pdf
- Розмір:
- 4.6 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: