Комбінований метод виявлення нечітких дублікатів текстових документів

dc.contributor.authorСєчин, І. Я.
dc.contributor.authorДрозденко, Л. В.
dc.contributor.authorЗаболотня, Т. М.
dc.date.accessioned2024-03-06T14:07:54Z
dc.date.available2024-03-06T14:07:54Z
dc.date.issued2023
dc.description.abstractotherThe paper proposes a combined method for automated detection of fuzzy duplicates in textual documents with the aim of enhancing accuracy while maintaining processing speed. Comparative analysis is conducted on existing methods such as Jaccard, TF-IDF, Doc2Vec, Universal Sentence Encoder (USE), and Bidirectional Encoder Representations from Transformers (BERT). The proposed method involves preprocessing text, vectorization, similarity measurement and clustering and ranking in the final stages. The integration of machine learning elements alongside traditional methods is expected to improve the accuracy and adaptability of the approach in identifying similar textual fragments.
dc.format.pagerangeС. 600-605
dc.identifier.citationСєчин, І. Я. Комбінований метод виявлення нечітких дублікатів текстових документів / Сєчин І. Я., Дрозденко Л. В., Заболотня Т. М. // Прикладна математика та комп’ютинг ПМК' 2023 : збірник тез доповідей Шістнадцятої конференції магістрантів та аспірантів (28-30 листопада 2023 р. Київ, Україна). - Київ : КПІ ім. Ігоря Сікорського, 2023. - С. 600-605.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/65250
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.relation.ispartofПрикладна математика та комп’ютинг ПМК' 2023 : збірник тез доповідей Шістнадцятої конференції магістрантів та аспірантів (28-30 листопада 2023 р. Київ, Україна)
dc.titleКомбінований метод виявлення нечітких дублікатів текстових документів
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
P_600-605.docx
Розмір:
46.71 KB
Формат:
Microsoft Word XML
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: