Виявлення нечітких дублікатів текстових даних з використанням модифікованого коефіцієнта Cosine Similarity

dc.contributor.authorЗаболотня, Т. М.
dc.contributor.authorКозинець, Н. В.
dc.date.accessioned2024-12-10T08:59:46Z
dc.date.available2024-12-10T08:59:46Z
dc.date.issued2024
dc.description.abstractotherThe paper addresses detecting fuzzy duplicates in text data using a modified cosine similarity measure. It examines existing challenges in identifying duplicates across diverse text formats and proposes enhancements, including adaptive weighting and contextual embeddings, to improve detection accuracy. The suggested modifications demonstrate increased precision in identifying fuzzy duplicates, particularly in complex text corpora.
dc.format.pagerangeС. 110-115
dc.identifier.citationЗаболотня, Т. М. Виявлення нечітких дублікатів текстових даних з використанням модифікованого коефіцієнта Cosine Similarity / Заболотня Т. М., Козинець Н. В. // Прикладна математика та комп’ютинг ПМК' 2024 : збірник тез доповідей Сімнадцятої конференції магістрантів та аспірантів (20-22 листопада 2024 р. Київ, Україна). – Київ, 2024. – С. 110-115.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/71099
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.sourceПрикладна математика та комп’ютинг ПМК' 2024 : збірник тез доповідей Сімнадцятої конференції магістрантів та аспірантів (20-22 листопада 2024 р. Київ, Україна)
dc.subject.udc004.91
dc.titleВиявлення нечітких дублікатів текстових даних з використанням модифікованого коефіцієнта Cosine Similarity
dc.title.alternativeDetecting fuzzy duplicates in text data using a modified cosine similarity measure
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
20-P_110-115.docx
Розмір:
34.05 KB
Формат:
Microsoft Word XML
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: