Модифікований метод косинусної подібності для виявлення нечітких дублікатів у текстових даних

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дана магістерська дисертація присвячена розробленню та реалізації модифікованого методу косинусної подібності для виявлення нечітких дублікатів у текстових даних. В ході даної магістерської дисертації було проаналізовано ряд існуючих підходів та методів виявлення нечітких дублікатів та запропоновано модифікований метод косинусної подібності, який відрізняється від існуючих тим, що інтегрує контекстуальне зважування координат векторного представлення речень на основі їх інформаційної значущості та статистично визначені α-ваги для підвищення чутливості до семантичних перефразувань. Розроблений метод дозволяє досягти показників метрики F1, які на 5-6% перевищують результати класичного косинусного методу та на 10-14% перевищують результати традиційних частотних підходів. Практичне значення отриманих результатів полягає в розробці програмного забезпечення на основі модифікованого методу косинусної подібності, що може інтегруватися в системи перевірки оригінальності текстів, пошукові системи та корпоративні платформи, підвищуючи точність виявлення нечітких дублікатів. У даній магістерській дисертації розроблено програмне забезпечення для виявлення нечітких дублікатів у текстових даних на основі модифікованого методу косинусної подібності.

Опис

Ключові слова

інженерія програмного забезпечення, нечіткі дублікати, косинусна подібність, семантичні векторні представлення, семантична близькість, оброблення природної мови, виявлення плагіату

Бібліографічний опис

Козинець, Н. В. Модифікований метод косинусної подібності для виявлення нечітких дублікатів у текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Козинець Назарій Вікторович. – Київ, 2025. – 156 с.

ORCID

DOI