Модифікований метод косинусної подібності для виявлення нечітких дублікатів у текстових даних
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дана магістерська дисертація присвячена розробленню та реалізації модифікованого методу косинусної подібності для виявлення нечітких дублікатів у текстових даних.
В ході даної магістерської дисертації було проаналізовано ряд існуючих підходів та методів виявлення нечітких дублікатів та запропоновано модифікований метод косинусної подібності, який відрізняється від існуючих тим, що інтегрує контекстуальне зважування координат векторного представлення речень на основі їх інформаційної значущості та статистично визначені α-ваги для підвищення чутливості до семантичних перефразувань. Розроблений метод дозволяє досягти показників метрики F1, які на 5-6% перевищують результати класичного косинусного методу та на 10-14% перевищують результати традиційних частотних підходів. Практичне значення отриманих результатів полягає в розробці програмного забезпечення на основі модифікованого методу косинусної подібності, що може інтегруватися в системи перевірки оригінальності текстів, пошукові системи та корпоративні платформи, підвищуючи точність виявлення нечітких дублікатів.
У даній магістерській дисертації розроблено програмне забезпечення для виявлення нечітких дублікатів у текстових даних на основі модифікованого методу косинусної подібності.
Опис
Ключові слова
інженерія програмного забезпечення, нечіткі дублікати, косинусна подібність, семантичні векторні представлення, семантична близькість, оброблення природної мови, виявлення плагіату
Бібліографічний опис
Козинець, Н. В. Модифікований метод косинусної подібності для виявлення нечітких дублікатів у текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Козинець Назарій Вікторович. – Київ, 2025. – 156 с.