Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
На сьогоднішній день проблематика автоматизованого виявлення
образливого вмісту в природномовних текстах стає все більш актуальною в
контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією
контенту соціальних мереж та забезпеченням цифрової безпеки.
Попри стрімкий розвиток моделей машинного навчання в галузі
визначення образливого вмісту в природномовних текстових даних, сучасні
методи мають явний недолік у вигляді відсутності можливості отримати
пояснення того, які саме слова найбільше вплинули на рішення моделі
стосовно наявності образливого вмісту.
У даній роботі запропоновано модифікацію методу для визначення
образливого вмісту в природномовних текстових даних. Запропонований
метод, на відміну від існуючих аналогів, визначає ймовірність впливу на
рішення моделі для кожного окремого слова, завдяки чому підвищує
точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також
точність міждоменної класифікації – до 10%, навчаючись на наборах даних
розміром 50-150 повідомлень.
Для програмної реалізації запропонованої модифікації розроблено
застосунок з консольним інтерфейсом користувача. В якості мови
програмування використовується мова Python, яка є зручним інструментом
при створенні додатків з використанням технологій машинного навчання.
Також для реалізації застосунку було використано набір сучасних бібліотек
таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.
Опис
Ключові слова
раціонали, оброблення текстових даних, образливий вміст, bert, python
Бібліографічний опис
Баклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.