Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних
Вантажиться...
Дата
2024
Автори
Баклан, Дмитро Володимирович
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
На сьогоднішній день проблематика автоматизованого виявлення
образливого вмісту в природномовних текстах стає все більш актуальною в
контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією
контенту соціальних мереж та забезпеченням цифрової безпеки.
Попри стрімкий розвиток моделей машинного навчання в галузі
визначення образливого вмісту в природномовних текстових даних, сучасні
методи мають явний недолік у вигляді відсутності можливості отримати
пояснення того, які саме слова найбільше вплинули на рішення моделі
стосовно наявності образливого вмісту.
У даній роботі запропоновано модифікацію методу для визначення
образливого вмісту в природномовних текстових даних. Запропонований
метод, на відміну від існуючих аналогів, визначає ймовірність впливу на
рішення моделі для кожного окремого слова, завдяки чому підвищує
точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також
точність міждоменної класифікації – до 10%, навчаючись на наборах даних
розміром 50-150 повідомлень.
Для програмної реалізації запропонованої модифікації розроблено
застосунок з консольним інтерфейсом користувача. В якості мови
програмування використовується мова Python, яка є зручним інструментом
при створенні додатків з використанням технологій машинного навчання.
Також для реалізації застосунку було використано набір сучасних бібліотек
таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.
Опис
Ключові слова
раціонали, оброблення текстових даних, образливий вміст, bert, python
Бібліографічний опис
Баклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.