Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних

Вантажиться...
Ескіз

Дата

2024

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

На сьогоднішній день проблематика автоматизованого виявлення образливого вмісту в природномовних текстах стає все більш актуальною в контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією контенту соціальних мереж та забезпеченням цифрової безпеки. Попри стрімкий розвиток моделей машинного навчання в галузі визначення образливого вмісту в природномовних текстових даних, сучасні методи мають явний недолік у вигляді відсутності можливості отримати пояснення того, які саме слова найбільше вплинули на рішення моделі стосовно наявності образливого вмісту. У даній роботі запропоновано модифікацію методу для визначення образливого вмісту в природномовних текстових даних. Запропонований метод, на відміну від існуючих аналогів, визначає ймовірність впливу на рішення моделі для кожного окремого слова, завдяки чому підвищує точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також точність міждоменної класифікації – до 10%, навчаючись на наборах даних розміром 50-150 повідомлень. Для програмної реалізації запропонованої модифікації розроблено застосунок з консольним інтерфейсом користувача. В якості мови програмування використовується мова Python, яка є зручним інструментом при створенні додатків з використанням технологій машинного навчання. Також для реалізації застосунку було використано набір сучасних бібліотек таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.

Опис

Ключові слова

раціонали, оброблення текстових даних, образливий вміст, bert, python

Бібліографічний опис

Баклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.

ORCID

DOI