Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних

Вантажиться...
Ескіз

Дата

2024

Автори

Баклан, Дмитро Володимирович

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

На сьогоднішній день проблематика автоматизованого виявлення образливого вмісту в природномовних текстах стає все більш актуальною в контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією контенту соціальних мереж та забезпеченням цифрової безпеки. Попри стрімкий розвиток моделей машинного навчання в галузі визначення образливого вмісту в природномовних текстових даних, сучасні методи мають явний недолік у вигляді відсутності можливості отримати пояснення того, які саме слова найбільше вплинули на рішення моделі стосовно наявності образливого вмісту. У даній роботі запропоновано модифікацію методу для визначення образливого вмісту в природномовних текстових даних. Запропонований метод, на відміну від існуючих аналогів, визначає ймовірність впливу на рішення моделі для кожного окремого слова, завдяки чому підвищує точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також точність міждоменної класифікації – до 10%, навчаючись на наборах даних розміром 50-150 повідомлень. Для програмної реалізації запропонованої модифікації розроблено застосунок з консольним інтерфейсом користувача. В якості мови програмування використовується мова Python, яка є зручним інструментом при створенні додатків з використанням технологій машинного навчання. Також для реалізації застосунку було використано набір сучасних бібліотек таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.

Опис

Ключові слова

раціонали, оброблення текстових даних, образливий вміст, bert, python

Бібліографічний опис

Баклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.

ORCID

DOI