Модифікований метод та програмне забезпечення для  виявлення образливого вмісту в природномовних текстових даних

Баклан, Дмитро Володимирович

Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних

Файли

Baklan_magistr.pdf (5.99 MB)

Дата

2024

Автори

Баклан, Дмитро Володимирович

Науковий керівник

Заболотня, Тетяна Миколаївна

Видавець

КПІ ім. Ігоря Сікорського

Анотація

На сьогоднішній день проблематика автоматизованого виявлення образливого вмісту в природномовних текстах стає все більш актуальною в контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією контенту соціальних мереж та забезпеченням цифрової безпеки. Попри стрімкий розвиток моделей машинного навчання в галузі визначення образливого вмісту в природномовних текстових даних, сучасні методи мають явний недолік у вигляді відсутності можливості отримати пояснення того, які саме слова найбільше вплинули на рішення моделі стосовно наявності образливого вмісту. У даній роботі запропоновано модифікацію методу для визначення образливого вмісту в природномовних текстових даних. Запропонований метод, на відміну від існуючих аналогів, визначає ймовірність впливу на рішення моделі для кожного окремого слова, завдяки чому підвищує точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також точність міждоменної класифікації – до 10%, навчаючись на наборах даних розміром 50-150 повідомлень. Для програмної реалізації запропонованої модифікації розроблено застосунок з консольним інтерфейсом користувача. В якості мови програмування використовується мова Python, яка є зручним інструментом при створенні додатків з використанням технологій машинного навчання. Також для реалізації застосунку було використано набір сучасних бібліотек таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.

Ключові слова

раціонали, оброблення текстових даних, образливий вміст, bert, python

Бібліографічний опис

Баклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.

URI

https://ela.kpi.ua/handle/123456789/76798

Зібрання

Магістерські роботи (ПЗКС)
Магістерські роботи

Повна інформація про документ

Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання