Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorБаклан, Дмитро Володимирович
dc.date.accessioned2025-10-13T13:33:02Z
dc.date.available2025-10-13T13:33:02Z
dc.date.issued2024
dc.description.abstractНа сьогоднішній день проблематика автоматизованого виявлення образливого вмісту в природномовних текстах стає все більш актуальною в контексті боротьби з агресивною поведінкою в мережі Інтернет, модерацією контенту соціальних мереж та забезпеченням цифрової безпеки. Попри стрімкий розвиток моделей машинного навчання в галузі визначення образливого вмісту в природномовних текстових даних, сучасні методи мають явний недолік у вигляді відсутності можливості отримати пояснення того, які саме слова найбільше вплинули на рішення моделі стосовно наявності образливого вмісту. У даній роботі запропоновано модифікацію методу для визначення образливого вмісту в природномовних текстових даних. Запропонований метод, на відміну від існуючих аналогів, визначає ймовірність впливу на рішення моделі для кожного окремого слова, завдяки чому підвищує точність «пояснюваності» рішень моделі у межах від 10% до 20%, а також точність міждоменної класифікації – до 10%, навчаючись на наборах даних розміром 50-150 повідомлень. Для програмної реалізації запропонованої модифікації розроблено застосунок з консольним інтерфейсом користувача. В якості мови програмування використовується мова Python, яка є зручним інструментом при створенні додатків з використанням технологій машинного навчання. Також для реалізації застосунку було використано набір сучасних бібліотек таких, як Python NLTK, Transformers від HuggingFace, PyTorch, Scikit-learn.
dc.description.abstractotherToday, the problem of automated detection of offensive content in natural language texts is becoming increasingly relevant in the context of combating aggressive behavior on the Internet, moderating social media content, and ensuring digital security. Despite the rapid development of machine learning models in the field of determining offensive content in natural language text data, modern methods have a clear drawback in the form of the inability to obtain an explanation of which specific words most influenced the model's decision regarding the presence of offensive content. In this paper, a modification of the method for determining offensive content in natural language text data is proposed. The proposed method, unlike existing analogues, determines the probability of influence on the model's decision for each individual word, thereby increasing the accuracy of the "explainability" of the model's decisions by 10% to 20%, as well as the accuracy of cross-domain classification by up to 10% when trained on datasets of 50-150 messages. For the software implementation of the proposed modification, an application with a console user interface was developed. Python was used as the programming language, which is a convenient tool for creating applications using machine learning technologies. Also, for the implementation of the application, a set of modern libraries such as Python NLTK, Transformers from Hugging Face, PyTorch, Scikit-learn was used.
dc.format.extent164 с.
dc.identifier.citationБаклан, Д. В. Модифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Баклан Дмитро Володимирович. – Київ, 2024. – 164 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76798
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectраціонали
dc.subjectоброблення текстових даних
dc.subjectобразливий вміст
dc.subjectbert
dc.subjectpython
dc.subject.udc004.912
dc.titleМодифікований метод та програмне забезпечення для виявлення образливого вмісту в природномовних текстових даних
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Baklan_magistr.pdf
Розмір:
5.99 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: