Система автоматичної модерації токсичного тексту на основі NLP

dc.contributor.advisorПотапова, Катерина Романівна
dc.contributor.authorКамінський, Тарас Петрович
dc.date.accessioned2025-07-03T08:56:14Z
dc.date.available2025-07-03T08:56:14Z
dc.date.issued2025
dc.description.abstractКваліфікаційна робота містить пояснювальну записку обсягом 89 сторінок, яка включає 18 рисунки, 10 таблиць і 4 додатки. Об’єктом дослідження є система автоматизованої модерації токсичного текстового контенту на основі методів обробки природної мови (Natural Language Processing, NLP). Предметом розробки є алгоритмічне та програмне забезпечення для детекції та інтерпретації неприйнятних висловлювань у текстах англійською мовою. У межах роботи реалізовано програмну систему, що виконує: покомпонентний аналіз тексту; класифікацію речень за рівнем токсичності з використанням моделі unitary/toxic-bert; ідентифікацію токсичних лексем із застосуванням word-level підходу; визначення типів токсичності (insult, hate speech, threat тощо); візуалізацію результатів у графічному інтерфейсі; генерацію рекомендацій щодо нейтрального переформулювання. У ході реалізації проведено критичний аналіз існуючих методів виявлення токсичності, встановлено їхні функціональні обмеження, визначено вимоги до системи. Розроблено модуль sentence-level класифікації з багатомітковим виходом, інтегровано word-level механізм підсвічування небажаних фрагментів, сформовано алгоритм візуалізації результатів із використанням тултіпів. Застосунок реалізовано у вигляді десктопного GUI-додатку на основі бібліотеки Tkinter, з підтримкою автономної роботи та розширюваною архітектурою.
dc.description.abstractotherThe qualification thesis comprises a 89-page explanatory report, including 18 figures, 10 tables, and 4 appendices. The object of study is an automated toxic text moderation system based on Natural Language Processing (NLP) techniques. The developed solution focuses on the algorithmic and software implementation of tools for detecting and interpreting toxic expressions in English-language texts. The system supports: modular analysis of user input; sentence-level toxicity classification using the unitary/toxic-bert model; identification of toxic words via a word-level detection mechanism; categorization of toxicity types (INSULT, HATE SPEECH, THREAT, etc.); visualization of toxic spans within a graphical user interface; and automated generation of rephrasing suggestions for toxic sentences. During development, existing toxicity detection methods were reviewed and their limitations analyzed. Functional and non-functional system requirements were formulated. A sentence-level classification component with multilabel output was implemented, along with a word-level highlighting module. A visualization algorithm with tooltip-based explanations was developed. The final product is a desktop GUI application based on the Tkinter library, featuring offline operation and a modular architecture suitable for further extension.
dc.format.extent104 с.
dc.identifier.citationКамінський, Т. П. Система автоматичної модерації токсичного тексту на основі NLP : дипломний проєкт ... бакалавра : 123 Комп’ютерна інженерія / Камінський Тарас Петрович. – Київ, 2025. – 104 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/74606
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectобробка природної мови
dc.subjectвиявлення токсичності
dc.subjectbert
dc.subjectвізуалізація
dc.subjecttkinter
dc.subjectмодерація
dc.subjectunitary/toxic-bert
dc.subjectграфічний інтерфейс
dc.subjectllm
dc.subjectпереформулювання
dc.titleСистема автоматичної модерації токсичного тексту на основі NLP
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kaminskyi_bakalavr.pdf
Розмір:
3.58 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: