Система автоматичної модерації токсичного тексту на основі NLP
dc.contributor.advisor | Потапова, Катерина Романівна | |
dc.contributor.author | Камінський, Тарас Петрович | |
dc.date.accessioned | 2025-07-03T08:56:14Z | |
dc.date.available | 2025-07-03T08:56:14Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Кваліфікаційна робота містить пояснювальну записку обсягом 89 сторінок, яка включає 18 рисунки, 10 таблиць і 4 додатки. Об’єктом дослідження є система автоматизованої модерації токсичного текстового контенту на основі методів обробки природної мови (Natural Language Processing, NLP). Предметом розробки є алгоритмічне та програмне забезпечення для детекції та інтерпретації неприйнятних висловлювань у текстах англійською мовою. У межах роботи реалізовано програмну систему, що виконує: покомпонентний аналіз тексту; класифікацію речень за рівнем токсичності з використанням моделі unitary/toxic-bert; ідентифікацію токсичних лексем із застосуванням word-level підходу; визначення типів токсичності (insult, hate speech, threat тощо); візуалізацію результатів у графічному інтерфейсі; генерацію рекомендацій щодо нейтрального переформулювання. У ході реалізації проведено критичний аналіз існуючих методів виявлення токсичності, встановлено їхні функціональні обмеження, визначено вимоги до системи. Розроблено модуль sentence-level класифікації з багатомітковим виходом, інтегровано word-level механізм підсвічування небажаних фрагментів, сформовано алгоритм візуалізації результатів із використанням тултіпів. Застосунок реалізовано у вигляді десктопного GUI-додатку на основі бібліотеки Tkinter, з підтримкою автономної роботи та розширюваною архітектурою. | |
dc.description.abstractother | The qualification thesis comprises a 89-page explanatory report, including 18 figures, 10 tables, and 4 appendices. The object of study is an automated toxic text moderation system based on Natural Language Processing (NLP) techniques. The developed solution focuses on the algorithmic and software implementation of tools for detecting and interpreting toxic expressions in English-language texts. The system supports: modular analysis of user input; sentence-level toxicity classification using the unitary/toxic-bert model; identification of toxic words via a word-level detection mechanism; categorization of toxicity types (INSULT, HATE SPEECH, THREAT, etc.); visualization of toxic spans within a graphical user interface; and automated generation of rephrasing suggestions for toxic sentences. During development, existing toxicity detection methods were reviewed and their limitations analyzed. Functional and non-functional system requirements were formulated. A sentence-level classification component with multilabel output was implemented, along with a word-level highlighting module. A visualization algorithm with tooltip-based explanations was developed. The final product is a desktop GUI application based on the Tkinter library, featuring offline operation and a modular architecture suitable for further extension. | |
dc.format.extent | 104 с. | |
dc.identifier.citation | Камінський, Т. П. Система автоматичної модерації токсичного тексту на основі NLP : дипломний проєкт ... бакалавра : 123 Комп’ютерна інженерія / Камінський Тарас Петрович. – Київ, 2025. – 104 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/74606 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | обробка природної мови | |
dc.subject | виявлення токсичності | |
dc.subject | bert | |
dc.subject | візуалізація | |
dc.subject | tkinter | |
dc.subject | модерація | |
dc.subject | unitary/toxic-bert | |
dc.subject | графічний інтерфейс | |
dc.subject | llm | |
dc.subject | переформулювання | |
dc.title | Система автоматичної модерації токсичного тексту на основі NLP | |
dc.type | Bachelor Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Kaminskyi_bakalavr.pdf
- Розмір:
- 3.58 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: