Методи розпізнавання української мови в NLP-системах
| dc.contributor.advisor | Онисько, Андрій Ілліч | |
| dc.contributor.author | Грищенко, Валерія Володимирівна | |
| dc.date.accessioned | 2026-01-30T10:44:58Z | |
| dc.date.available | 2026-01-30T10:44:58Z | |
| dc.date.issued | 2025 | |
| dc.description | Розроблене програмне забезпечення реалізує повноцінний цикл автоматизованої обробки україномовних текстів із використанням сучасних методів Natural Language Processing. Система включає модулі очищення та нормалізації тексту, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та визначення тональності повідомлень. Архітектура побудована у модульному форматі, що забезпечує гнучкість інтеграції різних моделей і можливість масштабування. Основу алгоритмічної частини становлять трансформерні моделі, оптимізовані для української мови (зокрема mBERT, XLM-R та RoBERTa-uk), що демонструють високу точність у задачах розпізнавання та інтерпретації текстової інформації. Програмна система придатна для застосування у сценаріях моніторингу, інформаційного аналізу, дослідження контенту та побудови інтелектуальних сервісів обробки природної мови. | |
| dc.description.abstract | Магістерська робота присвячена дослідженню, порівнянню та впровадженню сучасних методів розпізнавання української мови в NLP-системах. У роботі розглянуто повний цикл автоматизованої обробки текстової інформації, який включає етапи очищення, нормалізації, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та аналізу тональності. Особливу увагу приділено специфіці української мови, її морфологічній багатоваріантності, проблемам контекстної багатозначності та складності побудови адекватних моделей для коректної інтерпретації тексту. У межах роботи проведено порівняльне дослідження трансформерних моделей mBERT, XLM-R та RoBERTa-uk, які є найефективнішими сучасними інструментами для роботи з українськими текстами. Проаналізовано їх архітектуру, особливості навчання, мовне покриття та точність на різних NLP-задачах. На основі отриманих результатів створено програмний комплекс із модульною архітектурою, що дозволяє інтегрувати різні алгоритми, масштабувати систему та використовувати її в інформаційно-аналітичних платформах. Сформований програмний конвеєр забезпечує автоматизовану інтерпретацію великих масивів україномовних текстів, що робить його придатним для застосування у задачах моніторингу, аналізу подій, інформаційної безпеки, журналістики даних та інтелектуальних сервісів підтримки прийняття рішень. Проведені експериментальні дослідження підтверджують ефективність обраних методів та демонструють високу якість роботи системи. | |
| dc.description.abstractother | The master’s thesis is devoted to the research, comparison, and implementation of modern methods for Ukrainian-language recognition in NLP systems. The work examines the complete pipeline of automated text processing, including cleaning, normalization, tokenization, morphological analysis, lemmatization, named entity recognition (NER), topic classification, and sentiment analysis. Special attention is given to the linguistic properties of the Ukrainian language, its complex morphology, contextual ambiguity, and the challenges these factors pose for the development of accurate and reliable models capable of interpreting natural text. Within the research, a comparative analysis of state-of-the-art transformer models—mBERT, XLM-R, and RoBERTa-uk—was conducted. These models currently represent the most effective tools for processing Ukrainian text. Their architecture, training principles, linguistic coverage, and performance across multiple NLP tasks were thoroughly evaluated. Based on these findings, a modular software system was developed, allowing seamless integration of various algorithms, system scaling, and use in advanced information-analytical platforms. The resulting processing pipeline enables automated interpretation of large volumes of Ukrainian-language data, making it applicable for tasks in monitoring, event analysis, information security, data-driven journalism, and intelligent decision-support systems. The experimental results confirm the efficiency of the selected methods and demonstrate the high performance of the developed system. | |
| dc.format.extent | 98 с. | |
| dc.identifier.citation | Грищенко, В. В. Методи розпізнавання української мови в NLP-системах : магістерська дис. : 122 Комп’ютерні науки / Грищенко Валерія Володимирівна. – Київ, 2025. – 98 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78568 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | NLP | |
| dc.subject | українська мова | |
| dc.subject | морфологічний аналіз | |
| dc.subject | токенізація | |
| dc.subject | лематизація | |
| dc.subject | NER | |
| dc.subject | класифікація текстів | |
| dc.subject | нейронні моделі | |
| dc.subject | машинне навчання | |
| dc.subject | Ukrainian language | |
| dc.subject | morphological analysis | |
| dc.subject | tokenization | |
| dc.subject | lemmatization | |
| dc.subject | text classification | |
| dc.subject | neural models | |
| dc.subject | machine learning | |
| dc.title | Методи розпізнавання української мови в NLP-системах | |
| dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Grischenko_magistr.pdf
- Розмір:
- 2 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: