Методи розпізнавання української мови в NLP-системах

Вантажиться...
Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Магістерська робота присвячена дослідженню, порівнянню та впровадженню сучасних методів розпізнавання української мови в NLP-системах. У роботі розглянуто повний цикл автоматизованої обробки текстової інформації, який включає етапи очищення, нормалізації, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та аналізу тональності. Особливу увагу приділено специфіці української мови, її морфологічній багатоваріантності, проблемам контекстної багатозначності та складності побудови адекватних моделей для коректної інтерпретації тексту. У межах роботи проведено порівняльне дослідження трансформерних моделей mBERT, XLM-R та RoBERTa-uk, які є найефективнішими сучасними інструментами для роботи з українськими текстами. Проаналізовано їх архітектуру, особливості навчання, мовне покриття та точність на різних NLP-задачах. На основі отриманих результатів створено програмний комплекс із модульною архітектурою, що дозволяє інтегрувати різні алгоритми, масштабувати систему та використовувати її в інформаційно-аналітичних платформах. Сформований програмний конвеєр забезпечує автоматизовану інтерпретацію великих масивів україномовних текстів, що робить його придатним для застосування у задачах моніторингу, аналізу подій, інформаційної безпеки, журналістики даних та інтелектуальних сервісів підтримки прийняття рішень. Проведені експериментальні дослідження підтверджують ефективність обраних методів та демонструють високу якість роботи системи.

Опис

Розроблене програмне забезпечення реалізує повноцінний цикл автоматизованої обробки україномовних текстів із використанням сучасних методів Natural Language Processing. Система включає модулі очищення та нормалізації тексту, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та визначення тональності повідомлень. Архітектура побудована у модульному форматі, що забезпечує гнучкість інтеграції різних моделей і можливість масштабування. Основу алгоритмічної частини становлять трансформерні моделі, оптимізовані для української мови (зокрема mBERT, XLM-R та RoBERTa-uk), що демонструють високу точність у задачах розпізнавання та інтерпретації текстової інформації. Програмна система придатна для застосування у сценаріях моніторингу, інформаційного аналізу, дослідження контенту та побудови інтелектуальних сервісів обробки природної мови.

Ключові слова

NLP, українська мова, морфологічний аналіз, токенізація, лематизація, NER, класифікація текстів, нейронні моделі, машинне навчання, Ukrainian language, morphological analysis, tokenization, lemmatization, text classification, neural models, machine learning

Бібліографічний опис

Грищенко, В. В. Методи розпізнавання української мови в NLP-системах : магістерська дис. : 122 Комп’ютерні науки / Грищенко Валерія Володимирівна. – Київ, 2025. – 98 с.

ORCID

DOI