Онисько, Андрій ІллічГрищенко, Валерія Володимирівна2026-01-302026-01-302025Грищенко, В. В. Методи розпізнавання української мови в NLP-системах : магістерська дис. : 122 Комп’ютерні науки / Грищенко Валерія Володимирівна. – Київ, 2025. – 98 с.https://ela.kpi.ua/handle/123456789/78568Розроблене програмне забезпечення реалізує повноцінний цикл автоматизованої обробки україномовних текстів із використанням сучасних методів Natural Language Processing. Система включає модулі очищення та нормалізації тексту, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та визначення тональності повідомлень. Архітектура побудована у модульному форматі, що забезпечує гнучкість інтеграції різних моделей і можливість масштабування. Основу алгоритмічної частини становлять трансформерні моделі, оптимізовані для української мови (зокрема mBERT, XLM-R та RoBERTa-uk), що демонструють високу точність у задачах розпізнавання та інтерпретації текстової інформації. Програмна система придатна для застосування у сценаріях моніторингу, інформаційного аналізу, дослідження контенту та побудови інтелектуальних сервісів обробки природної мови.Магістерська робота присвячена дослідженню, порівнянню та впровадженню сучасних методів розпізнавання української мови в NLP-системах. У роботі розглянуто повний цикл автоматизованої обробки текстової інформації, який включає етапи очищення, нормалізації, токенізації, морфологічного аналізу, лематизації, виділення іменованих сутностей (NER), тематичної класифікації та аналізу тональності. Особливу увагу приділено специфіці української мови, її морфологічній багатоваріантності, проблемам контекстної багатозначності та складності побудови адекватних моделей для коректної інтерпретації тексту. У межах роботи проведено порівняльне дослідження трансформерних моделей mBERT, XLM-R та RoBERTa-uk, які є найефективнішими сучасними інструментами для роботи з українськими текстами. Проаналізовано їх архітектуру, особливості навчання, мовне покриття та точність на різних NLP-задачах. На основі отриманих результатів створено програмний комплекс із модульною архітектурою, що дозволяє інтегрувати різні алгоритми, масштабувати систему та використовувати її в інформаційно-аналітичних платформах. Сформований програмний конвеєр забезпечує автоматизовану інтерпретацію великих масивів україномовних текстів, що робить його придатним для застосування у задачах моніторингу, аналізу подій, інформаційної безпеки, журналістики даних та інтелектуальних сервісів підтримки прийняття рішень. Проведені експериментальні дослідження підтверджують ефективність обраних методів та демонструють високу якість роботи системи.98 с.ukNLPукраїнська моваморфологічний аналізтокенізаціялематизаціяNERкласифікація текстівнейронні моделімашинне навчанняUkrainian languagemorphological analysistokenizationlemmatizationtext classificationneural modelsmachine learningМетоди розпізнавання української мови в NLP-системахMaster Thesis