Метод та програмне забезпечення автоматичного визначення функціонального стилю тексту українською мовою

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorМузичук, Марина Анатоліївна
dc.date.accessioned2025-10-16T11:39:57Z
dc.date.available2025-10-16T11:39:57Z
dc.date.issued2024
dc.description.abstractНа даний момент спостерігається безпрецедентне збільшення кількості інформації у світі, у порівнянні з минулими роками, що спричиняє нові виклики у сфері оброблення та аналізу текстових даних. Зростання обсягів україномовного тексту створює потребу в автоматизації його аналізу для покращення пошукових алгоритмів та забезпечення коректної класифікації текстів у великих базах даних. Наразі не існує готових інструментів, які повністю вирішують задачу автоматичної класифікації текстових даних українською мовою за функціональним стилем. У даній роботі запропоновано новий метод автоматичного визначення функціонального стилю тексту українською мовою із використанням методів глибокого навчання, та лексичного аналізу, що був реалізований у вигляді консольного застосунку. Запропонований метод використовує за основу модель нейронної мережі BERT, що забезпечує врахування структурних та контекстних особливостей тексту, та поєднує результати її роботи з обчисленими статистичними параметрами та ключовими ознаками вхідних даних. Такий підхід забезпечує використання класифікатором більшої кількості важливої інформації для навчання, в результаті чого збільшилась точність визначення функціонального стилю на 28,39% порівняно з класичною моделлю BERT. Для реалізації запропонованого програмного методу розроблено консольний застосунок з використанням технологій Python, TensorFlow, SpaCy, Pymorphy3, NLTK, Redis та Pandas.
dc.description.abstractotherCurrently, there is an unprecedented increase in the amount of information in the world, compared to previous years, which causes new challenges in the field of processing and analysis of text data. The growth of the volume of Ukrainianlanguage text creates a need to automate its analysis to improve search algorithms and ensure correct classification of texts in large databases. Currently, there are no ready-made tools that fully solve the problem of automatic classification of text data in Ukrainian by functional style. This paper proposes a new method for automatic determining the functional style of Ukrainian text using deep learning methods and lexical analysis, which was implemented in the form of a console application. The proposed method is based on the BERT neural network model, which takes into account the structural and contextual features of the text, and combines the results of its work with the calculated statistical parameters and key features of the input data. This approach ensures that the classifier uses more important information for training, resulting in an increase in the accuracy of determining the functional style by 28.39% compared to the classic BERT model. To implement the proposed software method, a console application was developed using Python, TensorFlow, SpaCy, Pymorphy3, NLTK, Redis, and Pandas technologies.
dc.format.extent168 с.
dc.identifier.citationМузичук, М. А. Метод та програмне забезпечення автоматичного визначення функціонального стилю тексту українською мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Музичук Марина Анатоліївна. – Київ, 2024. – 168 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76906
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectкласифікація тексту
dc.subjectфункціональний стиль
dc.subjectвекторизація
dc.subjectмашинне навчання
dc.subjectконтекстний аналіз
dc.subjectстатистичні параметри тексту
dc.subject.udc004.91
dc.titleМетод та програмне забезпечення автоматичного визначення функціонального стилю тексту українською мовою
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Muzychuk_magistr.pdf
Розмір:
3.7 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: