Метод та програмне забезпечення автоматичного визначення функціонального стилю тексту українською мовою

Вантажиться...
Ескіз

Дата

2024

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

На даний момент спостерігається безпрецедентне збільшення кількості інформації у світі, у порівнянні з минулими роками, що спричиняє нові виклики у сфері оброблення та аналізу текстових даних. Зростання обсягів україномовного тексту створює потребу в автоматизації його аналізу для покращення пошукових алгоритмів та забезпечення коректної класифікації текстів у великих базах даних. Наразі не існує готових інструментів, які повністю вирішують задачу автоматичної класифікації текстових даних українською мовою за функціональним стилем. У даній роботі запропоновано новий метод автоматичного визначення функціонального стилю тексту українською мовою із використанням методів глибокого навчання, та лексичного аналізу, що був реалізований у вигляді консольного застосунку. Запропонований метод використовує за основу модель нейронної мережі BERT, що забезпечує врахування структурних та контекстних особливостей тексту, та поєднує результати її роботи з обчисленими статистичними параметрами та ключовими ознаками вхідних даних. Такий підхід забезпечує використання класифікатором більшої кількості важливої інформації для навчання, в результаті чого збільшилась точність визначення функціонального стилю на 28,39% порівняно з класичною моделлю BERT. Для реалізації запропонованого програмного методу розроблено консольний застосунок з використанням технологій Python, TensorFlow, SpaCy, Pymorphy3, NLTK, Redis та Pandas.

Опис

Ключові слова

класифікація тексту, функціональний стиль, векторизація, машинне навчання, контекстний аналіз, статистичні параметри тексту

Бібліографічний опис

Музичук, М. А. Метод та програмне забезпечення автоматичного визначення функціонального стилю тексту українською мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Музичук Марина Анатоліївна. – Київ, 2024. – 168 с.

ORCID

DOI