Магістерські роботи (ПЗКС)
Постійне посилання зібрання
Переглянути
Перегляд Магістерські роботи (ПЗКС) за Автор "Бабак, Артем Андрійович"
Зараз показуємо 1 - 1 з 1
Результатів на сторінці
Налаштування сортування
Документ Відкритий доступ Метод та програмне забезпечення автоматизованого тегування текстових даних(КПІ ім. Ігоря Сікорського, 2025) Бабак, Артем Андрійович; Нещадим, Олександр МихайловичСьогодні обробка природної мови є ключовою технологією для аналізу текстів у різних сферах – від класифікації контенту до чат-ботів і семантичногоьпошуку. Ефективність таких систем безпосередньо залежить від якості використовуваних моделей машинного навчання та глибини їх оптимізації. Існуючі рішення часто обмежуються або класичними підходами на основі статистичних методів, або сучасними нейромережами, проте комбінація цих підходів може значно підвищити точність обробки. У даній роботі пропонується гібридний метод аналізу україномовного тексту, який інтегрує переваги традиційних алгоритмів машинного навчання, таких як логістична регресія та випадкові ліси, із потужними трансформерними моделями на кшталт BERT. Додатково застосовується механізм виділення ключових слів для підвищення інформативності обробки. Запропонований підхід демонструє покращення точності класифікації на 5–7% порівняно зі стандартними методами завдяки поєднанню TF-IDF векторизації, BERT-ембеддингів і динамічного ранжування тегів. Для реалізації використано сучасні бібліотеки обробки природної мови, такі як SpaCy для лематизації, Scikit-learn для класичних алгоритмів машинного навчання, Transformers від Hugging Face для роботи з BERT та KeyBERT для ефективного визначення ключових слів у тексті. Архітектура системи базується на модульному підході, що включає попередню обробку тексту, гнучкий механізм векторизації, гібридний класифікатор із можливістю вибору моделі та модуль постобробки для фільтрації та ранжування результатів.