Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 99 с., 17 рис., 12 табл., 25 посилань, додаток.
Об’єктом дослідження є багатоміткова класифікація текстів за допомогою генеративних змагальних нейронних мереж.. Предметом дослідження є алгоритми та програмні засоби семантичного кодування й синтетичного збагачення текстових даних (NbAiLab / nb-bert-base, f-VAEGAN-D2, ансамблеві MLP-класифікатори), що визначають точність і стійкість класифікації при дисбалансі категорій. Метою роботи є створення ефективної системи багатоміткової класифікації листів, яка, поєднуючи BERT-ембеддинги, генерацію синтетичних ознак і ансамблеве навчання і коректно розпізнає як добре представлені, так і рідкісні категорії. У ході роботи здійснено обробку багатоміткового датасету електронних листів норвезькою мовою, включаючи токенізацію, лематизацію та векторизацію текстів з використанням BERT-ембеддингів моделі NbAiLab/nb-bert-base. Для покращення класифікації рідкісних категорій застосовано генеративну модель f-VAEGAN-D2, що забезпечила синтетичне збагачення даних. Побудовано та навчено MLP-класифікатор, оптимізований для роботи з розширеним набором ознак. Оцінка за метриками Precision, Recall та F1-score показала покращення точності класифікації. Реалізований програмний прототип має графічний інтерфейс і може інтегруватися в електронні системи документообігу. Проведено функціонально-економічний аналіз, що підтвердив доцільність впровадження розробки
Опис
Ключові слова
обробка природної мови, багатоміткова класифікація, норвезька мова, bert-ембедінги, f-vaegan-d2, генеративні змагальні нейронні мережі, mlp-класифікатор, дисбаланс класів, natural language processing, multi-label classification, norwegian language, bert embeddings, f-vaegan-d2, generative adversarial networks, ensemble learning, mlp classifier, class imbalance
Бібліографічний опис
Литовченко, А. О. Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж : дипломна робота … бакалавра : 122 Комп'ютерні науки / Литовченко Анна Олександрівна. – Київ, 2025. – 99 с.