Розпізнавання іменованих сутностей в українських текстах в умовах обмеженої розмітки
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
У даній роботі досліджено проблему розпізнавання іменованих сутностей (NER) в україномовних текстах в zero-shot та few-shot режимах. Метою дослідження є розробка компактної та ефективної моделі на основі архітектури GliNER, здатної підтримувати zeroshot та few-shot режими розпізнавання. Запропоновано модифікації базової архітектури, включаючи інтеграцію Post-Fusion блоку з Mixture-of-Experts (MoE), використання функції активації GoLU та оптимізатора Sophia-G для стабілізації навчання. Базовим текстовим енкодером обрано Snowflake Arctic-Embed 2.0-L. Створено український корпус few-shot NER на базі публічних джерел з використанням GPT-4o для анотації. Експериментальне порівняння підтвердило, що запропонована архітектура має ефективну продуктивність (F1 = 0.7891). Результатом є модель, що демонструє здатність до узагальнення, актуальну для
малоресурсних мов.
Опис
Ключові слова
NER, векторні подання токенів, zero-shot та few-shot розпізнавання, суміш експертів, GoLU, Sophia-G, українська мова
Бібліографічний опис
Кашперова, С. В. Розпізнавання іменованих сутностей в українських текстах в умовах обмеженої розмітки / Кашперова С. В., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 303-307.