Розпізнавання іменованих сутностей в українських текстах в умовах обмеженої розмітки

Вантажиться...
Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

У даній роботі досліджено проблему розпізнавання іменованих сутностей (NER) в україномовних текстах в zero-shot та few-shot режимах. Метою дослідження є розробка компактної та ефективної моделі на основі архітектури GliNER, здатної підтримувати zeroshot та few-shot режими розпізнавання. Запропоновано модифікації базової архітектури, включаючи інтеграцію Post-Fusion блоку з Mixture-of-Experts (MoE), використання функції активації GoLU та оптимізатора Sophia-G для стабілізації навчання. Базовим текстовим енкодером обрано Snowflake Arctic-Embed 2.0-L. Створено український корпус few-shot NER на базі публічних джерел з використанням GPT-4o для анотації. Експериментальне порівняння підтвердило, що запропонована архітектура має ефективну продуктивність (F1 = 0.7891). Результатом є модель, що демонструє здатність до узагальнення, актуальну для малоресурсних мов.

Опис

Ключові слова

NER, векторні подання токенів, zero-shot та few-shot розпізнавання, суміш експертів, GoLU, Sophia-G, українська мова

Бібліографічний опис

Кашперова, С. В. Розпізнавання іменованих сутностей в українських текстах в умовах обмеженої розмітки / Кашперова С. В., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 303-307.

ORCID

DOI