Дослідження впливу токенізації в малоресурсних мовах на якість перекладу

Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Метою дослідження є вивчення впливу різних методів токенізації на якість перекладу українською мовою. Було досліджено алгоритми токенізації BPE, Unigram та character-level, а також здійснено адаптацію токенізатора для вже натренованої моделі. Отримані результати демонструють, що вибір токенізатора та розмір словника суттєво впливають на показники якості перекладу, а адаптація токенізатора може позитивно позначитися на цих показниках. Наукова новизна роботи полягає в порівнянні ефективності різних стратегій токенізації для української мови. Практична цінність дослідження полягає у формуванні рекомендацій щодо покращення машинного перекладу для малоресурсних мов.

Опис

Ключові слова

токенізація, машинний переклад, адаптація токенізатора, мало-ресурсні мови, NLP

Бібліографічний опис

Головач, А. А. Дослідження впливу токенізації в малоресурсних мовах на якість перекладу / Головач А. А., Кислий Р. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 164-168.

ORCID

DOI