Дослідження впливу токенізації в малоресурсних мовах на якість перекладу
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Метою дослідження є вивчення впливу різних методів токенізації на якість перекладу українською мовою. Було досліджено алгоритми токенізації BPE, Unigram та character-level, а також здійснено адаптацію токенізатора для вже натренованої моделі. Отримані результати демонструють, що вибір токенізатора та розмір словника суттєво впливають на показники якості перекладу, а адаптація токенізатора може позитивно позначитися на цих показниках. Наукова новизна роботи полягає в порівнянні ефективності різних стратегій токенізації для української мови. Практична цінність дослідження полягає у формуванні рекомендацій щодо покращення машинного перекладу для малоресурсних мов.
Опис
Ключові слова
токенізація, машинний переклад, адаптація токенізатора, мало-ресурсні мови, NLP
Бібліографічний опис
Головач, А. А. Дослідження впливу токенізації в малоресурсних мовах на якість перекладу / Головач А. А., Кислий Р. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 164-168.