Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу

Вантажиться...
Ескіз

Дата

2024

Автори

Коротюк, Марія Ігорівна

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

На даний час існує необхідність у наявності паралельних текстових даних для завдань комп’ютерної лінгвістики, наприклад машинного перекладу. Ручна побудова паралельних корпусів є трудомістким процесом, а при його автоматизації важливою є точність вирівнювання сегментів, зокрема речень, у паралельних текстах. Наявні методи автоматизованого вирівнювання речень у паралельних текстах відрізняються точністю та особливостями реалізації. У даній роботі запропоновано новий метод вирівнювання речень, який базується на ідеї Bleualign, а саме використанні машинного перекладу, метрики BLEU та багатоступеневого вирівнювання речень, а також містить удосконалення – використання словників галузевих термінів та сполучників. Оскільки для українсько-німецької мовної пари паралельних даних недостатньо, то у роботі пропонується розроблення методу та програмного забезпечення саме для цієї мовної пари. У даній роботі розроблено програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу, яке реалізує запропонований метод вирівнювання речень, у вигляді вебзастосунку. Для цього використовуються мова програмування Python, фреймворк Flask та бібліотеки для оброблення природомовних текстів на сервері, а також мова програмування JavaScript та бібліотека React на клієнті. У результаті точність вирівнювання речень за допомогою запропонованого методу є в середньому на 4% вищою для українсько-німецької мовної пари, у порівнянні з методом Bleualign.

Опис

Ключові слова

паралельний корпус, переклад, вирівнювання речень, оброблення текстових даних

Бібліографічний опис

Коротюк, М. І. Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу : магістерська дис. : 121 Інженерія програмного забезпечення / Коротюк Марія Ігорівна . – Київ, 2024. – 163 с.

ORCID

DOI