Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу
Вантажиться...
Дата
2024
Автори
Коротюк, Марія Ігорівна
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
На даний час існує необхідність у наявності паралельних текстових
даних для завдань комп’ютерної лінгвістики, наприклад машинного перекладу.
Ручна побудова паралельних корпусів є трудомістким процесом, а при його автоматизації важливою є точність вирівнювання сегментів, зокрема речень, у паралельних текстах.
Наявні методи автоматизованого вирівнювання речень у паралельних
текстах відрізняються точністю та особливостями реалізації. У даній роботі запропоновано новий метод вирівнювання речень, який базується на ідеї Bleualign, а саме використанні машинного перекладу, метрики BLEU та багатоступеневого вирівнювання речень, а також містить удосконалення – використання словників галузевих термінів та сполучників. Оскільки для українсько-німецької мовної пари паралельних даних недостатньо, то у роботі
пропонується розроблення методу та програмного забезпечення саме для цієї мовної пари.
У даній роботі розроблено програмне забезпечення автоматизованої
побудови українсько-німецького паралельного корпусу, яке реалізує
запропонований метод вирівнювання речень, у вигляді вебзастосунку. Для цього використовуються мова програмування Python, фреймворк Flask та бібліотеки для оброблення природомовних текстів на сервері, а також мова програмування JavaScript та бібліотека React на клієнті. У результаті точність вирівнювання речень за допомогою запропонованого методу є в середньому на 4% вищою для українсько-німецької мовної пари, у порівнянні з методом Bleualign.
Опис
Ключові слова
паралельний корпус, переклад, вирівнювання речень, оброблення текстових даних
Бібліографічний опис
Коротюк, М. І. Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу : магістерська дис. : 121 Інженерія програмного забезпечення / Коротюк Марія Ігорівна . – Київ, 2024. – 163 с.