Заболотня, Тетяна МиколаївнаКоротюк, Марія Ігорівна2025-10-142025-10-142024Коротюк, М. І. Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу : магістерська дис. : 121 Інженерія програмного забезпечення / Коротюк Марія Ігорівна . – Київ, 2024. – 163 с.https://ela.kpi.ua/handle/123456789/76830На даний час існує необхідність у наявності паралельних текстових даних для завдань комп’ютерної лінгвістики, наприклад машинного перекладу. Ручна побудова паралельних корпусів є трудомістким процесом, а при його автоматизації важливою є точність вирівнювання сегментів, зокрема речень, у паралельних текстах. Наявні методи автоматизованого вирівнювання речень у паралельних текстах відрізняються точністю та особливостями реалізації. У даній роботі запропоновано новий метод вирівнювання речень, який базується на ідеї Bleualign, а саме використанні машинного перекладу, метрики BLEU та багатоступеневого вирівнювання речень, а також містить удосконалення – використання словників галузевих термінів та сполучників. Оскільки для українсько-німецької мовної пари паралельних даних недостатньо, то у роботі пропонується розроблення методу та програмного забезпечення саме для цієї мовної пари. У даній роботі розроблено програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу, яке реалізує запропонований метод вирівнювання речень, у вигляді вебзастосунку. Для цього використовуються мова програмування Python, фреймворк Flask та бібліотеки для оброблення природомовних текстів на сервері, а також мова програмування JavaScript та бібліотека React на клієнті. У результаті точність вирівнювання речень за допомогою запропонованого методу є в середньому на 4% вищою для українсько-німецької мовної пари, у порівнянні з методом Bleualign.163 с.ukпаралельний корпусперекладвирівнювання реченьоброблення текстових данихМетод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусуMaster Thesis004.91