Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу

dc.contributor.advisorЗаболотня, Тетяна Миколаївна
dc.contributor.authorКоротюк, Марія Ігорівна
dc.date.accessioned2025-10-14T09:54:19Z
dc.date.available2025-10-14T09:54:19Z
dc.date.issued2024
dc.description.abstractНа даний час існує необхідність у наявності паралельних текстових даних для завдань комп’ютерної лінгвістики, наприклад машинного перекладу. Ручна побудова паралельних корпусів є трудомістким процесом, а при його автоматизації важливою є точність вирівнювання сегментів, зокрема речень, у паралельних текстах. Наявні методи автоматизованого вирівнювання речень у паралельних текстах відрізняються точністю та особливостями реалізації. У даній роботі запропоновано новий метод вирівнювання речень, який базується на ідеї Bleualign, а саме використанні машинного перекладу, метрики BLEU та багатоступеневого вирівнювання речень, а також містить удосконалення – використання словників галузевих термінів та сполучників. Оскільки для українсько-німецької мовної пари паралельних даних недостатньо, то у роботі пропонується розроблення методу та програмного забезпечення саме для цієї мовної пари. У даній роботі розроблено програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу, яке реалізує запропонований метод вирівнювання речень, у вигляді вебзастосунку. Для цього використовуються мова програмування Python, фреймворк Flask та бібліотеки для оброблення природомовних текстів на сервері, а також мова програмування JavaScript та бібліотека React на клієнті. У результаті точність вирівнювання речень за допомогою запропонованого методу є в середньому на 4% вищою для українсько-німецької мовної пари, у порівнянні з методом Bleualign.
dc.description.abstractotherAt present, there is a need for parallel textual data for computational linguistics tasks such as machine translation. Manual construction of parallel corpora is a labor-intensive process, and automation of this process requires precise alignment of segments, particularly sentences, in parallel texts. Existing methods for automated sentence alignment in parallel texts differ in accuracy and implementation features. In this work, a new sentence alignment method based on the idea of Bleualign is proposed, utilizing machine translation, the BLEU metric, and a multi-step sentence alignment approach. It also includes enhancements, such as the use of domain-specific dictionaries and conjunctions. Given the lack of parallel data for the Ukrainian-German language pair, this work proposes the development of a method and software specifically for this language pair. A software solution for the automated construction of a Ukrainian-German parallel corpus was developed, which implements the proposed sentence alignment method in the form of a web application. This utilizes the Python programming language, the Flask framework, and libraries for natural language processing on the server side, as well as JavaScript and the React library on the client side. As a result, the accuracy of sentence alignment using the proposed method is, on average, 4% higher for the Ukrainian-German language pair compared to the Bleualign method.
dc.format.extent163 с.
dc.identifier.citationКоротюк, М. І. Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу : магістерська дис. : 121 Інженерія програмного забезпечення / Коротюк Марія Ігорівна . – Київ, 2024. – 163 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76830
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectпаралельний корпус
dc.subjectпереклад
dc.subjectвирівнювання речень
dc.subjectоброблення текстових даних
dc.subject.udc004.91
dc.titleМетод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Korotiuk_magistr.pdf
Розмір:
11.74 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: