Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу
dc.contributor.advisor | Заболотня, Тетяна Миколаївна | |
dc.contributor.author | Коротюк, Марія Ігорівна | |
dc.date.accessioned | 2025-10-14T09:54:19Z | |
dc.date.available | 2025-10-14T09:54:19Z | |
dc.date.issued | 2024 | |
dc.description.abstract | На даний час існує необхідність у наявності паралельних текстових даних для завдань комп’ютерної лінгвістики, наприклад машинного перекладу. Ручна побудова паралельних корпусів є трудомістким процесом, а при його автоматизації важливою є точність вирівнювання сегментів, зокрема речень, у паралельних текстах. Наявні методи автоматизованого вирівнювання речень у паралельних текстах відрізняються точністю та особливостями реалізації. У даній роботі запропоновано новий метод вирівнювання речень, який базується на ідеї Bleualign, а саме використанні машинного перекладу, метрики BLEU та багатоступеневого вирівнювання речень, а також містить удосконалення – використання словників галузевих термінів та сполучників. Оскільки для українсько-німецької мовної пари паралельних даних недостатньо, то у роботі пропонується розроблення методу та програмного забезпечення саме для цієї мовної пари. У даній роботі розроблено програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу, яке реалізує запропонований метод вирівнювання речень, у вигляді вебзастосунку. Для цього використовуються мова програмування Python, фреймворк Flask та бібліотеки для оброблення природомовних текстів на сервері, а також мова програмування JavaScript та бібліотека React на клієнті. У результаті точність вирівнювання речень за допомогою запропонованого методу є в середньому на 4% вищою для українсько-німецької мовної пари, у порівнянні з методом Bleualign. | |
dc.description.abstractother | At present, there is a need for parallel textual data for computational linguistics tasks such as machine translation. Manual construction of parallel corpora is a labor-intensive process, and automation of this process requires precise alignment of segments, particularly sentences, in parallel texts. Existing methods for automated sentence alignment in parallel texts differ in accuracy and implementation features. In this work, a new sentence alignment method based on the idea of Bleualign is proposed, utilizing machine translation, the BLEU metric, and a multi-step sentence alignment approach. It also includes enhancements, such as the use of domain-specific dictionaries and conjunctions. Given the lack of parallel data for the Ukrainian-German language pair, this work proposes the development of a method and software specifically for this language pair. A software solution for the automated construction of a Ukrainian-German parallel corpus was developed, which implements the proposed sentence alignment method in the form of a web application. This utilizes the Python programming language, the Flask framework, and libraries for natural language processing on the server side, as well as JavaScript and the React library on the client side. As a result, the accuracy of sentence alignment using the proposed method is, on average, 4% higher for the Ukrainian-German language pair compared to the Bleualign method. | |
dc.format.extent | 163 с. | |
dc.identifier.citation | Коротюк, М. І. Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу : магістерська дис. : 121 Інженерія програмного забезпечення / Коротюк Марія Ігорівна . – Київ, 2024. – 163 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/76830 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | паралельний корпус | |
dc.subject | переклад | |
dc.subject | вирівнювання речень | |
dc.subject | оброблення текстових даних | |
dc.subject.udc | 004.91 | |
dc.title | Метод та програмне забезпечення автоматизованої побудови українсько-німецького паралельного корпусу | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Korotiuk_magistr.pdf
- Розмір:
- 11.74 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: