Програмне забезпечення генерації текстів українською мовою
dc.contributor.advisor | Олійник, Юрій Олександрович | |
dc.contributor.author | Довгополюк, Роман Русланович | |
dc.date.accessioned | 2025-01-23T14:15:42Z | |
dc.date.available | 2025-01-23T14:15:42Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Актуальність теми. У роботі розглянуто проблематику генерації текстів українською мовою, показано основні особливості наявних інструментів генерування природної мови, їх переваги та недоліки. Виявлено потребу в розробці методу генерації, що інтегрує інструмент морфологічного аналізу, велику мовну модель, модель LDA та інструмент виявлення і виправлення граматичних помилок. Мета дослідження. Основною метою є підвищення якості згенерованих текстів української мови при заданій тематиці та наборі ключових слів. Об’єкт дослідження: програмне забезпечення для генерації текстів української мови з використанням великих мовних моделей (LLM) та морфологічних аналізаторів. Предмет дослідження: методи, програмна архітектура, механізми інтеграції морфологічного аналізу з великими мовними моделями для підвищення якості згенерованих текстів українською мовою. Для реалізації поставленої мети сформульовані наступні завдання: − аналіз наявних рішень; − дослідження морфологічних особливостей української мови; − розробка методу генерації текстів українською мовою; − реалізувати інтеграцію LLM з морфологічним аналізатором; − реалізація прототипу програмного забезпечення; − експериментальне дослідження та аналіз результатів; − оцінка ефективності запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в тому, що було розроблено метод генерації текстів української мови шляхом інтеграції великих мовних моделей з морфологічним аналізатором, застосуванням методу категоризації LDA та технологією виправлення помилок LanguageTool, що в результаті підвищує якість згенерованих текстів. Практичне значення отриманих результатів полягає у розробці програмного забезпечення, яке поєднує великі мовні моделі з морфологічними аналізаторами, сприяючи підвищенню якості автоматично згенерованих текстів української мови на задану тематику та набір ключових слів. Це дозволяє розширити можливості застосування такого ПЗ у різноманітних доменах (освіта, наука, медіа, тощо). Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського" в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. | |
dc.description.abstractother | Topicality. Examines the problem of text generation in Ukrainian, highlighting the main features of existing natural language generation tools, their advantages and disadvantages. Identifies the need to develop a generation method that integrates a morphological analysis tool, a large language model, an LDA model and a tool for detecting and correcting grammatical mistakes. The aim of the study. The main target is to improve the quality of generated Ukrainian texts given a specific topic and set of keywords. The object of research: software for Ukrainian text generation using large language models (LLM) and morphological analyzers. The subject of research: methods, software architecture and mechanisms of integrating morphological analysis with large language models to improve the quality of generated Ukrainian texts. To achieve this goal, the following tasks were formulated: – analysis of existing solutions; – research on morphological features of the Ukrainian language; – development of a method for Ukrainian text generation; – integration of LLM with morphological analyzer; – software prototype development; – experimental research and analysis of results; – assessment of the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is that a method for generating Ukrainian texts was developed by integrating large language models with a morphological analyzer, applying the LDA categorization method and using LanguageTool error correction technology, which results in improvement of the quality for the generated texts. The practical value of the obtained results is the development of software that combines large language models with morphological analyzers, contributing to the improvement of the quality of automatically generated Ukrainian texts on a given topic and set of keywords. This expands the potential applications of such software in various domains (education, science, media, etc.). Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». | |
dc.format.extent | 127 с. | |
dc.identifier.citation | Довгополюк, Р. Р. Програмне забезпечення генерації текстів українською мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Довгополюк Роман Русланович. - Київ, 2024. - 127 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/72154 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | обробка природної мови | |
dc.subject | українська мова | |
dc.subject | генерація тексту | |
dc.subject | велика мовна модель | |
dc.subject | морфологічний аналіз | |
dc.subject | тематичне моделювання | |
dc.subject | natural language processing | |
dc.subject | Ukrainian language | |
dc.subject | text generation | |
dc.subject | large language model | |
dc.subject | morphological analysis | |
dc.subject | topic modeling | |
dc.subject.udc | 004.8 | |
dc.title | Програмне забезпечення генерації текстів українською мовою | |
dc.title.alternative | Software for Text Generation in Ukrainian | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Ескіз недоступний
- Назва:
- Dovhopoliuk_magistr.pdf
- Розмір:
- 3.43 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: