Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою

dc.contributor.advisorЖаріков, Едуард В'ячеславович
dc.contributor.authorКучма, Артем Борисович
dc.date.accessioned2024-03-12T08:11:46Z
dc.date.available2024-03-12T08:11:46Z
dc.date.issued2024
dc.description.abstractРозмір пояснювальної записки – 87 аркушів, містить 33 ілюстрації, 24 таблиці, 5 додатків, 78 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області взаємодії з базами та сховищами даних за допомогою інструкцій природною мовою, показано основні особливості існуючих рішень описаної проблеми, їх переваги та недоліки. Виявлено потребу у розробленні програмного забезпечення для підготовки наборів даних з декількох джерел за допомогою інструкцій природною мовою. Мета дослідження. Метою є покращення процесу взаємодії з базами та сховищами даних у спосіб розроблення програмного забезпечення, що реалізує зручний інтерфейс до баз і сховищ даних із застосуванням команд природною мовою. Об’єкт дослідження: інтерфейси до баз та сховищ даних з використанням природної мови. Предмет дослідження: моделі, методи і технології обробки команд природною мовою з метою побудови інтерфейсу для підготовки набору даних з кількох джерел. Для досягнення поставленої мети необхідно виконати такі завдання: - аналіз предметної області, досліджень, публікацій та актуальних проблем розробки інтерфейсів на основі природної мови; - аналіз існуючих програмних рішень, їх переваг та недоліків; - формування вимог до програмного забезпечення; - проектування архітектури та вибір технологій для розробки програмного забезпечення; - розробка програмного забезпечення; - тестування програмного забезпечення та аналіз отриманих результатів. Наукова новизна результатів магістерської дисертації полягає в тому, що набуло подальшого розвитку використання потужностей Large Language Model моделей для підготовки масивів даних з декількох джерел за допомогою команд природньою мовою. Результат досягнутий шляхом використання LLM моделей для обробки інструкцій природньою мовою, та підходу data warehouse для об’єднання даних з декількох джерел у спільний SQL інтерфейс. Практичне значення отриманих результатів полягає в розробці веб-додатку, що дає можливість формувати набори даних з декількох джерел за допомогою інструкцій природною мовою. Даний додаток об’єднує джерела даних у спільний SQL інтерфейс за допомогою патерну data warehouse. Додаток дає можливість обробляти голосові та текстові команди англійською мовою, перетворювати їх в SQL до відповідного об’єднаного інтерфейсу, виконувати згенерований запит та надавати результати виконання користувачу у форматі CSV. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» у рамках ініціативної теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних», номер реєстрації УКРІНТЕІ 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на наукових конференціях SoftTech 2022 та SoftTech 2023.
dc.description.abstractotherExplanatory note size – 87 pages, contains 32 illustrations, 24 tables, 5 applications, 78 references. Topicality. Examines the problem of interaction with data sources using natural language instructions, shows the main features of existing solutions for the described problem, their advantages and disadvantages. A need has been identified for software to prepare datasets from multiple sources using natural language instructions. The aim of the study. The main target is to improve the process of interaction with databases and data repositories in the way of developing software that implements a convenient interface to databases and data repositories using natural language commands. The object of research: interfaces to databases and data storages using natural language. The subject of research: models, methods and technologies for processing commands in natural language in order to build an interface for preparing sets of data from several sources. To achieve this goal, the following tasks were formulated: - analysis of the subject area, research, publications and actual problems of developing interfaces based on natural language; - analysis of existing software solutions, their advantages and disadvantages; - formation of requirements for the software product; - architecture design and technology selection for software product development; - software product development; - software product testing and analysis of the obtained results. The scientific novelty of the results of the master's dissertation is that the use of the capabilities of LLM models for the preparation of data sets from several sources with natural language commands has been further developed. The result is achieved by using Large Language Model models for processing instructions in natural language, and a data warehouse approach for combining data from several sources into a common SQL interface. The practical value of the obtained results is the development of a web application capable of preparing datasets from multiple sources using natural language instructions. This application combines data sources into a common SQL interface using the data warehouse pattern. The application is able to process voice and text commands in English, convert them into SQL to the corresponding unified interface, execute the generated query and provide the execution results to the user in CSV format. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» within the framework of the initiative topic "Methods and technologies of high-performance computing and processing of ultra-large data sets", registration number UKRINTEI 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the scientific conferences SoftTech 2022 and SoftTech 2023.
dc.format.extent134 с.
dc.identifier.citationКучма, А. Б. Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Кучма Артем Борисович. – Київ, 2024. – 134 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/65431
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectсховище даних
dc.subjectобробка природної мови
dc.subjectdata warehouse
dc.subjectінтерфейси природної мови
dc.subjectdata storage. natural language processing
dc.subjectnatural language interface
dc.subject.udc004.86
dc.titleПрограмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою
dc.title.alternativeSoftware for Preparing Datamarts from Multiple Sources through Natural Language Instructions
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kuchma_magistr.pdf
Розмір:
3.53 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: