Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою

Кучма, Артем Борисович

Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою

dc.contributor.advisor	Жаріков, Едуард В'ячеславович
dc.contributor.author	Кучма, Артем Борисович
dc.date.accessioned	2024-03-12T08:11:46Z
dc.date.available	2024-03-12T08:11:46Z
dc.date.issued	2024
dc.description.abstract	Розмір пояснювальної записки – 87 аркушів, містить 33 ілюстрації, 24 таблиці, 5 додатків, 78 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області взаємодії з базами та сховищами даних за допомогою інструкцій природною мовою, показано основні особливості існуючих рішень описаної проблеми, їх переваги та недоліки. Виявлено потребу у розробленні програмного забезпечення для підготовки наборів даних з декількох джерел за допомогою інструкцій природною мовою. Мета дослідження. Метою є покращення процесу взаємодії з базами та сховищами даних у спосіб розроблення програмного забезпечення, що реалізує зручний інтерфейс до баз і сховищ даних із застосуванням команд природною мовою. Об’єкт дослідження: інтерфейси до баз та сховищ даних з використанням природної мови. Предмет дослідження: моделі, методи і технології обробки команд природною мовою з метою побудови інтерфейсу для підготовки набору даних з кількох джерел. Для досягнення поставленої мети необхідно виконати такі завдання: - аналіз предметної області, досліджень, публікацій та актуальних проблем розробки інтерфейсів на основі природної мови; - аналіз існуючих програмних рішень, їх переваг та недоліків; - формування вимог до програмного забезпечення; - проектування архітектури та вибір технологій для розробки програмного забезпечення; - розробка програмного забезпечення; - тестування програмного забезпечення та аналіз отриманих результатів. Наукова новизна результатів магістерської дисертації полягає в тому, що набуло подальшого розвитку використання потужностей Large Language Model моделей для підготовки масивів даних з декількох джерел за допомогою команд природньою мовою. Результат досягнутий шляхом використання LLM моделей для обробки інструкцій природньою мовою, та підходу data warehouse для об’єднання даних з декількох джерел у спільний SQL інтерфейс. Практичне значення отриманих результатів полягає в розробці веб-додатку, що дає можливість формувати набори даних з декількох джерел за допомогою інструкцій природною мовою. Даний додаток об’єднує джерела даних у спільний SQL інтерфейс за допомогою патерну data warehouse. Додаток дає можливість обробляти голосові та текстові команди англійською мовою, перетворювати їх в SQL до відповідного об’єднаного інтерфейсу, виконувати згенерований запит та надавати результати виконання користувачу у форматі CSV. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» у рамках ініціативної теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних», номер реєстрації УКРІНТЕІ 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на наукових конференціях SoftTech 2022 та SoftTech 2023.
dc.description.abstractother	Explanatory note size – 87 pages, contains 32 illustrations, 24 tables, 5 applications, 78 references. Topicality. Examines the problem of interaction with data sources using natural language instructions, shows the main features of existing solutions for the described problem, their advantages and disadvantages. A need has been identified for software to prepare datasets from multiple sources using natural language instructions. The aim of the study. The main target is to improve the process of interaction with databases and data repositories in the way of developing software that implements a convenient interface to databases and data repositories using natural language commands. The object of research: interfaces to databases and data storages using natural language. The subject of research: models, methods and technologies for processing commands in natural language in order to build an interface for preparing sets of data from several sources. To achieve this goal, the following tasks were formulated: - analysis of the subject area, research, publications and actual problems of developing interfaces based on natural language; - analysis of existing software solutions, their advantages and disadvantages; - formation of requirements for the software product; - architecture design and technology selection for software product development; - software product development; - software product testing and analysis of the obtained results. The scientific novelty of the results of the master's dissertation is that the use of the capabilities of LLM models for the preparation of data sets from several sources with natural language commands has been further developed. The result is achieved by using Large Language Model models for processing instructions in natural language, and a data warehouse approach for combining data from several sources into a common SQL interface. The practical value of the obtained results is the development of a web application capable of preparing datasets from multiple sources using natural language instructions. This application combines data sources into a common SQL interface using the data warehouse pattern. The application is able to process voice and text commands in English, convert them into SQL to the corresponding unified interface, execute the generated query and provide the execution results to the user in CSV format. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» within the framework of the initiative topic "Methods and technologies of high-performance computing and processing of ultra-large data sets", registration number UKRINTEI 0117U000924. Approbation. The scientific provisions of the dissertation were tested at the scientific conferences SoftTech 2022 and SoftTech 2023.
dc.format.extent	134 с.
dc.identifier.citation	Кучма, А. Б. Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Кучма Артем Борисович. – Київ, 2024. – 134 с.
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/65431
dc.language.iso	uk
dc.publisher	КПІ ім. Ігоря Сікорського
dc.publisher.place	Київ
dc.subject	сховище даних
dc.subject	обробка природної мови
dc.subject	data warehouse
dc.subject	інтерфейси природної мови
dc.subject	data storage. natural language processing
dc.subject	natural language interface
dc.subject.udc	004.86
dc.title	Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою
dc.title.alternative	Software for Preparing Datamarts from Multiple Sources through Natural Language Instructions
dc.type	Master Thesis

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Kuchma_magistr.pdf
Розмір:: 3.53 MB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ІПІ)
Магістерські роботи