Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою

Жаріков, Едуард В'ячеславовичКучма, Артем Борисович2024-03-122024-03-122024Кучма, А. Б. Програмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовою : магістерська дис. : 121 Інженерія програмного забезпечення / Кучма Артем Борисович. – Київ, 2024. – 134 с.https://ela.kpi.ua/handle/123456789/65431Розмір пояснювальної записки – 87 аркушів, містить 33 ілюстрації, 24 таблиці, 5 додатків, 78 посилань на джерела. Актуальність теми. У роботі розглянуто проблему в області взаємодії з базами та сховищами даних за допомогою інструкцій природною мовою, показано основні особливості існуючих рішень описаної проблеми, їх переваги та недоліки. Виявлено потребу у розробленні програмного забезпечення для підготовки наборів даних з декількох джерел за допомогою інструкцій природною мовою. Мета дослідження. Метою є покращення процесу взаємодії з базами та сховищами даних у спосіб розроблення програмного забезпечення, що реалізує зручний інтерфейс до баз і сховищ даних із застосуванням команд природною мовою. Об’єкт дослідження: інтерфейси до баз та сховищ даних з використанням природної мови. Предмет дослідження: моделі, методи і технології обробки команд природною мовою з метою побудови інтерфейсу для підготовки набору даних з кількох джерел. Для досягнення поставленої мети необхідно виконати такі завдання: - аналіз предметної області, досліджень, публікацій та актуальних проблем розробки інтерфейсів на основі природної мови; - аналіз існуючих програмних рішень, їх переваг та недоліків; - формування вимог до програмного забезпечення; - проектування архітектури та вибір технологій для розробки програмного забезпечення; - розробка програмного забезпечення; - тестування програмного забезпечення та аналіз отриманих результатів. Наукова новизна результатів магістерської дисертації полягає в тому, що набуло подальшого розвитку використання потужностей Large Language Model моделей для підготовки масивів даних з декількох джерел за допомогою команд природньою мовою. Результат досягнутий шляхом використання LLM моделей для обробки інструкцій природньою мовою, та підходу data warehouse для об’єднання даних з декількох джерел у спільний SQL інтерфейс. Практичне значення отриманих результатів полягає в розробці веб-додатку, що дає можливість формувати набори даних з декількох джерел за допомогою інструкцій природною мовою. Даний додаток об’єднує джерела даних у спільний SQL інтерфейс за допомогою патерну data warehouse. Додаток дає можливість обробляти голосові та текстові команди англійською мовою, перетворювати їх в SQL до відповідного об’єднаного інтерфейсу, виконувати згенерований запит та надавати результати виконання користувачу у форматі CSV. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» у рамках ініціативної теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних», номер реєстрації УКРІНТЕІ 0117U000924. Апробація. Наукові положення дисертації пройшли апробацію на наукових конференціях SoftTech 2022 та SoftTech 2023.134 с.ukсховище данихобробка природної мовиdata warehouseінтерфейси природної мовиdata storage. natural language processingnatural language interfaceПрограмне забезпечення для підготовки набору даних з кількох джерел за допомогою інструкцій природною мовоюSoftware for Preparing Datamarts from Multiple Sources through Natural Language InstructionsMaster Thesis004.86