Фреймворк для масштабованої обробки великих даних про продажі

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми В умовах стрімкого зростання обсягів даних у сфері роздрібної торгівлі та електронної комерції виникає нагальна потреба в оперативній обробці інформації про продажі для підтримки прийняття рішень. Традиційні пакетні системи та існуючі потокові архітектури (Лямбда, Каппа) часто не забезпечують необхідного балансу між низькою затримкою, простотою розробки та гнучкістю управління складною бізнес-логікою. Об’єкт дослідження – процеси обробки великих потокових даних у розподілених аналітичних системах. Предмет дослідження – методи реалізації програмного фреймворку для масштабованої трансформації даних про продажі. Мета роботи Створення програмного фреймворку побудови пайплайнів для забезпечення масштабованої, відмовостійкої обробки великих обсягів складних ієрархічних даних у режимі, близькому до реального часу. Завдання дослідження: 1. Провести аналіз існуючих архітектурних підходів та програмних засобів обробки великих даних. 2. Дослідити принципи побудови ETL-систем, керованих метаданими. 3. Розробити концептуальну архітектуру фреймворку. 4. Створити програмний прототип фреймворку. 5. Провести експериментальне дослідження продуктивності та масштабованості розробленого рішення. Методи дослідження: методи системного аналізу для проектування архітектури; методи теорії баз даних та реляційної алгебри для розробки алгоритмів трансформації; методи об’єктно-орієнтованого проектування для створення програмної моделі; методи імітаційного моделювання та комп’ютерного експерименту для оцінки продуктивності системи. Практичне значення: розроблений фреймворк дозволяє уніфікувати та прискорити розробку пайплайнів обробки даних, забезпечуючи надійність та низьку затримку. Результати можуть бути використані для побудови сучасних аналітичних платформ у рітейлі. Апробація результатів дисертації: основні положення роботи доповідалися на III Міжнародній науковій та практичній конференції “Innovative Approaches in Modern Science and Technology”, 12-14 листопада, 2025, м. Лісабон, Португалія. Структура та обсяг магістерської дисертації: дисертація складається зі вступу, п’яти розділів та висновків. Повний обсяг дисертації складає 109 сторінок, в тому числі 96 сторінок основного тексту, 6 таблиць, 14 рисунків, 8 сторінок списку використаних джерел у кількості 73 найменувань. Розроблений програмний продукт є фреймворком для побудови високонавантажених систем обробки даних, що реалізує концепцію Lakehouse. Його архітектура базується на мікро-пакетній обробці (Spark Structured Streaming) та транзакційному зберіганні даних, що забезпечує гарантії ACID та низьку затримку (Near Real-Time). Ключовою особливістю системи є декларативна модель керування: вся бізнес-логіка (фільтрація, парсинг вкладених структур, агрегація) описується у зовнішніх TOML-файлах. Це дозволяє динамічно генерувати оптимізовані плани виконання, забезпечуючи гнучкість, масштабованість та значне скорочення часу на розробку нових вітрин даних.

Опис

Ключові слова

великі дані, обробка в реальному часі, apache spark, delta lake, etl, metadata-driven, медальйонна архітектура, lakehouse, pyspark

Бібліографічний опис

Безрукий, М. Я. Фреймворк для масштабованої обробки великих даних про продажі : магістерська дис. : 122 Комп’ютерні науки / Безрукий Микола Ярославович. – Київ, 2025. – 110 с.

ORCID

DOI