Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark
Вантажиться...
Дата
2021-12
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Робота складається iз вступу та чотирьох роздiлiв. Загальний обсяг 55
сторiнок основного тексту, 28 рисункiв, 24 таблицi. Для пiдготовки використовувалась лiтература з 10 джерел.
Актуальнiсть. Платформи розподiленої обробки даних для хмарних
обчислень є важливими iнструментами для великомасштабної аналiтики даних. Hadoop Map-Reduce став де-факто стандартом у цьому просторi, хоча
його iнтерфейс програмування є вiдносно низькорiвневим, що вимагає багатьох крокiв реалiзацiї навiть для простих завдань аналiзу. Це призвело до розробки передових платформ, орiєнтованих на потоки даних, особливо Apache
Spark i Apache Flink. Вони не лише спрямованi на пiдвищення продуктивностi, але й забезпечують високорiвневi функцiональнi можливостi обробки
даних, такi як оператори фiльтрацiї та приєднання, що повинно полегшити
розробку завдань аналiзу даних. Але з обмеженими даними для порiвняння,
як науковцi з даних дiзнаються, яку систему їм слiд вибрати?
Мета завдання i дослiдження. У цьому дослiдженнi порiвнюються:
Apache Hadoop MapReduce, Apache Spark i Apache Flink, з точки зору продуктивностi, зручностi та практичностi, для пакетно-орiєнтованої аналiтики
даних. Ми пропонуємо та застосовуємо методологiю, яка керує пiдготовкою
багатовимiрних програмних порiвнянь та представленням їх результатiв.
Для досягнення мети було вирiшено такi завдання:
дослiдження принципiв роботи платформ роподiленої обробки даних
дослiдження необхiдної iнфраструктури побудова алгоритму обчислень на основi даних
розробко прототипiв програм
збiр та аналiз статистики
Об’єкт дослiження. Порiвняння швидкодiї систем обробки великих
даних на основi Hadoop MapReduce, Apache Spark та Apache Flink.
Предмет дослiження. Розробка прототипiв на основi MapReduce, Apache
Spark та Apache Flink, а також збiр статистики.
Методи дослiженнь. Для досягнення мети магiстерської дисертацiї
було використано технологiї обробки розподiлених даних.
Наукова новизна роботи полягає в наступному:
Розроблено програмнi продукти на основi трьох рiзних платформ обробки розподiлених даних та тестове середовище для запуску та збору статистики.
Створено порiвняльну характеристику основних систем обробки великих даних.
Проведене дослiдження дає можливiсть використовувати зiбрану статистику для вибору найбiльш пiдходящої платформи обробки розподiлених
даних.
Особистий внесок здобувача. Магiстерська дисертацiя є самостiйною роботою, в якiй вiдображено авторський пiдхiд до вирiшення задачi та
особисто отриманi теоретичнi та практичнi результати, що вiдносяться до
вибору системи для обробки великих даних. Формулювання мети та завдань
дослiдження проводилось спiльно з науковим керiвником.
Практична цiннiсть. За допомогою статистики та висновкiв зiбра них в данiй роботi можна чiтко визначити найбiльш прийнятну систему для
обробки великих даних. Дана робота дає змогу науковцям, що працюють з
данними, не витрачати час на пошук необхiдної iнфраструктури, а зосередитись на власне аналiзi даних.
Опис
Ключові слова
платформа обробки розподілених даних, система обробки великих даних, фреймворк, задача MapReduce, статистичнi данi, швидкодiя системи
Бібліографічний опис
Мілашевський, Є. В. Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Мілашевський Євгеній Володимирович. – Київ, 2021. – 81 с.