Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark

Мілашевський, Євгеній Володимирович

Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark

Файли

Milashevskyi_magistr.pdf (2.41 MB)

Дата

2021-12

Автори

Мілашевський, Євгеній Володимирович

Науковий керівник

Долголенко, Олександр Миколайович

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Робота складається iз вступу та чотирьох роздiлiв. Загальний обсяг 55 сторiнок основного тексту, 28 рисункiв, 24 таблицi. Для пiдготовки використовувалась лiтература з 10 джерел. Актуальнiсть. Платформи розподiленої обробки даних для хмарних обчислень є важливими iнструментами для великомасштабної аналiтики даних. Hadoop Map-Reduce став де-факто стандартом у цьому просторi, хоча його iнтерфейс програмування є вiдносно низькорiвневим, що вимагає багатьох крокiв реалiзацiї навiть для простих завдань аналiзу. Це призвело до розробки передових платформ, орiєнтованих на потоки даних, особливо Apache Spark i Apache Flink. Вони не лише спрямованi на пiдвищення продуктивностi, але й забезпечують високорiвневi функцiональнi можливостi обробки даних, такi як оператори фiльтрацiї та приєднання, що повинно полегшити розробку завдань аналiзу даних. Але з обмеженими даними для порiвняння, як науковцi з даних дiзнаються, яку систему їм слiд вибрати? Мета завдання i дослiдження. У цьому дослiдженнi порiвнюються: Apache Hadoop MapReduce, Apache Spark i Apache Flink, з точки зору продуктивностi, зручностi та практичностi, для пакетно-орiєнтованої аналiтики даних. Ми пропонуємо та застосовуємо методологiю, яка керує пiдготовкою багатовимiрних програмних порiвнянь та представленням їх результатiв. Для досягнення мети було вирiшено такi завдання: дослiдження принципiв роботи платформ роподiленої обробки даних дослiдження необхiдної iнфраструктури побудова алгоритму обчислень на основi даних розробко прототипiв програм збiр та аналiз статистики Об’єкт дослiження. Порiвняння швидкодiї систем обробки великих даних на основi Hadoop MapReduce, Apache Spark та Apache Flink. Предмет дослiження. Розробка прототипiв на основi MapReduce, Apache Spark та Apache Flink, а також збiр статистики. Методи дослiженнь. Для досягнення мети магiстерської дисертацiї було використано технологiї обробки розподiлених даних. Наукова новизна роботи полягає в наступному: Розроблено програмнi продукти на основi трьох рiзних платформ обробки розподiлених даних та тестове середовище для запуску та збору статистики. Створено порiвняльну характеристику основних систем обробки великих даних. Проведене дослiдження дає можливiсть використовувати зiбрану статистику для вибору найбiльш пiдходящої платформи обробки розподiлених даних. Особистий внесок здобувача. Магiстерська дисертацiя є самостiйною роботою, в якiй вiдображено авторський пiдхiд до вирiшення задачi та особисто отриманi теоретичнi та практичнi результати, що вiдносяться до вибору системи для обробки великих даних. Формулювання мети та завдань дослiдження проводилось спiльно з науковим керiвником. Практична цiннiсть. За допомогою статистики та висновкiв зiбра них в данiй роботi можна чiтко визначити найбiльш прийнятну систему для обробки великих даних. Дана робота дає змогу науковцям, що працюють з данними, не витрачати час на пошук необхiдної iнфраструктури, а зосередитись на власне аналiзi даних.

Ключові слова

платформа обробки розподілених даних, система обробки великих даних, фреймворк, задача MapReduce, статистичнi данi, швидкодiя системи

Бібліографічний опис

Мілашевський, Є. В. Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Мілашевський Євгеній Володимирович. – Київ, 2021. – 81 с.

URI

https://ela.kpi.ua/handle/123456789/46088

Зібрання

Магістерські роботи (ОТ)
Магістерські роботи

Повна інформація про документ

Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання