Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark

Мілашевський, Євгеній Володимирович

Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark

dc.contributor.advisor	Долголенко, Олександр Миколайович
dc.contributor.author	Мілашевський, Євгеній Володимирович
dc.date.accessioned	2022-01-31T10:58:30Z
dc.date.available	2022-01-31T10:58:30Z
dc.date.issued	2021-12
dc.description.abstracten	The work consists of an introduction and four chapters. Total amount 55 main text pages, 28 figures, 24 tables. Literature from 10 sources was used for preparation. Relevance. Distributed data processing platforms for clouds Computing is an important tool for large-scale analytics. Hadoop Map-Reduce has become the de facto standard in this space, though its programming interface is relatively low-level, which requires many implementation steps even for simple analysis tasks. This has led to the development of advanced platforms focused on data flows, especially Apache Spark and Apache Flink. They are not only aimed at increasing productivity, but also provide high-level processing functionality data, such as filtering and connection operators, which should facilitate development of data analysis tasks. But with limited data for comparison, how do data scientists know which system to choose? The purpose of the task and research. This study compares: Apache Hadoop MapReduce, Apache Spark and Apache Flink, in terms of productivity, convenience and practicality, for package-oriented analytics data. We propose and apply a methodology that manages training multidimensional program comparisons and presentation of their results. To achieve this goal, the following tasks were solved: research of the principles of operation of distributed data processing platforms research of the necessary infrastructure construction of a calculation algorithm based on data development of program prototypes collection and analysis of statistics Object of study. Comparison of the speed of large processing systems data based on Hadoop MapReduce, Apache Spark and Apache Flink. Subject of research. Prototyping based on MapReduce, Apache Spark and Apache Flink, as well as statistics collection. Research methods. To achieve the goal of the master's dissertation distributed data processing technologies were used. The scientific novelty of the work is as follows: Software products based on three different distributed data processing platforms and a test environment for running and collecting statistics were developed. A comparative description of the main big data processing systems has been created. The conducted research gives the chance to use the collected statistics for a choice of the most suitable platform of processing of distributed data. Personal contribution of the applicant. The master's dissertation is an independent work, which reflects the author's approach to solving the problem and personally obtained theoretical and practical results related to choosing a system for big data processing. Formulation of goals and objectives the research was conducted jointly with the research supervisor. Practical value. With the help of statistics and conclusions collected in this paper, it is possible to clearly determine the most acceptable system for big data processing. This work allows scientists working with data, do not spend time searching for the necessary infrastructure, but focus on the actual analysis of data. Keywords: Distributed data processing platform, system big data processing, framework, MapReduce task, statistics, system speed.	uk
dc.description.abstractuk	Робота складається iз вступу та чотирьох роздiлiв. Загальний обсяг 55 сторiнок основного тексту, 28 рисункiв, 24 таблицi. Для пiдготовки використовувалась лiтература з 10 джерел. Актуальнiсть. Платформи розподiленої обробки даних для хмарних обчислень є важливими iнструментами для великомасштабної аналiтики даних. Hadoop Map-Reduce став де-факто стандартом у цьому просторi, хоча його iнтерфейс програмування є вiдносно низькорiвневим, що вимагає багатьох крокiв реалiзацiї навiть для простих завдань аналiзу. Це призвело до розробки передових платформ, орiєнтованих на потоки даних, особливо Apache Spark i Apache Flink. Вони не лише спрямованi на пiдвищення продуктивностi, але й забезпечують високорiвневi функцiональнi можливостi обробки даних, такi як оператори фiльтрацiї та приєднання, що повинно полегшити розробку завдань аналiзу даних. Але з обмеженими даними для порiвняння, як науковцi з даних дiзнаються, яку систему їм слiд вибрати? Мета завдання i дослiдження. У цьому дослiдженнi порiвнюються: Apache Hadoop MapReduce, Apache Spark i Apache Flink, з точки зору продуктивностi, зручностi та практичностi, для пакетно-орiєнтованої аналiтики даних. Ми пропонуємо та застосовуємо методологiю, яка керує пiдготовкою багатовимiрних програмних порiвнянь та представленням їх результатiв. Для досягнення мети було вирiшено такi завдання: дослiдження принципiв роботи платформ роподiленої обробки даних дослiдження необхiдної iнфраструктури побудова алгоритму обчислень на основi даних розробко прототипiв програм збiр та аналiз статистики Об’єкт дослiження. Порiвняння швидкодiї систем обробки великих даних на основi Hadoop MapReduce, Apache Spark та Apache Flink. Предмет дослiження. Розробка прототипiв на основi MapReduce, Apache Spark та Apache Flink, а також збiр статистики. Методи дослiженнь. Для досягнення мети магiстерської дисертацiї було використано технологiї обробки розподiлених даних. Наукова новизна роботи полягає в наступному: Розроблено програмнi продукти на основi трьох рiзних платформ обробки розподiлених даних та тестове середовище для запуску та збору статистики. Створено порiвняльну характеристику основних систем обробки великих даних. Проведене дослiдження дає можливiсть використовувати зiбрану статистику для вибору найбiльш пiдходящої платформи обробки розподiлених даних. Особистий внесок здобувача. Магiстерська дисертацiя є самостiйною роботою, в якiй вiдображено авторський пiдхiд до вирiшення задачi та особисто отриманi теоретичнi та практичнi результати, що вiдносяться до вибору системи для обробки великих даних. Формулювання мети та завдань дослiдження проводилось спiльно з науковим керiвником. Практична цiннiсть. За допомогою статистики та висновкiв зiбра них в данiй роботi можна чiтко визначити найбiльш прийнятну систему для обробки великих даних. Дана робота дає змогу науковцям, що працюють з данними, не витрачати час на пошук необхiдної iнфраструктури, а зосередитись на власне аналiзi даних.	uk
dc.format.page	81 c.	uk
dc.identifier.citation	Мілашевський, Є. В. Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Мілашевський Євгеній Володимирович. – Київ, 2021. – 81 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/46088
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.subject	платформа обробки розподілених даних	uk
dc.subject	система обробки великих даних	uk
dc.subject	фреймворк	uk
dc.subject	задача MapReduce	uk
dc.subject	статистичнi данi	uk
dc.subject	швидкодiя системи	uk
dc.subject.udc	004.4	uk
dc.title	Побудова системи обробки iнформацiї в режимi реального часу на основi Apache Spark	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Milashevskyi_magistr.pdf
Розмір:: 2.41 MB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 9.1 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ОТ)
Магістерські роботи