Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop

Ходак, Антон Романович

Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop

dc.contributor.advisor	Дідковська, Марина Віталіївна
dc.contributor.author	Ходак, Антон Романович
dc.date.accessioned	2019-01-31T11:34:41Z
dc.date.available	2019-01-31T11:34:41Z
dc.date.issued	2018
dc.description.abstracten	Master’s dissertation: 112 p., 31 figures, 30 tables, 2 appendixes, 29 sources. Object of study: graph clustering problem. Purpose: a modification of Markov clustering algorithm for distributed computing platforms Spark and Hadoop. Research methods – analysis and synthesis, system analysis, comparison, logical generalisation of results, designing logical data structures. In this work it was developed a modification of Markov clustering algorithm application based on the HDFS file system, Apache YARN job scheduler, distributed computational platform Apache Spark, and a correspondent software for distributed graph clustering has been created. The model has been tested on a virtual cluster from 3 nodes on a local computer. Based on the results achieved, it is concluded that the implementation with 3 computing nodes on the graphs with a number of vertixes about 60000 is twice as fast as the one-threaded reference implementation. Also, important is that increasing a number of nodes in the cluster increases the speed of processing. The distributed implementation starts being faster than the one-threaded one for graphs with a number of nodes over 2500. The achieved results can be used in distributed systems for big data processing where data is represented as a graph in the domains of social networks, computer networks, biology etc.	uk
dc.description.abstractuk	Магістерська дисертація: 112 с., 31 рис., 30 табл., 2 додатки, 29 джерел. Об’єкт дослідження: задача кластеризації графів. Мета роботи – створення модифікації алгоритму кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop. Метод досліджень - методи аналізу і синтезу, системного аналізу, порівняння, логічного узагальнення результатів, проектування логічних структур даних. У даній роботі було розроблено модифікацію алгоритму кластеризації Маркова на основі файлової системи HDFS, планувальника задач Apache YARN та платформи розподілених обчислень Apache Spark та створений відповідний програмний продукт для розподіленої кластеризації графів. Апробація моделі була проведена на віртуальному кластері на локальному комп'ютері, що складався з трьох вузлів. Отримані результати показують, що дана розподілена реалізація з трьома обчислювальними вузлами на графах з кількістю вершин у 60000 є вдвічі швидшою за однопотокову канонічну імплементацію, зі збільшенням кількості вузлів, швидкість обробки зростає. Також, розподілена імплементація починає бути швидшою за однопотокову на графах з кількістю вершин більшою, ніж 2500. Отримані результати можуть використовуватись у розподілених системах для аналізу великих даних, представлених у вигляді графів, у предметній області соціальних мереж, комп’ютерних мереж, біології, тощо.	uk
dc.format.page	116 с.	uk
dc.identifier.citation	Ходак, А. Р. Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop : магістерська дис. : 122 Комп'ютерні науки / Ходак Антон Романович. - Київ, 2018. - 116 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/26152
dc.language.iso	uk	uk
dc.publisher.place	Київ	uk
dc.subject	кластеризація	uk
dc.subject	алгоритм кластеризації Маркова	uk
dc.subject	кластерний аналіз	uk
dc.subject	Apache	uk
dc.subject	Hadoop	uk
dc.subject	Spark	uk
dc.subject	mapreduce	uk
dc.subject	розподілені обчислення	uk
dc.subject	clustering	uk
dc.subject	Markov clustering algorithm	uk
dc.subject	cluster analysis	uk
dc.subject	Apache	uk
dc.subject	Hadoop	uk
dc.subject	Spark	uk
dc.subject	mapreduce	uk
dc.subject	distributed computing	uk
dc.subject.udc	004.421.2	uk
dc.title	Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Khodak_magistr.docx
Розмір:: 237.68 MB
Формат:: Microsoft Word XML
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 7.74 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ММСА)
Магістерські роботи