Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop

Ходак, Антон Романович

Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop

Файли

Khodak_magistr.docx (237.68 MB)

Дата

2018

Автори

Ходак, Антон Романович

Науковий керівник

Дідковська, Марина Віталіївна

Анотація

Магістерська дисертація: 112 с., 31 рис., 30 табл., 2 додатки, 29 джерел. Об’єкт дослідження: задача кластеризації графів. Мета роботи – створення модифікації алгоритму кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop. Метод досліджень - методи аналізу і синтезу, системного аналізу, порівняння, логічного узагальнення результатів, проектування логічних структур даних. У даній роботі було розроблено модифікацію алгоритму кластеризації Маркова на основі файлової системи HDFS, планувальника задач Apache YARN та платформи розподілених обчислень Apache Spark та створений відповідний програмний продукт для розподіленої кластеризації графів. Апробація моделі була проведена на віртуальному кластері на локальному комп'ютері, що складався з трьох вузлів. Отримані результати показують, що дана розподілена реалізація з трьома обчислювальними вузлами на графах з кількістю вершин у 60000 є вдвічі швидшою за однопотокову канонічну імплементацію, зі збільшенням кількості вузлів, швидкість обробки зростає. Також, розподілена імплементація починає бути швидшою за однопотокову на графах з кількістю вершин більшою, ніж 2500. Отримані результати можуть використовуватись у розподілених системах для аналізу великих даних, представлених у вигляді графів, у предметній області соціальних мереж, комп’ютерних мереж, біології, тощо.

Ключові слова

кластеризація, алгоритм кластеризації Маркова, кластерний аналіз, Apache, Hadoop, Spark, mapreduce, розподілені обчислення, clustering, Markov clustering algorithm, cluster analysis, Apache, Hadoop, Spark, mapreduce, distributed computing

Бібліографічний опис

Ходак, А. Р. Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop : магістерська дис. : 122 Комп'ютерні науки / Ходак Антон Романович. - Київ, 2018. - 116 с.

URI

https://ela.kpi.ua/handle/123456789/26152

Зібрання

Магістерські роботи (ММСА)
Магістерські роботи

Повна інформація про документ

Алгоритм кластеризації Маркова для платформ розподілених обчислень Spark та Hadoop

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання