Розподілене сховище даних на основі Apache Spark

Вантажиться...
Ескіз

Дата

2020-06

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Робота містить 23 рисунки і 17 таблиць. Кожного року зростає кількість запитів на отримання рішення проблеми збереження великого обсягу даних на проектах різноманітної складності. Робота із даними і удосконалення методів їх зберігання є доволі розповсюдженою задачею на сьогоднішній день у багатьох технологічних компанія, а також у окремих розробників. Щодня у світі з’являється велика кількість інформації, яка зберігається і структурується у сховищах і базах даних. А коли даних стає забагато для однієї бази даних, або маємо різні кінцеві цілі роботи з даними, то переходимо до використання багатьох сховищ і баз даних одночасно із встановленням взаємодій між ними, або ж готуємо сховище, яке може змінити свою внутрішню структуру у залежності від запиту користувача. Різноманітні види і структури сховищ та баз даних є націленими на оптимальне рішення лише вузького спектру задач, і маючи сховище що може втілювати у собі декілька різних типів і підходів до зберігання та обробки даних є перевагою. Теорія аналізу і роботи із великим обсягом даних є потужним інструментом для вирішення цілого ряду практичних і аналітичних проблем, таких як прогнозування результатів певної дії чи явища, розподіл даних за ознаками, ранжування їх за вагою і роллю. У першому розділі були розглянуті найбільш ефективні алгоритми і методи обробки великого обсягу даних для досягнення оптимального розподілу ресурсів у системі, а також певні види сховищ що краще виконують певні задачі, а також описано функціональні та нефункціональні вимоги до програмного продукту. Під час написання другого розділу був зроблений опис архітектури програмного забезпечення та його компонентів, за методологією IDEF0 були створені схеми для бізнес процесів програмного продукту в цілому та його окремих модулів. А також було розібрано у деталях потрібні для правильної роботи програми функції та параметри і описані сутності ключових змінних у базі даних. Під час написання третього розділу було проведено планування тестування програмного забезпечення сховища великих даних, що може змінювати свою внутрішню структуру у залежності від запиту користувача, що зможе виявити всі потенційні дефекти програмного забезпечення, які можуть призвести до небажаної поведінки системи в цілому та можливому погіршенню досвіду використання системи користувачами. У четвертому розділі було описано запуск програмного забезпечення і розглянути можливості до масштабування кластеру із серверів.

Опис

Ключові слова

великі дані, сховище великих даних, оптимальний розподіл ресурсів, big data, big data storage, optimal distribution of resources

Бібліографічний опис

Мамута, М. Д. Розподілене сховище даних на основі Apache Spark : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Мамута Максим Дмитрович. - Київ, 2020. - 129 с.

DOI