Розподілене сховище даних на основі Apache Spark
Вантажиться...
Дата
2020-06
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Робота містить 23 рисунки і 17 таблиць.
Кожного року зростає кількість запитів на отримання рішення проблеми
збереження великого обсягу даних на проектах різноманітної складності.
Робота із даними і удосконалення методів їх зберігання є доволі
розповсюдженою задачею на сьогоднішній день у багатьох технологічних
компанія, а також у окремих розробників.
Щодня у світі з’являється велика кількість інформації, яка зберігається і
структурується у сховищах і базах даних. А коли даних стає забагато для однієї
бази даних, або маємо різні кінцеві цілі роботи з даними, то переходимо до
використання багатьох сховищ і баз даних одночасно із встановленням
взаємодій між ними, або ж готуємо сховище, яке може змінити свою
внутрішню структуру у залежності від запиту користувача.
Різноманітні види і структури сховищ та баз даних є націленими на
оптимальне рішення лише вузького спектру задач, і маючи сховище що може
втілювати у собі декілька різних типів і підходів до зберігання та обробки
даних є перевагою. Теорія аналізу і роботи із великим обсягом даних є
потужним інструментом для вирішення цілого ряду практичних і аналітичних
проблем, таких як прогнозування результатів певної дії чи явища, розподіл
даних за ознаками, ранжування їх за вагою і роллю.
У першому розділі були розглянуті найбільш ефективні алгоритми і
методи обробки великого обсягу даних для досягнення оптимального розподілу
ресурсів у системі, а також певні види сховищ що краще виконують певні
задачі, а також описано функціональні та нефункціональні вимоги до
програмного продукту.
Під час написання другого розділу був зроблений опис архітектури
програмного забезпечення та його компонентів, за методологією IDEF0 були
створені схеми для бізнес процесів програмного продукту в цілому та його
окремих модулів. А також було розібрано у деталях потрібні для правильної роботи програми функції та параметри і описані сутності ключових змінних у
базі даних.
Під час написання третього розділу було проведено планування
тестування програмного забезпечення сховища великих даних, що може
змінювати свою внутрішню структуру у залежності від запиту користувача, що
зможе виявити всі потенційні дефекти програмного забезпечення, які можуть
призвести до небажаної поведінки системи в цілому та можливому погіршенню
досвіду використання системи користувачами.
У четвертому розділі було описано запуск програмного забезпечення і
розглянути можливості до масштабування кластеру із серверів.
Опис
Ключові слова
великі дані, сховище великих даних, оптимальний розподіл ресурсів, big data, big data storage, optimal distribution of resources
Бібліографічний опис
Мамута, М. Д. Розподілене сховище даних на основі Apache Spark : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Мамута Максим Дмитрович. - Київ, 2020. - 129 с.