Розподілене сховище даних на основі Apache Spark

Олійник, Юрій ОлександровичМамута, Максим Дмитрович2021-02-222021-02-222020-06Мамута, М. Д. Розподілене сховище даних на основі Apache Spark : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Мамута Максим Дмитрович. - Київ, 2020. - 129 с.https://ela.kpi.ua/handle/123456789/39546Робота містить 23 рисунки і 17 таблиць. Кожного року зростає кількість запитів на отримання рішення проблеми збереження великого обсягу даних на проектах різноманітної складності. Робота із даними і удосконалення методів їх зберігання є доволі розповсюдженою задачею на сьогоднішній день у багатьох технологічних компанія, а також у окремих розробників. Щодня у світі з’являється велика кількість інформації, яка зберігається і структурується у сховищах і базах даних. А коли даних стає забагато для однієї бази даних, або маємо різні кінцеві цілі роботи з даними, то переходимо до використання багатьох сховищ і баз даних одночасно із встановленням взаємодій між ними, або ж готуємо сховище, яке може змінити свою внутрішню структуру у залежності від запиту користувача. Різноманітні види і структури сховищ та баз даних є націленими на оптимальне рішення лише вузького спектру задач, і маючи сховище що може втілювати у собі декілька різних типів і підходів до зберігання та обробки даних є перевагою. Теорія аналізу і роботи із великим обсягом даних є потужним інструментом для вирішення цілого ряду практичних і аналітичних проблем, таких як прогнозування результатів певної дії чи явища, розподіл даних за ознаками, ранжування їх за вагою і роллю. У першому розділі були розглянуті найбільш ефективні алгоритми і методи обробки великого обсягу даних для досягнення оптимального розподілу ресурсів у системі, а також певні види сховищ що краще виконують певні задачі, а також описано функціональні та нефункціональні вимоги до програмного продукту. Під час написання другого розділу був зроблений опис архітектури програмного забезпечення та його компонентів, за методологією IDEF0 були створені схеми для бізнес процесів програмного продукту в цілому та його окремих модулів. А також було розібрано у деталях потрібні для правильної роботи програми функції та параметри і описані сутності ключових змінних у базі даних. Під час написання третього розділу було проведено планування тестування програмного забезпечення сховища великих даних, що може змінювати свою внутрішню структуру у залежності від запиту користувача, що зможе виявити всі потенційні дефекти програмного забезпечення, які можуть призвести до небажаної поведінки системи в цілому та можливому погіршенню досвіду використання системи користувачами. У четвертому розділі було описано запуск програмного забезпечення і розглянути можливості до масштабування кластеру із серверів.ukвеликі данісховище великих данихоптимальний розподіл ресурсівbig databig data storageoptimal distribution of resourcesРозподілене сховище даних на основі Apache SparkBachelor Thesis129 с.004.75