Розподілене сховище даних на основі Apache Spark
dc.contributor.advisor | Олійник, Юрій Олександрович | |
dc.contributor.author | Мамута, Максим Дмитрович | |
dc.date.accessioned | 2021-02-22T08:45:33Z | |
dc.date.available | 2021-02-22T08:45:33Z | |
dc.date.issued | 2020-06 | |
dc.description.abstracten | The work contains 23 drawings and 17 tables. Every year, problem of storing large amounts of data on projects of varying complexity increases the number of requests for a solution to. Working with data and improving storage methods is a fairly common task today for many technology companies, as well as individual developers. Every day, a large amount of information appears in the world, which is stored and structured in repositories and databases. And when there is too much data for one database, or we have different end goals for working with data, we move on to using many repositories and databases while interacting between them, or prepare a repository that can change its internal structure depending on the user request. The various types and structures of repositories and databases are aimed at optimally solving only a narrow range of tasks, and having a repository that can embody several different types and approaches to data storage and processing is an advantage. The theory of analysis and work with a large amount of data is a powerful tool for solving a number of practical and analytical problems, such as predicting the results of a particular action or phenomenon, the distribution of data by characteristics, ranking them by weight and role. The first section discusses the most efficient algorithms and methods for processing large amounts of data, achieve optimal resource allocation in the system, as well as certain types of storage that better perform certain tasks, and describes the functional and non-functional requirements for the software product. During the writing of the second section, was made a description of the software architecture and its components, according to the IDEF0 methodology, was created schemes for business processes of the software product as a whole and its individual modules. It also analyzed in detail the functions and parameters required for the proper operation of the program and described the essence of key variables in the database. During the writing of the third section, testing of large data warehouse software was planned, which may change its internal structure depending on the user's request, which will be able to detect all potential software defects that could lead to undesirable system behavior and possible deterioration system users. The fourth section describes how to run the software and consider how to scale the cluster of the servers. | uk |
dc.description.abstractuk | Робота містить 23 рисунки і 17 таблиць. Кожного року зростає кількість запитів на отримання рішення проблеми збереження великого обсягу даних на проектах різноманітної складності. Робота із даними і удосконалення методів їх зберігання є доволі розповсюдженою задачею на сьогоднішній день у багатьох технологічних компанія, а також у окремих розробників. Щодня у світі з’являється велика кількість інформації, яка зберігається і структурується у сховищах і базах даних. А коли даних стає забагато для однієї бази даних, або маємо різні кінцеві цілі роботи з даними, то переходимо до використання багатьох сховищ і баз даних одночасно із встановленням взаємодій між ними, або ж готуємо сховище, яке може змінити свою внутрішню структуру у залежності від запиту користувача. Різноманітні види і структури сховищ та баз даних є націленими на оптимальне рішення лише вузького спектру задач, і маючи сховище що може втілювати у собі декілька різних типів і підходів до зберігання та обробки даних є перевагою. Теорія аналізу і роботи із великим обсягом даних є потужним інструментом для вирішення цілого ряду практичних і аналітичних проблем, таких як прогнозування результатів певної дії чи явища, розподіл даних за ознаками, ранжування їх за вагою і роллю. У першому розділі були розглянуті найбільш ефективні алгоритми і методи обробки великого обсягу даних для досягнення оптимального розподілу ресурсів у системі, а також певні види сховищ що краще виконують певні задачі, а також описано функціональні та нефункціональні вимоги до програмного продукту. Під час написання другого розділу був зроблений опис архітектури програмного забезпечення та його компонентів, за методологією IDEF0 були створені схеми для бізнес процесів програмного продукту в цілому та його окремих модулів. А також було розібрано у деталях потрібні для правильної роботи програми функції та параметри і описані сутності ключових змінних у базі даних. Під час написання третього розділу було проведено планування тестування програмного забезпечення сховища великих даних, що може змінювати свою внутрішню структуру у залежності від запиту користувача, що зможе виявити всі потенційні дефекти програмного забезпечення, які можуть призвести до небажаної поведінки системи в цілому та можливому погіршенню досвіду використання системи користувачами. У четвертому розділі було описано запуск програмного забезпечення і розглянути можливості до масштабування кластеру із серверів. | uk |
dc.format.page | 129 с. | uk |
dc.identifier.citation | Мамута, М. Д. Розподілене сховище даних на основі Apache Spark : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Мамута Максим Дмитрович. - Київ, 2020. - 129 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/39546 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | великі дані | uk |
dc.subject | сховище великих даних | uk |
dc.subject | оптимальний розподіл ресурсів | uk |
dc.subject | big data | uk |
dc.subject | big data storage | uk |
dc.subject | optimal distribution of resources | uk |
dc.subject.udc | 004.75 | uk |
dc.title | Розподілене сховище даних на основі Apache Spark | uk |
dc.type | Bachelor Thesis | uk |