Розподілене машинне навчання з використанням технології Apache Spark
dc.contributor.advisor | Олійник, Юрій Олександрович | |
dc.contributor.author | Мірошник, Олексій Сергійович | |
dc.date.accessioned | 2021-03-01T12:17:49Z | |
dc.date.available | 2021-03-01T12:17:49Z | |
dc.date.issued | 2020-05 | |
dc.description.abstract | Магістерська дисертація: 102 с., 40 рис., 1 табл., 2 додатки, 62 джерела. Актуальність теми: засоби машинного навчання використовується там, де звичайні алгоритми не можуть бути застосовані через складність задачі та неможливість вирішення її традиційними методами. Проте, об’єми даних необхідні для навчання невпинно ростуть і все частіше не можуть бути швидко та ефективно опрацьовані одним робочим пристроєм. Вирішенням цієї проблеми є використання розподілених обчислень та застосування таких підходів до задач машинного навчання з використанням розподілених систем з декількома обчислювальними вузлами та мережевою взаємодією між ними. За рахунок розподілення можна не лише пришвидшити навчання, а й збільшити пропускну здатність, використовувати потоки даних, виконувати оптимізації над моделями, навчати різні версії паралельно тощо. Мета дослідження: прискорення машинного навчання за рахунок методу розподіленого машинного навчання на прикладі вирішення задачі пошуку аномалій з використанням дерев ізоляцій. Для реалізації поставленої мети були сформульовані наступні завдання: виконати аналіз існуючих методів та підходів до розподіленого машинного навчання; збір навчальних даних та формування наборів для виконання розподілення; розробити метод розподіленого машинного навчання на прикладі алгоритму дерев ізоляцій; тестування та аналіз ефективності отриманого методу; визначення подальшого напрямку досліджень. Об’єкт дослідження: процеси розподіленого машинного навчання. Предмет дослідження: методи розподіленого машинного навчання. Методи дослідження: для розв’язання поставленої задачі використовувались дерева та ліс ізоляцій, розподілені обчислення, файлова система GFS, обчислювальний підхід MapReduce, потоки даних. Наукова новизна: науковим результатом магістерської дисертації є створення методу розподіленого навчання на основі використання розподілених даних, обчислювальних ресурсів та залучення потокової обробки даних. Практичне значення отриманих результатів: визначається тим, що запропонований метод дозволяє прискорити навчання моделей з використанням дерев ізоляцій, збільшити відмовостійкість системи, підтримувати прозору масштабованість для користувача. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: основні положення роботи доповідались і обговорювались на IV всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020), а також на ХVІ міжнародній науковій конференції «Інтелектуальні системи прийняття рішень та проблеми обчислювального інтелекту (ISDMCI’2020)» результати магістерської дисертації докладались на наукових конференціях. | uk |
dc.description.abstracten | Master dissertation: 102 p., 40 fig., 1 tab., 2 sup., 62 sources. Relevance: machine learning methods are used where conventional algorithms cannot be applied due to the complexity of the problem and the impossibility of solving it by traditional methods. However, the amount of data needed for learning is constantly growing and increasingly cannot be processed quickly and efficiently by a single work device. The solution to this problem is the use of distributed computing and the application of such approaches to machine learning problems using distributed systems with multiple computing nodes and network interaction between them. Distribution can not only speed up learning, but also increase bandwidth, use data streams, perform optimizations on models, teach different versions in parallel, and more. Purpose: an acceleration of machine learning due to the method of distributed machine learning on the example of solving the problem of finding anomalies using isolation trees. To achieve this goal, the following tasks were formulated: perform an analysis of existing methods and approaches to distributed machine learning; collection of training data and formation of sets for distribution; to develop a method of distributed machine learning on the example of the isolation tree algorithm; testing and analysis of the effectiveness of the obtained method; determining the further direction of research. Object of study: processes of distributed machine learning. Subject of study: methods of distributed machine learning. Research methods: isolation forest and trees, distributed computing, GFS file system, MapReduce computational approach, data flows were used to solve this problem. Scientific novelty: The scientific result of the master's dissertation is the creation of a method of distributed learning based on the use of distributed data, computing resources and the involvement of streaming data processing. The practical value: is determined by the fact that the proposed method allows to accelerate the learning of models using isolation trees, increase the fault tolerance of the system, and maintain transparent scalability for the user. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the Igor Sikorsky National Technical University of Ukraine «Kyiv Polytechnic Institute» within the topic «Methods and technologies of high-performance computing and processing of large data sets». State registration number 0117U000924. Approbation: The main provisions of the work were reported and discussed at the IV All-Ukrainian Scientific and Practical Conference of Young Scientists and Students «Information Systems and Management Technologies» (ISTU- 2020), as well as at the XVI International Scientific Conference «Intellectual Systems of Decision-making and Problem of Computational Intelligence» (ISDMCI'2020). | uk |
dc.format.page | 102 с. | uk |
dc.identifier.citation | Мірошник, О. С. Розподілене машинне навчання з використанням технології Apache Spark : магістерська дис. : 121 Інженерія програмного забезпечення / Мірошник Олексій Сергійович. – Київ, 2020. – 102 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/39707 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | машинне навчання | uk |
dc.subject | розподілене навчання | uk |
dc.subject | пошук аномалій | uk |
dc.subject | потокова обробка | uk |
dc.subject | потоки даних | uk |
dc.subject | machine learning | uk |
dc.subject | distributed learning | uk |
dc.subject | anomaly detection | uk |
dc.subject | stream processing | uk |
dc.subject | data flows | uk |
dc.subject.udc | 004 | uk |
dc.title | Розподілене машинне навчання з використанням технології Apache Spark | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Miroshnyk_magistr.pdf
- Розмір:
- 2.44 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: