Способи і засоби розподіленої обробки часових рядів в кластерних системах

Вантажиться...
Ескіз

Дата

2023

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. У сучасну цифрову епоху кількість даних, що генеруються, зростає в геометричній прогресії. Їх аналіз є дуже важливим, оскільки допомагає приймати обґрунтовані рішення, виявляти тенденції та закономірності, а також для виявлення нових бізнес-можливостей, покращення обслуговування клієнтів та розробки нових продуктів чи послуг. Це створює нагальну потребу в ефективних і масштабованих методах обробки та аналізу великих обсягів даних. Часові ряди є важливим типом даних для бізнесу, оскільки вони дають уявлення про тенденції та закономірності, які можуть бути використані для прогнозування та прийняття рішень. У роботі проводиться аналіз способів і засобів розподіленої обробки та прогнозування часових рядів на кластері. Підвищення їх ефективності є актуальним в галузі роздрібнаої торгівлі. Підприємства роздрібної торгівлі генерують величезні обсяги даних часових рядів з різних джерел, включаючи операції продажу, рівень запасів та інформацію про поведінку клієнтів. Швидка та ефективна обробка історичних даних надасть змогу робити точні прогнози продажів і попиту, що в свою чергу дозволить підприємствам оптимізувати рівень запасів і підвищити дохід. Найпопулярнішим на сьогодні рішенням є використання інструментів та підходів, що надають хмарні сервіси. Проте, таке рішення недостатньо гнучке і потребує складної інтеграції даних. Тому існує потреба в легкомасштабованих та гнучких засобах для розподіленої обробки часових рядів. Метою є підвищення ефективності алгоритмів обробки часових рядів шляхом використання розподілених обчислень на кластері. Об’єктом дослідження є обробка великих обсягів даних з використанням кластерних систем. Предметом дослідження є способи та алгоритми розподіленої обробки часових рядів в кластерних системах. Наукова новизна полягає в наступному: 1. Запропоновано новий алгоритм для обробки часових рядів з використанням проекцій багатовимірних масивів, що дозволить суттєво зменшити час їх обробки та об’єми використовуваної для обчислень пам’яті. 2. Запропоновано модифікацію існуючих алгоритмів прогнозування часових рядів для розподіленого виконання на кластері шляхом використання синхронного навчання моделей. 3. Виконано програмну реалізацію запропонованих алгоритмів обробки та прогнозування, яка доводить їх ефективність. Практична цінність: запропоновані в дисертації алгоритми та засоби розподіленої обробки дозволять суттєво збільшити швидкість обробки великої кількості часових рядів. Це сприятиме підвищенню ефективності прогнозування у багатьох галузях: фінансовому прогнозуванні, прогнозуванні попиту на енергію, прогнозуванні продажів в сфері роздрібної торгівлі тощо. Розроблені алгоритми можуть бути легко інтегровані в програмні засоби для розподіленої обробки і прогнозування часових рядів, надаючи користувачам зручні і масштабовані інструменти. Апробація роботи. Основні положення і результати роботи представлено та обговорювалось на XV науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2022 (Київ, КПІ, ФПМ, 16-18 листопада 2022 р.) та на 89 міжнародній науковій конференції молодих учених, аспірантів і студентів «Наукові здобутки молоді – вирішенню проблем харчування людства у XXI ст.» (Київ, НУХТ, 3-7 квітня 2023 р.). Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів та висновків. У вступі надано оцінку сучасного стану проблеми, наведено обґрунтування актуальності напряму дослідження, а також формулювання мети та завдань дослідження. У першому розділі досліджено існуючі способи і засоби для розподіленої обробки даних часових рядів, виявлено основні переваги та недоліки, визначено шляхи їх вдосконалення. У другому розділі розглянуто основні технології, способи та засоби для роботи з великими обсягами даних. Представлено сучасні підходи для розподіленого глибинного навчання. У третьому розділі представлено опис запропонованого алгоритму для підготовки даних та модифікованих алгоритмів прогнозування часових рядів. Надано загальний підхід до програмної реалізації алгоритмів. У четвертому розділі досліджено ефективність запропонованих алгоритмів обробки та прогнозування часових рядів на кластері. У висновках представлені результати проведеної роботи. Робота представлена на 90 аркушах, містить посилання на список використаних літературних джерел.

Опис

Ключові слова

часові ряди, розподілена обробка, time series, distributed processing

Бібліографічний опис

Туркін, М. П. Способи і засоби розподіленої обробки часових рядів в кластерних системах : магістерська дис. : 123 Комп’ютерна інженерія / Туркін Михайло Павлович. – Київ, 2023. – 98 с.

DOI