Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями

Вантажиться...
Ескіз

Дата

2020-12

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. Розвиток інформаційних технологій з кожним роком займає все більше значення у багатьох галузях людської життєдіяльності, це стимулює технічний прогрес у цілому і супроводжується створенням великої кількості даних. Завдяки цьому, все з більшою швидкістю розвиваються такі напрями інформаційних технологій як машинне навчання, штучний інтелект та аналіз даних. Але не у кожної компанії є можливість найняти собі такого спеціаліста або скористатись послугами провайдерів хмарних обчислень, тому економні методи аналізу даних стають все більш цікавими для невеликих підприємств чи приватних підприємців. Мета дослідження. Метою є побудова архітектурного рішення для аналізу великих масивів даних з мінімальним використанням оперативної пам’яті комп’ютера, а також реалізація веб додатку з використанням пропонованої архітектури. Для реалізації поставленої мети були сформульовані наступні завдання: дослідити існуючі методи аналізу даних; дослідити методи швидкого завантаження файлів на сервер; дослідити методи роботи з архівами даних; дослідити методи та формати зберігання великих обсягів даних на стороні серверу; дослідити бібліотеки для аналізу масивів даних; розробити експериментальне архітектурне рішення, використовуючи Python Jupyter Notebook; розробити мінімальні клієнтські та серверні компоненти для підтвердження ефективності запропонованої архітектури. Об’єкт дослідження – аналіз великих масивів статистичних даних. Предмет дослідження – аналіз даних на пристроях з низькими технічними можливостями. Наукова новизна: Наукова новизна полягає у розробці архітектмінімізуючи при цьому використання оперативної пам’яті, що призводить до більш дешевих обчислень ніж у аналогічних рішень. Практичне значення отриманих результатів визначається тим, що розроблено програмний продукт, який демонструє основні переваги запропонованого архітектурного рішення. Зв’язок роботи з науковими програмами, планами, темами: дисертація виконувалась в рамках ініціативної теми кафедри АСОІУ «Методи та технології в задача пошуку та збереження даних». Апробація: основні положення роботи доповідались і обговорювались на 5-й Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління»(ІСТУ-2020): Матеріали наукової конференції студентів, магістрантів та аспірантів, м. Київ, 27 листопада 2020. Публікації: Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями / Вальчук Д.В., Головченко М.М. // V Всеукраїнська науково-практична конференція молодих вчених та студентів «Інформаційні системи та технології управління»(ІСТУ-2020): Матеріали наукової конференції студентів, магістрантів та аспірантів, м. Київ, 27 листопада 2020.урного рішення, яке базується на використанні жорсткого диску серверного комп’ютера

Опис

Ключові слова

аналіз даних, машинне навчання, відображення файлів в пам’ять, набір даних, Python, Vaex, Apache Spark, data analysis, machine learning, memory mapping, dataset

Бібліографічний опис

Вальчук, Є. О. Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями : магістерська дис. : 121 Інженерія програмного забезпечення / Вальчук Дмитро Володимирович. – Київ, 2020. – 89 с.

ORCID

DOI