Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями
Вантажиться...
Дата
2020-12
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Розвиток інформаційних технологій з кожним роком займає все більше значення у багатьох галузях людської життєдіяльності, це стимулює технічний прогрес у цілому і супроводжується створенням великої кількості даних. Завдяки цьому, все з більшою швидкістю розвиваються такі напрями інформаційних технологій як машинне навчання, штучний інтелект та аналіз даних. Але не у кожної компанії є можливість найняти собі такого спеціаліста або скористатись послугами провайдерів хмарних обчислень, тому економні методи аналізу даних стають все більш цікавими для невеликих підприємств чи приватних підприємців.
Мета дослідження. Метою є побудова архітектурного рішення для аналізу великих масивів даних з мінімальним використанням оперативної пам’яті комп’ютера, а також реалізація веб додатку з використанням пропонованої архітектури.
Для реалізації поставленої мети були сформульовані наступні завдання:
дослідити існуючі методи аналізу даних;
дослідити методи швидкого завантаження файлів на сервер;
дослідити методи роботи з архівами даних;
дослідити методи та формати зберігання великих обсягів даних на стороні серверу;
дослідити бібліотеки для аналізу масивів даних;
розробити експериментальне архітектурне рішення, використовуючи Python Jupyter Notebook;
розробити мінімальні клієнтські та серверні компоненти для підтвердження ефективності запропонованої архітектури.
Об’єкт дослідження – аналіз великих масивів статистичних даних.
Предмет дослідження – аналіз даних на пристроях з низькими технічними можливостями.
Наукова новизна: Наукова новизна полягає у розробці архітектмінімізуючи при цьому використання оперативної пам’яті, що призводить до більш дешевих обчислень ніж у аналогічних рішень.
Практичне значення отриманих результатів визначається тим, що розроблено програмний продукт, який демонструє основні переваги запропонованого архітектурного рішення.
Зв’язок роботи з науковими програмами, планами, темами: дисертація виконувалась в рамках ініціативної теми кафедри АСОІУ «Методи та технології в задача пошуку та збереження даних».
Апробація: основні положення роботи доповідались і обговорювались на 5-й Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління»(ІСТУ-2020): Матеріали наукової конференції студентів, магістрантів та аспірантів, м. Київ, 27 листопада 2020.
Публікації:
Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями / Вальчук Д.В., Головченко М.М. // V Всеукраїнська науково-практична конференція молодих вчених та студентів «Інформаційні системи та технології управління»(ІСТУ-2020): Матеріали наукової конференції студентів, магістрантів та аспірантів, м. Київ, 27 листопада 2020.урного рішення, яке базується на використанні жорсткого диску серверного комп’ютера
Опис
Ключові слова
аналіз даних, машинне навчання, відображення файлів в пам’ять, набір даних, Python, Vaex, Apache Spark, data analysis, machine learning, memory mapping, dataset
Бібліографічний опис
Вальчук, Є. О. Архітектурне рішення для обробки великих обсягів статистичних даних на пристроях з низькими технічними можливостями : магістерська дис. : 121 Інженерія програмного забезпечення / Вальчук Дмитро Володимирович. – Київ, 2020. – 89 с.