Реалізація швидкого парсеру повідомлень з різних гетерогенних джерел
Вантажиться...
Дата
2018
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
Робота виконана на 99 сторінках, містить 17 іллюстрацій, 27 таблиць. При
підготовці використовувалась література з 17 джерел.
Актуальність теми.
На сьогоднішній день обсяг даних стає занадто великим для того, щоб
була можлива їх обробка традиційними методами та алгоритмами. Таку
проблему з великою кількістю даних ще називають великими даними (big data),
а прикладом джерела такої кількості даних можуть бути гетерогенні джерела,
такі як соціальні мережі.
Тому розробка програмного забезпечення, що може якісно і швидко
завантажувати та обробляти дані з таких джерел є дуже актуальним напрямком
дослідження, у час, коли кількість даних в гетерогенних джерелах зростає з
небувалою швидкістю, а єдиного підходу для інтелектуального аналізу не існує.
Мета та задачі дослідження.
Метою даної роботи є дослідження методів та технологій аналізу даних з
гетерогенних джерел, з використанням різних засобів обробки великих даних.
Результатом приведених досліджень є практична частина роботи, що становить
собою реалізацію парсеру даних, що оброблює великі масиви даних та
апробація з використанням сучасних програмних засобів.
Рішення поставленних задач та досягнуті результати.
У даній роботі було запропоновано реалізацію парсера даних з таких
соціальних мереж як LinkedIn, Jooble, Dou. Апробацію такого парсеру було
виконано на локальному комп’ютері, а також в хмарному середовищі Google
App Engine. З отриманих результатів можна зробити висновок, що розроблена
програма-парсер вдало виконує свої функції, проте можливі її покращення,
детально описані в роботі.
Об’єкт досліджень.
Гетерогенні джерела, великі масиви даних.
Предмет досліджень
Моделі, алгоритми та способи вирішення задачі обробки даних з
гетерогенних джерел.
Методи досліджень.
Для вирішення проблеми в даній роботі використовуються методи
аналізу і синтезу, системного аналізу, порівняння, логічного узагальнення
результатів, проектування логічних структур даних.
Наукова новизна.
Наукова новизна роботи полягає у апробації сучасних моделей роботи з
великими даними для вирішення задачі обробки даних з гетерогенних джерел, а
саме соціальних мереж на прикладі LinkedIn, Dou та інших.
Практичне значення одержаних результатів.
Отримані результати можуть використовуватись в майбутніх
дослідженнях за напрямом створення моделей обробки даних з гетерогенних
джерел, враховуючи переваги та недоліки, а також способи та методи
продемонстровані в даній роботі. Завдяки науковій публікації, яку розміщено в
мережі інтернет, результати роботи будуть доступні за межами України.
Опис
Ключові слова
інтелектуальний аналіз даних, гетерогенні джерела даних, розподілені обчислення, великі дані
Бібліографічний опис
Сергеєв, Є. І. Реалізація швидкого парсеру повідомлень з різних гетерогенних джерел : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Сергеєв Єгор Ігорович. – Київ, 2018. – 99 с.