Кисельов, Геннадій ДмитровичСергеєв, Єгор Ігорович2019-03-262019-03-262018Сергеєв, Є. І. Реалізація швидкого парсеру повідомлень з різних гетерогенних джерел : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Сергеєв Єгор Ігорович. – Київ, 2018. – 99 с.https://ela.kpi.ua/handle/123456789/26917Робота виконана на 99 сторінках, містить 17 іллюстрацій, 27 таблиць. При підготовці використовувалась література з 17 джерел. Актуальність теми. На сьогоднішній день обсяг даних стає занадто великим для того, щоб була можлива їх обробка традиційними методами та алгоритмами. Таку проблему з великою кількістю даних ще називають великими даними (big data), а прикладом джерела такої кількості даних можуть бути гетерогенні джерела, такі як соціальні мережі. Тому розробка програмного забезпечення, що може якісно і швидко завантажувати та обробляти дані з таких джерел є дуже актуальним напрямком дослідження, у час, коли кількість даних в гетерогенних джерелах зростає з небувалою швидкістю, а єдиного підходу для інтелектуального аналізу не існує. Мета та задачі дослідження. Метою даної роботи є дослідження методів та технологій аналізу даних з гетерогенних джерел, з використанням різних засобів обробки великих даних. Результатом приведених досліджень є практична частина роботи, що становить собою реалізацію парсеру даних, що оброблює великі масиви даних та апробація з використанням сучасних програмних засобів. Рішення поставленних задач та досягнуті результати. У даній роботі було запропоновано реалізацію парсера даних з таких соціальних мереж як LinkedIn, Jooble, Dou. Апробацію такого парсеру було виконано на локальному комп’ютері, а також в хмарному середовищі Google App Engine. З отриманих результатів можна зробити висновок, що розроблена програма-парсер вдало виконує свої функції, проте можливі її покращення, детально описані в роботі. Об’єкт досліджень. Гетерогенні джерела, великі масиви даних. Предмет досліджень Моделі, алгоритми та способи вирішення задачі обробки даних з гетерогенних джерел. Методи досліджень. Для вирішення проблеми в даній роботі використовуються методи аналізу і синтезу, системного аналізу, порівняння, логічного узагальнення результатів, проектування логічних структур даних. Наукова новизна. Наукова новизна роботи полягає у апробації сучасних моделей роботи з великими даними для вирішення задачі обробки даних з гетерогенних джерел, а саме соціальних мереж на прикладі LinkedIn, Dou та інших. Практичне значення одержаних результатів. Отримані результати можуть використовуватись в майбутніх дослідженнях за напрямом створення моделей обробки даних з гетерогенних джерел, враховуючи переваги та недоліки, а також способи та методи продемонстровані в даній роботі. Завдяки науковій публікації, яку розміщено в мережі інтернет, результати роботи будуть доступні за межами України.ukінтелектуальний аналіз данихгетерогенні джерела данихрозподілені обчисленнявеликі даніРеалізація швидкого парсеру повідомлень з різних гетерогенних джерелMaster Thesis99 с.004.453