Реалізація швидкого парсеру повідомлень з різних гетерогенних джерел

dc.contributor.advisorКисельов, Геннадій Дмитрович
dc.contributor.authorСергеєв, Єгор Ігорович
dc.date.accessioned2019-03-26T15:53:26Z
dc.date.available2019-03-26T15:53:26Z
dc.date.issued2018
dc.description.abstractenWork carried out on 99 pages containing 17 figures, 27 tables. The paper was written with references to 17 different sources. Topicality. Nowadays amount of data becomes too large to be processed by traditional methods and algorithms. Such problem with large amount of data is also known as a “big data”, example of such data sources can be heterogeneous sources such as social networks. Therefore the development of software that can efficiently and quickly download and process data from such sources is a relevant area of research, in time when the amount of data in heterogeneous sources is increasing at an unpredictable rate, and there is no single approach for intellectual analysis. Purpose. The purpose of this work is to study the methods and technologies of data analysis from heterogeneous sources, using various methods for large data sources processing. Practical part of current work is the result of these research which is an implementation of data parser that processes large data sets and it’s testing using modern software tools and solutions. Solution. Implementation of high-speed data parser from social networks like LinkedIn, Jooble and Dou was proposed in this thesis. Testing of this parser was performed on local environment as well as in the cloud environment such as Google App Engine. It can be concluded that the developed parser successfully performs it’s functions but requires improvements described in thesis. The object of research. Heterogenous data sources, big data. The subject of research. Models, algorirhms and soutions for solving tasks such as heterogenous data sources processing. Research methods. To solve the problem in this research such methods were used: analysis and synthesis, system analysis, comparison, logical generalization of the results, design logical data structures. Scientific novelty. The scientific novelty lies in approbation of modern models for heterogenous data source processing like LinkedIn and Dou social networks. The practical value of research. The results obtained can be used in future research in the area of data processing from heterogeneous data sources models creation, taking into account advantages and disadvantages as well as methods demonstrated in this thesis. Thanks to a scientific publication posted on the Internet, the results from current thesis will be available outside of Ukraine.uk
dc.description.abstractruРабота выполнена на 99 страницах, содержит 17 иллюстраций, 27 таблиц. При подготовки использовалась литература из 17 источников. Актуальность темы. На сегодняшний день количество даных становится слишком большим для того, чтобы была возможность их обработки традиционными методами и алгоритмами. Такую проблему с большим количеством даных еще называют большими данными (big data), а примером источника такого количества даных могут быть гетерогенные источники, такие как социальные сети. Поэтому разработка програмного обеспечения, которое может качественно и быстро загружать и обрабатывать данные с таких источников является очень актуальным направлением исследований, во время, когда количество даных в гетерогенных источниках увеличивается с невообразимой скоростью, а единственного подхода для интеллектуального анализа не сувществует. Цель и задачи исследования. Целью данной работы является исследование методов и технологий анализа даных с гетерогенных источников, с использованием различных способов обработки больших данных. Результатом приведенных исслеований является практическая часть работы, что являет собой реализацию парсера даных, который обрабатывает большие массивы соответсвующих данных и апробация с использованием современных програмных средств. Решение поставленных задач и полученные результаты. В даной работе было предложено реализацию парсера данных с таких социальных сетей как LinkedIn, Jooble, Dou. Апробацию такого парсера было произведено на локальном компьютере, а также в облачной среде Google App Engine. С полученых результатов можна сделать следующие выводы, что разработанная програма-парсер справляется со своими задачами, однако её можно улучшить, соответствующие улучшения представленны в работе. Объект исследования. Гетерогенные источники, большие массивы данных. Предмет исследования. Модели, алгоритмы и способы решения задачи обработки даных с гетерогенных источников. Методы исследований. Для решения проблемы в работе используются методы анализа и синтеза, системного анализа, сравнения, логичного обобщения результатов, проектриования логических структур данных. Научная новизна. Научная новизна работы содержит апробацию современных моделей работы с большими данными для решения задачи обработки данных с гетерогенных источников, а именно социальных сетей на примере Twitter и Facebook. Практическое значение полученных результатов. Полученные результаты могут использоваться в последующих иследованнияв в направлении создания моделей обработки даных с гетерогенных источников, используя недостатки и приемущества, а также способы и методы продемонстрированные в данной работе. С помощью научной публикации, которую выставлено в сети интернет, результаты работы будут доступны за пределами Украины.uk
dc.description.abstractukРобота виконана на 99 сторінках, містить 17 іллюстрацій, 27 таблиць. При підготовці використовувалась література з 17 джерел. Актуальність теми. На сьогоднішній день обсяг даних стає занадто великим для того, щоб була можлива їх обробка традиційними методами та алгоритмами. Таку проблему з великою кількістю даних ще називають великими даними (big data), а прикладом джерела такої кількості даних можуть бути гетерогенні джерела, такі як соціальні мережі. Тому розробка програмного забезпечення, що може якісно і швидко завантажувати та обробляти дані з таких джерел є дуже актуальним напрямком дослідження, у час, коли кількість даних в гетерогенних джерелах зростає з небувалою швидкістю, а єдиного підходу для інтелектуального аналізу не існує. Мета та задачі дослідження. Метою даної роботи є дослідження методів та технологій аналізу даних з гетерогенних джерел, з використанням різних засобів обробки великих даних. Результатом приведених досліджень є практична частина роботи, що становить собою реалізацію парсеру даних, що оброблює великі масиви даних та апробація з використанням сучасних програмних засобів. Рішення поставленних задач та досягнуті результати. У даній роботі було запропоновано реалізацію парсера даних з таких соціальних мереж як LinkedIn, Jooble, Dou. Апробацію такого парсеру було виконано на локальному комп’ютері, а також в хмарному середовищі Google App Engine. З отриманих результатів можна зробити висновок, що розроблена програма-парсер вдало виконує свої функції, проте можливі її покращення, детально описані в роботі. Об’єкт досліджень. Гетерогенні джерела, великі масиви даних. Предмет досліджень Моделі, алгоритми та способи вирішення задачі обробки даних з гетерогенних джерел. Методи досліджень. Для вирішення проблеми в даній роботі використовуються методи аналізу і синтезу, системного аналізу, порівняння, логічного узагальнення результатів, проектування логічних структур даних. Наукова новизна. Наукова новизна роботи полягає у апробації сучасних моделей роботи з великими даними для вирішення задачі обробки даних з гетерогенних джерел, а саме соціальних мереж на прикладі LinkedIn, Dou та інших. Практичне значення одержаних результатів. Отримані результати можуть використовуватись в майбутніх дослідженнях за напрямом створення моделей обробки даних з гетерогенних джерел, враховуючи переваги та недоліки, а також способи та методи продемонстровані в даній роботі. Завдяки науковій публікації, яку розміщено в мережі інтернет, результати роботи будуть доступні за межами України.uk
dc.format.page99 с.uk
dc.identifier.citationСергеєв, Є. І. Реалізація швидкого парсеру повідомлень з різних гетерогенних джерел : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Сергеєв Єгор Ігорович. – Київ, 2018. – 99 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26917
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectінтелектуальний аналіз данихuk
dc.subjectгетерогенні джерела данихuk
dc.subjectрозподілені обчисленняuk
dc.subjectвеликі даніuk
dc.subject.udc004.453uk
dc.titleРеалізація швидкого парсеру повідомлень з різних гетерогенних джерелuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Serheiev_magistr.pdf
Розмір:
1.31 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: