Парсинг даних з вебсторінок з використанням методів машинного навчання

dc.contributor.advisorДанилов, Валерій Якович
dc.contributor.authorОсетров, Антон Олександрович
dc.date.accessioned2021-12-01T10:17:14Z
dc.date.available2021-12-01T10:17:14Z
dc.date.issued2021
dc.description.abstractenDiploma work: 93p., 6tabl., 19fig., 2appendces., 23sources The object of research - data parsing, clustering methods, computer vision methods. The purpose of the work - to analyze existing methods of data parsing, to implement a software product that will accelerate the process of data parsing and their desired structuring. Using remote servers to deploy a service as a way for many clients to use resources independently. Research methods - machine learning methods; data clustering by DBSCAN algorithm; text recognition by computer vision. Relevance - speeding up the work of programmers in the field of data parsing, respectively, reducing the cost of human resources to perform tasks of this type, which are very popular today and require significant costs. Results - a web-based application interface was created (and uploaded to a remote server) according to modern standards and protocols for creating web services, which helps to very quickly parse data from any web page and create rules for structuring this data, which helps to remember these rules on a remote server and modify as needed, and then parse other datasets from the site according to the desired rules. Ways of further product development - in-depth study of machine learning and artificial intelligence capabilities for data parsing, use of data mining algorithms to analyze data materiality and automatic structuring instead of manual, use of computer vision algorithms for clearer clustering of web pages before DOM parsing.uk
dc.description.abstractukДипломна робота: 93с., 6табл., 19рис., 2додатки., 23джерел Об’єкт дослідження - парсинг даних, методи кластеризації, методи комп’ютерного зору. Мета роботи - проаналізувати існуючі методи парсингу даних, реалізувати програмний продукт, що дозволить пришвидшити процес парсингу даних та їх бажана структуризація. Використання віддалених серверів для деплойменту сервісу, як спосіб незалежного використання ресурсів багатьма клієнтами. Методи дослідження – методи машинного навчання; кластеризація даних алгоритмом DBSCAN; розпізнання тексту методами комп’ютерного зору. Актуальність - пришвидшення роботи програмістів в сфері парсингу даних, відповідно зменшення затрат людських ресурсів на виконання задач такого типу, які в наш час є дуже популярними і потребують значних затрат. Результати роботи - було створено (і викладено на віддалений сервер) застосунковий веб інтерфейс за сучасними стандартами і протоколами створення веб сервісів, що допомагає дуже швидко парсити дані з будь-яких веб сторінок та створювати правила структуризації цих даних, що допомагає запам’ятовувати ці правила на віддаленому сервері та модифікувати за потребою, а в подальшому парсити інші набори даних з сайту за бажаними правилами. Шляхи подальшого розвитку продукту – глибше дослідження можливостей машинного навчання та штучного інтелекту для задач парсингу даних, використання алгоритмів дата майнінгу для аналізу суттєвості даних та автоматичної структуризації їх замість мануальної, використання алгоритмів комп’ютерного зору для більш чіткої кластеризації веб сторінок ще до етапу парсингу DOM-дерева.uk
dc.format.page90 с.uk
dc.identifier.citationОсетров, А. О. Парсинг даних з вебсторінок з використанням методів машинного навчання : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Осетров Антон Олександрович. – Київ, 2021. – 90 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/45331
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectмашинне навчанняuk
dc.subjectпарсинг данихuk
dc.subjectrest сервіс для взаємодії по http протоколуuk
dc.subjectкластеризаціяuk
dc.subjectmachine learninguk
dc.subjectdata parsinguk
dc.subjectrest service for interaction according to http protocoluk
dc.subjectclusteringuk
dc.titleПарсинг даних з вебсторінок з використанням методів машинного навчанняuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Osetrov_bakalavr.docx
Розмір:
3.79 MB
Формат:
Microsoft Word XML
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.01 KB
Формат:
Item-specific license agreed upon to submission
Опис: