Парсинг даних з вебсторінок з використанням методів машинного навчання
Ескіз недоступний
Дата
2021
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 93с., 6табл., 19рис., 2додатки., 23джерел
Об’єкт дослідження - парсинг даних, методи кластеризації, методи комп’ютерного зору.
Мета роботи - проаналізувати існуючі методи парсингу даних, реалізувати програмний продукт, що дозволить пришвидшити процес парсингу даних та їх бажана структуризація. Використання віддалених серверів для деплойменту сервісу, як спосіб незалежного використання ресурсів багатьма клієнтами.
Методи дослідження – методи машинного навчання; кластеризація даних алгоритмом DBSCAN; розпізнання тексту методами комп’ютерного зору.
Актуальність - пришвидшення роботи програмістів в сфері парсингу даних, відповідно зменшення затрат людських ресурсів на виконання задач такого типу, які в наш час є дуже популярними і потребують значних затрат.
Результати роботи - було створено (і викладено на віддалений сервер) застосунковий веб інтерфейс за сучасними стандартами і протоколами створення веб сервісів, що допомагає дуже швидко парсити дані з будь-яких веб сторінок та створювати правила структуризації цих даних, що допомагає запам’ятовувати ці правила на віддаленому сервері та модифікувати за потребою, а в подальшому парсити інші набори даних з сайту за бажаними правилами.
Шляхи подальшого розвитку продукту – глибше дослідження можливостей машинного навчання та штучного інтелекту для задач парсингу даних, використання алгоритмів дата майнінгу для аналізу суттєвості даних та автоматичної структуризації їх замість мануальної, використання алгоритмів комп’ютерного зору для більш чіткої кластеризації веб сторінок ще до етапу парсингу DOM-дерева.
Опис
Ключові слова
машинне навчання, парсинг даних, rest сервіс для взаємодії по http протоколу, кластеризація, machine learning, data parsing, rest service for interaction according to http protocol, clustering
Бібліографічний опис
Осетров, А. О. Парсинг даних з вебсторінок з використанням методів машинного навчання : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Осетров Антон Олександрович. – Київ, 2021. – 90 с.