Данилов, Валерій ЯковичОсетров, Антон Олександрович2021-12-012021-12-012021Осетров, А. О. Парсинг даних з вебсторінок з використанням методів машинного навчання : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Осетров Антон Олександрович. – Київ, 2021. – 90 с.https://ela.kpi.ua/handle/123456789/45331Дипломна робота: 93с., 6табл., 19рис., 2додатки., 23джерел Об’єкт дослідження - парсинг даних, методи кластеризації, методи комп’ютерного зору. Мета роботи - проаналізувати існуючі методи парсингу даних, реалізувати програмний продукт, що дозволить пришвидшити процес парсингу даних та їх бажана структуризація. Використання віддалених серверів для деплойменту сервісу, як спосіб незалежного використання ресурсів багатьма клієнтами. Методи дослідження – методи машинного навчання; кластеризація даних алгоритмом DBSCAN; розпізнання тексту методами комп’ютерного зору. Актуальність - пришвидшення роботи програмістів в сфері парсингу даних, відповідно зменшення затрат людських ресурсів на виконання задач такого типу, які в наш час є дуже популярними і потребують значних затрат. Результати роботи - було створено (і викладено на віддалений сервер) застосунковий веб інтерфейс за сучасними стандартами і протоколами створення веб сервісів, що допомагає дуже швидко парсити дані з будь-яких веб сторінок та створювати правила структуризації цих даних, що допомагає запам’ятовувати ці правила на віддаленому сервері та модифікувати за потребою, а в подальшому парсити інші набори даних з сайту за бажаними правилами. Шляхи подальшого розвитку продукту – глибше дослідження можливостей машинного навчання та штучного інтелекту для задач парсингу даних, використання алгоритмів дата майнінгу для аналізу суттєвості даних та автоматичної структуризації їх замість мануальної, використання алгоритмів комп’ютерного зору для більш чіткої кластеризації веб сторінок ще до етапу парсингу DOM-дерева.ukмашинне навчанняпарсинг данихrest сервіс для взаємодії по http протоколукластеризаціяmachine learningdata parsingrest service for interaction according to http protocolclusteringПарсинг даних з вебсторінок з використанням методів машинного навчанняBachelor Thesis90 с.