Парсинг даних з вебсторінок з використанням методів машинного навчання
dc.contributor.advisor | Данилов, Валерій Якович | |
dc.contributor.author | Осетров, Антон Олександрович | |
dc.date.accessioned | 2021-12-01T10:17:14Z | |
dc.date.available | 2021-12-01T10:17:14Z | |
dc.date.issued | 2021 | |
dc.description.abstracten | Diploma work: 93p., 6tabl., 19fig., 2appendces., 23sources The object of research - data parsing, clustering methods, computer vision methods. The purpose of the work - to analyze existing methods of data parsing, to implement a software product that will accelerate the process of data parsing and their desired structuring. Using remote servers to deploy a service as a way for many clients to use resources independently. Research methods - machine learning methods; data clustering by DBSCAN algorithm; text recognition by computer vision. Relevance - speeding up the work of programmers in the field of data parsing, respectively, reducing the cost of human resources to perform tasks of this type, which are very popular today and require significant costs. Results - a web-based application interface was created (and uploaded to a remote server) according to modern standards and protocols for creating web services, which helps to very quickly parse data from any web page and create rules for structuring this data, which helps to remember these rules on a remote server and modify as needed, and then parse other datasets from the site according to the desired rules. Ways of further product development - in-depth study of machine learning and artificial intelligence capabilities for data parsing, use of data mining algorithms to analyze data materiality and automatic structuring instead of manual, use of computer vision algorithms for clearer clustering of web pages before DOM parsing. | uk |
dc.description.abstractuk | Дипломна робота: 93с., 6табл., 19рис., 2додатки., 23джерел Об’єкт дослідження - парсинг даних, методи кластеризації, методи комп’ютерного зору. Мета роботи - проаналізувати існуючі методи парсингу даних, реалізувати програмний продукт, що дозволить пришвидшити процес парсингу даних та їх бажана структуризація. Використання віддалених серверів для деплойменту сервісу, як спосіб незалежного використання ресурсів багатьма клієнтами. Методи дослідження – методи машинного навчання; кластеризація даних алгоритмом DBSCAN; розпізнання тексту методами комп’ютерного зору. Актуальність - пришвидшення роботи програмістів в сфері парсингу даних, відповідно зменшення затрат людських ресурсів на виконання задач такого типу, які в наш час є дуже популярними і потребують значних затрат. Результати роботи - було створено (і викладено на віддалений сервер) застосунковий веб інтерфейс за сучасними стандартами і протоколами створення веб сервісів, що допомагає дуже швидко парсити дані з будь-яких веб сторінок та створювати правила структуризації цих даних, що допомагає запам’ятовувати ці правила на віддаленому сервері та модифікувати за потребою, а в подальшому парсити інші набори даних з сайту за бажаними правилами. Шляхи подальшого розвитку продукту – глибше дослідження можливостей машинного навчання та штучного інтелекту для задач парсингу даних, використання алгоритмів дата майнінгу для аналізу суттєвості даних та автоматичної структуризації їх замість мануальної, використання алгоритмів комп’ютерного зору для більш чіткої кластеризації веб сторінок ще до етапу парсингу DOM-дерева. | uk |
dc.format.page | 90 с. | uk |
dc.identifier.citation | Осетров, А. О. Парсинг даних з вебсторінок з використанням методів машинного навчання : дипломна робота ... бакалавра : 122 Комп'ютерні науки / Осетров Антон Олександрович. – Київ, 2021. – 90 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/45331 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | машинне навчання | uk |
dc.subject | парсинг даних | uk |
dc.subject | rest сервіс для взаємодії по http протоколу | uk |
dc.subject | кластеризація | uk |
dc.subject | machine learning | uk |
dc.subject | data parsing | uk |
dc.subject | rest service for interaction according to http protocol | uk |
dc.subject | clustering | uk |
dc.title | Парсинг даних з вебсторінок з використанням методів машинного навчання | uk |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Ескіз недоступний
- Назва:
- Osetrov_bakalavr.docx
- Розмір:
- 3.79 MB
- Формат:
- Microsoft Word XML
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.01 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: