Система добування текстової інформації з множини веб-сторінок для побудови графу знань

dc.contributor.advisorМажара, Ольга Олександрівна
dc.contributor.authorДуда, Володимир Олександрович
dc.contributor.authorШилюк, Девід Васильович
dc.date.accessioned2022-05-11T10:38:49Z
dc.date.available2022-05-11T10:38:49Z
dc.date.issued2021-06
dc.descriptionСистема добування текстової інформації з множини веб-сторінок для побудови графу знань. Розробка серверної частини. Індивідуальна частина 2: https://ela.kpi.ua/handle/123456789/47288 Система добування текстової інформації з множини веб-сторінок для побудови графу знань. Розробка графічної частини та побудова графу знань. Індивідуальна частина 3: https://ela.kpi.ua/handle/123456789/47289uk
dc.description.abstractПояснювальна записка дипломного проєкту складається з п‘яти розділів, містить 10 рисунків, 1 таблицю, 1 додаток, 14 джерел. Дипломний проєкт присвячений розробці інформаційної системи екстракції текстової інформації з множини веб-сторінок на основі їх структури та аналізу запитів користувача. Метою роботи було запропонувати рішення, яке дозволить інженерам знань досліджувати методи екстракції та виокремлювати значимі характеристики веб-сторінки для завантаження динамічної інформації. Для досягнення поставленої мети було проаналізовано існуючі підходи до екстракції, виокремлено їх переваги та недоліки. Представлена архітектура та програмна реалізація фреймворку аналізу запитів користувача для аналізу параметрів запитів, які дозволяють динамічно отримувати додаткову інформацію без перезавантаження сторінки. Як приклад використання видобутих даних було використано рішення побудови графу знань. У розділі інформаційного забезпечення надано інформацію про існуючі рішення екстракції даних з множини веб сторінок. Обґрунтовано доцільність використання моделей на основі структурних даних сторінки. Наведено постановку задачі та визначено вхідні та вихідні дані. Розділ математичного забезпечення присвячений вирішенню задачі побудови графа знань. Виокремлено етапи побудови графу знань. Представлено підходи до реалізації кожного етапу та описано використані методи.uk
dc.description.abstractenStructure and scope of work. The explanatory note of the diploma project consists of five sections, contains 10 figures, 1 table, 1 appendix, 14 sources. The diploma project is devoted to the development of an information system for the extraction of textual information from many web pages based on their structure and analysis of user requests. The aim of the work was to propose a solution that will allow knowledge engineers to explore extraction methods and identify significant characteristics of a web page to load dynamic information. To achieve this goal, the existing approaches to extraction were analyzed, their advantages and disadvantages were highlighted. The architecture and software implementation of the user query analysis framework for query parameter analysis are presented, which allow to dynamically receive additional information without reloading the page. As an example of using the extracted data, the solution of constructing a knowledge graph was used. The information support section provides information on existing data extraction solutions from multiple web pages. The expediency of using models based on the structural data of the page is substantiated. The statement of the problem is given and the input and output data are determined. The section of mathematical software is devoted to solving the problem of constructing a graph of knowledge. The stages of construction of the knowledge graph are singled out. Approaches to the implementation of each stage are presented and the methods used are described.uk
dc.format.pagerange61 с.uk
dc.identifier.citationДуда, В. О. Система добування текстової інформації з множини веб-сторінок для побудови графу знань : комплексний дипломний проєкт ... бакалавра : 126 Інформаційні системи та технології / Дуда Володимир Олександрович, Шилюк Девід Васильович. – Київ, 2021. – Ч. 1. – 61 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/47290
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectекстракція данихuk
dc.subjectпарсерuk
dc.subjectтекстові даніuk
dc.subjectграф знаньuk
dc.titleСистема добування текстової інформації з множини веб-сторінок для побудови графу знаньuk
dc.typeBachelor Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Duda_Shyliuk _bakalavr.pdf
Розмір:
5.36 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: