Екстракція структурованої інформації з множини веб-сторінок

dc.contributor.advisorМажара, Ольга Олександрівна
dc.contributor.authorСмілянець, Федір Андрійович
dc.date.accessioned2021-03-11T13:38:39Z
dc.date.available2021-03-11T13:38:39Z
dc.date.issued2020-12
dc.description.abstractenRelevance of the research topic. Modern wide internet is a considerable source of data to be used in scientific and business applications. An ability to extract up to date data is frequently crutial for reaching necessary goals, though, modern quality solutions to this problem, which are using computer vision and other technologies, may be finantially demanding to acquire or develop, thus simple and cheap to develop, maintain and use solutions are necessary. The purpose of the study is to create a software instrument aimed at extraction of structured data from news websites for usage in news trustworthiness classification. Following tasks were outlined and implemented to achieve the aforementioned goal: - Outline existing approaches and analogues in areas of data extraction and news classification; - Design and develop extraction, preparation and classification algorhitms; - Compare the results achieved with developed extraction algorhitm and with existing software solution, including comparing machine learning accuracies on both of the extractors. The object of the study is the process of text data extraction with subsequent machine learning analysis. The subjects of the study are methods and tools of extraction and analysis of text data. Scientific novelty of the obtained results. A simple greedy algorithm was created, combining the process of link discovery and data extraction. Expediency of usage of simple web data extraction algorithms for composing machine learning datasets was proven. It was also proven that classical machine learning algorithms can achieve results similar to neural networks such as LSTM. Capabilities of machine learning systems to function efficiently in a bilingual context were also shown. Publications. Materials, related to this study, were published in the All-Ukrainian Scientific and Practical Conference of Young Scientists and Students “Information Systems and Management Technologies” (ISTU-2019) “News trustworthiness classification with machine learning”.uk
dc.description.abstractukАктуальність теми дослідження. Сучасний широкий інтернет є істотним джерелом даних для використання у наукових та бізнес-дослідженнях. Можливість видобувати актуальні дані часто є ключовою для досягнення необхідних цілей, але сучасні якісні рішення з застосуванням технологій машинного зору та інших можуть бути дорогими до придбання або розробки, тому прості та дешеві як з точки зору розробки та підтримки, так і з точки зору експлуатації рішення є необхідними. Метою дослідження є створення програмного інструментарію екстракції структурованих даних з веб-сторінок новинних ресурсів для подальшої класифікації за достовірністю. Для досягнення поставленої мети було окреслено та виконано наступні завдання: - провести огляд існуючих підходів та програмних аналогів у областях екстракції даних з веб-ресурсів та оцінки якості новин; - позробити та реалізувати алгоритми екстракції, підготовки та класифікації даних; - порівняти результати, отримані розробленим алгоритмом та результатами тренування алгоритмів машинного навчання на даних, видобутих ним з існуючим аналогом та результатами тренування на даних аналогу. Об’єктом дослідження є процес екстракції текстових даних з подальшою обробкою методами машинного навчання. Предметом дослідження є методи та засоби екстракції та аналізу структурованих текстових даних. Наукова новизна одержаних результатів. Було створено простий жадібний алгоритм у якому суміщено процеси пошуку посилань та видобування інформації, доведено доцільність використання простих алгоритмів для збору даних з ресурсів у мережі Інтернет з ціллю використання у тренуванні алгоритмів машинного навчання. Було доведено що як класичні алгоритми навчання здатні досягати результатів, співставним з такими у нейронних мереж, таких як мережі ДКЧП, та показано що такі моделі здатні працювати на двомовному датасеті. Публікації. Матеріали роботи було опубліковано у п’ятій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020) «Класифікація новин за достовірністю на основі методів машинного навчання».uk
dc.format.page104 с.uk
dc.identifier.citationСмілянець, Ф. А. Екстракція структурованої інформації з множини веб-сторінок : магістерська дис. : 121 Інженерія програмного забезпечення / Смілянець Федір Андрійович. – Київ, 2020. – 104 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/39926
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectвеб-скрапінгuk
dc.subjectекстракція даних з веб-сторінокuk
dc.subjectкраулінгuk
dc.subjectпошук посиланьuk
dc.subjectмашинне навчанняuk
dc.subjectкласифікація новинuk
dc.subjectдовга короткочасна пам’ятьuk
dc.subjectнейронні мережіuk
dc.subjectweb scrapinguk
dc.subjectweb page data extractionuk
dc.subjectcrawlinguk
dc.subjectlink discoveryuk
dc.subjectmachine learninguk
dc.subjectnews classificationuk
dc.subjectlong short-term memoryuk
dc.subjectneural networksuk
dc.subject.udc004.42uk
dc.titleЕкстракція структурованої інформації з множини веб-сторінокuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Smilianets_magistr.pdf
Розмір:
1.41 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: