Екстракція структурованої інформації з множини веб-сторінок

Вантажиться...
Ескіз

Дата

2020-12

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми дослідження. Сучасний широкий інтернет є істотним джерелом даних для використання у наукових та бізнес-дослідженнях. Можливість видобувати актуальні дані часто є ключовою для досягнення необхідних цілей, але сучасні якісні рішення з застосуванням технологій машинного зору та інших можуть бути дорогими до придбання або розробки, тому прості та дешеві як з точки зору розробки та підтримки, так і з точки зору експлуатації рішення є необхідними. Метою дослідження є створення програмного інструментарію екстракції структурованих даних з веб-сторінок новинних ресурсів для подальшої класифікації за достовірністю. Для досягнення поставленої мети було окреслено та виконано наступні завдання: - провести огляд існуючих підходів та програмних аналогів у областях екстракції даних з веб-ресурсів та оцінки якості новин; - позробити та реалізувати алгоритми екстракції, підготовки та класифікації даних; - порівняти результати, отримані розробленим алгоритмом та результатами тренування алгоритмів машинного навчання на даних, видобутих ним з існуючим аналогом та результатами тренування на даних аналогу. Об’єктом дослідження є процес екстракції текстових даних з подальшою обробкою методами машинного навчання. Предметом дослідження є методи та засоби екстракції та аналізу структурованих текстових даних. Наукова новизна одержаних результатів. Було створено простий жадібний алгоритм у якому суміщено процеси пошуку посилань та видобування інформації, доведено доцільність використання простих алгоритмів для збору даних з ресурсів у мережі Інтернет з ціллю використання у тренуванні алгоритмів машинного навчання. Було доведено що як класичні алгоритми навчання здатні досягати результатів, співставним з такими у нейронних мереж, таких як мережі ДКЧП, та показано що такі моделі здатні працювати на двомовному датасеті. Публікації. Матеріали роботи було опубліковано у п’ятій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020) «Класифікація новин за достовірністю на основі методів машинного навчання».

Опис

Ключові слова

веб-скрапінг, екстракція даних з веб-сторінок, краулінг, пошук посилань, машинне навчання, класифікація новин, довга короткочасна пам’ять, нейронні мережі, web scraping, web page data extraction, crawling, link discovery, machine learning, news classification, long short-term memory, neural networks

Бібліографічний опис

Смілянець, Ф. А. Екстракція структурованої інформації з множини веб-сторінок : магістерська дис. : 121 Інженерія програмного забезпечення / Смілянець Федір Андрійович. – Київ, 2020. – 104 с.

DOI