Екстракція структурованої інформації з множини веб-сторінок
Вантажиться...
Дата
2020-12
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми дослідження. Сучасний широкий інтернет є істотним джерелом даних для використання у наукових та бізнес-дослідженнях. Можливість видобувати актуальні дані часто є ключовою для досягнення необхідних цілей, але сучасні якісні рішення з застосуванням технологій машинного зору та інших можуть бути дорогими до придбання або розробки, тому прості та дешеві як з точки зору розробки та підтримки, так і з точки зору експлуатації рішення є необхідними.
Метою дослідження є створення програмного інструментарію екстракції структурованих даних з веб-сторінок новинних ресурсів для подальшої класифікації за достовірністю. Для досягнення поставленої мети було окреслено та виконано наступні завдання:
- провести огляд існуючих підходів та програмних аналогів у областях екстракції даних з веб-ресурсів та оцінки якості новин;
- позробити та реалізувати алгоритми екстракції, підготовки та класифікації даних;
- порівняти результати, отримані розробленим алгоритмом та результатами тренування алгоритмів машинного навчання на даних, видобутих ним з існуючим аналогом та результатами тренування на даних аналогу.
Об’єктом дослідження є процес екстракції текстових даних з подальшою обробкою методами машинного навчання.
Предметом дослідження є методи та засоби екстракції та аналізу структурованих текстових даних.
Наукова новизна одержаних результатів. Було створено простий жадібний алгоритм у якому суміщено процеси пошуку посилань та видобування інформації, доведено доцільність використання простих алгоритмів для збору даних з ресурсів у мережі Інтернет з ціллю використання у тренуванні алгоритмів машинного навчання.
Було доведено що як класичні алгоритми навчання здатні досягати результатів, співставним з такими у нейронних мереж, таких як мережі ДКЧП, та показано що такі моделі здатні працювати на двомовному датасеті.
Публікації. Матеріали роботи було опубліковано у п’ятій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020) «Класифікація новин за достовірністю на основі методів машинного навчання».
Опис
Ключові слова
веб-скрапінг, екстракція даних з веб-сторінок, краулінг, пошук посилань, машинне навчання, класифікація новин, довга короткочасна пам’ять, нейронні мережі, web scraping, web page data extraction, crawling, link discovery, machine learning, news classification, long short-term memory, neural networks
Бібліографічний опис
Смілянець, Ф. А. Екстракція структурованої інформації з множини веб-сторінок : магістерська дис. : 121 Інженерія програмного забезпечення / Смілянець Федір Андрійович. – Київ, 2020. – 104 с.