Адаптивна система збору даних з динамічною зміною параметрів доступу

Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Сфери сучасного світу досить часто напряму залежать від стабільного функціонування систем, що забезпечують збір великої кількості інформації із багатьох джерел. Особливо це актуально в умовах глобальної цифровізації, де тисячі онлайн ресурсів та сервісів з’являються щодня. Однак реальне інтернет-середовище часто змінює ключові правила доступу. Змінюються захисні механізми, виникають обмеження, сервери працюють нестабільно тощо. Такі проблеми ускладнюють роботу стандартних підходів та знижують їх ефективність і надійність. Актуальність теми зумовлена потребою у постійному та надійному зборі інформації з веб ресурсів, для отримання своєчасного аналізу у сферах економіки, бізнесу, аналітики, медіа тощо. Використання надійних систем на основі даних методів дозволяє покращити відсоток доступності до цільових ресурсів та покращити точність необхідних метрик. Це, у свою чергу, сприятиме покращенню якості аналітики, зниженню бізнес ризиків та можливості розглядати конкретні сценарії з багатьох сторін. Мета роботи полягає у встановлені методів та архітектури надійної системи збору даних, яка здатна ефективно взаємодіяти із веб ресурсами в умовах змін доступності, мережевих збоїв і нестабільності із сторони цільових серверів. На основі розроблених підходів реалізовано систему збору новин, що виконує автоматичний збір та аналіз контенту для визначення згадок сутностей та формування метрик для подальшого аналізу. Об’єктом дослідження є процес збору та аналізу даних із веб сайтів у майже реальному часі за умов активного захисту. Предметом дослідження є методи та алгоритми, спрямовані на забезпечення надійного збору даних і їх інтеграцію в єдину надійну систему. Методи дослідження передбачають аналіз наявних підходів до адаптивного управління процесом збору даних, порівняльний аналіз існуючих рішень, а також експериментальні методи для тестування ефективності системи в різних умовах на основі новинних сайтів. Практичне значення отриманих результатів полягає у створенні прототипу надійної систему збору даних із відкритих веб ресурсів, яка здатна самостійно та стабільно функціонувати навіть у випадках часткових відмов та блокування. Даний підхід може допомогти отримувати безперервний та надійний доступ до важливої інформації у сферах аналітики, медіа, економіки тощо. Публікації Отрох С., Ключук В. Розширення методів web scraping для надійного збору та аналізу даних. СУЧАСНI ТЕХНОЛОГIЇ РОЗРОБКИ КОМП’ЮТЕРИЗОВАНИХ СИСТЕМ КЕРУВАННЯ РУХОМ : НАУКОВО-ТЕХНIЧНА КОНФЕРЕНЦIЯ, м. Київ, 28–29 листоп. 2023 р. Київ, 2023. С. 65–66. Данильченко В. М., Отрох С. І., Ключук В. П., Сарафанніков О. В. Прискорення збору та аналізу даних за допомогою інструментів асинхронного програмування у Web Scraping. Зв’язок. 2024. Т. 169, № 3. URL: https://doi.org/10.31673/2412-9070.2024.032327. Otrokh S.I., Kliuchuk V.P. An adaptive approach to building reliable data collection systems from open web resources. – Прийнято до публікації. Структура роботи складається зі вступу, п’яти розділів, загальних висновків, списку використаних джерел і додатків. Загальний обсяг роботи становить 112 сторінок, включає 22 таблиці, 23 рисунки та 47 найменувань літератури. Розроблений програмний продукт включає комплекс механізмів для надійного збору, обробки та аналітики даних із відкритих веб-ресурсів із подальшою візуалізацією на платформі, що містить бекенд та фронтенд компоненти. Підсистема збору даних базується на адаптивному алгоритмі, який реалізує механізми повторних спроб із експоненційною затримкою, ротацію проксі-серверів із зваженим розподілом, а також динамічну ротацію HTTP-заголовків. Для підвищення стабільності та продуктивності система також забезпечує логування операцій і кешування отриманих даних. Обробка зібраної інформації виконується із застосуванням методів штучного інтелекту через OpenAI API, що дозволяють ідентифікувати сутності в текстах, формувати відповідні метрики та здійснювати їх порівняння для подальшого аналітичного опрацювання. Користувачі мають змогу переглядати новинний контент, аналізувати виявлені сутності та їх показники через інтерфейс платформи.

Опис

Ключові слова

надійна система, збір даних, проксі ротація, аналітика новин, ротація заголовків, reliable system, data collection, proxy rotation, news analytics, headline rotation

Бібліографічний опис

Ключук, В. П. Адаптивна система збору даних з динамічною зміною параметрів доступу : магістерська дис. : 122 Комп’ютерні науки / Ключук Владислав Петрович. – Київ, 2025. – 111 с.

ORCID

DOI