Модифікований метод оптимізації парсингу інформації періодичних видань з використанням нейромереж
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. З розвитком цифрових технологій і стрімким зростанням обсягів текстової інформації, що публікується у періодичних виданнях (новинні ресурси, журнали, блоги тощо), виникає нагальна потреба у створенні ефективних методів автоматизованого вилучення даних. Традиційні алгоритми парсингу, які базуються на фіксованих правилах і шаблонах, часто не справляються із завданням обробки неструктурованої та динамічної інформації, що ускладнює отримання точних і своєчасних результатів. Інтеграція методів глибинного навчання з використанням нейромережевих моделей, зокрема архітектур LSTM і трансформерів, відкриває нові можливості для підвищення якості вилучення структурованих даних із текстів. Реалізація інтерактивного уточнення результатів через зовнішній сервіс ChatGPT API забезпечує додатковий рівень адаптивності та дозволяє коригувати недоліки початкового вилучення даних. Таким чином, розробка модифікованого нейромережевого методу оптимізації парсингу є своєчасним та актуальним завданням як з наукової, так і з практичної точки зору.
Об’єкт дослідження. Об’єктом дослідження є процеси та алгоритми автоматизованого вилучення інформації з текстових документів періодичних видань.
Предмет дослідження. Предметом дослідження є нейромережеві моделі та алгоритми оптимізації парсингу, а також технології інтегрованого аналізу текстових даних з використанням зовнішніх API для уточнення результатів.
Мета роботи. Метою дисертації є розробка ефективного модифікованого нейромережевого методу оптимізації парсингу інформації, що дозволяє автоматично вилучати структуровані дані з періодичних видань із підвищеною точністю та адаптивністю до змін у форматах вхідних текстів. Для досягнення цієї мети передбачено розробку програмного забезпечення, здатного комбінувати традиційні методи вилучення даних із сучасними підходами глибинного навчання та інтеграцією додаткового уточнення через ChatGPT API.
Наукова новизна. Запропоновано інтегрований підхід, який поєднує переваги класичних методів парсингу з адаптивними можливостями нейромережевих архітектур. Особливістю пропонованого методу є застосування модифікованої LSTM-моделі для аналізу тексту з урахуванням контексту та семантичних залежностей, а також інтеграція зовнішнього сервісу ChatGPT API, що дозволяє в режимі реального часу уточнювати результати вилучення даних. Запровадження механізмів зворотного зв’язку та адаптивного налаштування гіперпараметрів сприяє підвищенню якості вилучення інформації, що підтверджує наукову новизну розробленого підходу.
Практична цінність. Практична цінність дослідження підтверджується можливістю застосування запропонованого методу в інформаційно-аналітичних системах, медіа-платформах та бізнес-додатках, де швидкість і точність вилучення даних є критично важливими. Автоматизація процесу парсингу дозволяє зменшити витрати часу на ручну обробку інформації, мінімізувати вплив людського фактора та забезпечити об’єктивний аналіз текстових даних. Результати дослідження можуть бути використані для створення систем, що здійснюють оперативний моніторинг новин, аналіз інформаційних потоків і підтримку прийняття рішень у сфері управління інформацією.
Апробація роботи. Апробація дослідження проводилася на двох етапах:
1. Романкевич В. О., Поліщук О. П., Симонов Б. Є. Модифікований нейромережевий метод оптимізації парсингу інформації періодичного видання // Прикладна математика та комп’ютинг ПМК’ 2024 : збірник тез доповідей Сімнадцятої конференції магістрантів та аспірантів (20–22 листопада 2024 р. – Київ, Україна). – Київ, 2024. – С. 418–423.
2. Симонов Б. Є., Романкевич В. О., Поліщук О. П. Модифікований нейромережевий метод оптимізації парсингу інформації періодичних видань// XI Міжнародна науково-технічна Internet-конференція «Сучасні методи, інформаційне,
програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами»: збірник матеріалів. 27 листопада 2024 р., Київ. – Київ: Національний університет харчових технологій, 2024. – С. 105–106
Структура та обсяг роботи. Дисертація складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків. Загальний обсяг роботи становить 128 сторінок.
Розділ 1 присвячено теоретико-методологічним основам аналізу текстової інформації та штучних нейронних мереж: розглянуто концепції парсингу даних, типові методи видобування інформації, а також фундаментальні принципи побудови та навчання нейронних мереж різних архітектур; проаналізовано специфіку текстів періодичних видань і основні задачі їх автоматизованого аналізу.
Розділ 2 міститиме розробку модифікованого нейромережевого алгоритму оптимізації парсингу періодичних видань: постановку наукової задачі та визначення вимог, аналіз сучасних підходів та ідентифікацію недоліків існуючих моделей, розробку концептуальної моделі нейромережевого алгоритму, а також опис методології оптимізації та критеріїв валідації.
Розділ 3 присвячено програмній реалізації алгоритму з використанням мови Python: розглянуто архітектурні рішення програмного забезпечення, технологічне забезпечення реалізації алгоритму, детальний опис алгоритмічних компонентів, а також тестування, налагодження та оптимізацію програмного коду.
Розділ 4 містить емпіричну оцінку ефективності модифікованого алгоритму та інтерпретацію результатів дослідження: опис організації експериментальної бази даних та методології дослідження, емпіричну валідацію модифікованого алгоритму, порівняльну характеристику з існуючими методами, а також обговорення результатів та перспективи подальших досліджень.
У роботі представлено 5 таблиць, 11 рисунків та 4 додатки, що ілюструють як теоретичні аспекти, так і практичну реалізацію розробленого алгоритму.
Опис
Ключові слова
модифікований нейромережевий метод, парсинг інформації, періодичні видання, глибинне навчання, ChatGPT API, оптимізація, автоматизація аналізу текстових даних., modified neural network method, information parsing, periodical publications, deep learning, optimization, automated text analysis
Бібліографічний опис
Симонов, Б. Є. Модифікований метод оптимізації парсингу інформації періодичних видань з використанням нейромереж : магістерська дис. : 123 Комп'ютерна інженерія / Симонов Богдан Євгенович. – Київ, 2025. – 92 с.