Методи машинного навчання для автоматизації обліку витрат у веб-системах управління фінансами

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. У сучасних умовах цифровізації економіки ручне ведення фінансового обліку стає неефективним та трудомістким. Традиційні методи OCR не забезпечують достатньої точності при роботі зі складними неструктурованими документами, що зумовлює необхідність використання сучасних методів машинного навчання для автоматизації цього процесу. Тому дослідження та реалізація мультимодальних моделей для розпізнавання фінансових документів є актуальними та мають практичне значення. Метою роботи є дослідження ефективності методів машинного навчання для автоматичного розпізнавання реквізитів із фінансових документів з подальшою інтеграцією найефективніших рішень у веб-систему управління фінансами. Завдання дослідження: провести аналіз сучасних підходів до оброблення фінансових документів (OCR, трансформери, мультимодальні моделі); дослідити та реалізувати алгоритми інтелектуальної екстракції даних на базі моделей TrOCR, Donut та Gemini 2.5 Flash; провести експериментальне порівняння ефективності обраних моделей за показниками точності та швидкодії; розробити архітектуру та програмну реалізацію веб-системи автоматичного обліку витрат “AI Budget Manager”; розробити стартап-проєкт для комерціалізації створеної системи. Об’єкт дослідження – процес автоматизації фінансового обліку та методи екстракції структурованих даних із фінансових документів у веб-середовищі. Предмет дослідження – методи машинного навчання та програмні засоби для автоматичного вилучення даних із різнотипних фінансових документів. Практична цінність отриманих в роботі результатів полягає у створенні веб-системи “AI Budget Manager”, яка автоматизує процес обліку витрат, скорочуючи час обробки чека до 3–4 секунд із точністю понад 99%. Запропоноване використання мультимодальної моделі Gemini 2.5 Flash у режимі Zero-shot дає змогу підвищити точність розпізнавання та адаптивність системи до нових форматів документів без необхідності донавчання на великих вибірках. Апробація результатів дисертації. Основні положення даної роботи доповідались та обговорювались на: III Міжнародній науково-практичній конференції “Innovative Approaches in Modern Science and Technology”, 12–14 листопада, 2025 р., Лісабон, Португалія. Дисертація складається з вступу, п’яти розділів та висновків. Повний обсяг дисертації складає 101 сторінки, в тому числі 79 сторінок основного тексту, 7 таблиць, 38 рисунків, список використаних джерел у кількості 32 найменувань.

Опис

Програмний продукт «AI Budget Manager» розроблено в рамках магістерської дисертації як інтелектуальну веб-систему для автоматизації фінансового обліку, в основі якої лежить глибоке дослідження методів машинного навчання для обробки неструктурованих документів. Основний науковий фокус роботи зосереджено на порівняльному аналізі ефективності сучасних архітектур нейронних мереж для задачі екстракції реквізитів із фінансових документів, метою якого було подолання обмежень традиційних OCR-систем, що не враховують семантичний контекст. У ході експериментального дослідження на базі реального датасету CORD-v2 було протестовано та порівняно три архітектурні підходи: трансформерну модель TrOCR (зокрема у каскаді з мовною моделлю Phi-4-mini для семантичної корекції), модель наскрізної (end-to-end) генерації Donut та мультимодальну модель Gemini 2.5 Flash. Дослідження виявило, що хоча каскадні системи забезпечують високу якість даних, вони мають критичну затримку обробки, а локальні моделі типу Donut потребують значних ресурсів для донавчання. На основі отриманих метрик точності та швидкодії оптимальним методом було визначено використання мультимодальної моделі Gemini 2.5 Flash у режимі Zero-shot, яка продемонструвала точність розпізнавання сум та дат понад 99% при середній затримці обробки 3–4 секунди. Саме цей підхід, що дозволяє системі «розуміти» візуальну структуру документа без попереднього тренування на специфічних шаблонах, ліг в основу реалізованого веб-додатку, забезпечуючи автоматичне формування транзакцій та аналітичних звітів.

Ключові слова

машинне навчання, штучний інтелект, глибинне навчання, фінансовий облік, OCR, мультимодальні моделі, веб-система, автоматизація, Gemini, Next.js, machine learning, artificial intelligence, deep learning, financial accounting, multimodal models, web system, automation

Бібліографічний опис

Хок, А. М. Методи машинного навчання для автоматизації обліку витрат у веб-системах управління фінансами : магістерська дис. : 122 Комп’ютерні науки / Хок Абдул Мохаммад. – Київ, 2025. – 101 с.

ORCID

DOI