Методи машинного навчання для автоматизації обліку витрат у веб-системах управління фінансами

dc.contributor.advisorСліпченко, Володимир Георгійович
dc.contributor.authorХок, Абдул Мохаммад
dc.date.accessioned2026-01-29T10:23:15Z
dc.date.available2026-01-29T10:23:15Z
dc.date.issued2025
dc.descriptionПрограмний продукт «AI Budget Manager» розроблено в рамках магістерської дисертації як інтелектуальну веб-систему для автоматизації фінансового обліку, в основі якої лежить глибоке дослідження методів машинного навчання для обробки неструктурованих документів. Основний науковий фокус роботи зосереджено на порівняльному аналізі ефективності сучасних архітектур нейронних мереж для задачі екстракції реквізитів із фінансових документів, метою якого було подолання обмежень традиційних OCR-систем, що не враховують семантичний контекст. У ході експериментального дослідження на базі реального датасету CORD-v2 було протестовано та порівняно три архітектурні підходи: трансформерну модель TrOCR (зокрема у каскаді з мовною моделлю Phi-4-mini для семантичної корекції), модель наскрізної (end-to-end) генерації Donut та мультимодальну модель Gemini 2.5 Flash. Дослідження виявило, що хоча каскадні системи забезпечують високу якість даних, вони мають критичну затримку обробки, а локальні моделі типу Donut потребують значних ресурсів для донавчання. На основі отриманих метрик точності та швидкодії оптимальним методом було визначено використання мультимодальної моделі Gemini 2.5 Flash у режимі Zero-shot, яка продемонструвала точність розпізнавання сум та дат понад 99% при середній затримці обробки 3–4 секунди. Саме цей підхід, що дозволяє системі «розуміти» візуальну структуру документа без попереднього тренування на специфічних шаблонах, ліг в основу реалізованого веб-додатку, забезпечуючи автоматичне формування транзакцій та аналітичних звітів.
dc.description.abstractАктуальність теми. У сучасних умовах цифровізації економіки ручне ведення фінансового обліку стає неефективним та трудомістким. Традиційні методи OCR не забезпечують достатньої точності при роботі зі складними неструктурованими документами, що зумовлює необхідність використання сучасних методів машинного навчання для автоматизації цього процесу. Тому дослідження та реалізація мультимодальних моделей для розпізнавання фінансових документів є актуальними та мають практичне значення. Метою роботи є дослідження ефективності методів машинного навчання для автоматичного розпізнавання реквізитів із фінансових документів з подальшою інтеграцією найефективніших рішень у веб-систему управління фінансами. Завдання дослідження: провести аналіз сучасних підходів до оброблення фінансових документів (OCR, трансформери, мультимодальні моделі); дослідити та реалізувати алгоритми інтелектуальної екстракції даних на базі моделей TrOCR, Donut та Gemini 2.5 Flash; провести експериментальне порівняння ефективності обраних моделей за показниками точності та швидкодії; розробити архітектуру та програмну реалізацію веб-системи автоматичного обліку витрат “AI Budget Manager”; розробити стартап-проєкт для комерціалізації створеної системи. Об’єкт дослідження – процес автоматизації фінансового обліку та методи екстракції структурованих даних із фінансових документів у веб-середовищі. Предмет дослідження – методи машинного навчання та програмні засоби для автоматичного вилучення даних із різнотипних фінансових документів. Практична цінність отриманих в роботі результатів полягає у створенні веб-системи “AI Budget Manager”, яка автоматизує процес обліку витрат, скорочуючи час обробки чека до 3–4 секунд із точністю понад 99%. Запропоноване використання мультимодальної моделі Gemini 2.5 Flash у режимі Zero-shot дає змогу підвищити точність розпізнавання та адаптивність системи до нових форматів документів без необхідності донавчання на великих вибірках. Апробація результатів дисертації. Основні положення даної роботи доповідались та обговорювались на: III Міжнародній науково-практичній конференції “Innovative Approaches in Modern Science and Technology”, 12–14 листопада, 2025 р., Лісабон, Португалія. Дисертація складається з вступу, п’яти розділів та висновків. Повний обсяг дисертації складає 101 сторінки, в тому числі 79 сторінок основного тексту, 7 таблиць, 38 рисунків, список використаних джерел у кількості 32 найменувань.
dc.description.abstractotherRelevance of the topic. In the context of the rapid digitalization of the economy, manual financial accounting is becoming inefficient and labor-intensive. Traditional OCR methods do not provide sufficient accuracy when dealing with complex unstructured documents, which necessitates the use of modern machine learning methods to automate this process. Therefore, research and implementation of multimodal models for recognizing financial documents are relevant and have practical significance. The goal of the work is to research the efficiency of machine learning methods for automatic recognition of details from financial documents with subsequent integration of the most effective solutions into the web-based financial management system. Research tasks:  to analyze modern approaches to financial document processing (OCR, transformers, multimodal models);  to research and implement algorithms for intelligent data extraction based on TrOCR, Donut, and Gemini 2.5 Flash models;  to conduct an experimental comparison of the effectiveness of the selected models in terms of accuracy and speed;  to develop the architecture and software implementation of the “AI Budget Manager” automated expense tracking web system;  to develop a startup project for the commercialization of the created system. The object of research is the process of automating financial accounting and methods of extracting structured data from financial documents in a web environment. The subject of research covers machine learning methods and software tools for automatic data extraction from various types of financial documents. Practical value of the obtained results lies in the creation of the “AI Budget Manager” web system, which automates the expense tracking process, reducing receipt processing time to 3–4 seconds with an accuracy of over 99%. The proposed use of the Gemini 2.5 Flash multimodal model in Zero-shot mode allows increasing recognition accuracy and system adaptability to new document formats without the need for fine-tuning on large datasets. Approbation of results. The main provisions of the work were presented and discussed at:  The 3rd International Scientific and Practical Conference “Innovative Approaches in Modern Science and Technology”, November 12–14, 2025, Lisbon, Portugal. The thesis consists of an introduction, five chapters, and conclusions. The full volume of the thesis is 101 pages, including 79 pages of the main text, 7 tables, 38 figures, and a list of used sources consisting of 32 items.
dc.format.extent101 с.
dc.identifier.citationХок, А. М. Методи машинного навчання для автоматизації обліку витрат у веб-системах управління фінансами : магістерська дис. : 122 Комп’ютерні науки / Хок Абдул Мохаммад. – Київ, 2025. – 101 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/78514
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectмашинне навчання
dc.subjectштучний інтелект
dc.subjectглибинне навчання
dc.subjectфінансовий облік
dc.subjectOCR
dc.subjectмультимодальні моделі
dc.subjectвеб-система
dc.subjectавтоматизація
dc.subjectGemini
dc.subjectNext.js
dc.subjectmachine learning
dc.subjectartificial intelligence
dc.subjectdeep learning
dc.subjectfinancial accounting
dc.subjectmultimodal models
dc.subjectweb system
dc.subjectautomation
dc.titleМетоди машинного навчання для автоматизації обліку витрат у веб-системах управління фінансами
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Hok_magistr.pdf
Розмір:
2.22 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: