Математичне та програмне забезпечення системи класифікації сканованих документів для ділового документообігу

dc.contributor.advisorНоркін, Богдан Володимирович
dc.contributor.authorПащенко, Катерина Михайлівна
dc.date.accessioned2024-05-29T08:28:49Z
dc.date.available2024-05-29T08:28:49Z
dc.date.issued2023
dc.description.abstractДисертацію виконано на 96 аркушах, вона містить 2 додатки та перелік посилань на використані джерела з 28 найменувань. У роботі наведено 51 рисунки. Актуальність теми. На сьогодні все більше документів, таких як текстові документи, таблиці, схеми, платежів, заявки на роботу, різноманітні форми зберігаються та обробляються в форматі цифрового зображення. Також постає необхідність систематизовувати попередньо створені документи в паперовому вигляді та вилучати з них корисну інформацію. Тому актуальною є тематика пов’язана з класифікацією документів, адже саме це відіграє важливу роль у завданнях систематизації, сортуванні, класифікації сканованих чи сфотографованих документів в процесі ділового документообігу. Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-дослідних робіт кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського». Мета і задачі дослідження. Метою дисертаційної роботи є підвищення ефективності роботи в завданнях класифікації та систематизації сканованих документів в процесі ділового документообігу. Для досягнення мети було визначено наступні завдання: - виконати аналіз існуючих систем класифікації документів; - виконати аналіз існуючих методів аналізу, передбачення та класифікації категоріальних даних; - визначити підсистеми майбутньої розробленої системи класифікації; - обрати алгоритм машинного навчання для кожної з підсистеми; - розробити процедуру підготовки вхідних даних; - спроектувати автоматизовані підсистем; - здійснити програмну реалізацію спроектованих підсистем; - провести тестування розробленої ситеми та верифікацію результатів. Методи дослідження. Для досягнення поставленої мети використовувалися такі методи: алгоритми машинного навчання, методи для обробки цифорових зображень, методи оптимізації гіперпараметрів та параметрів згорткової нейронної мережі, методи проектування систем Data Science, методи теорії алгоритмів та програмування, методи аналізу даних та математичної статистики. Об’єктом дослідження є методи класифікації документів на основі структури документу. Предметом дослідження є реалізація моделі класифікації сканованих документів для підвищення ефективності в системах електронних офісів. Наукова новизна. Удосконалено архітектуру згорткової нейронної мережі, яка за показниками точності та повноти не поступається відомим аналогам, але потребує менше часу на навчання, швидше класифікує цифрові зображення сканованих документів та потребуює менше ресурсів для розгортання і використання. Практична цінність одержаних результатів. На основі запропонованої системи для класифікації реалізовано програмний модуль для класифікації сканованих документів, що дозволяє провести систематизацію та сортування одиниць в сфері документообігу з можливістю подальшої обробки документів. Апробація результатів дисертації. Основні положення та результати роботи представлено та опубліковано на конференції ПМК 2022 (Прикладна Математика та Комп’ютинг). Публікації. Норкін Б. М., Пащенко К.М., Математичне та програмне забезпечення системи класифікації цифрових зображень текстових документів. Прикладна математика та комп’ютинг. ПМК-2022: п’ятнадцята науково-практична конференція магістрантів та аспірантів, Київ, 16-17 лист. 2022 р.: зб. Тез доп./ [редкол.: Дичка І. А. та ін.]. — К. : Просвіта, 2022. — С. 86-93.
dc.description.abstractotherThe thesis is completed on 96 sheets, it contains 2 appendices and a list of references to the used sources from 28 names. The work contains 51 drawings. Actuality of theme. Today, more and more documents such as text documents, tables, charts, payments, job applications, various forms are stored and processed in digital image format. There is also a need to systematize previously created documents in paper form and extract useful information from them. Therefore, the topic related to the classification of documents is relevant, because it plays an important role in the tasks of systematization, sorting, and classification of scanned or photographed documents in the process of business document circulation. Thesis connection to scientific programs, plans, and topics. The dissertation work was carried out in accordance with the plan of research works of the Department of Applied Mathematics of the National Technical University of Ukraine "Ihor Sikorskyi Kyiv Polytechnic Institute". The purpose and objectives of the research. The aim of the dissertation work is to increase the efficiency of work in the tasks of classification and systematization of scanned documents in the process of business document circulation. To achieve the goal, the following tasks were defined: - perform an analysis of existing document classification systems; - perform an analysis of existing methods of analysis, prediction and classification of categorical data; - to determine the subsystems of the future developed classification system; - choose a machine learning algorithm for each of the subsystems; - develop a procedure for preparing input data; - to design automated subsystems; - implement the software implementation of the designed subsystems; - test the developed system and verify the results. Methods of research.To achieve the goal, the following methods were used: machine learning algorithms, methods for processing digital images, methods for optimizing hyperparameters and parameters of a convolutional neural network, methods for designing Data Science systems, methods for the theory of algorithms and programming, methods for data analysis and mathematical statistics. The object of the study is the methods of document classification based on the document structure. The subject of the study is the implementation of a model for the classification of scanned documents to improve efficiency in electronic office systems. Scientific contribution. The architecture of a convolutional neural network has been improved, which in terms of accuracy and completeness is not inferior to known analogues, but requires less time for training, classifies digital images of scanned documents faster and requires fewer resources for deployment and use. Practical value of the obtained results. On the basis of the proposed system for classification, a software module for the classification of scanned documents has been implemented, which allows systematization and sorting of units in the field of document circulation with the possibility of further processing of documents. Approbation of the results of the dissertation. The main provisions and results of the work were presented and published at the PMK 2022 (Applied Mathematics and Computing) conference. Publications. Norkin B.M., Pashchenko K.M., Mathematical and software support of the classification system of digital images of text documents. Applied mathematics and computing. PMK-2022: the fifteenth scientific and practical conference of master's and postgraduate students, Kyiv, November 16-17. 2022: Coll. Theses add./ [edited by: I. A. Dychka and others]. — K.: Prosvita, 2022. — P. 86-93.
dc.format.extent116 с.
dc.identifier.citationПащенко, К. М. Математичне та програмне забезпечення системи класифікації сканованих документів для ділового документообігу : магістерська дис. : 113 Прикладна математика / Пащенко Катерина Михайлівна. – Київ, 2023. – 116 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/66940
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectзгорткова нейронна мережа
dc.subjectсканований документ
dc.subjectцифрове зображення
dc.subjectструктура документу
dc.subjectкласифікація
dc.subjectнабір даних
dc.subjectнейронні мережі
dc.subject.udc519.688:004.855.5
dc.titleМатематичне та програмне забезпечення системи класифікації сканованих документів для ділового документообігу
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Pashchenko_magistr.pdf
Розмір:
5.79 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: