Математичне та програмне забезпечення системи класифікації сканованих документів для ділового документообігу
Вантажиться...
Дата
2023
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дисертацію виконано на 96 аркушах, вона містить 2 додатки та перелік посилань на використані джерела з 28 найменувань. У роботі наведено 51 рисунки.
Актуальність теми. На сьогодні все більше документів, таких як текстові документи, таблиці, схеми, платежів, заявки на роботу, різноманітні форми зберігаються та обробляються в форматі цифрового зображення. Також постає необхідність систематизовувати попередньо створені документи в паперовому вигляді та вилучати з них корисну інформацію. Тому актуальною є тематика пов’язана з класифікацією документів, адже саме це відіграє важливу роль у завданнях систематизації, сортуванні, класифікації сканованих чи сфотографованих документів в процесі ділового документообігу.
Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-дослідних робіт кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського».
Мета і задачі дослідження. Метою дисертаційної роботи є підвищення ефективності роботи в завданнях класифікації та систематизації сканованих документів в процесі ділового документообігу.
Для досягнення мети було визначено наступні завдання:
- виконати аналіз існуючих систем класифікації документів;
- виконати аналіз існуючих методів аналізу, передбачення та класифікації категоріальних даних;
- визначити підсистеми майбутньої розробленої системи класифікації;
- обрати алгоритм машинного навчання для кожної з підсистеми;
- розробити процедуру підготовки вхідних даних;
- спроектувати автоматизовані підсистем;
- здійснити програмну реалізацію спроектованих підсистем;
- провести тестування розробленої ситеми та верифікацію результатів.
Методи дослідження. Для досягнення поставленої мети використовувалися такі методи: алгоритми машинного навчання, методи для обробки цифорових зображень, методи оптимізації гіперпараметрів та параметрів згорткової нейронної мережі, методи проектування систем Data Science, методи теорії алгоритмів та програмування, методи аналізу даних та математичної статистики.
Об’єктом дослідження є методи класифікації документів на основі структури документу.
Предметом дослідження є реалізація моделі класифікації сканованих документів для підвищення ефективності в системах електронних офісів.
Наукова новизна. Удосконалено архітектуру згорткової нейронної мережі, яка за показниками точності та повноти не поступається відомим аналогам, але потребує менше часу на навчання, швидше класифікує цифрові зображення сканованих документів та потребуює менше ресурсів для розгортання і використання.
Практична цінність одержаних результатів. На основі запропонованої системи для класифікації реалізовано програмний модуль для класифікації сканованих документів, що дозволяє провести систематизацію та сортування одиниць в сфері документообігу з можливістю подальшої обробки документів.
Апробація результатів дисертації. Основні положення та результати роботи представлено та опубліковано на конференції ПМК 2022 (Прикладна Математика та Комп’ютинг).
Публікації. Норкін Б. М., Пащенко К.М., Математичне та програмне забезпечення системи класифікації цифрових зображень текстових документів. Прикладна математика та комп’ютинг. ПМК-2022: п’ятнадцята науково-практична конференція магістрантів та аспірантів, Київ, 16-17 лист. 2022 р.: зб. Тез доп./ [редкол.: Дичка І. А. та ін.]. — К. : Просвіта, 2022. — С. 86-93.
Опис
Ключові слова
згорткова нейронна мережа, сканований документ, цифрове зображення, структура документу, класифікація, набір даних, нейронні мережі
Бібліографічний опис
Пащенко, К. М. Математичне та програмне забезпечення системи класифікації сканованих документів для ділового документообігу : магістерська дис. : 113 Прикладна математика / Пащенко Катерина Михайлівна. – Київ, 2023. – 116 с.