Програмне забезпечення для виявлення та розпізнавання тексту в документах нетекстового формату

dc.contributor.advisorКрамар, Юлія Михайлівна
dc.contributor.authorДишкант, Лариса Леонідівна
dc.date.accessioned2026-04-08T11:01:19Z
dc.date.available2026-04-08T11:01:19Z
dc.date.issued2025
dc.description.abstractРозмір пояснювальної записки – 161 аркуш, містить 46 ілюстрацій, 24 таблиці, 6 додатків, 57 посилань на джерела. Актуальність теми. У роботі розглянуто проблему зумовлена зростанням обсягів цифрової інформації, зокрема сканованих документів. Наявні програмні аналоги не забезпечують очікувано бажаний результат. Щоб отримати коректний текст, що буде відображати повністю оригінальний документ потрібно ефективні інструменти для його обробки та аналізу. Постійний прогрес в області машинного навчання та глибокого навчання відкриває нові можливості для підвищення точності та швидкості розпізнавання тексту. Технології OCR дозволяють автоматизувати рутинні завдання, такі як введення даних, архівування документів, пошук інформації, що підвищує продуктивність, знижує витрати та заощаджує час. Виявлено потребу в розробці програмного забезпечення виявлення та розпізнавання тексту в документах нетекстового формату шляхом застосування сучасних нейронних мереж. Мета дослідження. Основною метою є покращити точність виявлення та розпізнавання тексту в документах нетекстового формату. Об’єкт дослідження: програмне забезпечення розпізнавання тексту. Предмет дослідження: метод, алгоритми та архітектура програмного забезпечення виявлення та розпізнавання тексту в документах нетекстового формату спрямовані на підвищення точності. Для реалізації поставленої мети сформульовані наступні завдання: 一 проаналізувати наявні рішення для визначення потрібних покращень точність виявлення та розпізнавання тексту в документах нетекстового формату; 一 розробити метод з застосуванням сучасних нейронних мереж для виявлення та розпізнавання тексту в документах не текстового формату; 一 розробити програмне рішення; 一 дослідити та оцінити ефективність запропонованого рішення. Наукова новизна результатів магістерської дисертації полягає в тому, що запропоновано узагальнену модель програмної системи OCR, яка описує повний цикл обробки зображення, від попередньої підготовки до післяобробки результату, та адаптована до роботи з різнорідними типами документів. Удосконалено підхід до виявлення тексту в нетекстових документах шляхом поєднання традиційних методів попередньої обробки та застосування глибинних архітектур нейронних мереж, що забезпечує підвищення точності розпізнавання тексту, швидкодії та продуктивності праці. Практичне значення отриманих результатів полягає в тому, що реалізовані та поєднані методи обробки зображення, використання двох OCR-двигунів і автоматичного failback та фреймворку PyQt5 в межах одного застосунку простого використання та нативного інтерфейсу користувача. Дана система є корисна для державних підприємств при роботі з сканованими документами та зображеннями, що дозволить оптимізувати рутинні завдання з введення даних, архівування та підвищить продуктивність і заощадить час. Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського". Апробація. Наукові положення дисертації пройшли апробацію на IX Міжнародній науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2025) – м. Київ. Публікації. Наукові положення дисертації опубліковані в: 1) Дишкант Л.Л. Програмне забезпечення виявлення та розпізнавання тексту в документах не текстового формату / Дишкант Л.Л., Крамар Ю.М. // Матеріали IX Міжнародної науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2025) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 26-28 листопада 2025 р.
dc.description.abstractotherExplanatory note size – 161 pages, contains 46 illustrations, 24 tables, 6 applications, 57 references. Topicality. The paper addresses the problem caused by the growth in the volume of digital information, in particular scanned documents. Existing software analogues do not provide the expected desired result. To obtain a correct text that fully reflects the original document, effective tools for its processing and analysis are needed. Continuous progress in the field of machine learning and deep learning opens up new opportunities for improving the accuracy and speed of text recognition. OCR technologies allow you to automate routine tasks such as data entry, document archiving, and information search, which increases productivity, reduces costs, and saves time. There is a need to develop software for detecting and recognizing text in non-text documents using modern neural networks. The aim of the study. The main target is to improve the accuracy of text detection and recognition in non-text documents. The object of research: text recognition software. The subject of research: methods, algorithms, and architecture of software for detecting and recognizing text in non-text documents aimed at improving accuracy. To achieve this goal, the following tasks were formulated: 一 analyze existing solutions to identify necessary improvements accuracy of text detection and recognition in non-text format documents; 一 develop a method using modern neural networks to detect and recognize text in non-text format documents; 一 develop a software solution; 一 research and evaluate the effectiveness of the proposed solution. The scientific novelty of the results of the master's dissertation is that a generalized model of the OCR software system is proposed, which describes the complete image processing cycle, from preliminary preparation to post-processing of the result, and is adapted to work with different types of documents. The approach to detecting text in non-text documents has been improved by combining traditional pre-processing methods and the use of deep neural network architectures, which increases text recognition accuracy, speed, and productivity. The practical value of the obtained results lies in the fact that the implemented and combined image processing methods, the use of two OCR engines and automatic failback, and the PyQt5 framework are integrated within a single application with a simple user interface and native user interface. This system is useful for state-owned enterprises when working with scanned documents and images, as it will optimize routine data entry and archiving tasks, increase productivity, and save time. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Computer Science and Software Engineering of the National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Approbation. The scientific provisions of the dissertation were tested at the IX International Scientific and Practical Conference of Young Scientists and Students “Software Engineering and Advanced Information Technologies” (SoftTech-2025) - Kyiv. Publications. The scientific provisions of the dissertation were published in: 1) Dyshkant L.L. Software for detecting and recognizing text in non-text format documents/ Dyshkant L.L., Kramar Y.M. // Proceedings of the IX International Scientific and Practical Conference of Young Scientists and Students “Software Engineering and Advanced Information Technologies” (SoftTech-2025) – Kyiv: Igor Sikorsky Kyiv Polytechnic Institute, November 26-28, 2025.
dc.format.extent161 с.
dc.identifier.citationДишкант, Л. Л. Програмне забезпечення для виявлення та розпізнавання тексту в документах нетекстового формату : магістерська дис. : 121 Інженерія програмного забезпечення / Дишкант Лариса Леонідівна. - Київ, 2025. - 161 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/80038
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectOCR
dc.subjectвиявлення
dc.subjectрозпізнавання тексту
dc.subjectCRNN
dc.subjectобробка зображення
dc.subjectнейронні мережі
dc.subjectdetection
dc.subjecttext recognition
dc.subjectimage processing
dc.subjectneural networks
dc.subject.udc004.93’1
dc.titleПрограмне забезпечення для виявлення та розпізнавання тексту в документах нетекстового формату
dc.title.alternativeSoftware for Text Detection and Recognition in Non-Text Documents
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Dyshkant_magistr.pdf
Розмір:
7.25 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: