Методи вирівнювання рукописного тексту на основі розпізнавання з використанням машинного навчання та структурного аналізу символів
dc.contributor.advisor | Рогоза, Валерій Станіславович | |
dc.contributor.author | Яковчук, Олег Костянтинович | |
dc.date.accessioned | 2024-07-01T12:44:13Z | |
dc.date.available | 2024-07-01T12:44:13Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Яковчук О.К. Методи вирівнювання рукописного тексту на основі розпізнавання з використанням машинного навчання та структурного аналізу символів. Кваліфікаційна наукова праця на правах рукопису. Дисертаційна робота на здобуття наукового ступеня доктора філософії за спеціальністю 122 «Комп’ютерні науки». – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2024. Метою дисертаційного дослідження є підвищення ефективності вирішення комплексу задач, що виникають при вирівнюванні рукописного тексту. Разом із зростанням популярності рукописного введення постає завдання ефективної обробки рукописної інформації, зокрема рукописного тексту. Однією із задач є забезпечення структурної коректності та зрозумілості тексту, представленого в рукописному вигляді. Зокрема, актуальним завданням є вирішення проблеми вирівнювання рукописного тексту, при цьому зберігаючи формат, структуру рукописних елементів та їх текстовий вміст. Важливим є також збереження ідентичності та унікальності написаного тексту, що визначаються персональними особливостями написання та почерку автора. Водночас створювані рішення повинні мати змогу працювати в умовах обмеження обчислювальних ресурсів, на персональних пристроях, таких як смартфони, розумні годинники, інтерактивні дошки, монітори з рукописним введенням та інші гаджети. У даній дисертаційній роботі акцент робиться на вирішенні задачі вирівнювання рукописного тексту зі збереженням початкового стилю написання, без перетворення рукописного тексту в друковану форму. В дослідженні використовуються передові методи та технології для обробки рукописного тексту, включно з розпізнаванням та сегментацією тексту. Дослідження в напрямках обробки рукописного тексту, разом з візуальним покращенням тексту для підвищення його ясності та чіткості, має важливе значення для подальшого вдосконалення систем рукописного введення та їх використання в різних сферах, від освітнього до професійного використання. Розвиток вирівнювання рукописного тексту відкриває нові перспективи для зручної та ефективної роботи з рукописною інформацією, що стає невід’ємною частиною сучасного цифрового життя. В першому розділі дисертаційної роботи описується постановка задачі вирівнювання рукописного тексту, визначаються основні проблеми, що існують на сьогоднішній день та потребують уваги для ефективного вирішення поставлених задач. Визначається підзадача оцінки рукописного тексту на розбірливість та вирівняність, а також підзадача порівняння двох рукописних текстів для визначення якості результатів вирівнювання. Проводиться грунтовний аналіз існуючих досліджень та передових робіт як в області обробки рукописного введення, так і конкретно для задачі вирівнювання тексту, аналіз підходів до розпізнавання та сегментації рукописного тексту для визначення найбільш релевантних для використання в системі, що розроблюється в цій роботі. Розглядається загальна структура запропонованого рішення. В другому розділі представлено рішення, що пропонується використовувати в системі вирівнювання для проведення розпізнавання та сегментації рукописного введення. Досліджуються принципи роботи рекурентних нейронних мереж для задачі розпізнавання рукописного тексту. Описується ідея довгої короткочасної пам’яті, представляється архітектура мережі з використанням довгої короткочасної пам’яті, що дає змогу вирішувати відразу два завдання: сегментації та класифікації символів. Досліджується принцип нейромережевої часової класифікації. Представляється додаткова мережа для уточнення та покращення результатів сегментації символів. Представлено додаткові алгоритми для приєднання відтермінованих символів, пошуку та виправлення помилок сегментації. В третьому розділі приведено опис основної частини системи вирівнювання рукописного тексту. Представляється запропонований новий метод вирівнювання, що використовує структурний аналіз символів. Цей розділ включає в себе розгляд процесу попередньої обробки вхідних даних, представлення метрик текстового рядка, запропонованого розбиття символів на класи, виконання знаходження класів символів, обрахунку метрик всіх символів та фінальних метрик вирівняного рядка, проведення переміщення символів на знайдені відповідні позиції. Детально розглядається процес виконання кожного кроку, виконується розгляд розроблених алгоритмів та підходів, що застосовуються для структурного аналізу символів. Результатом даного розділу є спроектована та розроблена система для структурного аналізу рукописного тексту, що дозволяє виконувати поставлену задачу вирівнювання. В четвертому розділі представлені основні експерименти для аналізу якості роботи розробленої системи. Описується набір експериментальних даних та його базові характеристики. Проводиться оцінка точності системи розпізнавання. Виконуються обчислювальні експерименти, на основі яких підтверджено загальну спроможність системи успішно вирівнювати рукописний текст. Проводиться аналіз успішних прикладів роботи системи та допущених помилок при вирівнюванні, оцінка продуктивності роботи системи в середовищі з обмеженими ресурсами. Також розроблена система порівнюється з наявними підходами до поліпшення зовнішнього вигляду та вирівнювання рукописного тексту, результат підтвердив визначені переваги розробленої системи та її практичну цінність. Основним результатом цієї роботи є розроблена система вирівнювання рукописного тексту, яка базується на запропонованому методі вирівнювання рукописного тексту на основі розроблених алгоритмів розпізнавання та сегментації тексту, а також з використанням структурного аналізу символів, що враховує індивідуальні особливості почерку, зв’язне написання символів та дозволяє зберегти початковий стиль написання тексту. Розроблена система вирівнювання дає змогу розв’язувати наступні задачі по вирівнюванню текстів українською мовою: вирівнювання одного рядка рукописного тексту, вирівнювання текстів, що складаються з багатьох рядків, вирівнювання документів, що містять різні типи текстових блоків, вирівнювання текстової інформації з можливістю підтримувати різні типи контенту, такі як специфічні символи, математичні формули, адреси електронної пошти, номери телефонів і т.д. Особливістю розробленої системи є можливість до масштабування та розширення для підтримки нових мов, типів контенту, введення окремих правил для особливих задач вирівнювання. Перевагою розробленої системи є здатність вирівнювати текст з врахуванням персональних особливостей написання користувача. Розроблену систему вирівнювання тексту було успішно інтегровано в тестовий мобільний застосунок, який надає змогу користувачу вводити рукописний текст, отримувати результат розпізнавання тексту та результат вирівнювання тексту. Проведено експериментальні дослідження, що підтвердили здатність системи виконувати всі поставлені завдання. Система показала високі характеристики якості роботи та швидкодії в умовах роботи на пристроях з обмеженнями обчислювальних ресурсів. В результаті розроблена система може бути інтегрована до інших мобільних додатків для обробки та вирівнювання рукописного тексту. Підтримка роботи з українським текстом дає потенційні можливості для використання системи в різноманітних галузях нашої країни, таких як освіта, медицина, рекламний бізнес і т.д. На сьогодні існує тенденція цифровізації документообігу в різних сферах діяльності, в тому числі між державою та громадянами, де також може мати велику користь система обробки рукописного тексту для покращення візуального сприйняття, розбірливості написаного тексту, а також для зменшення загального розміру рукописного тексту, що дозволяє підвищити ефективність використання простору в текстових документах. Наукова новизна отриманих результатів. В рамках цього дослідження було: - Вперше запропоновано метод вирівнювання рукописного тексту, наукова новизна якого полягає у використанні розроблених алгоритмів розпізнавання та сегментації тексту, які базуються на теорії машинного навчання, а також у проведенні структурного аналізу символів, що враховує індивідуальні особливості почерку, зв’язне написання символів та дозволяє зберегти початковий стиль написання тексту. - Вдосконалено метод сегментації рукописного тексту, що ґрунтується на використанні легковісної рекурентної нейронної мережі та динамічного програмування, який відрізняється від існуючих застосуванням додаткових алгоритмів, які дають змогу знаходити та виправляти помилки сегментації, визначати відповідні символи для відтермінованих штрихів, що дозволяє підвищити точність маркування кожного символа. - Вперше розроблено метод вирівнювання для тексту, написаного українською мовою, наукова новизна якого полягає у використанні алгоритмів, що базуються на структурному аналізі символів, та визначаються окремо для кожного символа, а також у можливості реалізувати вирівнювання рукописних літер для різних стилів написання. Практичне значення отриманих результатів. Практичне значення результатів, отриманих у ході дисертаційного дослідження, зводиться до наступного переліку: - Розроблені метод та алгоритми впроваджено в інструментальну систему вирівнювання рукописного тексту, що дає змогу розв’язувати задачі вирівнювання одного рядка рукописного тексту та текстів, що складаються з багатьох рядків, на пристроях з обмеженнями обчислювальних ресурсів. - Розроблена система забезпечує високу точність результатів, що дозволяє використовувати її для знаходження правильних позицій всіх символів та їх коректного вирівнювання, що продемонстровано на прикладі її використання в тестовому мобільному додатку для вирівнювання рукописного тексту українською мовою. - Запропоновані та розроблені в цій роботі методи були використані при розробці комерційних проектів, зокрема в мобільному додатку для смартфонів Samsung у вигляді функції вирівнювання рукописного тексту для різних мов. | |
dc.description.abstractother | Oleg Yakovchuk. Methods for handwriting text alignment based on recognition with the usage of machine learning and symbols structural analysis. Qualification scientific work as manuscript. Doctor of Philosophy dissertation under 122 “Computer Science” specialty. – National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2024. The aim of the dissertation research is to enhance the efficiency in addressing the tasks arising during the handwritten text alignment. As handwritten input gains increasing popularity, the need for effectively processing handwritten information, especially handwritten text, becomes apparent. One of the tasks is to provide clearness and structural integrity of the handwritten text. Specifically, aligning handwritten text while keeping the format, structure of textual elements, and their content is crucial. Additionally, it is essential to preserve the individuality and distinctiveness of the written text, characterized by the author's unique handwriting traits. Furthermore, solutions must be capable of operating within computational resource limitations, catering to personal devices like smartphones, smartwatches, interactive whiteboards, handwriting input-enabled monitors, and other gadgets. This dissertation focuses on the task of aligning handwritten text while preserving its original writing style, without converting handwritten text into printed form. Advanced methods and technologies for processing handwritten text are utilized in the research, including text recognition and segmentation. The research in the area of handwritten text processing and text visual enhancement for clarity and sharpness increase is significant for further refining handwriting input systems and their utilization across various domains, from educational to professional use. The development of handwritten text alignment opens up new prospects for convenient and effective handling of handwritten information, which has become an integral part of modern digital life. The first chapter of the dissertation describes the formulation of the handwritten text alignment task, identifying the key challenges existing today that require attention for the effective resolution of the stated objectives. A subtask is defined for evaluating the legibility and alignment of handwritten text, as well as a subtask for comparing two handwritten texts to determine the quality of alignment results. A thorough analysis of existing research and state-of-the-art works is conducted both in the field of handwriting processing and specifically for the task of text alignment. Approaches to handwriting recognition and segmentation are analyzed to determine the most relevant ones for use in the system being developed in this work. The overall structure of the proposed solution is also examined. The second chapter presents the solution to be used in the alignment system for handwriting recognition and segmentation. The main principles of recurrent neural networks for handwritten text recognition are investigated. The concept of long short-term memory (LSTM) is described, and a network architecture utilizing LSTM is presented, resolving simultaneous segmentation and character classification tasks. The principle of connectionist temporal classification (CTC) is explored. An additional network is introduced for refining and improving the results of character segmentation. Additional algorithms are presented for handling delayed strokes, searching, and correcting segmentation errors. The third chapter provides a description of the main component of the handwritten text alignment system. A novel alignment method is introduced, utilizing structural analysis of symbols. This section encompasses the discussion of the preprocessing of input data, the representation of text line metrics, the proposed symbols classes description, the algorithm of symbol class identification, the calculation of all symbols metrics, and the final metrics of the aligned text line. Additionally, this chapter covers the process of moving symbols to their corrected positions. Each step is thoroughly examined, including the developed algorithms and approaches applied for the structural analysis of the symbols. The outcome of this chapter is the designed and developed system for the text structural analysis that enables the accomplishment of the alignment task. The fourth chapter encompasses the primary experiments conducted to analyze the performance quality of the developed system. It describes the dataset used for experimentation along with its basic characteristics. An assessment of the accuracy of the recognition system is provided. Computational experiments are executed to confirm the overall capability of the system in successfully aligning handwritten text. Analysis of successful system operation instances and errors encountered during alignment is conducted, along with an evaluation of the system's performance in resource-constrained environments. Additionally, the system is compared with existing approaches to handwritten text recognition and beautification, validating the identified advantages of the developed system and its practical value. The primary outcome of the research is the developed handwritten text alignment system, which relies on the proposed method of alignment based on the algorithms for text recognition and segmentation. It utilizes symbols structural analysis, taking into account individual handwriting characteristics and connected writing, thus preserving the original writing style. The developed alignment system enables the resolving of task for Ukrainian text alignment, including aligning single-line texts, multi-line texts, aligning documents with different types of text blocks, and aligning handwriting of various content types, such as specific symbols, mathematical formulas, email addresses, phone numbers, etc. A significant feature of the developed system is its scalability and adaptability for supporting new languages, content types, and the possibility to incorporate specific rules for unique alignment tasks. An advantage of the developed system is its capability to align text while considering the user's personalized writing characteristics. The developed text alignment system has been successfully integrated into a test mobile application, enabling users to input handwritten text and receive recognition and alignment results. Experimental studies have confirmed the system's capability to fulfill all 11 the assigned tasks. The system has exhibited high-quality performance and efficiency, even when operating on devices with limited computational resources. Consequently, the developed system can be integrated into other mobile applications for processing and aligning handwritten text. The support for Ukrainian text offers potential opportunities for the system's utilization across various sectors within our country, including education, healthcare, advertising, etc. There is currently a trend towards digitalizing document workflows in different fields of activity, including interactions between the state and citizens. In such contexts, a handwriting text processing system could greatly benefit visual perception and legibility of written text, as well as reduce the overall size of handwritten text, which allows the increase of the space usage efficiency in text documents. The scientific novelty of the results includes: - For the first time, a method for handwritten text alignment has been proposed, the scientific novelty of which lies in the utilization of the developed algorithms for text recognition and segmentation, that is based on machine learning theory, coupled with symbols structural analysis. This approach considers individual handwriting characteristics and connected writing, thereby preserving the original writing style. - The segmentation method for handwritten text based on the usage of a lightweight recurrent neural network and dynamic programming has been enhanced, and it distinguishes from the existing approaches by adding additional algorithms with the capability to identify and correct segmentation errors, as well as determine the corresponding symbols for the delayed strokes. This enhancement contributes to improving the accuracy of symbol labeling. - For the first time, a method for aligning the text written in Ukrainian has been developed, the scientific novelty of which lies in the utilization of the algorithms that are based on the structural analysis of the symbols, and provide the individual alignment rules for each symbol. This approach allows the handwritten letters alignment across different writing styles. The practical significance of the results includes: - The developed method and algorithms have been integrated into the handwriting alignment system, enabling the alignment of single-line handwritten text as well as multi-line texts on devices with limited computational resources. - The implemented system ensures high accuracy of results, allowing the determination of correct positions for all symbols and their proper alignment. This has been demonstrated by its utilization in a test mobile application for the Ukrainian handwritten text alignment. - The methods proposed and developed in this work have been used in the development of commercial projects, in particular, in a mobile application for Samsung smartphones in the form of the handwriting alignment function for various languages. | |
dc.format.extent | 148 с. | |
dc.identifier.citation | Яковчук, О. К. Методи вирівнювання рукописного тексту на основі розпізнавання з використанням машинного навчання та структурного аналізу символів : дис. … д-ра філософії : 122 – Комп’ютерні науки / Яковчук Олег Костянтинович. – Київ, 2024. – 148 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/67662 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | вирівнювання рукописного тексту | |
dc.subject | обробка рукописного введення | |
dc.subject | онлайн розпізнавання цифрових чорнил | |
dc.subject | класифікація символів | |
dc.subject | структурний аналіз | |
dc.subject | сегментація рукописного введення | |
dc.subject | рекурентна нейронна мережа | |
dc.subject | машинне навчання | |
dc.subject | штучний інтелект | |
dc.subject | інтелектуальне введення інформації | |
dc.subject | людинокомп’ютерна взаємодія | |
dc.subject | handwritten text alignment | |
dc.subject | handwriting processing | |
dc.subject | online digital ink recognition | |
dc.subject | symbols classification | |
dc.subject | structural analysis | |
dc.subject | handwriting segmentation | |
dc.subject | recurrent neural network | |
dc.subject | machine learning | |
dc.subject | artificial intelligence | |
dc.subject | intelligent input | |
dc.subject | human-computer interaction | |
dc.subject.udc | 004.021:004.023:004.93 | |
dc.title | Методи вирівнювання рукописного тексту на основі розпізнавання з використанням машинного навчання та структурного аналізу символів | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Yakovchuk_dys.pdf
- Розмір:
- 4.74 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: