Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання
dc.contributor.advisor | Мажара, Ольга Олександрівна | |
dc.contributor.author | Колпак, Максим Віталійович | |
dc.date.accessioned | 2023-01-10T09:29:23Z | |
dc.date.available | 2023-01-10T09:29:23Z | |
dc.date.issued | 2021-12 | |
dc.description.abstracten | Explanatory note size – 90 pages, contains 29 illustrations, 26 tables, 3 applications. Topicality. Examines the problem in the field of electronic document management software. There is a problem of interaction of digital systems with input documentation on paper: letters, contracts, etc. Usually they are digitized by scanning and then their images are used, which causes a problem of system interaction with the content of these documents, including full-text search. The aim of the study. The main target is to develsin software system architecture for full-text search in electronic document management systems and electronic archives for scanned documents by machine text recognition. Object of research: electronic document management software. Subject of research: full-text search software architecture in electronic document management systems. To achieve this goal, the following tasks were formulated: − invistigate existing approaches to the implementation of full-text search in electronic document management systems; − analise existing algorithms for converting images to text format, choose those that meet the requirements of the system; − develop an architecture for the implementation of the text image conversion and search subsystem; − create a full-text search service for electronic document management system based on the proposed architecture using machine text recognition. The scientific novelty of the results of the master`s dissertation is to improving the software of electronic document management by developing an architecture that provides an opportunity to increase the number of supported document formats through using of optical recognition methods. The practical value of the obtained results is implementation of the designed architecture in the development of a full-text search service for scanned documents and its integration into the electronic document management system. Relationship with working with scientific programs, plans, topics. Work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine «Kyiv Polytechnic Institute. Igor Sikorsky». Approbation. The scientific provisions of the dissertation were tested at the: International Scientific Internet Conference "Information Society: Technological, Economic and Technical Aspects of Formation" First All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech- 2021). Publications. The scientific provisions of the dissertation published in: Kolpak M.V. Full-text search in scanned documents for electronic document management systems //Abstracts of International Scientific Internet Conference "Information Society: Technological, Economic and Technical Aspects of Formation".– 2021. – № 62. – С. 30-32. Kolpak M.V. Full-text search in scanned documents software architecture for electronic document management systems // First All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Software Engineering and Advanced Information Technologies" (SoftTech-2021). – 2021. | uk |
dc.description.abstractuk | Розмір пояснювальної записки – 90 аркушів, містить 29 ілюстрацій, 26 таблиць, 3 додатки. Актуальність теми. У роботі розглянуто проблему в області програмного забезпечення електронного документообігу. Під час їх використання виникає проблема взаємодії цифрових систем з вхідною документацією на паперових носіях: листів, договорів тощо. Зазвичай їх оцифровують за допомогою сканування і в подальшому використовують їх зображення, через що виникає проблема роботи системи зі змістом цих документів, в тому числі для повнотекстового пошуку по ним. Мета дослідження. Основною метою є розробити архітектури програмної системи для здійснення повнотекстового пошуку в системах електронного документообігу та електронних архівах сканованих документів шляхом машинного розпізнавання тексту. Об’єкт дослідження: програмне забезпечення електронного документообігу. Предмет дослідження: архітектура програмного забезпечення повнотекстового пошуку в системах електронного документообігу. Для реалізації поставленої мети сформульовані наступні завдання: − дослідити наявні підходи до реалізації повнотекстового пошуку в системи електронного документообігу; − проаналізувати існуючі алгоритми конвертації зображення в текстовий формат, обрати ті, що відповідають вимогам системи; − розробити архітектуру для реалізації підсистеми конвертації текстового зображення та пошуку в ньому; − на основі запропонованої архітектури створити сервіс повнотекстового пошуку для системи електронного документообігу з використанням машинного розпізнавання тексту. Наукова новизна результатів магістерської дисертації полягає в удосконаленні програмного забезпечення електронного документообігу шляхом розробки архітектури, яка надає можливість збільшити кількість підтримуваних форматів документів шляхом використання методів оптичного розпізнавання. Практичне значення результатів полягає в імплементації розробленої архітектури в розробці сервісу повнотекстового пошуку по сканованим документам та інтеграцію його в систему електронного документообігу Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» Апробація. Наукові положення дисертації пройшли апробацію на: Міжнародній наукової інтернет-конференції «Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення»; Першій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології»(SoftTech-2021). Публікації. Наукові положення дисертації опубліковані в: Колпак М.В. Повнотекстовий пошук у відсканованих документах в системах електронного документообігу / Колпак М.В. // Збірка тез Міжнародної наукової інтернет-конференції «Інформаційне суспільство: технологічні, економічні та технічні спекти становлення». – 2021. – № 62. – С. 30-32. Колпак М. В. Архітектура програмного забезпечення повнотекстового пошуку у відсканованих документах в системах електронного документообігу / Колпак М. В. // Перша Всеукраїнська науково-практична конференція молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2021). – Київ. – 2021. – С. 111-113. | uk |
dc.format.page | 113 с. | uk |
dc.identifier.citation | Колпак, М. В. Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання : магістерська дис. : 121 Інженерія програмного забезпечення / Колпак Максим Віталійович. – Київ, 2021. – 113 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/51784 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | оптичне розпізнавання тексту | uk |
dc.subject | повнотекстовий пошук | uk |
dc.subject | optical text recognition | uk |
dc.subject | full-text search | uk |
dc.subject.udc | 004.91 | uk |
dc.title | Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання | uk |
dc.title.alternative | Architectural Solution for Full-text Search Software for Scanned Documents, Based on Machine Learning Methods | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Kolpak_magistr.pdf
- Розмір:
- 3.31 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.1 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: