Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання

Вантажиться...
Ескіз

Дата

2021-12

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Розмір пояснювальної записки – 90 аркушів, містить 29 ілюстрацій, 26 таблиць, 3 додатки. Актуальність теми. У роботі розглянуто проблему в області програмного забезпечення електронного документообігу. Під час їх використання виникає проблема взаємодії цифрових систем з вхідною документацією на паперових носіях: листів, договорів тощо. Зазвичай їх оцифровують за допомогою сканування і в подальшому використовують їх зображення, через що виникає проблема роботи системи зі змістом цих документів, в тому числі для повнотекстового пошуку по ним. Мета дослідження. Основною метою є розробити архітектури програмної системи для здійснення повнотекстового пошуку в системах електронного документообігу та електронних архівах сканованих документів шляхом машинного розпізнавання тексту. Об’єкт дослідження: програмне забезпечення електронного документообігу. Предмет дослідження: архітектура програмного забезпечення повнотекстового пошуку в системах електронного документообігу. Для реалізації поставленої мети сформульовані наступні завдання: − дослідити наявні підходи до реалізації повнотекстового пошуку в системи електронного документообігу; − проаналізувати існуючі алгоритми конвертації зображення в текстовий формат, обрати ті, що відповідають вимогам системи; − розробити архітектуру для реалізації підсистеми конвертації текстового зображення та пошуку в ньому; − на основі запропонованої архітектури створити сервіс повнотекстового пошуку для системи електронного документообігу з використанням машинного розпізнавання тексту. Наукова новизна результатів магістерської дисертації полягає в удосконаленні програмного забезпечення електронного документообігу шляхом розробки архітектури, яка надає можливість збільшити кількість підтримуваних форматів документів шляхом використання методів оптичного розпізнавання. Практичне значення результатів полягає в імплементації розробленої архітектури в розробці сервісу повнотекстового пошуку по сканованим документам та інтеграцію його в систему електронного документообігу Зв’язок з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» Апробація. Наукові положення дисертації пройшли апробацію на: Міжнародній наукової інтернет-конференції «Інформаційне суспільство: технологічні, економічні та технічні аспекти становлення»; Першій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології»(SoftTech-2021). Публікації. Наукові положення дисертації опубліковані в: Колпак М.В. Повнотекстовий пошук у відсканованих документах в системах електронного документообігу / Колпак М.В. // Збірка тез Міжнародної наукової інтернет-конференції «Інформаційне суспільство: технологічні, економічні та технічні спекти становлення». – 2021. – № 62. – С. 30-32. Колпак М. В. Архітектура програмного забезпечення повнотекстового пошуку у відсканованих документах в системах електронного документообігу / Колпак М. В. // Перша Всеукраїнська науково-практична конференція молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2021). – Київ. – 2021. – С. 111-113.

Опис

Ключові слова

оптичне розпізнавання тексту, повнотекстовий пошук, optical text recognition, full-text search

Бібліографічний опис

Колпак, М. В. Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання : магістерська дис. : 121 Інженерія програмного забезпечення / Колпак Максим Віталійович. – Київ, 2021. – 113 с.

ORCID

DOI