Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання
Вантажиться...
Дата
2021-12
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Розмір пояснювальної записки – 90 аркушів, містить 29 ілюстрацій, 26
таблиць, 3 додатки.
Актуальність теми. У роботі розглянуто проблему в області програмного
забезпечення електронного документообігу. Під час їх використання виникає
проблема взаємодії цифрових систем з вхідною документацією на паперових
носіях: листів, договорів тощо. Зазвичай їх оцифровують за допомогою сканування
і в подальшому використовують їх зображення, через що виникає проблема роботи
системи зі змістом цих документів, в тому числі для повнотекстового пошуку по
ним.
Мета дослідження. Основною метою є розробити архітектури програмної
системи для здійснення повнотекстового пошуку в системах електронного
документообігу та електронних архівах сканованих документів шляхом машинного
розпізнавання тексту.
Об’єкт дослідження: програмне забезпечення електронного
документообігу.
Предмет дослідження: архітектура програмного забезпечення
повнотекстового пошуку в системах електронного документообігу.
Для реалізації поставленої мети сформульовані наступні завдання:
− дослідити наявні підходи до реалізації повнотекстового пошуку в системи
електронного документообігу;
− проаналізувати існуючі алгоритми конвертації зображення в текстовий
формат, обрати ті, що відповідають вимогам системи;
− розробити архітектуру для реалізації підсистеми конвертації текстового
зображення та пошуку в ньому;
− на основі запропонованої архітектури створити сервіс повнотекстового
пошуку для системи електронного документообігу з використанням
машинного розпізнавання тексту.
Наукова новизна результатів магістерської дисертації полягає в
удосконаленні програмного забезпечення електронного документообігу шляхом
розробки архітектури, яка надає можливість збільшити кількість підтримуваних
форматів документів шляхом використання методів оптичного розпізнавання.
Практичне значення результатів полягає в імплементації розробленої
архітектури в розробці сервісу повнотекстового пошуку по сканованим
документам та інтеграцію його в систему електронного документообігу
Зв’язок з науковими програмами, планами, темами. Робота виконувалась
на кафедрі інформатики та програмної інженерії Національного технічного
університету України «Київський політехнічний інститут імені Ігоря Сікорського»
Апробація. Наукові положення дисертації пройшли апробацію на:
Міжнародній наукової інтернет-конференції «Інформаційне суспільство:
технологічні, економічні та технічні аспекти становлення»;
Першій Всеукраїнській науково-практичній конференції молодих вчених та
студентів «Інженерія програмного забезпечення і передові інформаційні
технології»(SoftTech-2021).
Публікації. Наукові положення дисертації опубліковані в:
Колпак М.В. Повнотекстовий пошук у відсканованих документах в системах
електронного документообігу / Колпак М.В. // Збірка тез Міжнародної наукової
інтернет-конференції «Інформаційне суспільство: технологічні, економічні та
технічні спекти становлення». – 2021. – № 62. – С. 30-32.
Колпак М. В. Архітектура програмного забезпечення повнотекстового
пошуку у відсканованих документах в системах електронного документообігу /
Колпак М. В. // Перша Всеукраїнська науково-практична конференція молодих
вчених та студентів «Інженерія програмного забезпечення і передові інформаційні
технології» (SoftTech-2021). – Київ. – 2021. – С. 111-113.
Опис
Ключові слова
оптичне розпізнавання тексту, повнотекстовий пошук, optical text recognition, full-text search
Бібліографічний опис
Колпак, М. В. Архітектурне рішення для програмного забезпечення повнотекстового пошуку у відсканованих документах на основі методів машинного навчання : магістерська дис. : 121 Інженерія програмного забезпечення / Колпак Максим Віталійович. – Київ, 2021. – 113 с.