Методи попередньої обробки зображень історичних документів для підвищення якості розпізнавання
Вантажиться...
Дата
2026
Автори
Денисенко, Анастасія Володимирівна
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота містить 68 сторінок, 1 додаток, 10 зображення, 3 таблиці, і посилається на 26 джерел.
Дипломна робота присвячена дослідженню та порівняльному аналізу класичних та нейромережевих методів бінаризації зображень історичних документів для підвищення якості подальшого розпізнавання тексту (OCR). У роботі проаналізовано типи підходів за архітектурою алгоритмів, а також види деградацій історичних документів (плями, вицвітання, прояв тексту зі зворотної сторони). Окрема увага приділяється вибору функцій втрат при навчанні моделей, що дозволяє суттєво підвищити точність збереження деталей символів та особливостей шрифтів.
Основу дослідження становлять класичні адаптивні методи Оцу (Otsu) і Саувола (Sauvola), а також архітектури глибокого навчання: U-Net, Residual U-Net та Attention U-Net. Для навчання та оцінки нейромережевих моделей було застосовано різні функції втрат: MSE, комбіновану BCE+Dice loss та VGG16 perceptual loss. Реалізацію всіх методів виконано мовою Python із використанням бібліотек PyTorch, OpenCV, NumPy та Scikit-image. Для підвищення стійкості моделей до пошкоджень було реалізовано модуль для додавання синтетичних пошкоджень (гаусів шум, розмиття та імітація протікання чорнил).
Було проведено аналіз методів бінаризації при обробці історичних документів з різними синтетичними пошкодженнями. Проаналізовано залежності якості бінаризації від специфіки архітектури та обраної функції втрат за метриками якості зображення (PSNR, F-Measure, SSIM) та відсоток помилок символів (CER/WER) після етапу розпізнавання тексту.
Опис
Ключові слова
бінаризація зображень, історичні документи, розпізнавання тексту, OCR, U-Net, метод Саувола, метод Оцу, функції втрат, перцептивна втрата
Бібліографічний опис
Денисенко, А. В. Методи попередньої обробки зображень історичних документів для підвищення якості розпізнавання : дипломна робота ... бакалавра : 113 Прикладна математика / Денисенко Анастасія Володимирівна. – Київ, 2026. – 68 с.