Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка

Ескіз

Дата

2026

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Кваліфікаційна робота містить: 137 сторінок, 20 рисунків, 3 таблиці, 38 джерел. У цій роботі розроблено комплексну нейромережеву систему для автоматизованої обробки, локалізації, видалення та семантичного перекладу стилізованого тексту (звукoнаслідувань, англ. Sound Effects, SFX) і перенесення оригінальної стилістики SFX на український відповідник у візуально-текстових наративах (комікси, манхва). Метою дослідження є аналіз і порівняння існуючих методів, алгоритмів та моделей для розробки оркестратора, що підвищує ефективність та полегшує роботу перекладачів. Об’єкт дослідження – процес автоматизованого перекладу графічного тексту в корейських графічних новелах і коміксах. Предмет дослідження — методи комп’ютерного зору для сегментації екземплярів, алгоритми генеративного відновлення фону та методи семантичного перекладу. Під час виконання роботи спроєктовано та реалізовано наскрізний конвеєр. Підсистема локалізації базується на моделях сегментації сімейства YOLO; отримані маски уточнюються за допомогою алгоритму GrabCut. Для відновлення фону (англ. inpainting) застосовано архітектуру трансформера з урахуванням маски (англ. Mask-Aware Transformer, MAT), що дозволяє уникати кольорових неузгодженостей і зберігати стилістику зображення. Проблему художнього перекладу специфічних звукoнаслідувань вирішено за допомогою великої візуально-мовної моделі Qwen2.5-VL-7B-Instruct, інтегрованої з векторною базою даних ChromaDB у схемі генерації доповненї пошуком (англ. Retrieval-Augmented Generation, RAG). Фінальний етап рендерингу використовує інтерполяцію Ланцоша та попіксельне альфа-змішування для безшовної інтеграції згенерованого тексту. Експериментальна оцінка конвеєра за метриками структурної подібності (англ. Structural Similarity Index, SSIM) та семантичної косинусної близькості показала високу ефективність запропонованого підходу порівняно з класичними системами оптичного розпізнавання символів (англ. Optical Character Recognition, OCR).

Опис

Ключові слова

computer vision, deep learning, instance segmentation, yolo, inpainting, mask-aware transformer, vision-language models, rag, automatic translation

Бібліографічний опис

Беркута, В. Ю. Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка : дипломна робота ... бакалавра : 113 Прикладна математика / Беркута Володимир Юрійович. – Київ, 2026. – 137 с.

ORCID

DOI