Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка

Беркута, Володимир Юрійович

Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка

Файли

Berkuta_bakalavr.pdf (7.04 MB)

Дата

2026

Автори

Беркута, Володимир Юрійович

Науковий керівник

Железняков, Дмитро Валентинович

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Кваліфікаційна робота містить: 137 сторінок, 20 рисунків, 3 таблиці, 38 джерел. У цій роботі розроблено комплексну нейромережеву систему для автоматизованої обробки, локалізації, видалення та семантичного перекладу стилізованого тексту (звукoнаслідувань, англ. Sound Effects, SFX) і перенесення оригінальної стилістики SFX на український відповідник у візуально-текстових наративах (комікси, манхва). Метою дослідження є аналіз і порівняння існуючих методів, алгоритмів та моделей для розробки оркестратора, що підвищує ефективність та полегшує роботу перекладачів. Об’єкт дослідження – процес автоматизованого перекладу графічного тексту в корейських графічних новелах і коміксах. Предмет дослідження — методи комп’ютерного зору для сегментації екземплярів, алгоритми генеративного відновлення фону та методи семантичного перекладу. Під час виконання роботи спроєктовано та реалізовано наскрізний конвеєр. Підсистема локалізації базується на моделях сегментації сімейства YOLO; отримані маски уточнюються за допомогою алгоритму GrabCut. Для відновлення фону (англ. inpainting) застосовано архітектуру трансформера з урахуванням маски (англ. Mask-Aware Transformer, MAT), що дозволяє уникати кольорових неузгодженостей і зберігати стилістику зображення. Проблему художнього перекладу специфічних звукoнаслідувань вирішено за допомогою великої візуально-мовної моделі Qwen2.5-VL-7B-Instruct, інтегрованої з векторною базою даних ChromaDB у схемі генерації доповненї пошуком (англ. Retrieval-Augmented Generation, RAG). Фінальний етап рендерингу використовує інтерполяцію Ланцоша та попіксельне альфа-змішування для безшовної інтеграції згенерованого тексту. Експериментальна оцінка конвеєра за метриками структурної подібності (англ. Structural Similarity Index, SSIM) та семантичної косинусної близькості показала високу ефективність запропонованого підходу порівняно з класичними системами оптичного розпізнавання символів (англ. Optical Character Recognition, OCR).

Ключові слова

computer vision, deep learning, instance segmentation, yolo, inpainting, mask-aware transformer, vision-language models, rag, automatic translation

Бібліографічний опис

Беркута, В. Ю. Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка : дипломна робота ... бакалавра : 113 Прикладна математика / Беркута Володимир Юрійович. – Київ, 2026. – 137 с.

URI

https://ela.kpi.ua/handle/123456789/81537

Зібрання

Бакалаврські роботи (ММАД)
Бакалаврські роботи

Повна інформація про документ

Методи і моделі перекладу та перенесення стилю звукових ефектів у коміксах: стилізація, переклад і типографічна верстка

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання