Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів

Мазур, Маркіян-Юліан Мирославович

Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів

Файли

Mazur_magistr.pdf (21.97 MB)

Дата

2025

Автори

Мазур, Маркіян-Юліан Мирославович

Науковий керівник

Шаповал, Наталія Віталіївна

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Магістерська дисертація: 111 сторінок, 22 рисунки, 23 таблиці, 34 джерела. Актуальність теми. Розвиток цифрових індустрій потребує фотореалістичних аватарів. Існуючі методи синтезу мовлення (наприклад, Wav2Lip або NeRF) мають суттєві недоліки: низька якість, ефект «зловісної долини» або надмірні вимоги до обчислювальних ресурсів. Актуальним є створення енергоефективної системи високоякісного ліпсінку, що працює в реальному часі. Зв’язок роботи з науковими програмами. Робота виконана згідно з планом науково-дослідних робіт кафедри за напрямком розвитку систем штучного інтелекту. Мета дослідження – підвищення якості та стабільності візуального мовлення шляхом розробки каскадної нейромережевої системи з використанням механізму RAG. Об’єкт дослідження – процес автоматичної генерації відеопослідовності мовлення за вхідним аудіосигналом. Предмет дослідження – методи глибокого навчання для синтезу 3D-геометрії та нейронного рендерингу з використанням Retrieval-Augmented Generation. Методи дослідження: цифрова обробка сигналів (HuBERT); комп’ютерний зір (MediaPipe); глибоке навчання (LSTM, GAN); векторний пошук (FAISS). Наукова новизна: 1. Вперше застосовано RAG для передбачення 3D-лендмарків, що усунуло ефект часового тремтіння. 2. Удосконалено метод мультимодальної фузії через механізм Cross-Attention. 3. Набув подальшого розвитку метод нейронного рендерингу, оптимізований для мобільних GPU. Практичне значення. Створено ПЗ «RuzamSync», що генерує ліпсінк (LSE-D 5.50) на RTX 3050 Ti зі швидкістю 17 FPS. Розроблено стартап-проєкт. Апробація та публікації. Основні положення доповідалися на конференції, опубліковано 1 статтю.

Ключові слова

синтез мовлення, lipsinc, rag, нейронний рендеринг, глибоке навчання, векторний пошук, цифровий аватар, speech synthesis, lip-sync, rag, neural rendering, deep learning, vector search, digital avatar

Бібліографічний опис

Мазур, М.-Ю. М. Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів : магістерська дис. : 122 Комп'ютерні науки / Мазур Маркіян-Юліан Мирославович. – Київ, 2025. – 111 с.

URI

https://ela.kpi.ua/handle/123456789/78799

Зібрання

Магістерські роботи (ШІ)
Магістерські роботи

Повна інформація про документ

Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання