Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Магістерська дисертація: 111 сторінок, 22 рисунки, 23 таблиці, 34 джерела.
Актуальність теми. Розвиток цифрових індустрій потребує фотореалістичних аватарів. Існуючі методи синтезу мовлення (наприклад,
Wav2Lip або NeRF) мають суттєві недоліки: низька якість, ефект «зловісної долини» або надмірні вимоги до обчислювальних ресурсів. Актуальним є створення енергоефективної системи високоякісного ліпсінку, що працює в реальному часі. Зв’язок роботи з науковими програмами. Робота виконана згідно з планом науково-дослідних робіт кафедри за напрямком розвитку систем штучного інтелекту.
Мета дослідження – підвищення якості та стабільності візуального мовлення шляхом розробки каскадної нейромережевої системи з використанням механізму RAG. Об’єкт дослідження – процес автоматичної генерації відеопослідовності мовлення за вхідним аудіосигналом. Предмет дослідження – методи глибокого навчання для синтезу 3D-геометрії та нейронного рендерингу з використанням Retrieval-Augmented Generation. Методи дослідження: цифрова обробка сигналів (HuBERT); комп’ютерний зір (MediaPipe); глибоке навчання (LSTM, GAN); векторний пошук (FAISS). Наукова новизна: 1. Вперше застосовано RAG для передбачення 3D-лендмарків, що усунуло ефект часового тремтіння. 2. Удосконалено метод мультимодальної фузії через механізм Cross-Attention. 3. Набув подальшого розвитку метод нейронного рендерингу, оптимізований для мобільних GPU. Практичне значення. Створено ПЗ «RuzamSync», що генерує ліпсінк
(LSE-D 5.50) на RTX 3050 Ti зі швидкістю 17 FPS. Розроблено стартап-проєкт. Апробація та публікації. Основні положення доповідалися на
конференції, опубліковано 1 статтю.
Опис
Ключові слова
синтез мовлення, lipsinc, rag, нейронний рендеринг, глибоке навчання, векторний пошук, цифровий аватар, speech synthesis, lip-sync, rag, neural rendering, deep learning, vector search, digital avatar
Бібліографічний опис
Мазур, М.-Ю. М. Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів : магістерська дис. : 122 Комп'ютерні науки / Мазур Маркіян-Юліан Мирославович. – Київ, 2025. – 111 с.