Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів
| dc.contributor.advisor | Шаповал, Наталія Віталіївна | |
| dc.contributor.author | Мазур, Маркіян-Юліан Мирославович | |
| dc.date.accessioned | 2026-02-16T12:01:18Z | |
| dc.date.available | 2026-02-16T12:01:18Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Магістерська дисертація: 111 сторінок, 22 рисунки, 23 таблиці, 34 джерела. Актуальність теми. Розвиток цифрових індустрій потребує фотореалістичних аватарів. Існуючі методи синтезу мовлення (наприклад, Wav2Lip або NeRF) мають суттєві недоліки: низька якість, ефект «зловісної долини» або надмірні вимоги до обчислювальних ресурсів. Актуальним є створення енергоефективної системи високоякісного ліпсінку, що працює в реальному часі. Зв’язок роботи з науковими програмами. Робота виконана згідно з планом науково-дослідних робіт кафедри за напрямком розвитку систем штучного інтелекту. Мета дослідження – підвищення якості та стабільності візуального мовлення шляхом розробки каскадної нейромережевої системи з використанням механізму RAG. Об’єкт дослідження – процес автоматичної генерації відеопослідовності мовлення за вхідним аудіосигналом. Предмет дослідження – методи глибокого навчання для синтезу 3D-геометрії та нейронного рендерингу з використанням Retrieval-Augmented Generation. Методи дослідження: цифрова обробка сигналів (HuBERT); комп’ютерний зір (MediaPipe); глибоке навчання (LSTM, GAN); векторний пошук (FAISS). Наукова новизна: 1. Вперше застосовано RAG для передбачення 3D-лендмарків, що усунуло ефект часового тремтіння. 2. Удосконалено метод мультимодальної фузії через механізм Cross-Attention. 3. Набув подальшого розвитку метод нейронного рендерингу, оптимізований для мобільних GPU. Практичне значення. Створено ПЗ «RuzamSync», що генерує ліпсінк (LSE-D 5.50) на RTX 3050 Ti зі швидкістю 17 FPS. Розроблено стартап-проєкт. Апробація та публікації. Основні положення доповідалися на конференції, опубліковано 1 статтю. | |
| dc.description.abstractother | Master’s thesis: 111 pages, 22 figures, 23 tables, 34 sources. The relevance of the topic. The digital industry requires photorealistic avatars. Existing speech synthesis methods (e.g., Wav2Lip, NeRF) suffer from low quality, the "Uncanny Valley" effect, or excessive resource requirements. Creating an energy-efficient, high-quality real-time lip-sync system is an urgent task. Connection with scientific programs. The work was performed in accordance with the department's research plan on AI systems development. The aim of the research is to improve visual speech quality and stability by developing a cascaded system using Retrieval-Augmented Generation (RAG). The object of research is the process of automated speech video generation based on audio input. The subject of research includes deep learning methods for 3D geometry synthesis and neural rendering using RAG. Research methods: digital signal processing (HuBERT); computer vision (MediaPipe); deep learning (LSTM, GAN); vector search (FAISS). Scientific novelty: 1. RAG was applied to 3D landmark prediction for the first time, eliminating temporal jitter. 2. Multimodal fusion was improved via Cross-Attention. 3. Neural rendering optimized for mobile GPUs was further developed. Practical value. "RuzamSync" software was created, delivering lip-sync (LSE-D 5.50) on RTX 3050 Ti at 17 FPS. A startup project was developed. Approbation and publications. Results were reported at a conference; [Number] article was published. | |
| dc.format.extent | 111 с. | |
| dc.identifier.citation | Мазур, М.-Ю. М. Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів : магістерська дис. : 122 Комп'ютерні науки / Мазур Маркіян-Юліан Мирославович. – Київ, 2025. – 111 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78799 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | синтез мовлення | |
| dc.subject | lipsinc | |
| dc.subject | rag | |
| dc.subject | нейронний рендеринг | |
| dc.subject | глибоке навчання | |
| dc.subject | векторний пошук | |
| dc.subject | цифровий аватар | |
| dc.subject | speech synthesis | |
| dc.subject | lip-sync | |
| dc.subject | rag | |
| dc.subject | neural rendering | |
| dc.subject | deep learning | |
| dc.subject | vector search | |
| dc.subject | digital avatar | |
| dc.subject.udc | 004.8.032.26:004.932](043.3) | |
| dc.title | Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів | |
| dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Mazur_magistr.pdf
- Розмір:
- 21.97 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: