Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів

Мазур, Маркіян-Юліан Мирославович

Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів

dc.contributor.advisor	Шаповал, Наталія Віталіївна
dc.contributor.author	Мазур, Маркіян-Юліан Мирославович
dc.date.accessioned	2026-02-16T12:01:18Z
dc.date.available	2026-02-16T12:01:18Z
dc.date.issued	2025
dc.description.abstract	Магістерська дисертація: 111 сторінок, 22 рисунки, 23 таблиці, 34 джерела. Актуальність теми. Розвиток цифрових індустрій потребує фотореалістичних аватарів. Існуючі методи синтезу мовлення (наприклад, Wav2Lip або NeRF) мають суттєві недоліки: низька якість, ефект «зловісної долини» або надмірні вимоги до обчислювальних ресурсів. Актуальним є створення енергоефективної системи високоякісного ліпсінку, що працює в реальному часі. Зв’язок роботи з науковими програмами. Робота виконана згідно з планом науково-дослідних робіт кафедри за напрямком розвитку систем штучного інтелекту. Мета дослідження – підвищення якості та стабільності візуального мовлення шляхом розробки каскадної нейромережевої системи з використанням механізму RAG. Об’єкт дослідження – процес автоматичної генерації відеопослідовності мовлення за вхідним аудіосигналом. Предмет дослідження – методи глибокого навчання для синтезу 3D-геометрії та нейронного рендерингу з використанням Retrieval-Augmented Generation. Методи дослідження: цифрова обробка сигналів (HuBERT); комп’ютерний зір (MediaPipe); глибоке навчання (LSTM, GAN); векторний пошук (FAISS). Наукова новизна: 1. Вперше застосовано RAG для передбачення 3D-лендмарків, що усунуло ефект часового тремтіння. 2. Удосконалено метод мультимодальної фузії через механізм Cross-Attention. 3. Набув подальшого розвитку метод нейронного рендерингу, оптимізований для мобільних GPU. Практичне значення. Створено ПЗ «RuzamSync», що генерує ліпсінк (LSE-D 5.50) на RTX 3050 Ti зі швидкістю 17 FPS. Розроблено стартап-проєкт. Апробація та публікації. Основні положення доповідалися на конференції, опубліковано 1 статтю.
dc.description.abstractother	Master’s thesis: 111 pages, 22 figures, 23 tables, 34 sources. The relevance of the topic. The digital industry requires photorealistic avatars. Existing speech synthesis methods (e.g., Wav2Lip, NeRF) suffer from low quality, the "Uncanny Valley" effect, or excessive resource requirements. Creating an energy-efficient, high-quality real-time lip-sync system is an urgent task. Connection with scientific programs. The work was performed in accordance with the department's research plan on AI systems development. The aim of the research is to improve visual speech quality and stability by developing a cascaded system using Retrieval-Augmented Generation (RAG). The object of research is the process of automated speech video generation based on audio input. The subject of research includes deep learning methods for 3D geometry synthesis and neural rendering using RAG. Research methods: digital signal processing (HuBERT); computer vision (MediaPipe); deep learning (LSTM, GAN); vector search (FAISS). Scientific novelty: 1. RAG was applied to 3D landmark prediction for the first time, eliminating temporal jitter. 2. Multimodal fusion was improved via Cross-Attention. 3. Neural rendering optimized for mobile GPUs was further developed. Practical value. "RuzamSync" software was created, delivering lip-sync (LSE-D 5.50) on RTX 3050 Ti at 17 FPS. A startup project was developed. Approbation and publications. Results were reported at a conference; [Number] article was published.
dc.format.extent	111 с.
dc.identifier.citation	Мазур, М.-Ю. М. Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів : магістерська дис. : 122 Комп'ютерні науки / Мазур Маркіян-Юліан Мирославович. – Київ, 2025. – 111 с.
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/78799
dc.language.iso	uk
dc.publisher	КПІ ім. Ігоря Сікорського
dc.publisher.place	Київ
dc.subject	синтез мовлення
dc.subject	lipsinc
dc.subject	rag
dc.subject	нейронний рендеринг
dc.subject	глибоке навчання
dc.subject	векторний пошук
dc.subject	цифровий аватар
dc.subject	speech synthesis
dc.subject	lip-sync
dc.subject	rag
dc.subject	neural rendering
dc.subject	deep learning
dc.subject	vector search
dc.subject	digital avatar
dc.subject.udc	004.8.032.26:004.932](043.3)
dc.title	Синтез та архітектурна адаптація дифузійних конвеєрів для аудіо-керованої анімації портретів
dc.type	Master Thesis

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Mazur_magistr.pdf
Розмір:: 21.97 MB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ШІ)
Магістерські роботи