Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних

Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

У сучасному медійному середовищі зростає інтерес до автоматизованого створення інтерактивного візуального контенту на основі голосових описів. Особливо актуальною є задача генерації панорамних відеорядів міських просторів, що дає змогу автоматизувати підготовку віртуальних турів, аудіогідів та урбаністичних візуалізацій. Розроблена система складається з трьох взаємопов’язаних етапів, реалізованих на основі сучасних алгоритмів і фреймворків. Спочатку аудіофайл надходить на сервер, де модель, оптимізована для виконання на графічному процесорі з використанням CUDA, здійснює препроцесінг сигналу і виконує розпізнавання мовлення з отриманням текстової транскрипції. Наступний крок передбачає семантичний аналіз тексту за допомогою трансформерної моделі, яка виокремлює іменовані сутності та тональний контекст і формує ваги важливості для окремих фрагментів опису. На основі цих ваг відбувається відбір ключових кадрів із мультимедійної бази даних. Зіставлені семантичні маркери та відеоматеріали передаються модулю генерації, де здійснюється інференс одиничних панорамних зображень. Отримані кадри автоматично поєднуються у панораму за алгоритмом інтерполяції і пакетуються у відеофайл формату MP4 з кодуванням H.264.

Опис

Ключові слова

інженерія програмного забезпечення, панорамнийвідеоряд, розпізнавання мовлення, семантичний аналіз, синхронізаціямультимедіа, GPU-прискорення, кадр

Бібліографічний опис

Мельник, І. С. Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Мельник Ігор Сергійович. – Київ, 2025. –129 с.

ORCID

DOI