Юрчишин, Василь ЯковичМельник, Ігор Сергійович2025-10-132025-10-132025Мельник, І. С. Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Мельник Ігор Сергійович. – Київ, 2025. –129 с.https://ela.kpi.ua/handle/123456789/76779У сучасному медійному середовищі зростає інтерес до автоматизованого створення інтерактивного візуального контенту на основі голосових описів. Особливо актуальною є задача генерації панорамних відеорядів міських просторів, що дає змогу автоматизувати підготовку віртуальних турів, аудіогідів та урбаністичних візуалізацій. Розроблена система складається з трьох взаємопов’язаних етапів, реалізованих на основі сучасних алгоритмів і фреймворків. Спочатку аудіофайл надходить на сервер, де модель, оптимізована для виконання на графічному процесорі з використанням CUDA, здійснює препроцесінг сигналу і виконує розпізнавання мовлення з отриманням текстової транскрипції. Наступний крок передбачає семантичний аналіз тексту за допомогою трансформерної моделі, яка виокремлює іменовані сутності та тональний контекст і формує ваги важливості для окремих фрагментів опису. На основі цих ваг відбувається відбір ключових кадрів із мультимедійної бази даних. Зіставлені семантичні маркери та відеоматеріали передаються модулю генерації, де здійснюється інференс одиничних панорамних зображень. Отримані кадри автоматично поєднуються у панораму за алгоритмом інтерполяції і пакетуються у відеофайл формату MP4 з кодуванням H.264.129 с.ukінженерія програмного забезпеченняпанорамнийвідеорядрозпізнавання мовленнясемантичний аналізсинхронізаціямультимедіаGPU-прискореннякадрМетод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових данихMaster Thesis004.91