Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних

dc.contributor.advisorЮрчишин, Василь Якович
dc.contributor.authorМельник, Ігор Сергійович
dc.date.accessioned2025-10-13T11:38:40Z
dc.date.available2025-10-13T11:38:40Z
dc.date.issued2025
dc.description.abstractУ сучасному медійному середовищі зростає інтерес до автоматизованого створення інтерактивного візуального контенту на основі голосових описів. Особливо актуальною є задача генерації панорамних відеорядів міських просторів, що дає змогу автоматизувати підготовку віртуальних турів, аудіогідів та урбаністичних візуалізацій. Розроблена система складається з трьох взаємопов’язаних етапів, реалізованих на основі сучасних алгоритмів і фреймворків. Спочатку аудіофайл надходить на сервер, де модель, оптимізована для виконання на графічному процесорі з використанням CUDA, здійснює препроцесінг сигналу і виконує розпізнавання мовлення з отриманням текстової транскрипції. Наступний крок передбачає семантичний аналіз тексту за допомогою трансформерної моделі, яка виокремлює іменовані сутності та тональний контекст і формує ваги важливості для окремих фрагментів опису. На основі цих ваг відбувається відбір ключових кадрів із мультимедійної бази даних. Зіставлені семантичні маркери та відеоматеріали передаються модулю генерації, де здійснюється інференс одиничних панорамних зображень. Отримані кадри автоматично поєднуються у панораму за алгоритмом інтерполяції і пакетуються у відеофайл формату MP4 з кодуванням H.264.
dc.description.abstractotherIn the modern media environment, there is growing interest in the automated creation of interactive visual content based on voice descriptions. The task of generating panoramic video sequences of urban spaces, which allows for the automation of the preparation of virtual tours, audio guides, and urban visualizations, is particularly relevant. The developed system consists of three interconnected stages, implemented on the basis of modern algorithms and frameworks. First, the audio file is sent to the server, where a model optimized for execution on a graphics processor using CUDA performs signal preprocessing and speech recognition with obtaining text transcription. The next step involves semantic analysis of the text using a transformer model, which separates named entities and tonal context and forms importance weights for individual fragments of the description. Based on these weights, key frames are selected from the multimedia database. The matched semantic markers and video materials are transferred to the generation module, where inference of single panoramic images is performed. The resulting frames are automatically combined into a panorama using an interpolation algorithm and packaged into an MP4 video file with H.264 encoding.
dc.format.extent129 с.
dc.identifier.citationМельник, І. С. Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Мельник Ігор Сергійович. – Київ, 2025. –129 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/76779
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectінженерія програмного забезпечення
dc.subjectпанорамнийвідеоряд
dc.subjectрозпізнавання мовлення
dc.subjectсемантичний аналіз
dc.subjectсинхронізаціямультимедіа
dc.subjectGPU-прискорення
dc.subjectкадр
dc.subject.udc004.91
dc.titleМетод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Melnyk_magistr.pdf
Розмір:
4.04 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: