Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних
dc.contributor.advisor | Юрчишин, Василь Якович | |
dc.contributor.author | Мельник, Ігор Сергійович | |
dc.date.accessioned | 2025-10-13T11:38:40Z | |
dc.date.available | 2025-10-13T11:38:40Z | |
dc.date.issued | 2025 | |
dc.description.abstract | У сучасному медійному середовищі зростає інтерес до автоматизованого створення інтерактивного візуального контенту на основі голосових описів. Особливо актуальною є задача генерації панорамних відеорядів міських просторів, що дає змогу автоматизувати підготовку віртуальних турів, аудіогідів та урбаністичних візуалізацій. Розроблена система складається з трьох взаємопов’язаних етапів, реалізованих на основі сучасних алгоритмів і фреймворків. Спочатку аудіофайл надходить на сервер, де модель, оптимізована для виконання на графічному процесорі з використанням CUDA, здійснює препроцесінг сигналу і виконує розпізнавання мовлення з отриманням текстової транскрипції. Наступний крок передбачає семантичний аналіз тексту за допомогою трансформерної моделі, яка виокремлює іменовані сутності та тональний контекст і формує ваги важливості для окремих фрагментів опису. На основі цих ваг відбувається відбір ключових кадрів із мультимедійної бази даних. Зіставлені семантичні маркери та відеоматеріали передаються модулю генерації, де здійснюється інференс одиничних панорамних зображень. Отримані кадри автоматично поєднуються у панораму за алгоритмом інтерполяції і пакетуються у відеофайл формату MP4 з кодуванням H.264. | |
dc.description.abstractother | In the modern media environment, there is growing interest in the automated creation of interactive visual content based on voice descriptions. The task of generating panoramic video sequences of urban spaces, which allows for the automation of the preparation of virtual tours, audio guides, and urban visualizations, is particularly relevant. The developed system consists of three interconnected stages, implemented on the basis of modern algorithms and frameworks. First, the audio file is sent to the server, where a model optimized for execution on a graphics processor using CUDA performs signal preprocessing and speech recognition with obtaining text transcription. The next step involves semantic analysis of the text using a transformer model, which separates named entities and tonal context and forms importance weights for individual fragments of the description. Based on these weights, key frames are selected from the multimedia database. The matched semantic markers and video materials are transferred to the generation module, where inference of single panoramic images is performed. The resulting frames are automatically combined into a panorama using an interpolation algorithm and packaged into an MP4 video file with H.264 encoding. | |
dc.format.extent | 129 с. | |
dc.identifier.citation | Мельник, І. С. Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Мельник Ігор Сергійович. – Київ, 2025. –129 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/76779 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | інженерія програмного забезпечення | |
dc.subject | панорамнийвідеоряд | |
dc.subject | розпізнавання мовлення | |
dc.subject | семантичний аналіз | |
dc.subject | синхронізаціямультимедіа | |
dc.subject | GPU-прискорення | |
dc.subject | кадр | |
dc.subject.udc | 004.91 | |
dc.title | Метод та програмне забезпечення для генерації панорамного відеоряду міста на основі голосових даних | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Melnyk_magistr.pdf
- Розмір:
- 4.04 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: