Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Борисов Г.О. Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії у галузі знань 17 – Електроніка та телекомунікації за спеціальністю 171 «Електроніка». – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», МОН України, Київ, 2025. Дисертаційна робота присвячена дослідженню адаптивних систем оброблення акустичної інформації для створення персоналізованого медіаконтенту. Зміст дисертаційного дослідження викладено в трьох розділах, де представлено та обґрунтовано основні результати роботи. Актуальність дисертаційної роботи обґрунтовано у вступі, де сформульовано мету та задачі дослідження, описано методи дослідження, надано інформацію про наукову новизну та практичне значення одержаних результатів. Об’єктом дослідження є різноманітний аудіо контент з записом живого або синтетично створеного голосового повідомлення на українській та англійській мовах. Застосування технологій оброблення акустичної інформації може бути спрямовано на забезпечення алгоритмів створення якісного персоналізованого медіаконтенту, наприклад для систем клонування голосу. У контексті цифрової трансформації суспільства важливість таких технологій останнім часом невпинно зростає, адже вони знаходять своє застосування у багатьох галузях, включаючи медицину, освіту, інформаційні системи, розваги та засоби комунікації. Одним із ключових аспектів роботи є застосування нейромережевих алгоритмів для оброблення акустичних сигналів. Використання нейронних мереж, як альтернативний спосіб, дозволяє отримати точну ідентифікацію голосу, реалізувати синтез природного мовлення та ефективне зменшення шуму і реверберації сигналів. Особливо актуальним це стає для систем, які працюють у складних акустичних умовах. Значний інтерес викликає завдання створення персоналізованого контенту, яке базується на здатності нейронних мереж адаптуватися до індивідуальних характеристик мовця. Це включає можливість збереження унікальних інтонацій, тембру та інших специфічних особливостей голосу. Крім того, задача підвищення розбірливості мовлення є важливою для поліпшення комунікації між користувачами у різних акустичних середовищах, серед яких це лекційні зали, офіси або відкриті простори. Зокрема, використання нейронних мереж дозволяє автоматизувати та покращувати процес обробки звукових сигналів, що є основою медіасистем. Такий підхід забезпечує можливість створювати персоналізований контент, який враховує, у тому числі, специфічні вподобання користувачів. У першому розділі розглянуто сучасний стан досліджень у галузі обробки акустичної інформації та створення персоналізованого медіаконтенту. Представлено загальні відомості про основні типи акустичних сигналів, які включають широке різноманіття звукових хвиль — від природних шумів до мовлення, музики та техногенних сигналів. Розкрито їх ключові характеристики, такі як амплітуда, частота, тривалість і спектральний склад, які формують базу для їх подальшого аналізу та обробки. Описано ключові технології, такі як згорткові нейронні мережі, рекурентні архітектури та їх застосування у задачах розпізнавання мовлення, синтезу голосу та зменшення шумів. Наведено приклади використання часово-частотного представлення сигналів (спектрограм, мел-спектрограм) для вилучення інформативних ознак з аудіоданих. Також наведено актуальні підходи до адаптації моделей до оброблення сигналів у складних акустичних умовах. Розглянуто методи оцінювання ефективності нейромережевих моделей, а також перспективи їхнього використання для персоналізації голосу в різних прикладних задачах. У другому розділі, присвяченому огляду загальних засад адаптивних систем оброблення акустичної інформації, розглянуто основні принципи побудови таких систем. Наведено загальні концепції адаптивності, що забезпечують ефективну роботу систем у змінних акустичних умовах. Описано ключові компоненти адаптивних систем, включаючи модулі вилучення ознак, класифікації та синтезу мовлення. Проведено аналіз сучасних архітектур нейронних мереж, таких як згорткові та рекурентні моделі, які є основою для створення адаптивних рішень. Представлено приклади використання систем із застосуванням часово-частотного представлення сигналів, що дозволяє досягти високої точності вилучення інформативних ознак. Також наведено актуальні підходи до інтеграції методів адаптації, таких як нормалізація даних, компенсація шумів і реверберації. Розглянуто перспективи використання адаптивних систем для вирішення прикладних задач, таких як синтез персоналізованого голосу, автоматичне розпізнавання мовлення та аудіообробка в реальному часі. Особливий акцент зроблено на значенні цих систем для інноваційних сфер, таких як голосові асистенти, медичні пристрої, системи безпеки та мультимедійні додатки. Це підкреслює їхній внесок у підвищення комфорту, інтерактивності та персоналізації сучасних технологій. У третьому розділі детально описано проведення серії експериментальних досліджень, спрямованих на перевірку ефективності розроблених методів оброблення акустичної інформації. Наведено опис експериментальної бази, включаючи використане програмне забезпечення, набори даних та параметри середовищ. Представлено результати перевірки розроблених алгоритмів для задач вилучення ознак, синтезу мовлення та адаптації аудіосигналів у різних акустичних умовах. Зокрема, розглянуто методи зменшення впливу шумів та реверберації, а також забезпечення персоналізації голосу. Описано проведення експериментів на різних наборах аудіоданих, що дозволило оцінити стабільність і точність запропонованих підходів. Висвітлено практичну цінність отриманих результатів у реальних сценаріях, таких як створення персоналізованого медіаконтенту, ідентифікація за голосом та обробка аудіо у складних умовах. В дисертаційній роботі отримано наступні наукові результати: 1. Вперше розроблено систему ідентифікації за голосом, яка є стійкою до штучно підробленого голосу і показує високу точність схожості відразу за 4 критеріями. 2. Вперше побудовано акустичну модель розпізнавання мовних сигналів з підтримкою нейронної мережі, яка дозволяє в якості вхідної інформації використовувати українські словосполучення. Для її реалізації розроблено змінену рекурентну нейронну мережу, яка вирізняється тим, що за рахунок вбудованої пам’яті в структурі етап навчання та тестування нейронної мережі моделі можна проводити одночасно. 3. Удосконалено програмний алгоритм дереверберації записаних аудіо сигналів з адитивним додаванням шуму, де використано згорткову нейронну мережу за архітектурою U-Net і яка адаптована до запису не тільки тестових сигналів типу ‘сплеск’ або “постріл”, але й словосполучень українською мовою. 4. Набуло подальшого розвитку створення систем клонування голосу за рахунок введення послідовно трьох попередньо навчених нейронних мереж. Такий підхід дозволив зберегти акцент, інтонаційні та інші фонетичні особливості у синтезованих фразах як англійською, так і українською мов. Практичне значення одержаних в дисертаційній роботі результатів полягає в тому, що отримані результати можуть бути використані для широкого спектру завдань у галузі обробки аудіосигналів. Практичне значення отриманих результатів полягає у розробці та впровадженні інноваційних методів обробки акустичної інформації, що базуються на принципах функціонування сучасних нейронних мереж. Отримані результати можуть бути використані для створення систем автоматичного розпізнавання мовлення, синтезу персоналізованого голосу, адаптації аудіосигналів до різних акустичних умов та зменшення впливу шумів і реверберації. Запропоновані алгоритми та підходи є універсальними та можуть бути інтегровані у широкий спектр застосувань, таких як голосові помічники, системи безпеки, слухові апарати, медичне обладнання, інтерфейси "розумного будинку" та мультимедійні платформи. Практична значущість роботи підтверджується можливістю використання її результатів для підвищення точності, стійкості та адаптивності сучасних технологій персоналізованого медіаконтенту.
Опис
Ключові слова
розбірливість мовлення, оцінка, якість мовлення, тестовий сигнал, реверберація, шуми, моделювання, процес, звук, Інтернет речей, IoT, комп’ютерна система, рівень сигналу, розповсюдження сигналу, speech intelligibility, evaluation, speech quality, test signal, reverberation, noise, modeling, process, sound, Internet of Things, computer system, signal strength, signal propagation
Бібліографічний опис
Борисов, Г. О. Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту : дис. … д-ра філософії : 171 Електроніка / Борисов Гліб Олександрович. – Київ, 2025. – 137 с.