Підвищення робастності систем автоматичного розпізнавання мови до дії завад
Вантажиться...
Дата
2023
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Кухарічева К.А. Підвищення робастності систем автоматичного
розпізнавання мови до дії завад. – Кваліфікаційна робота на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за
спеціальністю 171 «Електроніка». – Національний технічний університет
України «Київський політехнічний інститут імені Ігоря Сікорського», МОН
України, Київ, 2023.
Дисертаційна робота присвячена дослідженню методів навчання систем
автоматичного розпізнавання мовлення (АРМ) та методів оцінювання якості
мовних сигналів, що забезпечують підвищення точності систем автоматичного
розпізнавання мовлення без суттєвого ускладнення налаштування таких
систем.
Зміст дисертаційного дослідження викладено в чотирьох розділах, де
представлено та обґрунтовано основні результати роботи.
Актуальність дисертаційної роботи обґрунтовано у вступі, де
сформульовано мету та задачі дослідження, описано методи дослідження,
надано інформацію про наукову новизну та практичне значення одержаних
результатів.
У першому розділі виконано огляд існуючих підходів до підвищення
робастності систем АРМ до дії шумової та ревербераційної завад. Описано два
напрями підвищення точності розпізнавання: напрям, що базується на
попередній корекції сигналу та напрям, згідно якому виконується адаптація
системи до дії завад. В існуючих наукових працях, присвячених вивченню
систем АРМ, недостатньо вивчено напрям, згідно якому виконується адаптація
системи до дії завад шляхом навчання на сигналах, спотворених завадами.
У другому розділі наведено результати дослідження таких факторів як
реверберація та кліпування сигналу, що можуть істотно вплинути на
ефективність роботи системи АРМ. Розглянуто міри визначення величини
кліпування, особливості використання об’єктивних показників розбірливості
мовлення та запропоновано способи моделювання реверберації в приміщенні,
що є корисним при створенні систем АРМ, стійких до дії завад.
У третьому розділі представлено короткий огляд мір якості систем
автоматичного розпізнавання мови й, зокрема, мір якості, що
використовуються при оцінюванні точності розпізнавання в програмному
комплексі The Hidden Markov Model Toolkit (HTK). Також представлено
результати експериментальних досліджень, спрямованих на підвищення
робастності систем АРМ до дії шумової завади. При цьому отримано оцінки
потенційних можливостей різних сполучень режимів навчання та роботи
систем АРМ.
У четвертому розділі представлено результати експериментальних
досліджень, спрямованих на підвищення стійкості систем АРМ до дії
ревербераційної завади. При цьому визначено ефективність роботи системи
для різних варіантів навчання та роботи за умов спотворення сигналів
ревербераційною завадою.
Представлені в дисертації нові теоретичні та практичні результати
можна рекомендувати до використання при розробці та експлуатації систем
автоматичного розпізнавання мовлення, а також в навчальному процесі вищих
навчальних закладів України для підготовки інженерів-акустиків. Отримані
результати вже застосовано в освітньому процесі кафедри акустичних та
мультимедійних електронних систем за спеціальністю 171 Електроніка,
зокрема в освітній науковій програмі «Електроніка», а також в освітній
професійній програмі “Акустичні електронні системи та технології обробки
акустичної інформації” Національного технічного університету України
“Київський політехнічний інститут імені Ігоря Сікорського”.
В дисертаційній роботі отримано наступні наукові результати:
1. Вперше для реальних мовленнєвих сигналів отримано кількісні
оцінки ступеня підвищення точності розпізнавання мовлення,
спотвореного шумом різної природи та інтенсивності, шляхом
навчання системи автоматичного розпізнавання на спотворених
шумом сигналах.
2. Вперше для реальних мовленнєвих сигналів отримано кількісні
оцінки ступеня підвищення точності розпізнавання мовлення,
спотвореного реверберацією, шляхом навчання системи
автоматичного розпізнавання на спотворених реверберацією
сигналах.
3. Вдосконалено метод оцінювання розбірливості мовлення непрямим
методом, із використанням міри якості сигналів у вигляді
барківського спектрального спотворення.
4. Уточнено висновки щодо залежності розбірливості мовлення від
щільності відбить звуку та часу реверберації, із використанням
імовірнісних моделей імпульсних характеристик приміщень.
5. Вдосконалено спосіб виявлення ефекту кліпування мовленнєвих
сигналів та об’єктивного оцінювання якості мовленнєвих сигналів,
спотворених кліпуванням, що базується на використанні коефіцієнта
ексцесу як міри спотворення сигналів.
Практичне значення отриманих результатів полягає у наступному:
1. Встановлено умови досягнення високої точності розпізнавання в
системах автоматичного розпізнавання мовлення для сигналів, що
спотворені шумами різної природи та інтенсивності, за наявності
різної апріорної інформації щодо відношення сигнал-шум, що
дозволяє забезпечити робастність системи автоматичного
розпізнавання шляхом відносно простого її налаштування;
2. Встановлено умови досягнення високої точності розпізнавання в
системах автоматичного розпізнавання мовлення для сигналів,
спотворених реверберацією в приміщеннях із різним часом
реверберації, за наявності різної апріорної інформації щодо часу
реверберації, що дозволяє забезпечити робастність системи
автоматичного розпізнавання шляхом використання певних правил її
налаштування;
3. Встановлено працездатність та ефективність оцінювання
розбірливості мовлення непрямим методом, із використанням міри
якості сигналів у вигляді барківського спектрального спотворення, що
дозволяє оцінювати розбірливість мовлення, спотвореного
реверберацією, за наявності еталонного неспотвореного сигналу;
4. Отримано залежності розбірливості мовлення від щільності ранніх
відбить звуку та часу реверберації, із використанням імовірнісних
моделей імпульсних характеристик приміщень, що дозволяє
обґрунтувати результати прогнозування та оцінювання розбірливості
мовлення в різних точках приміщення;
5. Встановлено можливість автоматизації виявлення кліпування,
оцінювання його ступеня, а також об’єктивного оцінювання якості
мовленнєвих сигналів, спотворених кліпуванням.
Опис
Ключові слова
автоматичне розпізнавання мовлення, точність розпізнавання, прихована марковська модель, шумова завада, ревербераційна завада, коефіцієнт ексцесу, automatic speech recognition, recognition accuracy, hidden Markov model, noise interference, reverberation interference, kurtosis
Бібліографічний опис
Кухарічева, К. А. Підвищення робастності систем автоматичного розпізнавання мови до дії завад : дис. … д-ра філософії : 171 Електроніка / Кухарічева Катерина Андріївна. – Київ, 2023. – 148 с.