Підвищення робастності систем автоматичного розпізнавання мови до дії завад

dc.contributor.advisorПродеус, Аркадій Миколайович
dc.contributor.authorКухарічева, Катерина Андріївна
dc.date.accessioned2023-12-05T13:10:25Z
dc.date.available2023-12-05T13:10:25Z
dc.date.issued2023
dc.description.abstractКухарічева К.А. Підвищення робастності систем автоматичного розпізнавання мови до дії завад. – Кваліфікаційна робота на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 171 «Електроніка». – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», МОН України, Київ, 2023. Дисертаційна робота присвячена дослідженню методів навчання систем автоматичного розпізнавання мовлення (АРМ) та методів оцінювання якості мовних сигналів, що забезпечують підвищення точності систем автоматичного розпізнавання мовлення без суттєвого ускладнення налаштування таких систем. Зміст дисертаційного дослідження викладено в чотирьох розділах, де представлено та обґрунтовано основні результати роботи. Актуальність дисертаційної роботи обґрунтовано у вступі, де сформульовано мету та задачі дослідження, описано методи дослідження, надано інформацію про наукову новизну та практичне значення одержаних результатів. У першому розділі виконано огляд існуючих підходів до підвищення робастності систем АРМ до дії шумової та ревербераційної завад. Описано два напрями підвищення точності розпізнавання: напрям, що базується на попередній корекції сигналу та напрям, згідно якому виконується адаптація системи до дії завад. В існуючих наукових працях, присвячених вивченню систем АРМ, недостатньо вивчено напрям, згідно якому виконується адаптація системи до дії завад шляхом навчання на сигналах, спотворених завадами. У другому розділі наведено результати дослідження таких факторів як реверберація та кліпування сигналу, що можуть істотно вплинути на ефективність роботи системи АРМ. Розглянуто міри визначення величини кліпування, особливості використання об’єктивних показників розбірливості мовлення та запропоновано способи моделювання реверберації в приміщенні, що є корисним при створенні систем АРМ, стійких до дії завад. У третьому розділі представлено короткий огляд мір якості систем автоматичного розпізнавання мови й, зокрема, мір якості, що використовуються при оцінюванні точності розпізнавання в програмному комплексі The Hidden Markov Model Toolkit (HTK). Також представлено результати експериментальних досліджень, спрямованих на підвищення робастності систем АРМ до дії шумової завади. При цьому отримано оцінки потенційних можливостей різних сполучень режимів навчання та роботи систем АРМ. У четвертому розділі представлено результати експериментальних досліджень, спрямованих на підвищення стійкості систем АРМ до дії ревербераційної завади. При цьому визначено ефективність роботи системи для різних варіантів навчання та роботи за умов спотворення сигналів ревербераційною завадою. Представлені в дисертації нові теоретичні та практичні результати можна рекомендувати до використання при розробці та експлуатації систем автоматичного розпізнавання мовлення, а також в навчальному процесі вищих навчальних закладів України для підготовки інженерів-акустиків. Отримані результати вже застосовано в освітньому процесі кафедри акустичних та мультимедійних електронних систем за спеціальністю 171 Електроніка, зокрема в освітній науковій програмі «Електроніка», а також в освітній професійній програмі “Акустичні електронні системи та технології обробки акустичної інформації” Національного технічного університету України “Київський політехнічний інститут імені Ігоря Сікорського”. В дисертаційній роботі отримано наступні наукові результати: 1. Вперше для реальних мовленнєвих сигналів отримано кількісні оцінки ступеня підвищення точності розпізнавання мовлення, спотвореного шумом різної природи та інтенсивності, шляхом навчання системи автоматичного розпізнавання на спотворених шумом сигналах. 2. Вперше для реальних мовленнєвих сигналів отримано кількісні оцінки ступеня підвищення точності розпізнавання мовлення, спотвореного реверберацією, шляхом навчання системи автоматичного розпізнавання на спотворених реверберацією сигналах. 3. Вдосконалено метод оцінювання розбірливості мовлення непрямим методом, із використанням міри якості сигналів у вигляді барківського спектрального спотворення. 4. Уточнено висновки щодо залежності розбірливості мовлення від щільності відбить звуку та часу реверберації, із використанням імовірнісних моделей імпульсних характеристик приміщень. 5. Вдосконалено спосіб виявлення ефекту кліпування мовленнєвих сигналів та об’єктивного оцінювання якості мовленнєвих сигналів, спотворених кліпуванням, що базується на використанні коефіцієнта ексцесу як міри спотворення сигналів. Практичне значення отриманих результатів полягає у наступному: 1. Встановлено умови досягнення високої точності розпізнавання в системах автоматичного розпізнавання мовлення для сигналів, що спотворені шумами різної природи та інтенсивності, за наявності різної апріорної інформації щодо відношення сигнал-шум, що дозволяє забезпечити робастність системи автоматичного розпізнавання шляхом відносно простого її налаштування; 2. Встановлено умови досягнення високої точності розпізнавання в системах автоматичного розпізнавання мовлення для сигналів, спотворених реверберацією в приміщеннях із різним часом реверберації, за наявності різної апріорної інформації щодо часу реверберації, що дозволяє забезпечити робастність системи автоматичного розпізнавання шляхом використання певних правил її налаштування; 3. Встановлено працездатність та ефективність оцінювання розбірливості мовлення непрямим методом, із використанням міри якості сигналів у вигляді барківського спектрального спотворення, що дозволяє оцінювати розбірливість мовлення, спотвореного реверберацією, за наявності еталонного неспотвореного сигналу; 4. Отримано залежності розбірливості мовлення від щільності ранніх відбить звуку та часу реверберації, із використанням імовірнісних моделей імпульсних характеристик приміщень, що дозволяє обґрунтувати результати прогнозування та оцінювання розбірливості мовлення в різних точках приміщення; 5. Встановлено можливість автоматизації виявлення кліпування, оцінювання його ступеня, а також об’єктивного оцінювання якості мовленнєвих сигналів, спотворених кліпуванням.uk
dc.description.abstractotherKukharicheva K.A. Increasing the Robustness of Automatic Speech Recognition Systems to Interference – Qualification scientific work on the rights of the manuscript. Thesis for the degree of Philosophy Doctor, in specialty 171 “Electronics”. – National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Kyiv, 2023. The dissertation is devoted to the study of methods of training automatic speech recognition systems and methods of evaluating the quality of speech signals, which ensure an increase in the accuracy of automatic speech recognition systems without significantly complicating the setup of such systems. The content of the dissertation research is presented in four sections, in which the main results of the work are presented and substantiated. The introduction substantiates the relevance of the dissertation, formulates the purpose and lists the objectives of the study, describes the research methods, and provides information about the scientific novelty and practical significance of the results. The first section is devoted to a review of publications on increasing the robustness of ASR systems to noise and reverberation interference. Two methods of the recognition increase are described: signal correction methods and model adaptation approaches. The considered works on increasing the robustness of ASR systems lack knowledge of model adaptation approach in terms of the usage of different training techniques. The second section presents the research results of the reverberation and signal clipping, which can significantly affect the efficiency of the ASR system. Measures for determining the amount of clipping, and features of the usage of speech intelligibility objective measures are considered, and the methods of reverberation modeling in the room are proposed, which are useful while creating ASR systems that are robust to the effects of interference. The third section presents a brief overview of the quality measures of ASR systems and, in particular, the quality measures used in the assessment of recognition accuracy in The Hidden Markov Model Toolkit (HTK). The results of experimental studies aimed at increasing the robustness of APM systems to the effect of noise interference are also presented. At the same time, the estimates of the potential capabilities of training modes’ various combinations of the ASR systems were obtained. The fourth section presents the results of experimental studies aimed at increasing the ASR system’s robustness to the impact of reverberation interference. At the same time, the efficiency of the system was determined for various modes of training and operation under reverberation interference. The new theoretical and practical results presented in the dissertation can be recommended for the development and operation of ASR systems, as well as in the educational process of higher educational institutions of Ukraine for the acoustic engineering field of study. Results obtained are already implemented in the educational process at the Department of Acoustic and Multimedia Electronic Systems (specialty 171 “Electronics”, educational programme “Acoustic Electronic Systems and Acoustic Information Processing Technologies) of National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”. The following scientific results were obtained in the dissertation: 1. For the first time, the quantitative estimates of the degree of improvement in the speech recognition accuracy for the real speech signals distorted by the noise of different nature and intensity were obtained by training an automatic recognition system on noise-distorted signals. 2. For the first time, the quantitative estimates of the degree of improvement in the speech recognition accuracy for the real speech signals distorted by the noise of different nature and intensity were obtained by training an automatic recognition system on reverberant signals 3. The indirect method of assessing speech intelligibility using a signal quality measure in the form of Barkov spectral distortion has been improved. 4. The conclusions regarding the dependence of speech intelligibility on the sound reflections density and reverberation time have been refined, using probabilistic room impulse response (RIR) models. 5. The method of detecting the speech signals clipping effect and objective assessment of the quality of speech signals distorted by clipping, based on the use of the kurtosis coefficient as a signal distortion measure, has been improved. The practical significance of the results obtained in the dissertation is as follows: 1. The conditions for achieving high recognition accuracy in automatic speech recognition systems for signals distorted by noises of different nature and intensity, in the presence of different a priori information about the signal-tonoise ratio, have been established, which allows ensuring the robustness of the automatic recognition system through relatively simple configuration; 2. The conditions for achieving high recognition accuracy in automatic speech recognition systems for signals distorted by reverberation in rooms with different reverberation time values have been established, which allows for ensuring the robustness of the automatic recognition system through relatively simple configuration; 3. The efficiency and effectiveness of evaluating speech intelligibility by an indirect method, using a measure of signal quality in the form of Bark spectral distortion, which allows evaluating the intelligibility of speech distorted by reverberation, in the presence of a reference undistorted signal, has been established; 4. The dependence of speech intelligibility on the density of early sound reflections and reverberation time was obtained, using probabilistic RIR models, which allows substantiating the results of forecasting and evaluation of speech intelligibility at different points of the room; 5. The possibility of clipping detection automatization, the assessment of its degree, and the objective assessment of the quality of speech signals distorted by clipping have been obtained.uk
dc.format.extent148 с.uk
dc.identifier.citationКухарічева, К. А. Підвищення робастності систем автоматичного розпізнавання мови до дії завад : дис. … д-ра філософії : 171 Електроніка / Кухарічева Катерина Андріївна. – Київ, 2023. – 148 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/62789
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectавтоматичне розпізнавання мовленняuk
dc.subjectточність розпізнаванняuk
dc.subjectприхована марковська модельuk
dc.subjectшумова завадаuk
dc.subjectревербераційна завадаuk
dc.subjectкоефіцієнт ексцесуuk
dc.subjectautomatic speech recognitionuk
dc.subjectrecognition accuracyuk
dc.subjecthidden Markov modeluk
dc.subjectnoise interferenceuk
dc.subjectreverberation interferenceuk
dc.subjectkurtosisuk
dc.subject.udc621.391.83uk
dc.titleПідвищення робастності систем автоматичного розпізнавання мови до дії завадuk
dc.typeThesis Doctoraluk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kukharicheva_dys.pdf
Розмір:
3.84 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: