Automated Subjective Assessment of Speech Intelligibility in Various Listening Modes

dc.contributor.authorProdeus, A. M.
dc.contributor.authorBukhta, K. V.
dc.contributor.authorMorozko, P. V.
dc.contributor.authorSerhiienko, O. V.
dc.contributor.authorKotvytskyi, I. V.
dc.contributor.authorDvornyk, O. O.
dc.date.accessioned2020-04-29T19:01:07Z
dc.date.available2020-04-29T19:01:07Z
dc.date.issued2018
dc.description.abstractenIn this paper, the results of automated subjective assessment of Ukrainian speech intelligibility are presented. Speech monosyllables of the consonant-vowel-consonant (CVC) type were listened in two modes: through headphones and through acoustic monitors. The assessment was carried out with the help of specially developed software that allowed automating of articulation tests. Speech listening was done for four situations: pure language; speech distorted by noise; speech distorted by reverberation; speech distorted by the combined effect of noise and reverberation. In the first case, speech monosyllables of 3 articulation tables were listened, each of which contained 50 monosyllables. In the second case, speech distorted by the additive noise with the signal-to-noise ratios (SNR) varied in the range ‑15…+10 dB was listened. In this case, models of white, pink and brown noises were used, the masking properties of which are rather well-studied. In the third case, the reverberant speech for reverberation times in the range 0.3…2.7 s was modeled by convolution of pure speech signals with room impulse responces (RIRs) of various rooms, and in the fourth case the joint action of pink noise and reverberation was considered. It turned out that the masking ability of white noise exceeds one for brown noise for SNR less than minus 5 dB, which is not entirely consistent with preliminary predictive estimates. In addition, it turned out that listening to speech distorted by noise through acoustic monitors could lead to a significant increase in the speech intelligibility, compared to the case of listening through headphones. The analysis of possible causes of abnormal increase in speech intelligibility has been carried out. Early reflections, presence of two loudspeakers, binaural listening, psychophysical features of listeners, as well as peculiarities of software and articulatory testing organization were considered as possible reasons of the phenomenon. After correction of the software and some features of articulation tests it turned out that the results of the speech intelligibility estimation almost coincide when listening to the signals through the headphones and through acoustic monitors, if the distance between the listener and acoustic monitors does not exceed 0.6-0.8 meters. At the same time, these corrections did not differ in the behavior of the dependencies of speech intelligibility on the SNR for small (less minus 5 dB) SNR values The general conclusion may be that listening to speech signals distorted by noise and reverberation interferences, performed with the application of the proposed automated system of articulation tests, indicates the performance and high quality of the developed system.uk
dc.description.abstractruВ данной работе представлены результаты автоматизированной субъективной оценки разборчивости украинской речи. Односложные звукосочетания типа «согласный-гласный-согласный» прослушивались двумя способами: через наушники и через акустические мониторы. Оценка разборчивости речи производилась с помощью специально разработанного программного обеспечения, позволяющего автоматизировать артикуляционные испытания. Прослушивание речи выполнялось для четырех ситуаций: чистая речь; речь, искаженная шумом; речь, искаженная реверберацией; речь, искаженная совместным действием шума и реверберации. Оказалось, что маскирующая способность белого шума превышает таковую для коричневого шума при отношениях сигнал-шум менее минус 5 дБ, что не совсем согласуется с предварительными прогнозными оценками. Кроме того, оказалось, что прослушивание речи, искаженной шумом, через акустические мониторы может привести к значительному увеличению разборчивости речи по сравнению с прослушиванием через наушники. В качестве возможных причин данного явления рассмотрены ранние отражения, наличие двух громкоговорителей, бинауральное прослушивание, психофизические особенности слушателей, а также особенности программного обеспечения и организация артикуляторного тестирования. После коррекции программного обеспечения и процедуры артикуляционных испытаний оказалось, что результаты оценки разборчивости речи практически не отличаются для обоих способов прослушивания при условии, что расстояние между слушателем и акустическими мониторами не превышает 0,6-0,8 метра. В то же время выполненная коррекция не отразилась на поведении зависимостей разборчивости речи от отношения сигнал-шум при малых (менее минус 5 дБ) значениях отношения сигнал-шум.uk
dc.description.abstractukУ даній роботі представлені результати автоматизованої суб'єктивної оцінки розбірливості української мови. Односкладові звукосполучення типу «приголосний-голосний-приголосний» прослуховувалися двома способами: через навушники та через акустичні монітори. Оцінка розбірливості мови виконувалася із застосуванням спеціально розробленого програмного забезпечення, що дозволяє автоматизувати процедуру артикуляційних випробувань. Прослуховування мови виконувалося для чотирьох ситуацій: чиста мова; мова, спотворена шумом; мова, спотворена реверберацією; мова, спотворена спільною дією шуму та реверберації. Виявилося, що маскувальна здатність білого шуму перевищує таку для коричневого шуму при відношеннях сигнал-шум, менших за мінус 5 дБ, що не зовсім узгоджується з попередніми прогнозними оцінками. Крім того, виявилося, що прослуховування мови, спотвореної шумом, через акустичні монітори може привести до значного збільшення розбірливості мови в порівнянні з прослуховуванням через навушники. В якості можливих причин цього явища розглянуто ранні відбитки, наявність двох гучномовців, бінауральне прослуховування, психофізичні особливості слухачів, а також особливості програмного забезпечення та організації артикуляційних випробувань. Після корекції програмного забезпечення та процедури артикуляційних випробувань виявилося, що результати оцінки розбірливості мови практично не відрізняються для обох способів прослуховування за умови, що відстань між слухачем і акустичними моніторами не перевищує 0,6-0,8 метра. У той же час виконана корекція не відбилася на поведінці залежностей розбірливості мови від відношення сигнал-шум при малих (менших за мінус 5 дБ) значеннях відношення сигнал-шум.uk
dc.format.pagerangePp. 49-57uk
dc.identifier.citationAutomated Subjective Assessment of Speech Intelligibility in Various Listening Modes / A. M. Prodeus, K. V. Bukhta, P. V. Morozko, O. V. Serhiienko, I. V. Kotvytskyi, O. O. Dvornyk // Мікросистеми, Електроніка та Акустика : науково-технічний журнал. – 2018. – Т. 23, № 3(104). – С. 49–57. – Бібліогр.: 13 назв.uk
dc.identifier.doihttps://doi.org/10.20535/2523-4455.2018.23.3.130367
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/33139
dc.language.isoenuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/uk
dc.sourceМікросистеми, Електроніка та Акустика : науково-технічний журнал, 2018, Т. 23, № 3(104)uk
dc.subjectautomation of articulation testsuk
dc.subjectspeech intelligibilityuk
dc.subjectnoise interferenceuk
dc.subjectreverberation interferenceuk
dc.subjectlistening modeuk
dc.subjectавтоматизація артикуляційних випробуваньuk
dc.subjectрозбірливість мовиuk
dc.subjectшумова завадаuk
dc.subjectревербераційна завадаuk
dc.subjectспосіб прослуховуванняuk
dc.subjectавтоматизация артикуляционных испытанийuk
dc.subjectразборчивость речиuk
dc.subjectшумовая помехаuk
dc.subjectреверберационная помехаuk
dc.subjectспособ прослушиванияuk
dc.subject.udc004.934uk
dc.titleAutomated Subjective Assessment of Speech Intelligibility in Various Listening Modesuk
dc.title.alternativeАвтоматизоване суб'єктивне оцінювання розбірливості мови при різних способах прослуховуванняuk
dc.title.alternativeАвтоматизированное субъективное оценивание разборчивости речи при различных способах прослушиванияuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
MEA2018_23-3_49-57.pdf
Розмір:
428.71 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: