Статистичний аналізатор та класифікатор мовних сигналів на основі суміші гаусівських розподілів
dc.contributor.author | Пилипенко, Костянтин Петрович | |
dc.contributor.degreedepartment | акустики та акустоелектроніки | uk |
dc.contributor.degreefaculty | електроніки | uk |
dc.contributor.degreegrantor | Національний технічний університет України "Київський політехнічний інститут" | uk |
dc.date.accessioned | 2013-12-17T13:15:05Z | |
dc.date.available | 2013-12-17T13:15:05Z | |
dc.date.issued | 2013 | |
dc.description.abstracten | The thesis for a candidate of technical sciences degree in the specialty 05.09.08 - Applied Acoustics and Audio Engineering. – National Technical University of Ukraine "Kyiv Polytechnic Institute", Kiev, 2013. The thesis is devoted to theoretical justification of the use of a mixture of Gaussian distributions as a model for the probability density of the speech signals. Investigated the distribution function of two-component mixtures and obtained Gaussian solution of identification probability densities. The author obtained solution of the identification equation for the probability density that allow one to find the parameters of the mixture by known cumulant coefficients of the random variable and formulated method and a program of identification probability densities using a twocomponent mixture of Gaussian distribution. The analytical expression for the variance of the estimations of the parameters of mixture distribution and variance of the estimations of the distribution are obtained. The use of the cumulant coefficients of speech signal as the classification criteria for solving identification problem is proposed. The method for speaker’s gender identification based on cumulant coefficients of speech signal is proposed and classification errors are analyzed. | uk |
dc.description.abstractru | Диссертация на соискание научной степени кандидата технических наук по специальности 05.09.08 – Прикладная акустика и звукотехника. – Национальный технический университет Украины «Киевский политехнический институт», Киев, 2013. Диссертация посвящена теоретическому обоснованию использования смеси гауссовских распределений в качестве модели плотности вероятностей речевых сигналов. Проведен анализ современного состояния математического моделирования распределений речевых сигналов. Показано, что большинство известных моделей плотности вероятностей речевых сигналов позволяют описывать усредненный речевой процесс без учета особенностей конкретного диктора или условий записи сигнала. Среди алгоритмов извлечения признаков в задачах классификации и распознавания речи доминируют спектральный анализ и метод линейного предсказания, а наиболее распространенными классификационными признаками являются мэл-частотные кепстральные коэффициенты и кепстральные коэффициенты линейного предсказания. В современных исследованиях явно недостаточное внимание уделено закону распределения мгновенных значений речевого сигнала в задачах распознавания дикторов на этапе извлечения информационных признаков. В связи с тем, что проблема учета влияния окружающей среды, а также условий записи на классификационные признаки окончательно не решена целесообразно вести поиск новых классификационных признаков, для которых данные мешающие факторы могут быть относительно легко учтены и компенсированы. Представлены общие формулы для смесей распределений и обозначена область их практического применения. Анализ работ показал, что хотя смеси распределений являются удобной моделью для различных приложений, однако их использование затруднено в связи с отсутствием расчетных формул, пригодных для инженерных применений. По этой причине для дальнейшего применение смесей распределений в инженерной практике необходимо в первую очередь получить формулы, связывающие параметры смеси с параметрами акустических сигналов, а также исследовать точность аппроксимации законов распределения акустических сигналов указанной моделью плотности вероятностей. Исследована функция распределения двухкомпонентных гаусссовской смеси, получены и проанализированы условия, накладываемы на параметры смеси принадлежащих одному типу. Получено общее аналитическое выражение для плотности вероятностей процесса в виде суммы полезного сигнала и помехи, где закон распределения полезного сигнала – смесь распределений, а помеха является гауссовским процессом. Данный результат позволяет решать задачу обнаружения полезного сигнала на фоне помехи и идентифицировать его плотность вероятностей с помощью смеси распределений. Предложена система уравнений идентификации и получено ее решение, что позволяет по известным кумулянтным коэффициентам идентифицируемой случайной величины находить параметры смеси 21 Проиллюстрировано применение алгоритмов идентификации распределений с помощью смесей нормальных распределений на примерах идентификации типовых распределений с известными плотностями вероятностей и исследована эффективность применения смеси распределения для аппроксимации плотности вероятностей речевых сигналов. Получены аналитические выражения для вычисления дисперсии оценок параметров смеси и плотности вероятностей, что позволяет учитывать разброс этих параметров при аппроксимации закона распределения реальных сигналов. Разработана методика идентификации пола диктора на основе кумулянтних коефициентов речевого сигнала. Показано, что анализируя параметры плотности вероятностей сигнала в октавной полосе частот со среднегеометрической частотой, раной 125 Гц, можно решать задачу классификации пола диктора. В качестве классификационных признаков были выбраны кумулянтные коэффициенты, с их использованием были построены классификаторы. Произведена оценка влияния аддитивного шума и дисперсии оценок кумулянтных коэффициентов на точность классификации пола диктора по классификационным признакам в виде кумулянтных коэффициентов выборок анализируемого речевого сигнала. Показана целесообразность построения адаптивной системы классификации, функционирующей с учетом маскировки речевого сигнала аддитивным шумом. Сравнение предложенного метода классификации пола дикторов с конкурентными методами свидетельствует, что предложенный метод обеспечивает более высокую точность классификации, устойчив к влиянию шумовых помех и намного более прост в плане технической реализации (в частности, благодаря отказу от ЧОТ в качестве основного классификационного признака). | uk |
dc.description.abstractuk | Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.09.08 – Прикладна акустика та звукотехніка. – Національний технічний університет України «Київський політехнічний інститут», Київ, 2013. Дисертаційна робота присвячена теоретичному та експериментальному обгрунтуванню використання суміші гаусівських розподілів в якості моделі щільності ймовірностей мовних сигналів. Досліджено функцію розподілу двокомпонентних гаусівскої суміші та отримано розв’язок рівняння ідентифікації щільності ймовірностей. Автором отримано розв'язок рівняння ідентифікації щільності ймовірностей, що дозволяє однозначно знаходити параметри суміші за відомими кумулянтними коефіцієнтами ідентифікованої випадкової величини, сформульовано методику і розроблено програму ідентифікації щільності ймовірностей за допомогою двокомпонентної гаусівскої суміші. Одержано аналітичні вирази для знаходження дисперсії оцінок параметрів суміші розподілу та дисперсії оцінки закону розподілу, що дозволяє прогнозувати та оцінювати якість класифікації мовних сигналів. Запропоновано використання кумулянтних коефіцієнтів мовного сигналу в якості класифікаційних ознак при вирішенні задачі ідентифікації диктора за статтю. Розроблена методика ідентифікації диктора за статтю на основі кумулянтних коефіцієнтів мовного сигналу. і проаналізовано помилки розпізнавання. | uk |
dc.format.page | 24 л. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/6444 | |
dc.language.iso | uk | uk |
dc.publisher | Національний технічний університет України "Київський політехнічний інститут" | uk |
dc.publisher.place | Київ | uk |
dc.status.pub | published | uk |
dc.subject.udc | 519.213 | uk |
dc.title | Статистичний аналізатор та класифікатор мовних сигналів на основі суміші гаусівських розподілів | uk |
dc.type | Other | uk |
thesis.degree.level | candidate | uk |
thesis.degree.name | кандидат технічних наук | uk |
thesis.degree.speciality | 05.09.08 – прикладна акустика та звукотехніка | uk |