Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання

Вантажиться...
Ескіз

Дата

2020

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Магістерська дисертація: 103 с., 36 рис, 25 табл і 52 джерела. Мета даної роботи – дослідити системи на базі глибокого навчання, що виділяють людський голос з поміж фонових шумів. Основною ціллю роботи стали дослідження можливості використання глибокого навчання для задачі фільтрації шуму на звукозаписі. Об’єктом дослідження даної магістерської дипломної роботи є виділення людського голосу. Предмет дослідження – глибоке навчання для обробки шуму в аудіо. Актуальність дослідження полягає у невирішеності питання видалення шумів із запису мови, окрім недавньої RTX Voice, що має суттєві обмеження в технічному (Nvidia) та програмному забезпеченні (Windows). Були досліджені 3 провідні архітектури глибокого навчання, що спроектовані для задачі покращення мовлення. Перша - SEGAN заснована на генеративних змагальних мережах, наступна - WaveNet модифікований для прибирання шуму та остання - EHNet, що використовує рекурентні та згорткові мережі. Проведено порівняльний аналіз досліджених архітектур та запропоновано та реалізовано модифікацію SEGAN, що пришвидшує швидкість роботи та навчання. Також запропонована архітектура системи, що побудована на базі запропонованої модифікації.

Опис

Ключові слова

покращення мовлення, глибоке навчання, генеративні змагальні мережі, рекурентні мережі, згорткові мережі, звукозапис, обробка сигналів, voice biometry, personal authentification, limitated computing resources, fast biometry, mfcc, classifiers, python

Бібліографічний опис

Харченко, Д. О. Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання : магістерська дис. : 122 Комп'ютерні науки / Харченко Дмитро Олександрович. – Київ, 2020. –103 с.

ORCID

DOI