Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання

dc.contributor.advisorДідковська, Марина Віталіївна
dc.contributor.authorХарченко, Дмитро Олександрович
dc.date.accessioned2020-08-19T16:15:13Z
dc.date.available2020-08-19T16:15:13Z
dc.date.issued2020
dc.description.abstractenMaster’s thesis: 103 pp., 36 fig., 25 tab., 52 sources. The purpose of this work is to investigate systems based on deep learning that distinguish the human voice from the background noise. The main goal of the work was to study the possibility of using deep learning for the problem of noise filtering on sound records. The object of study of this master's thesis is the selection of the human voice. The subject of research -deep learning for denoising in audio. The relevance of the study lies in the unresolved issue of removing noise from speech recording, except for the recent RTX Voice, which has significant limitations in hardware (Nvidia) and software (Windows). Three leading deep learning architectures designed for the task of improving speech were studied. The first is SEGAN based on generative competition networks, the next is WaveNet modified for noise removal and the last is EHNet, which uses recurrent and convolutional networks. A comparative analysis of the studied architectures was performed and a modification of SEGAN was proposed and implemented, which accelerates the speed of work and learning. Also there was proposed the architecture of the system, built on the proposed modification.uk
dc.description.abstractukМагістерська дисертація: 103 с., 36 рис, 25 табл і 52 джерела. Мета даної роботи – дослідити системи на базі глибокого навчання, що виділяють людський голос з поміж фонових шумів. Основною ціллю роботи стали дослідження можливості використання глибокого навчання для задачі фільтрації шуму на звукозаписі. Об’єктом дослідження даної магістерської дипломної роботи є виділення людського голосу. Предмет дослідження – глибоке навчання для обробки шуму в аудіо. Актуальність дослідження полягає у невирішеності питання видалення шумів із запису мови, окрім недавньої RTX Voice, що має суттєві обмеження в технічному (Nvidia) та програмному забезпеченні (Windows). Були досліджені 3 провідні архітектури глибокого навчання, що спроектовані для задачі покращення мовлення. Перша - SEGAN заснована на генеративних змагальних мережах, наступна - WaveNet модифікований для прибирання шуму та остання - EHNet, що використовує рекурентні та згорткові мережі. Проведено порівняльний аналіз досліджених архітектур та запропоновано та реалізовано модифікацію SEGAN, що пришвидшує швидкість роботи та навчання. Також запропонована архітектура системи, що побудована на базі запропонованої модифікації.uk
dc.format.page103 с.uk
dc.identifier.citationХарченко, Д. О. Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання : магістерська дис. : 122 Комп'ютерні науки / Харченко Дмитро Олександрович. – Київ, 2020. –103 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/35698
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectпокращення мовленняuk
dc.subjectглибоке навчанняuk
dc.subjectгенеративні змагальні мережіuk
dc.subjectрекурентні мережіuk
dc.subjectзгорткові мережіuk
dc.subjectзвукозаписuk
dc.subjectобробка сигналівuk
dc.subjectvoice biometryuk
dc.subjectpersonal authentificationuk
dc.subjectlimitated computing resourcesuk
dc.subjectfast biometryuk
dc.subjectmfccuk
dc.subjectclassifiersuk
dc.subjectpythonuk
dc.subject.udc004.934.5uk
dc.titleСистема виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчанняuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kharchenko_magistr.pdf
Розмір:
2.88 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: