Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання
dc.contributor.advisor | Дідковська, Марина Віталіївна | |
dc.contributor.author | Харченко, Дмитро Олександрович | |
dc.date.accessioned | 2020-08-19T16:15:13Z | |
dc.date.available | 2020-08-19T16:15:13Z | |
dc.date.issued | 2020 | |
dc.description.abstracten | Master’s thesis: 103 pp., 36 fig., 25 tab., 52 sources. The purpose of this work is to investigate systems based on deep learning that distinguish the human voice from the background noise. The main goal of the work was to study the possibility of using deep learning for the problem of noise filtering on sound records. The object of study of this master's thesis is the selection of the human voice. The subject of research -deep learning for denoising in audio. The relevance of the study lies in the unresolved issue of removing noise from speech recording, except for the recent RTX Voice, which has significant limitations in hardware (Nvidia) and software (Windows). Three leading deep learning architectures designed for the task of improving speech were studied. The first is SEGAN based on generative competition networks, the next is WaveNet modified for noise removal and the last is EHNet, which uses recurrent and convolutional networks. A comparative analysis of the studied architectures was performed and a modification of SEGAN was proposed and implemented, which accelerates the speed of work and learning. Also there was proposed the architecture of the system, built on the proposed modification. | uk |
dc.description.abstractuk | Магістерська дисертація: 103 с., 36 рис, 25 табл і 52 джерела. Мета даної роботи – дослідити системи на базі глибокого навчання, що виділяють людський голос з поміж фонових шумів. Основною ціллю роботи стали дослідження можливості використання глибокого навчання для задачі фільтрації шуму на звукозаписі. Об’єктом дослідження даної магістерської дипломної роботи є виділення людського голосу. Предмет дослідження – глибоке навчання для обробки шуму в аудіо. Актуальність дослідження полягає у невирішеності питання видалення шумів із запису мови, окрім недавньої RTX Voice, що має суттєві обмеження в технічному (Nvidia) та програмному забезпеченні (Windows). Були досліджені 3 провідні архітектури глибокого навчання, що спроектовані для задачі покращення мовлення. Перша - SEGAN заснована на генеративних змагальних мережах, наступна - WaveNet модифікований для прибирання шуму та остання - EHNet, що використовує рекурентні та згорткові мережі. Проведено порівняльний аналіз досліджених архітектур та запропоновано та реалізовано модифікацію SEGAN, що пришвидшує швидкість роботи та навчання. Також запропонована архітектура системи, що побудована на базі запропонованої модифікації. | uk |
dc.format.page | 103 с. | uk |
dc.identifier.citation | Харченко, Д. О. Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання : магістерська дис. : 122 Комп'ютерні науки / Харченко Дмитро Олександрович. – Київ, 2020. –103 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/35698 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | uk |
dc.subject | покращення мовлення | uk |
dc.subject | глибоке навчання | uk |
dc.subject | генеративні змагальні мережі | uk |
dc.subject | рекурентні мережі | uk |
dc.subject | згорткові мережі | uk |
dc.subject | звукозапис | uk |
dc.subject | обробка сигналів | uk |
dc.subject | voice biometry | uk |
dc.subject | personal authentification | uk |
dc.subject | limitated computing resources | uk |
dc.subject | fast biometry | uk |
dc.subject | mfcc | uk |
dc.subject | classifiers | uk |
dc.subject | python | uk |
dc.subject.udc | 004.934.5 | uk |
dc.title | Система виділення людського голосу з зашумленого аудіозапису з використанням глибокого навчання | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Kharchenko_magistr.pdf
- Розмір:
- 2.88 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 9.06 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: