Система виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж
dc.contributor.advisor | Данилов, Валерій Якович | |
dc.contributor.author | Заяць, Владислав Андрійович | |
dc.date.accessioned | 2025-01-30T10:33:58Z | |
dc.date.available | 2025-01-30T10:33:58Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Магістерська дисертація: 95 с., 3 рис., 22 табл., 1 додаток, 30 джерел. Тема: розробка системи виявлення голосової активності та розпізнавання мови на основі глибоких нейронних мереж. Об’єкт дослідження: системи виявлення голосової активності та розпізнавання мови, що забезпечують перетворення аудіопотоку в текст у режимі реального часу за допомогою нейронних мереж. Предмет дослідження: розробка та реалізація системи розпізнавання мови, яка включає модуль виявлення голосової активності (VAD) та систему розпізнавання тексту з аудіопотоку. Мета роботи: дослідити та розробити систему розпізнавання мови, що працює в реальному часі, із використанням глибоких нейронних мереж для ідентифікації голосової активності та перетворення голосового сигналу в текст. Методи дослідження: обробка аудіосигналів, глибокі нейронні мережі, машинне навчання. Актуальність: зростаючий попит на інтерактивні та автономні голосові системи підвищує важливість розробки високоефективних рішень. Використання глибоких нейронних мереж дозволяє досягти високої точності у виявленні голосової активності та розпізнаванні мови. Результати роботи: розроблено модель ResNet50 для виявлення голосової активності (VAD), навчено її з використанням датасету RealVAD. Реалізовано систему розпізнавання мови на основі моделі whisper для конвертації активних аудіофрагментів у текст у режимі реального часу. | |
dc.description.abstractother | Thesis: 95 pages, 3 figures, 22 tables, 1 appendices, 30 references. Topic: development of a voice activity detection and speech recognition system based on deep neural networks. Object of research: voice activity detection and speech recognition systems that convert audio streams into text in real-time using neural networks. Subject of research: development and implementation of a real-time speech recognition system, including voice activity detection (VAD) and audio-to-text conversion stages. Purpose: to explore and develop a real-time speech recognition system utilizing deep neural networks for identifying voice activity and converting spoken language to text. Research methods: audio signal processing, deep neural networks, machine learning. Relevance: in today’s digital landscape, speech recognition systems have become essential for efficient human-computer interaction. The growing demand for voice assistants, automatic translators, and medical diagnostic tools highlights the importance of high-performing, real-time speech recognition solutions. Deep neural networks provide robust tools to achieve high accuracy in voice activity detection and speech recognition, making them crucial for developing effective real-time systems. Results of the work: a ResNet50-based model for voice activity detection (VAD) has been developed, trained with the RealVAD dataset, and evaluated using F1 metrics. Additionally, a speech recognition system using the whisper model has been implemented to convert active audio segments to text in real-time. | |
dc.format.extent | 96 с. | |
dc.identifier.citation | Заяць, В. А. Система виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж : магістерська дис. : 124 Системний аналіз / Заяць Владислав Андрійович. - Київ, 2024. - 96 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/72291 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | виявлення голосової активності | |
dc.subject | розпізнавання мови | |
dc.subject | нейронні мережі | |
dc.subject | машинне навчання | |
dc.subject | voice activity detection | |
dc.subject | language recognition | |
dc.subject | neural networks | |
dc.subject | machine learning | |
dc.subject.udc | 303.732.4 | |
dc.title | Система виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Zayats_magistr.pdf
- Розмір:
- 505.32 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: