Система виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж

dc.contributor.advisorДанилов, Валерій Якович
dc.contributor.authorЗаяць, Владислав Андрійович
dc.date.accessioned2025-01-30T10:33:58Z
dc.date.available2025-01-30T10:33:58Z
dc.date.issued2024
dc.description.abstractМагістерська дисертація: 95 с., 3 рис., 22 табл., 1 додаток, 30 джерел. Тема: розробка системи виявлення голосової активності та розпізнавання мови на основі глибоких нейронних мереж. Об’єкт дослідження: системи виявлення голосової активності та розпізнавання мови, що забезпечують перетворення аудіопотоку в текст у режимі реального часу за допомогою нейронних мереж. Предмет дослідження: розробка та реалізація системи розпізнавання мови, яка включає модуль виявлення голосової активності (VAD) та систему розпізнавання тексту з аудіопотоку. Мета роботи: дослідити та розробити систему розпізнавання мови, що працює в реальному часі, із використанням глибоких нейронних мереж для ідентифікації голосової активності та перетворення голосового сигналу в текст. Методи дослідження: обробка аудіосигналів, глибокі нейронні мережі, машинне навчання. Актуальність: зростаючий попит на інтерактивні та автономні голосові системи підвищує важливість розробки високоефективних рішень. Використання глибоких нейронних мереж дозволяє досягти високої точності у виявленні голосової активності та розпізнаванні мови. Результати роботи: розроблено модель ResNet50 для виявлення голосової активності (VAD), навчено її з використанням датасету RealVAD. Реалізовано систему розпізнавання мови на основі моделі whisper для конвертації активних аудіофрагментів у текст у режимі реального часу.
dc.description.abstractotherThesis: 95 pages, 3 figures, 22 tables, 1 appendices, 30 references. Topic: development of a voice activity detection and speech recognition system based on deep neural networks. Object of research: voice activity detection and speech recognition systems that convert audio streams into text in real-time using neural networks. Subject of research: development and implementation of a real-time speech recognition system, including voice activity detection (VAD) and audio-to-text conversion stages. Purpose: to explore and develop a real-time speech recognition system utilizing deep neural networks for identifying voice activity and converting spoken language to text. Research methods: audio signal processing, deep neural networks, machine learning. Relevance: in today’s digital landscape, speech recognition systems have become essential for efficient human-computer interaction. The growing demand for voice assistants, automatic translators, and medical diagnostic tools highlights the importance of high-performing, real-time speech recognition solutions. Deep neural networks provide robust tools to achieve high accuracy in voice activity detection and speech recognition, making them crucial for developing effective real-time systems. Results of the work: a ResNet50-based model for voice activity detection (VAD) has been developed, trained with the RealVAD dataset, and evaluated using F1 metrics. Additionally, a speech recognition system using the whisper model has been implemented to convert active audio segments to text in real-time.
dc.format.extent96 с.
dc.identifier.citationЗаяць, В. А. Система виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж : магістерська дис. : 124 Системний аналіз / Заяць Владислав Андрійович. - Київ, 2024. - 96 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/72291
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectвиявлення голосової активності
dc.subjectрозпізнавання мови
dc.subjectнейронні мережі
dc.subjectмашинне навчання
dc.subjectvoice activity detection
dc.subjectlanguage recognition
dc.subjectneural networks
dc.subjectmachine learning
dc.subject.udc303.732.4
dc.titleСистема виявлення активності голосу та розпізнавання мови на основі глибоких нейронних мереж
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Zayats_magistr.pdf
Розмір:
505.32 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: