Технології конвертації голосових даних у текстовий формат
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 84 с., 10 рис., 9 табл., 14 посилань.
У дипломній роботі досліджено методи й архітектури систем автоматичного розпізнавання мовлення (ASR), які дозволяють здійснювати точне перетворення аудіоінформації у текстовий формат. Проведено порівняльний аналіз класичних (HMM, GMM) і сучасних (RNN, Transformer, CTC) підходів. Описано принципи екстракції ознак (MFCC, лог-мел-спектрограми), оцінено вплив шумів і мовних варіацій на точність розпізнавання. Реалізовано прототип системи на базі моделей Whisper та Wav2Vec2, проведено тестування на реальних аудіоданих з використанням метрик WER та CER. Зроблено функціонально-вартісний аналіз і обґрунтовано вибір оптимального рішення для практичної інтеграції.
Опис
Ключові слова
конвертація голосових даних, автоматичне розпізнавання мовлення, deep learning, wer, ctc, whisper, wav2vec
Бібліографічний опис
Антонов, Д. Д. Технології конвертації голосових даних у текстовий формат : дипломна робота … бакалавра : 122 Комп'ютерні науки / Антонов Данііл Дмитрович. – Київ, 2025. – 84 с.