Технології конвертації голосових даних у текстовий формат

dc.contributor.advisorКот, Анатолій Тарасович
dc.contributor.authorАнтонов, Данііл Дмитрович
dc.date.accessioned2025-09-09T13:03:40Z
dc.date.available2025-09-09T13:03:40Z
dc.date.issued2025
dc.description.abstractДипломна робота: 84 с., 10 рис., 9 табл., 14 посилань. У дипломній роботі досліджено методи й архітектури систем автоматичного розпізнавання мовлення (ASR), які дозволяють здійснювати точне перетворення аудіоінформації у текстовий формат. Проведено порівняльний аналіз класичних (HMM, GMM) і сучасних (RNN, Transformer, CTC) підходів. Описано принципи екстракції ознак (MFCC, лог-мел-спектрограми), оцінено вплив шумів і мовних варіацій на точність розпізнавання. Реалізовано прототип системи на базі моделей Whisper та Wav2Vec2, проведено тестування на реальних аудіоданих з використанням метрик WER та CER. Зроблено функціонально-вартісний аналіз і обґрунтовано вибір оптимального рішення для практичної інтеграції.
dc.description.abstractotherThe work consist of 10 images, 9 tables, 14 sources. The thesis explores methods and architectures for automatic speech recognition (ASR) systems that allow accurate conversion of audio data into text format. A comparative analysis of classical (HMM, GMM) and modern (RNN, Transformer, CTC) approaches is conducted. Feature extraction methods (MFCC, log-mel spectrograms) are described, and the impact of noise and speech variability on recognition accuracy is assessed. A prototype system based on Whisper and Wav2Vec2 models is implemented and tested on real audio data using WER and CER metrics. A functional-cost analysis is performed, and the choice of the optimal solution for practical integration is justified.
dc.format.extent84 с.
dc.identifier.citationАнтонов, Д. Д. Технології конвертації голосових даних у текстовий формат : дипломна робота … бакалавра : 122 Комп'ютерні науки / Антонов Данііл Дмитрович. – Київ, 2025. – 84 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/75893
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectконвертація голосових даних
dc.subjectавтоматичне розпізнавання мовлення
dc.subjectdeep learning
dc.subjectwer
dc.subjectctc
dc.subjectwhisper
dc.subjectwav2vec
dc.titleТехнології конвертації голосових даних у текстовий формат
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Antonov_bakalavr.pdf
Розмір:
1.62 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: