Технології конвертації голосових даних у текстовий формат
| dc.contributor.advisor | Кот, Анатолій Тарасович | |
| dc.contributor.author | Антонов, Данііл Дмитрович | |
| dc.date.accessioned | 2025-09-09T13:03:40Z | |
| dc.date.available | 2025-09-09T13:03:40Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Дипломна робота: 84 с., 10 рис., 9 табл., 14 посилань. У дипломній роботі досліджено методи й архітектури систем автоматичного розпізнавання мовлення (ASR), які дозволяють здійснювати точне перетворення аудіоінформації у текстовий формат. Проведено порівняльний аналіз класичних (HMM, GMM) і сучасних (RNN, Transformer, CTC) підходів. Описано принципи екстракції ознак (MFCC, лог-мел-спектрограми), оцінено вплив шумів і мовних варіацій на точність розпізнавання. Реалізовано прототип системи на базі моделей Whisper та Wav2Vec2, проведено тестування на реальних аудіоданих з використанням метрик WER та CER. Зроблено функціонально-вартісний аналіз і обґрунтовано вибір оптимального рішення для практичної інтеграції. | |
| dc.description.abstractother | The work consist of 10 images, 9 tables, 14 sources. The thesis explores methods and architectures for automatic speech recognition (ASR) systems that allow accurate conversion of audio data into text format. A comparative analysis of classical (HMM, GMM) and modern (RNN, Transformer, CTC) approaches is conducted. Feature extraction methods (MFCC, log-mel spectrograms) are described, and the impact of noise and speech variability on recognition accuracy is assessed. A prototype system based on Whisper and Wav2Vec2 models is implemented and tested on real audio data using WER and CER metrics. A functional-cost analysis is performed, and the choice of the optimal solution for practical integration is justified. | |
| dc.format.extent | 84 с. | |
| dc.identifier.citation | Антонов, Д. Д. Технології конвертації голосових даних у текстовий формат : дипломна робота … бакалавра : 122 Комп'ютерні науки / Антонов Данііл Дмитрович. – Київ, 2025. – 84 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/75893 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | конвертація голосових даних | |
| dc.subject | автоматичне розпізнавання мовлення | |
| dc.subject | deep learning | |
| dc.subject | wer | |
| dc.subject | ctc | |
| dc.subject | whisper | |
| dc.subject | wav2vec | |
| dc.title | Технології конвертації голосових даних у текстовий формат | |
| dc.type | Bachelor Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Antonov_bakalavr.pdf
- Розмір:
- 1.62 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: