Алгоритми та технології текстово-голосового синтезу
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 85 с., 12 рис., 2 додатки, 18 посилань.
Дипломна робота присвячена дослідженню та реалізації системи текстово-голосового синтезу мовлення на основі сучасних нейронних моделей FastSpeech 2 та HiFi-GAN. Актуальність дослідження зумовлена зростаючою потребою в природному синтезі мовлення для застосувань у цифрових помічниках, навігаційних системах, освіті та інклюзивних технологіях. Метою роботи є побудова високоякісної та швидкої системи TTS, здатної перетворювати текст в аудіо з реалістичним звучанням. У ході дослідження проаналізовано етапи синтезу мовлення, алгоритми генерації спектрограм, нейромережеві моделі та архітектури, а також методи оцінки результатів. Об’єктом дослідження є процес автоматичного синтезу мовлення, а предметом – використання послідовної архітектури FastSpeech 2 та вокодера HiFi-GAN для формування аудіосигналу на основі тексту. Реалізовано повний цикл побудови TTS-системи з використанням корпусу англомовних та українських аудіозаписів, здійснено навчання моделей, підготовку даних та оптимізацію параметрів. Проведено оцінку якості синтезованого мовлення за метриками MOS (Mean Opinion Score) та RTF (Real Time Factor). Результати показали, що система здатна генерувати мовлення високої якості зі швидкістю, що задовольняє вимоги реального часу. Робота має потенціал практичного застосування у голосових інтерфейсах та адаптивних навчальних системах.
Опис
Ключові слова
текстово-голосовий синтез, tts, neural tts, fastspeech 2, hifi-gan, моd, rtf, спектрограма
Бібліографічний опис
Бобовик, Д. М. Алгоритми та технології текстово-голосового синтезу : дипломна робота … бакалавра : 122 Комп'ютерні науки / Бобовик Денис Максимович. – Київ, 2025. – 85 с.