Алгоритми та технології текстово-голосового синтезу

Вантажиться...
Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 85 с., 12 рис., 2 додатки, 18 посилань. Дипломна робота присвячена дослідженню та реалізації системи текстово-голосового синтезу мовлення на основі сучасних нейронних моделей FastSpeech 2 та HiFi-GAN. Актуальність дослідження зумовлена зростаючою потребою в природному синтезі мовлення для застосувань у цифрових помічниках, навігаційних системах, освіті та інклюзивних технологіях. Метою роботи є побудова високоякісної та швидкої системи TTS, здатної перетворювати текст в аудіо з реалістичним звучанням. У ході дослідження проаналізовано етапи синтезу мовлення, алгоритми генерації спектрограм, нейромережеві моделі та архітектури, а також методи оцінки результатів. Об’єктом дослідження є процес автоматичного синтезу мовлення, а предметом – використання послідовної архітектури FastSpeech 2 та вокодера HiFi-GAN для формування аудіосигналу на основі тексту. Реалізовано повний цикл побудови TTS-системи з використанням корпусу англомовних та українських аудіозаписів, здійснено навчання моделей, підготовку даних та оптимізацію параметрів. Проведено оцінку якості синтезованого мовлення за метриками MOS (Mean Opinion Score) та RTF (Real Time Factor). Результати показали, що система здатна генерувати мовлення високої якості зі швидкістю, що задовольняє вимоги реального часу. Робота має потенціал практичного застосування у голосових інтерфейсах та адаптивних навчальних системах.

Опис

Ключові слова

текстово-голосовий синтез, tts, neural tts, fastspeech 2, hifi-gan, моd, rtf, спектрограма

Бібліографічний опис

Бобовик, Д. М. Алгоритми та технології текстово-голосового синтезу : дипломна робота … бакалавра : 122 Комп'ютерні науки / Бобовик Денис Максимович. – Київ, 2025. – 85 с.

ORCID

DOI