Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо
Вантажиться...
Дата
2025
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Дипломна робота: 88 с., 10 рис., 16 табл., 54 посилань, 1 додаток.
Об’єкт дослідження– системи синтезу мовлення. Предмет дослідження–розробка методу тренування систем синтезу мовлення на автоматично розмічених даних з використанням алгоритмів навчання з підкріпленням. Одним із базових чинників, що визначають якість моделей і систем штучного інтелекту, зокрема систем синтезу мовлення, є характеристики навчальних даних: їх обсяг та якість.Традиційний метод розмітки аудіо даних людиною вручну потребує значних ресурсів. Вона є вартісною, трудомісткою та часовитратною, що суттєво уповільнює процес розробки моделей. Натомість використання автоматично розмічених даних значно спрощує етап збору, однак, як правило, призводить до зниження якості навчання. У зв’язку з цим особливо актуальним є створення методів навчання моделей синтезу мовлення (Text-to-Speech, TTS) на основі автоматично розмічених аудіоданих, здатних забезпечувати якість, яка є еквівалентною чи вищою порівняно з моделями, що навчалися на даних, розмічених людиною. Метою даної роботи є розробка методу навчання TTS-систем на автоматично розмічених аудіоданих із використанням методу прямої оптимізації уподобань (Direct Preference Optimization, DPO), що дозволить досягти високої якості синтезу мовлення без залучення розмітки, створеної людьми. Результат– експерименти та їх порівняння, проведені на двох різних наборах даних, демонструють, що розроблений метод досягає результатів, співставних чи навіть кращих за традиційне до навчання на даних, розмічених людьми.Застосування методу значно спрощує етап збору даних при цьому не знижуючи кінцеву якість систем синтезу мовлення.
Опис
Ключові слова
моделі синтезу мовлення, глибоке навчання, пряма оптимізаціяуподобань, нейроннімережі, архітектуратранс формер
Бібліографічний опис
Журавльов, А. В. Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо : дипломна робота … бакалавра : 122 Комп'ютерні науки / Журавльов Андрій Валерійович. – Київ, 2025. – 88 с.