Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 88 с., 10 рис., 16 табл., 54 посилань, 1 додаток. Об’єкт дослідження– системи синтезу мовлення. Предмет дослідження–розробка методу тренування систем синтезу мовлення на автоматично розмічених даних з використанням алгоритмів навчання з підкріпленням. Одним із базових чинників, що визначають якість моделей і систем штучного інтелекту, зокрема систем синтезу мовлення, є характеристики навчальних даних: їх обсяг та якість.Традиційний метод розмітки аудіо даних людиною вручну потребує значних ресурсів. Вона є вартісною, трудомісткою та часовитратною, що суттєво уповільнює процес розробки моделей. Натомість використання автоматично розмічених даних значно спрощує етап збору, однак, як правило, призводить до зниження якості навчання. У зв’язку з цим особливо актуальним є створення методів навчання моделей синтезу мовлення (Text-to-Speech, TTS) на основі автоматично розмічених аудіоданих, здатних забезпечувати якість, яка є еквівалентною чи вищою порівняно з моделями, що навчалися на даних, розмічених людиною. Метою даної роботи є розробка методу навчання TTS-систем на автоматично розмічених аудіоданих із використанням методу прямої оптимізації уподобань (Direct Preference Optimization, DPO), що дозволить досягти високої якості синтезу мовлення без залучення розмітки, створеної людьми. Результат– експерименти та їх порівняння, проведені на двох різних наборах даних, демонструють, що розроблений метод досягає результатів, співставних чи навіть кращих за традиційне до навчання на даних, розмічених людьми.Застосування методу значно спрощує етап збору даних при цьому не знижуючи кінцеву якість систем синтезу мовлення.

Опис

Ключові слова

моделі синтезу мовлення, глибоке навчання, пряма оптимізаціяуподобань, нейроннімережі, архітектуратранс формер

Бібліографічний опис

Журавльов, А. В. Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо : дипломна робота … бакалавра : 122 Комп'ютерні науки / Журавльов Андрій Валерійович. – Київ, 2025. – 88 с.

ORCID

DOI