Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо

Журавльов, Андрій Валерійович

Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо

Файли

Zhuravlov_bakalavr.pdf (1.82 MB)

Дата

2025

Автори

Журавльов, Андрій Валерійович

Науковий керівник

Сидорський, Володимир Сергійович

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 88 с., 10 рис., 16 табл., 54 посилань, 1 додаток. Об’єкт дослідження– системи синтезу мовлення. Предмет дослідження–розробка методу тренування систем синтезу мовлення на автоматично розмічених даних з використанням алгоритмів навчання з підкріпленням. Одним із базових чинників, що визначають якість моделей і систем штучного інтелекту, зокрема систем синтезу мовлення, є характеристики навчальних даних: їх обсяг та якість.Традиційний метод розмітки аудіо даних людиною вручну потребує значних ресурсів. Вона є вартісною, трудомісткою та часовитратною, що суттєво уповільнює процес розробки моделей. Натомість використання автоматично розмічених даних значно спрощує етап збору, однак, як правило, призводить до зниження якості навчання. У зв’язку з цим особливо актуальним є створення методів навчання моделей синтезу мовлення (Text-to-Speech, TTS) на основі автоматично розмічених аудіоданих, здатних забезпечувати якість, яка є еквівалентною чи вищою порівняно з моделями, що навчалися на даних, розмічених людиною. Метою даної роботи є розробка методу навчання TTS-систем на автоматично розмічених аудіоданих із використанням методу прямої оптимізації уподобань (Direct Preference Optimization, DPO), що дозволить досягти високої якості синтезу мовлення без залучення розмітки, створеної людьми. Результат– експерименти та їх порівняння, проведені на двох різних наборах даних, демонструють, що розроблений метод досягає результатів, співставних чи навіть кращих за традиційне до навчання на даних, розмічених людьми.Застосування методу значно спрощує етап збору даних при цьому не знижуючи кінцеву якість систем синтезу мовлення.

Ключові слова

моделі синтезу мовлення, глибоке навчання, пряма оптимізаціяуподобань, нейроннімережі, архітектуратранс формер

Бібліографічний опис

Журавльов, А. В. Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо : дипломна робота … бакалавра : 122 Комп'ютерні науки / Журавльов Андрій Валерійович. – Київ, 2025. – 88 с.

URI

https://ela.kpi.ua/handle/123456789/75587

Зібрання

Бакалаврські роботи (ШІ)
Бакалаврські роботи

Повна інформація про документ

Метод покращення моделей синтезу мовлення при тренуванні на автоматично розмічених аудіо

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання