Використання технологій автоматичного розпізнавання мовлення для генерації субтитрів для відео- та аудіоконтенту

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 99 с., 20 рис., 7 табл., 29 посилань, 1 додаток. Об’єкт дослідження – відео- та аудіоконтент, що містить мовлення, та відповідні текстові транскрипції. Предмет дослідження – технології автоматичного розпізнавання мовлення, методи їх дотренування та інтеграція у системи генерації субтитрів. Мета роботи – розробка програмного забезпечення для автоматичної генерації субтитрів шляхом файн-тюнінгу ASR моделі та експериментального дослідження її ефективності. У ході дослідження реалізовано програмний продукт з веб-інтерфейсом, що забезпечує автоматичну генерацію субтитрів до відео- та аудіофайлів. Система використовує технології автоматичного розпізнавання мовлення, зокрема дотреновані на українських даних моделі Whisper, для перетворення мовлення у текст з часовими мітками. Проведено файн-тюнінг обраних моделей Whisper на українськомовному датасеті Common Voice 11.0 (uk). Здійснено експериментальне дослідження з оцінки якості розпізнавання дотренованих моделей за метриками WER та CER на тестовому наборі. На основі результатів визначено найбільш ефективну модель для даної задачі (Whisper Small), що продемонструвала найкращі показники на тестовому наборі. Розроблена система може бути використана для підвищення доступності відео- та аудіоконтенту шляхом його автоматичного субтитрування. Перспективи подальшого розвитку включають інтеграцію методів виявлення активності мовлення (VAD), розрізнення дикторів, вдосконалення редактора та розширення підтримки форматів.

Опис

Ключові слова

автоматичне розпізнавання мовлення, asr, генерація субтитрів, субтитрування, відеоконтент, аудіоконтент, штучний інтелект, нейронні мережі, whisper, fine-tuning, обробка мовлення

Бібліографічний опис

Генч, Г. Використання технологій автоматичного розпізнавання мовлення для генерації субтитрів для відео- та аудіоконтенту : дипломна робота … бакалавра : 122 Комп’ютерні науки / Генч Герай . – Київ, 2025. – 99 с.

ORCID

DOI