Расскажу о создании системы автоматической генерации и улучшения качества субтитров для художественных фильмов. Начну с проблем, возникших при использовании стандартных моделей распознавания речи, и представлю наш комплексный подход к их решению.

Основное внимание уделю трем ключевым этапам обработки: препроцессингу аудио, оптимизации модели распознавания речи и постобработке текста. Подробно остановлюсь на методах повышения точности и синхронизации субтитров, включая voice activity detection, Whisper fine-tuning и alignment с использованием word-level timestamps.

Важной частью доклада станет обсуждение метрик оценки качества субтитров. Расскажу, какие показатели использовались для объективного измерения улучшений и как проводилась локализация проблемных участков на временной шкале. Затрону вопрос оптимизации производительности системы для обработки длительных фильмов.

Продемонстрирую конкретные результаты работы, включая не только количественные метрики, но и субъективное сравнение качества субтитров до и после улучшений на реальных примерах.

Будет интересно разработчикам, занимающимся обработкой аудио и видео, специалистам по машинному обучению, а также всем, кто интересуется применением AI-технологий в медиаиндустрии и повышением доступности видеоконтента.

Video Encoding Methods for Multimodal Models

Speakers

Andrei Kuznetsov

Invited experts

Konstantin Sobolev

Other talks on «ML/AI»