Доклад

Способы энкодинга видео для мультимодальных моделей

  • На русском языке

Большие языковые модели (LLM) очень активно начали использоваться не только в задачах обработки естественного языка. В докладе поговорим про существующие подходы к построению мультимодальных архитектур для понимания визуальных модальностей. Обсудим, что необходимо для решения таких задач, как формирование текстовых описаний (кэпшенинг), ответов на вопросы и других.

Самая сложная модальность с точки зрения построения ее латентного представления — видео. При подходе «в лоб» контекст (память) стандартной языковой модели (длина контекста — 32 000 токенов) может быть заполнен буквально за 60 кадров.

Поговорим про способы эффективного энкодинга видео в пространство эмбеддингов языковых моделей, возможность обработки длинного контекста, а также о способах «связывания» модальности видео и LLM. Обсудим проблемы в энкодинге, бенчмарки для оценки качества, возможности работы со стриминговым видео и альтернативные архитектуры (например, модели State Space). Завершу доклад списком открытых вопросов и челленджей.

Спикеры

Приглашенные эксперты

Расписание