Андрей Кузнецов
Компания: AIRI
Большие языковые модели (LLM) очень активно начали использоваться не только в задачах обработки естественного языка. В докладе поговорим про существующие подходы к построению мультимодальных архитектур для понимания визуальных модальностей. Обсудим, что необходимо для решения таких задач, как формирование текстовых описаний (кэпшенинг), ответов на вопросы и других.
Самая сложная модальность с точки зрения построения ее латентного представления — видео. При подходе «в лоб» контекст (память) стандартной языковой модели (длина контекста — 32 000 токенов) может быть заполнен буквально за 60 кадров.
Поговорим про способы эффективного энкодинга видео в пространство эмбеддингов языковых моделей, возможность обработки длинного контекста, а также о способах «связывания» модальности видео и LLM. Обсудим проблемы в энкодинге, бенчмарки для оценки качества, возможности работы со стриминговым видео и альтернативные архитектуры (например, модели State Space). Завершу доклад списком открытых вопросов и челленджей.
Компания: AIRI
Компания: AIRI