Если у вас есть билет, авторизуйтесь для просмотра видео

ДокладДата: 19.09 / Начало: 00:00 – Конец: 00:00

Способы энкодинга видео для мультимодальных моделей

ML/AI

Сложность -

Смотреть запись в VK Видео Смотреть запись на Youtube

Большие языковые модели (LLM) очень активно начали использоваться не только в задачах обработки естественного языка. В докладе поговорим про существующие подходы к построению мультимодальных архитектур для понимания визуальных модальностей. Обсудим, что необходимо для решения таких задач, как формирование текстовых описаний (кэпшенинг), ответов на вопросы и других.

Самая сложная модальность с точки зрения построения ее латентного представления — видео. При подходе «в лоб» контекст (память) стандартной языковой модели (длина контекста — 32 000 токенов) может быть заполнен буквально за 60 кадров.

Поговорим про способы эффективного энкодинга видео в пространство эмбеддингов языковых моделей, возможность обработки длинного контекста, а также о способах «связывания» модальности видео и LLM. Обсудим проблемы в энкодинге, бенчмарки для оценки качества, возможности работы со стриминговым видео и альтернативные архитектуры (например, модели State Space). Завершу доклад списком открытых вопросов и челленджей.

Спикеры

Андрей Кузнецов
AIRI

Приглашенные эксперты

Константин Соболев
AIRI

Другие доклады по теме «ML/AI»
- Смотреть запись
  Использование машинного зрения на производственных объектах
  Илья Смирнов
  ГК Юзтех
  Зал 1Сложность -
- Смотреть запись
  Мультимодальный ИИ, интеллектуальные агенты — будущее наступило, что дальше?
  Евгений Ильюшин
  Viasat Tech
  Зал 1Сложность -
- Смотреть запись
  Великолепная тройка: ML, бизнес-правила, редакция. Как строятся персональные витрины в KION
  Алексей Жиряков
  KION
  Зал 3Сложность -
- Смотреть запись
  Повышение точности субтитров в художественных фильмах: технологии и опыт
  Дмитрий Шатнёв
  Инвентос
  Сложность -
- Смотреть запись
  Эволюция методов диффузионной генерации видео
  Константин Соболев
  AIRI
  Сложность -
- Смотреть запись
  Автоматическая вертикализация коротких видео
  Егор Домнин
  Иви
  Зал 1Сложность -
- Смотреть запись
  Машинное зрение на производстве и в промышленности. Реальные кейсы
  Петр Хвесюк
  Норд Клан
  Зал 2Сложность -
- Смотреть запись
  Первый нейросетевой стандарт сжатия изображений JPEG AI: принципы разработки, эффективность сжатия и перспективы внедрения
  Елена Альшина
  Huawei Technologies
  Сложность -
- Смотреть запись
  Как с помощью AI найти нужный кадр в тысячах видео
  Александр Соколов
  ГПМ Дата
  Зал 1Сложность -
- Смотреть запись
  Реидентификация силуэтов
  Руслан Ревель
  NtechLab
  Зал 1Сложность -
- Смотреть запись
  Шумоподавление для SaluteJazz. Делаем ваши беседы более приятными
  Яна Лысова
  SberDevices
  Зал 2Сложность -
- Смотреть запись
  Метрика качества голоса VK Звонков и как мы к ней пришли
  Иван Бескровный
  VK / ВКонтакте
- Смотреть запись
  Система технического зрения для новой автономной платформы
  Георгий Никандров
  Яндекс Беспилотные Технологии
  Зал 2Сложность -
- Смотреть запись
  Новые стандарты сжатия и устойчивость JPEG AI к состязательным атакам
  Дмитрий Ватолин
  МГУ
  Зал 2Сложность -

Расписание