Видео контекстное обучение! Крупная модель учится «подражать кошке и рисовать тигра», из MSRA

Видео контекстное обучение! Большая модель учится «подражать кошке и рисовать тигра» от MSRA.

2024-07-17

Предоставлено командой Vid-ICL
Кубиты | Публичный аккаунт QbitAI

Может ли создание видео также относиться к «контексту»? !

MSRA предлагаетВидеоконтекстное обучение(Видео в контексте обучения, Vid-ICL), позвольте большой модели научиться стилю «подражать кошке и рисовать тигра».генерация имитации。

Vid-ICL использует образец видео для создания модели в новых сценариях, чтобы сгенерированные результаты могли «имитировать» задачи, выполненные в примерах видеороликов, в новых сценариях.

Например, перспектива демонстрационной видеокамеры перемещается вниз (влево), а сгенерированное видео также перемещает перспективу вниз (вправо):

Образец видеообъекта перемещается вверх (влево), а сгенерированное видео также перемещается вверх (вправо):

Захват объекта также можно моделировать:

△Слева: пример видео: рука робота захватывает объекты. Справа: созданное видео;

Открытие ящика также можно выполнить, как показано на примере:

△Слева: образец видео, откройте средний ящик. Справа: создайте видео;

В одном и том же сценарии с электрическим вентилятором используйте различные примеры видеороликов, чтобы помочь модели создавать такие эффекты, как:

△Слева: образец видео, камера смещена влево: созданное видео;

△Слева: образец видео, камера смещена вправо: созданное видео;

Необходимо знать, что в идеальной модели мира взаимодействие модели и внешней среды должно быть разнообразным.Большинство существующих работ сосредоточено на использованииТекст как основной способ взаимодействия, что затрудняет контроль детализации и разнообразия получаемых результатов.

иВидео очень конкретное и универсальное, способный передавать широкий спектр информации, например, примеры выполнения различных задач, включая перемещение или захват объектов.

Метод Vid-ICL, предложенный исследовательской группой, обеспечивает альтернативу языку и изображениям.новый интерфейс, делая взаимодействие модели и реального мира более разнообразным.

В дополнение к сгенерированному видео, показанному выше,Vid-ICL также можно комбинировать с эмуляторами., использовать сгенерированное видео и текущее состояние для прогнозирования соответствующих действий для корректного взаимодействия с окружающей средой, тем самымРеализуйте взаимодействие с реальной средой。

На рисунке ниже показано взаимодействие Vid-ICL с реальной средой. Начиная с состояния t=0, он взаимодействует с симулятором RoboDesk для выполнения задачи «Push_red». Vid-ICL обеспечивает более точный контроль над взаимодействием среды:

Молодец, фильм «Железная броня» стал реальностью.

Как именно работает Vid-ICL?

Интерпретация структуры Vid-ICL

Vid-ICL работает с видео в качестве базовой единицы.

В частности, учитывая запрос видеоклипа и k примеров видеоклипов, цель Vid-ICL — создать видеоклип, который должен сначалаПоддерживайте целостность восприятия с помощью видеоклипов с запросами，В то же время в семантике(например, движение камеры, действие)Вышеупомянутое соответствует примеру видео.。

Обучение модели авторегрессии

Vid-ICL использует Transformer в качестве структуры модели.

Будучи базовой архитектурой больших текстовых моделей, Transformer продемонстрировал мощные возможности в решении задач языкового контекста и генерации. Генеративное Трансформаторное обучение визуальной информации состоит из двух этапов:

Сначала обучите визуальный кодировщик, например VQ-VAE, преобразовывать каждое изображение в дискретный токен;

Во-вторых, каждая обучающая выборка создается как последовательность токенов, и цель декодера Transformer — восстановить эту последовательность токенов.

Что касается конкретной реализации, Vid-ICLИспользование архитектуры Ламы,использоватьRMSНормализацияиВстраивание положения вращения (RoPE), обучите декодер Transformer авторегрессионным способом. На этапе обучения каждая последовательность выбирается из необработанного видео без объединения видеоклипов из разных видео.

Возможность нулевой выборки

Исследовательская группа делает ключевое наблюдение в этой статье:

Модель может начинаться с видеоданных без явной контекстной формы, т.е.Спонтанно приобретенные способности контекстного рассуждения из последовательных видеоклипов., то есть «возможность нулевой выборки» для видеообучения в контексте.

Это можно объяснить двумя ключевыми факторами. Во-первых, между каждым видеокадром не вставляются специальные разделители, что позволяет модели неявно рассматривать непрерывные видеопоследовательности как примеры видео + видео-запросы во время обучения. Это означает, что модель научилась обрабатывать последовательности аналогичных структур примеров-запросов.

Во-вторых, авторегрессионные характеристики Transformer позволяют ему расширять возможности прогнозирования видеопоследовательности одной сцены на сцены, в которых примеры и запросы поступают из разных видео, и плавно обобщать парадигму обучения текстового контекста на обучение видеоконтексту.

Интегрируйте другие методы

Хотя Vid-ICL в качестве примера фокусируется на видео, его можно распространить и на другие модальности, например на текст.

Для этого достаточно преобразовать исходное текстовое описание в скрытое представление через заранее обученную языковую модель, а затем использовать это скрытое представление в качестве префикса при обучении Трансформера и выполнении контекстных рассуждений и выровнять его по скрытому пространству Трансформера. через проекционный слой.

Эксперименты показывают, что Vid-ICLМожет получать как текст, так и видео в качестве примера, а добавление текста может еще больше повысить качество получаемых результатов.

Данные и размер модели

Видно, что Vid-ICL может изучать семантическую информацию, содержащуюся в примерах видео, и переносить ее в новые сцены для генерации. Для этого требуется, чтобы обучающие данные в основном содержали видео с четкими причинно-следственными связями и сильной интерактивностью.

Поэтому в качестве основных источников данных для обучения исследователи выбрали два набора данных: Ego4d и Kinetics-600.

Кроме того, для увеличения разнообразия видеоконтента в обучающую выборку также добавляется небольшая часть данных в Webvid.

Команда также подтвердила, что из-за того, что семантическая информация, содержащаяся в интернет-видео, относительно расплывчата и разнится, размер данных можно увеличить, просто добавив больше интернет-видео.не помогает улучшить контекстную производительность модели。

Что касается размера модели, команда обучила модели трех размеров: 300M, 700M и 1,1B и обнаружила, что качество и контекстная производительность видео, созданных моделью, соответствуют закону масштабирования.

Результаты эксперимента

Vid-ICL в основном проходитПредоставьте образцы видео с разной семантикой для одного и того же видео-запроса., чтобы оценить эффективность и точность обучения видеоконтексту.

Например, для запроса видео о перемещении объекта влево можно сгенерировать разные видео, предоставив примеры видео о движении влево, случайном движении и движении в противоположном направлении, а также можно использовать оценку сгенерированных результатов. чтобы определить, действительно ли модель создала примеры. Похожие видео.

Что касается качественных результатов, на рисунке ниже показаны сгенерированные видеоролики в различных примерах видеороликов (дополнительные примеры можно найти в исходном тексте статьи).

Можно наблюдать:

1) ДляГенерация одного видеоКачество: Vid-ICL поддерживает согласованность сгенерированного видео и видео запроса, и оба имеют хорошее качество генерации;

2) ДляСемантическая согласованность между созданными и примерами видео., можно заметить, что все сгенерированные видео следуют процессу примерного видео, что показывает, что Vid-ICL имеет возможность спонтанно получать семантическую информацию примерного видео и генерировать соответствующее видео.

Как показано на рисунке ниже, для того же видеоклипа запроса Vid-ICL выбирает соответствующее перемещение сгенерированного видео на основе движения объектива в примере видео.

Что касается количественных результатов, исследовательская группа предложила индикаторы автоматической оценки в двух аспектах:

1）Качество видеоС другой стороны, используются индикаторы, основанные на сопоставлении или распределении пикселей по традиционным визуальным задачам, такие как PSNR, FID и т. д.;

2）смысловая последовательностьвыше используются два показателя, основанные на точности классификации: точность классификации видео и точность классификации зонда.

По разным показателям Vid-ICL показывает лучшие результаты, чем базовая модель. Видно, что под руководством подобных примеров видео Vid-ICL генерирует более реалистичные и семантически непротиворечивые видеоролики.

Пожалуйста, обратитесь к оригинальной статье для получения более подробной информации.

Домашняя страница проекта: https://aka.ms/vid-icl
Ссылка на статью: https://arxiv.org/abs/2407.0735.

Новости

Видео контекстное обучение! Большая модель учится «подражать кошке и рисовать тигра» от MSRA.

Интерпретация структуры Vid-ICL

Результаты эксперимента

Введение

моя контактная информация