Новости

Видео контекстное обучение! Большая модель учится «подражать кошке и рисовать тигра» от MSRA.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Предоставлено командой Vid-ICL
Кубиты | Публичный аккаунт QbitAI

Может ли создание видео также относиться к «контексту»? !

MSRA предлагаетВидеоконтекстное обучение(Видео в контексте обучения, Vid-ICL), позвольте большой модели научиться стилю «подражать кошке и рисовать тигра».генерация имитации

Vid-ICL использует образец видео для создания модели в новых сценариях, чтобы сгенерированные результаты могли «имитировать» задачи, выполненные в примерах видеороликов, в новых сценариях.

Например, перспектива демонстрационной видеокамеры перемещается вниз (влево), а сгенерированное видео также перемещает перспективу вниз (вправо):



Образец видеообъекта перемещается вверх (влево), а сгенерированное видео также перемещается вверх (вправо):



Захват объекта также можно моделировать:



△Слева: пример видео: рука робота захватывает объекты. Справа: созданное видео;

Открытие ящика также можно выполнить, как показано на примере:



△Слева: образец видео, откройте средний ящик. Справа: создайте видео;

В одном и том же сценарии с электрическим вентилятором используйте различные примеры видеороликов, чтобы помочь модели создавать такие эффекты, как:



△Слева: образец видео, камера смещена влево: созданное видео;



△Слева: образец видео, камера смещена вправо: созданное видео;

Необходимо знать, что в идеальной модели мира взаимодействие модели и внешней среды должно быть разнообразным.Большинство существующих работ сосредоточено на использованииТекст как основной способ взаимодействия, что затрудняет контроль детализации и разнообразия получаемых результатов.

иВидео очень конкретное и универсальное, способный передавать широкий спектр информации, например, примеры выполнения различных задач, включая перемещение или захват объектов.

Метод Vid-ICL, предложенный исследовательской группой, обеспечивает альтернативу языку и изображениям.новый интерфейс, делая взаимодействие модели и реального мира более разнообразным.



В дополнение к сгенерированному видео, показанному выше,Vid-ICL также можно комбинировать с эмуляторами., использовать сгенерированное видео и текущее состояние для прогнозирования соответствующих действий для корректного взаимодействия с окружающей средой, тем самымРеализуйте взаимодействие с реальной средой

На рисунке ниже показано взаимодействие Vid-ICL с реальной средой. Начиная с состояния t=0, он взаимодействует с симулятором RoboDesk для выполнения задачи «Push_red». Vid-ICL обеспечивает более точный контроль над взаимодействием среды:



Молодец, фильм «Железная броня» стал реальностью.

Как именно работает Vid-ICL?

Интерпретация структуры Vid-ICL

Vid-ICL работает с видео в качестве базовой единицы.

В частности, учитывая запрос видеоклипа и k примеров видеоклипов, цель Vid-ICL — создать видеоклип, который должен сначалаПоддерживайте целостность восприятия с помощью видеоклипов с запросамиВ то же время в семантике(например, движение камеры, действие)Вышеупомянутое соответствует примеру видео.



  • Обучение модели авторегрессии

Vid-ICL использует Transformer в качестве структуры модели.

Будучи базовой архитектурой больших текстовых моделей, Transformer продемонстрировал мощные возможности в решении задач языкового контекста и генерации. Генеративное Трансформаторное обучение визуальной информации состоит из двух этапов:

Сначала обучите визуальный кодировщик, например VQ-VAE, преобразовывать каждое изображение в дискретный токен;

Во-вторых, каждая обучающая выборка создается как последовательность токенов, и цель декодера Transformer — восстановить эту последовательность токенов.

Что касается конкретной реализации, Vid-ICLИспользование архитектуры Ламы,использоватьRMSНормализацияиВстраивание положения вращения (RoPE), обучите декодер Transformer авторегрессионным способом. На этапе обучения каждая последовательность выбирается из необработанного видео без объединения видеоклипов из разных видео.

  • Возможность нулевой выборки

Исследовательская группа делает ключевое наблюдение в этой статье:

Модель может начинаться с видеоданных без явной контекстной формы, т.е.Спонтанно приобретенные способности контекстного рассуждения из последовательных видеоклипов., то есть «возможность нулевой выборки» для видеообучения в контексте.

Это можно объяснить двумя ключевыми факторами. Во-первых, между каждым видеокадром не вставляются специальные разделители, что позволяет модели неявно рассматривать непрерывные видеопоследовательности как примеры видео + видео-запросы во время обучения. Это означает, что модель научилась обрабатывать последовательности аналогичных структур примеров-запросов.

Во-вторых, авторегрессионные характеристики Transformer позволяют ему расширять возможности прогнозирования видеопоследовательности одной сцены на сцены, в которых примеры и запросы поступают из разных видео, и плавно обобщать парадигму обучения текстового контекста на обучение видеоконтексту.

  • Интегрируйте другие методы

Хотя Vid-ICL в качестве примера фокусируется на видео, его можно распространить и на другие модальности, например на текст.

Для этого достаточно преобразовать исходное текстовое описание в скрытое представление через заранее обученную языковую модель, а затем использовать это скрытое представление в качестве префикса при обучении Трансформера и выполнении контекстных рассуждений и выровнять его по скрытому пространству Трансформера. через проекционный слой.

Эксперименты показывают, что Vid-ICLМожет получать как текст, так и видео в качестве примера, а добавление текста может еще больше повысить качество получаемых результатов.

  • Данные и размер модели

Видно, что Vid-ICL может изучать семантическую информацию, содержащуюся в примерах видео, и переносить ее в новые сцены для генерации. Для этого требуется, чтобы обучающие данные в основном содержали видео с четкими причинно-следственными связями и сильной интерактивностью.

Поэтому в качестве основных источников данных для обучения исследователи выбрали два набора данных: Ego4d и Kinetics-600.

Кроме того, для увеличения разнообразия видеоконтента в обучающую выборку также добавляется небольшая часть данных в Webvid.

Команда также подтвердила, что из-за того, что семантическая информация, содержащаяся в интернет-видео, относительно расплывчата и разнится, размер данных можно увеличить, просто добавив больше интернет-видео.не помогает улучшить контекстную производительность модели

Что касается размера модели, команда обучила модели трех размеров: 300M, 700M и 1,1B и обнаружила, что качество и контекстная производительность видео, созданных моделью, соответствуют закону масштабирования.

Результаты эксперимента

Vid-ICL в основном проходитПредоставьте образцы видео с разной семантикой для одного и того же видео-запроса., чтобы оценить эффективность и точность обучения видеоконтексту.

Например, для запроса видео о перемещении объекта влево можно сгенерировать разные видео, предоставив примеры видео о движении влево, случайном движении и движении в противоположном направлении, а также можно использовать оценку сгенерированных результатов. чтобы определить, действительно ли модель создала примеры. Похожие видео.

Что касается качественных результатов, на рисунке ниже показаны сгенерированные видеоролики в различных примерах видеороликов (дополнительные примеры можно найти в исходном тексте статьи).

Можно наблюдать:

1) ДляГенерация одного видеоКачество: Vid-ICL поддерживает согласованность сгенерированного видео и видео запроса, и оба имеют хорошее качество генерации;

2) ДляСемантическая согласованность между созданными и примерами видео., можно заметить, что все сгенерированные видео следуют процессу примерного видео, что показывает, что Vid-ICL имеет возможность спонтанно получать семантическую информацию примерного видео и генерировать соответствующее видео.

Как показано на рисунке ниже, для того же видеоклипа запроса Vid-ICL выбирает соответствующее перемещение сгенерированного видео на основе движения объектива в примере видео.



Что касается количественных результатов, исследовательская группа предложила индикаторы автоматической оценки в двух аспектах:

1)Качество видеоС другой стороны, используются индикаторы, основанные на сопоставлении или распределении пикселей по традиционным визуальным задачам, такие как PSNR, FID и т. д.;

2)смысловая последовательностьвыше используются два показателя, основанные на точности классификации: точность классификации видео и точность классификации зонда.

По разным показателям Vid-ICL показывает лучшие результаты, чем базовая модель. Видно, что под руководством подобных примеров видео Vid-ICL генерирует более реалистичные и семантически непротиворечивые видеоролики.



Пожалуйста, обратитесь к оригинальной статье для получения более подробной информации.

Домашняя страница проекта: https://aka.ms/vid-icl
Ссылка на статью: https://arxiv.org/abs/2407.0735.