noticias

Vídeo aprendizaje contextual! El modelo de gran tamaño aprende a "imitar a un gato y dibujar un tigre", de MSRA

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Contribuido por el equipo de Vid-ICL.
Qubits | Cuenta pública QbitAI

¿La generación de vídeo también puede referirse al "contexto"? !

MSRA proponeAprendizaje del contexto del vídeo(Video de aprendizaje en contexto, Vid-ICL), deje que el modelo grande aprenda a "imitar al gato y dibujar al tigre"generación de imitación

Vid-ICL utiliza un video de muestra para guiar la generación del modelo en nuevos escenarios, de modo que los resultados generados puedan "imitar" las tareas completadas en los videos de muestra en nuevos escenarios.

Por ejemplo, la perspectiva de la cámara de video de muestra se mueve hacia abajo (izquierda) y el video generado también mueve la perspectiva hacia abajo (derecha):



El objeto de vídeo de muestra se mueve hacia arriba (izquierda) y el vídeo generado también se mueve hacia arriba (derecha):



También se puede simular el agarre de objetos:



△Izquierda: vídeo de ejemplo, el brazo robótico agarra objetos. Derecha: vídeo generado;

La apertura del cajón también se puede realizar como se muestra en el ejemplo:



△Izquierda: vídeo de muestra, abre el cajón del medio Derecha: generar vídeo;

En el mismo escenario de ventilador eléctrico, utilice diferentes vídeos de ejemplo para guiar al modelo a generar efectos como:



△Izquierda: vídeo de muestra, cámara movida hacia la izquierda, derecha: vídeo generado;



△Izquierda: vídeo de muestra, cámara movida hacia la derecha: vídeo generado;

Debes saber que en un modelo mundial ideal, la interacción entre el modelo y el entorno externo debe ser diversa.La mayoría de los trabajos existentes se centran en el usoEl texto como principal modo de interacción, lo que dificulta el control del detalle y la diversidad de los resultados generados.

yEl vídeo es muy concreto y universal., capaz de transmitir una amplia gama de información, como ejemplos de cómo completar una variedad de tareas, incluido mover o agarrar objetos.

El método Vid-ICL propuesto por el equipo de investigación ofrece una alternativa al lenguaje y las imágenes.nueva interfaz, haciendo que la interacción entre el modelo y el mundo real sea más diversa.



Además del vídeo generado que se muestra arriba,Vid-ICL también se puede combinar con emuladores, utilice el vídeo generado y el estado actual para predecir las acciones correspondientes para una correcta interacción con el entorno, de esta maneraRealizar interacción con el entorno real.

La siguiente figura muestra Vid-ICL interactuando con el entorno real. A partir del estado en t = 0, interactúa con el simulador de RoboDesk para completar la tarea "Push_red". Vid-ICL proporciona un control más preciso sobre las interacciones ambientales:



Buen chico, la película "Iron Armor" se ha hecho realidad.

¿Cómo funciona exactamente Vid-ICL?

Interpretación del marco Vid-ICL.

Vid-ICL funciona con vídeo como unidad básica.

Específicamente, dado un videoclip de consulta y k videoclips de ejemplo, el objetivo de Vid-ICL es generar un videoclip que primero debeMantenga la coherencia perceptual con videoclips de consulta.Al mismo tiempo en semántica.(como movimiento de cámara, acción)Lo anterior es consistente con el video de ejemplo.



  • Entrenamiento de modelo autorregresivo

Vid-ICL utiliza Transformer como estructura modelo.

Como arquitectura base de modelos de texto grandes, Transformer ha demostrado poderosas capacidades en tareas de generación y razonamiento del contexto del lenguaje. El entrenamiento del Transformador Generativo de información visual consta de dos etapas:

Primero, entrene un codificador visual, como VQ-VAE, para convertir cada imagen en un token discreto;

En segundo lugar, cada muestra de entrenamiento se construye como una secuencia de tokens y el objetivo del decodificador Transformer es recuperar esta secuencia de tokens.

En términos de implementación específica, Vid-ICLUsando la arquitectura Llama,usarNormalización de RMSNormyIncrustación de posición de rotación (RoPE), entrene el decodificador Transformer de forma autorregresiva. Durante la fase de entrenamiento, cada secuencia se toma de un video sin editar sin empalmar videoclips de diferentes videos.

  • Capacidad de muestra cero

El equipo de investigación hace una observación clave en este artículo:

El modelo puede comenzar a partir de datos de video sin un contexto explícito, es decir,Habilidades de razonamiento contextual aprendidas espontáneamente a partir de videoclips consecutivos., es decir, la "capacidad de muestra cero" para el aprendizaje por vídeo en contexto.

Esto se puede atribuir a dos factores clave. Primero, no se insertan delimitadores especiales entre cada cuadro de video, lo que permite que el modelo trate implícitamente secuencias de video continuas como videos de ejemplo + videos de consulta durante el entrenamiento. Esto significa que el modelo ha aprendido a procesar secuencias de estructuras de consulta de ejemplo similares.

En segundo lugar, las características autorregresivas de Transformer le permiten extender la capacidad de predicción de secuencias de video de una sola escena a escenas donde los ejemplos y consultas provienen de diferentes videos, y generalizar sin problemas el paradigma del aprendizaje del contexto de texto al aprendizaje del contexto de video.

  • Integrar otras modalidades

Aunque Vid-ICL se centra en el vídeo como ejemplo, puede extenderse a otras modalidades como el texto.

Para hacer esto, simplemente convierta la descripción del texto original en una representación latente a través de un modelo de lenguaje previamente entrenado, y luego use esta representación latente como prefijo al entrenar el Transformador y realizar el razonamiento contextual, y alinearla con el espacio latente del Transformador. a través de la capa de proyección.

Los experimentos muestran que Vid-ICLPuede recibir tanto texto como video como ejemplo.y agregar texto puede mejorar aún más la calidad de los resultados generados.

  • Tamaño de datos y modelo.

Se puede ver que Vid-ICL puede aprender la información semántica contenida en videos de ejemplo y migrarla a nuevas escenas para su generación. Esto requiere que los datos de entrenamiento contengan principalmente videos con relaciones causales claras y una fuerte interactividad.

Por lo tanto, los investigadores seleccionaron dos conjuntos de datos como principales fuentes de datos de entrenamiento: Ego4d y Kinetics-600.

Además, para aumentar la diversidad del contenido de video, también se agrega una pequeña parte de los datos en Webvid al conjunto de capacitación.

El equipo también verificó que debido al hecho de que la información semántica contenida en los vídeos de Internet es relativamente vaga y divergente, el tamaño de los datos se puede aumentar simplemente añadiendo más vídeos de Internet.no ayuda a mejorar el rendimiento contextual del modelo

En términos de tamaño del modelo, el equipo entrenó modelos de tres tamaños: 300M, 700M y 1.1B, y descubrió que la calidad y el rendimiento contextual de los videos generados por el modelo seguían la Ley de Escala.

Resultados experimentales

Vid-ICL pasa principalmenteProporcione videos de muestra con diferente semántica para el mismo video de consulta., para evaluar la efectividad y precisión del aprendizaje del contexto del video.

Por ejemplo, para un vídeo de consulta sobre el movimiento de un objeto hacia la izquierda, se pueden generar diferentes vídeos dando ejemplos de vídeos sobre el movimiento hacia la izquierda, el movimiento aleatorio y el movimiento en la dirección opuesta, y se puede utilizar la evaluación de los resultados generados. para determinar si el modelo realmente ha generado ejemplos.

En términos de resultados cualitativos, la siguiente figura muestra los videos generados en diferentes videos de ejemplo (para obtener más ejemplos, consulte el texto original del artículo).

Se puede observar:

1) ParaGeneración de vídeo únicaLa calidad, Vid-ICL mantiene la coherencia del video generado y del video de consulta, y ambos tienen buena calidad de generación;

2) ParaCoherencia semántica entre videos generados y de ejemplo., se puede observar que todos los videos generados siguen el proceso del video de ejemplo, lo que muestra que Vid-ICL tiene la capacidad de obtener espontáneamente la información semántica del video de ejemplo y generar el video correspondiente.

Como se muestra en la figura siguiente, para el mismo clip de video de consulta, Vid-ICL elige mover el video generado en consecuencia según el movimiento de la lente en el video de ejemplo.



En cuanto a resultados cuantitativos, el equipo de investigación propuso indicadores de evaluación automática en dos aspectos:

1)Calidad de videoPor otro lado, se utilizan indicadores basados ​​en coincidencia o distribución de píxeles en tareas visuales tradicionales, como PSNR, FID, etc.;

2)consistencia semánticaArriba, se utilizan dos indicadores basados ​​en la precisión de la clasificación: precisión de la clasificación de video y precisión de la clasificación de la sonda.

En diferentes indicadores, Vid-ICL muestra mejores resultados que el modelo de referencia. Se puede ver que bajo la guía de videos de ejemplo similares, Vid-ICL genera videos más realistas y semánticamente consistentes.



Consulte el artículo original para obtener más detalles.

Página de inicio del proyecto: https://aka.ms/vid-icl
Enlace del artículo: https://arxiv.org/abs/2407.0735