noticias

Generación, planificación y toma de decisiones de vídeo ilimitadas, difusión, integración forzada de la predicción del siguiente token y difusión de secuencia completa

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Editor: Panda W.

Actualmente, los modelos de lenguaje autorregresivos a gran escala que utilizan el siguiente paradigma de predicción de tokens se han vuelto populares en todo el mundo. Al mismo tiempo, una gran cantidad de imágenes y videos sintéticos en Internet ya nos han demostrado el poder de los modelos de difusión.

Recientemente, un equipo de investigación en MIT CSAIL (uno de los cuales es Chen Boyuan, estudiante de doctorado en MIT) integró con éxito las poderosas capacidades del modelo de difusión de secuencia completa y el siguiente modelo de token, y propuso un paradigma de entrenamiento y muestreo: Diffusion Forcing ( DF).

Título del artículo: Forzado de difusión: la predicción del siguiente token se encuentra con la difusión de secuencia completa

Dirección del artículo: https://arxiv.org/pdf/2407.01392

Sitio web del proyecto: https://boyuan.space/diffusion-forcing

Dirección del código: https://github.com/buoyancy99/diffusion-forcing

Como se muestra a continuación, el forzado por difusión supera significativamente tanto a la difusión de secuencia completa como al forzado por docente en términos de consistencia y estabilidad.

En este marco, cada token está asociado con un nivel de ruido independiente y aleatorio, y se puede usar un modelo de predicción del siguiente token compartido o un modelo de predicción del siguiente token de acuerdo con un esquema arbitrario e independiente por token para eliminar el ruido.

Este método se inspiró en la observación de que el proceso de agregar ruido a un token es una forma de enmascaramiento parcial: cero ruido significa que el token no está enmascarado, mientras que el ruido completo lo enmascara completamente. Por lo tanto, DF obliga al modelo a aprender una máscara que elimina cualquier conjunto variable de tokens ruidosos (Figura 2).

Al mismo tiempo, al parametrizar el método de predicción como una combinación de múltiples modelos de predicción de tokens siguientes, el sistema puede generar de manera flexible secuencias de diferentes longitudes y generalizar a nuevas trayectorias de manera combinatoria (Figura 1).

El equipo implementó DF para la generación de secuencias en Causal Diffusion Forcing (CDF), en el que los tokens futuros dependen de los tokens pasados ​​a través de una arquitectura causal. Entrenaron el modelo para eliminar el ruido de todos los tokens de una secuencia a la vez (donde cada token tiene un nivel de ruido independiente).

Durante el muestreo, CDF elimina gradualmente el ruido de una secuencia de cuadros de ruido gaussiano en muestras limpias, donde diferentes cuadros pueden tener diferentes niveles de ruido en cada paso de eliminación de ruido. De manera similar al modelo de predicción del siguiente token, CDF puede generar secuencias de longitud variable; a diferencia de la predicción del siguiente token, el rendimiento de CDF es muy estable, ya sea que prediga el siguiente token, miles de tokens en el futuro o incluso un token continuo.

Además, de manera similar a la difusión de secuencia completa, también puede recibir orientación, lo que permite generar una alta recompensa. Al aprovechar de manera colaborativa la causalidad, el alcance flexible y la programación de ruido variable, CDF habilita una nueva característica: Monte Carlo Tree Guidance (MCTG). En comparación con el modelo de difusión de secuencia completa no causal, MCTG puede mejorar en gran medida la tasa de muestreo de generación de alta recompensa. La Figura 1 ofrece una descripción general de estas capacidades.

experimento

El equipo evaluó las ventajas del forzamiento por difusión como modelo de secuencia generativa en una variedad de aplicaciones, incluida la predicción, la planificación y el aprendizaje por imitación de vídeos y series temporales.

Predicción de video: generación de secuencia consistente y estable y expansión infinita

Para la tarea de modelado generativo de video, entrenaron una implementación RNN convolucional para la difusión causal basada en videos de juegos de Minecraft y navegación DMLab.

La Figura 3 muestra los resultados cualitativos del forzamiento por difusión versus el valor inicial.

Se puede observar que el forzamiento por difusión puede expandirse de manera estable, incluso más allá de su rango de capacitación, mientras que los puntos de referencia del forzamiento por parte de los docentes y la difusión de secuencia completa divergirán rápidamente.

Planificación de la difusión: MCTG, incertidumbre causal, control de alcance flexible

La capacidad de difundir la coerción aporta beneficios únicos a la toma de decisiones. El equipo evaluó el marco de toma de decisiones recientemente propuesto utilizando D4RL, un marco estándar de aprendizaje por refuerzo fuera de línea.

La Tabla 1 presenta los resultados de la evaluación cualitativa y cuantitativa. Como puede verse, el forzamiento de difusión supera al Difusor y a todas las líneas de base en los 6 entornos.

Generación de combinación de secuencia controlable.

El equipo descubrió que era posible combinar de manera flexible subsecuencias de secuencias observadas en el momento del entrenamiento simplemente modificando el esquema de muestreo.

Realizaron experimentos utilizando un conjunto de datos de trayectorias 2D: en un plano cuadrado, todas las trayectorias comienzan en una esquina y terminan en la esquina opuesta, formando una especie de cruz.

Como se muestra en la Figura 1 anterior, cuando no se requiere un comportamiento combinado, se puede permitir que DF mantenga la memoria completa y replique la distribución en forma de cruz. Cuando se requiere combinación, el modelo se puede usar para generar un plan más corto sin memoria usando MPC, uniendo así las subtrayectorias en forma de cruz para obtener una trayectoria en forma de V.

Robótica: aprendizaje por imitación de largo alcance y control visomotor robusto

La difusión forzada también brinda nuevas oportunidades para el control visual del movimiento de robots reales.

El aprendizaje por imitación es una técnica de manipulación de robots de uso común que aprende mapeos de acciones observadas demostradas por expertos. Sin embargo, la falta de memoria a menudo dificulta el aprendizaje por imitación para tareas de largo alcance. DF no solo puede aliviar esta deficiencia, sino también hacer que el aprendizaje por imitación sea más sólido.

Utilizar la memoria para el aprendizaje por imitación. Al controlar remotamente el robot Franka, el equipo recopiló un conjunto de datos de video y movimiento. Como se muestra en la Figura 4, la tarea consiste en utilizar la tercera posición para intercambiar las posiciones de manzanas y naranjas. La posición inicial de la fruta es aleatoria, por lo que hay dos posibles estados objetivo.

Además, cuando hay una fruta en la tercera posición, el resultado deseado no se puede inferir de la observación actual: la política debe recordar la configuración inicial para decidir qué fruta mover. A diferencia de los métodos de clonación de comportamiento comúnmente utilizados, DF puede integrar recuerdos de forma natural en su propio estado oculto. Se descubrió que DF podía lograr una tasa de éxito del 80%, mientras que la estrategia de difusión (actualmente el mejor algoritmo de aprendizaje por imitación sin memoria) fallaba.

Además, DF puede ser más resistente al ruido y facilitar el entrenamiento previo del robot.

Pronóstico de series de tiempo: el forzamiento de difusión es un excelente modelo de secuencia general

Para tareas de pronóstico de series de tiempo multivariadas, la investigación del equipo muestra que DF es suficiente para compararse favorablemente con modelos de difusión anteriores y basados ​​en Transformador El modelo es comparable.

Consulte el artículo original para obtener más detalles técnicos y resultados experimentales.