notícias

Geração de vídeo ilimitada, planejamento e tomada de decisão, difusão forçada, integração da previsão do próximo token e difusão de sequência completa

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Editor: PandaW

Atualmente, modelos de linguagem autorregressivos em grande escala usando o próximo paradigma de previsão de tokens tornaram-se populares em todo o mundo. Ao mesmo tempo, um grande número de imagens e vídeos sintéticos na Internet já nos mostraram o poder dos modelos de difusão.

Recentemente, uma equipe de pesquisa do MIT CSAIL (um dos quais é Chen Boyuan, um estudante de doutorado no MIT) integrou com sucesso os poderosos recursos do modelo de difusão de sequência completa e do próximo modelo de token, e propôs um paradigma de treinamento e amostragem: Diffusion Forcing ( D.F.).

Título do artigo: Forçamento de difusão: a previsão do próximo token encontra a difusão de sequência completa

Endereço do artigo: https://arxiv.org/pdf/2407.01392

Site do projeto: https://boyuan.space/diffusion-forcing

Endereço do código: https://github.com/buoyancy99/diffusion-forcing

Conforme mostrado abaixo, o forçamento de difusão supera significativamente a difusão de sequência completa e o forçamento de professor em termos de consistência e estabilidade.

Nesta estrutura, cada token é associado a um nível de ruído aleatório e independente, e um modelo de predição de próximo token compartilhado ou modelo de predição de próximo token pode ser usado de acordo com um esquema arbitrário e independente de token por token para remoção de ruído.

Este método foi inspirado na observação de que o processo de adição de ruído a um token é uma forma de mascaramento parcial - ruído zero significa que o token não está mascarado, enquanto o ruído completo mascara completamente o token. Portanto, o DF força o modelo a aprender uma máscara que remove qualquer conjunto variável de tokens ruidosos (Figura 2).

Ao mesmo tempo, ao parametrizar o método de predição como uma combinação de vários modelos de predição do próximo token, o sistema pode gerar com flexibilidade sequências de diferentes comprimentos e generalizar para novas trajetórias de maneira combinatória (Figura 1).

A equipe implementou DF para geração de sequência em Causal Diffusion Forcing (CDF), em que tokens futuros dependem de tokens passados ​​por meio de uma arquitetura causal. Eles treinaram o modelo para eliminar o ruído de todos os tokens de uma sequência de uma só vez (onde cada token tem um nível de ruído independente).

Durante a amostragem, o CDF elimina gradualmente uma sequência de quadros de ruído gaussianos em amostras limpas, onde diferentes quadros podem ter diferentes níveis de ruído em cada etapa de remoção de ruído. Semelhante ao próximo modelo de previsão de token, o CDF pode gerar sequências de comprimento variável, ao contrário da previsão do próximo token, o desempenho do CDF é muito estável - seja prevendo o próximo token, milhares de tokens no futuro ou até mesmo token contínuo;

Além disso, semelhante à difusão de sequência completa, também pode receber orientação, permitindo a geração de alta recompensa. Ao aproveitar de forma colaborativa a causalidade, o escopo flexível e a programação de ruído variável, o CDF permite um novo recurso: Monte Carlo Tree Guidance (MCTG). Comparado com o modelo de difusão de sequência completa não causal, o MCTG pode melhorar muito a taxa de amostragem de geração de alta recompensa. A Figura 1 fornece uma visão geral desses recursos.

experimentar

A equipe avaliou as vantagens do forçamento de difusão como um modelo de sequência generativa em uma variedade de aplicações, incluindo previsão de vídeo e séries temporais, planejamento e aprendizagem por imitação.

Previsão de vídeo: geração de sequência consistente e estável e expansão infinita

Para a tarefa de modelagem generativa de vídeo, eles treinaram uma implementação RNN convolucional para difusão causal com base em vídeos de jogos Minecraft e navegação DMLab.

A Figura 3 mostra os resultados qualitativos do forçamento de difusão versus linha de base.

Pode-se observar que o forçamento da difusão pode expandir-se de forma estável, mesmo além do seu alcance de treinamento, enquanto o forçamento do professor e os benchmarks de difusão de sequência completa irão divergir rapidamente;

Planejamento de difusão: MCTG, incerteza causal, controle de escopo flexível

A capacidade de difundir a coerção traz benefícios únicos à tomada de decisões. A equipe avaliou a estrutura de tomada de decisão recentemente proposta usando D4RL, uma estrutura padrão de aprendizagem por reforço offline.

A Tabela 1 apresenta os resultados da avaliação qualitativa e quantitativa. Como pode ser visto, o forçamento de difusão supera o Difusor e todas as linhas de base em todos os 6 ambientes.

Geração de combinação de sequência controlável

A equipe descobriu que era possível combinar de forma flexível subsequências de sequências observadas no momento do treinamento simplesmente modificando o esquema de amostragem.

Eles conduziram experimentos usando um conjunto de dados de trajetória 2D: em um plano quadrado, todas as trajetórias começam em um canto e terminam no canto oposto, formando uma espécie de cruz.

Conforme mostrado na Figura 1 acima, quando o comportamento de combinação não é necessário, o DF pode manter a memória completa e replicar a distribuição em forma de cruz. Quando a combinação é necessária, o modelo pode ser usado para gerar um plano mais curto sem memória usando MPC, costurando assim as subtrajetórias em forma de cruz para obter uma trajetória em forma de V.

Robótica: aprendizagem por imitação de longo alcance e controle visuomotor robusto

O forçamento de difusão também traz novas oportunidades para controle visual de movimento de robôs reais.

A aprendizagem por imitação é uma técnica de manipulação robótica comumente usada que aprende mapeamentos de ações observadas demonstradas por especialistas. No entanto, a falta de memória muitas vezes dificulta a aprendizagem por imitação para tarefas de longo alcance. O DF pode não apenas aliviar essa deficiência, mas também tornar a aprendizagem por imitação mais robusta.

Usando a memória para aprendizagem por imitação. Ao controlar remotamente o robô Franka, a equipe coletou um conjunto de dados de vídeo e movimento. Conforme mostrado na Figura 4, a tarefa é utilizar a terceira posição para trocar as posições de maçãs e laranjas. A posição inicial da fruta é aleatória, portanto existem dois estados objetivos possíveis.

Além disso, quando há uma fruta na terceira posição, o resultado desejado não pode ser inferido a partir da observação actual - a política deve lembrar-se da configuração inicial para decidir que fruta movimentar. Ao contrário dos métodos de clonagem de comportamento comumente usados, o DF pode integrar memórias naturalmente em seu próprio estado oculto. Verificou-se que o DF poderia atingir uma taxa de sucesso de 80%, enquanto a estratégia de difusão (atualmente o melhor algoritmo de aprendizagem por imitação sem memória) falhou.

Além disso, o DF pode ser mais robusto ao ruído e facilitar o pré-treinamento do robô.

Previsão de série temporal: o forçamento de difusão é um excelente modelo de sequência geral

Para tarefas de previsão de séries temporais multivariadas, a pesquisa da equipe mostra que o DF é suficiente para comparar favoravelmente com modelos de difusão anteriores e com base em Transformador modelo é comparável.

Consulte o artigo original para obter mais detalhes técnicos e resultados experimentais.