Aprendizagem contextual de vídeo! A grande modelo aprende a “imitar um gato e desenhar um tigre”, da MSRA

Aprendizagem contextual de vídeo! A modelo grande aprende a “imitar um gato e desenhar um tigre”, da MSRA

2024-07-17

Contribuição da equipe Vid-ICL
Qubits | Conta pública QbitAI

A geração de vídeo também pode se referir ao “contexto”? !

MSRA propõeAprendizagem de contexto de vídeo(Video In-Context Learning, Vid-ICL), deixe o modelo grande aprender a estilo "imitar o gato e desenhar o tigre"geração de imitação。

O Vid-ICL utiliza um vídeo de amostra para orientar a geração do modelo em novos cenários, para que os resultados gerados possam “imitar” as tarefas concluídas nos vídeos de amostra em novos cenários.

Por exemplo, a perspectiva da câmera de vídeo de amostra se move para baixo (esquerda) e o vídeo gerado também move a perspectiva para baixo (direita):

O objeto de vídeo de amostra se move para cima (esquerda) e o vídeo gerado também se move para cima (direita):

A captura de objetos também pode ser simulada:

△Esquerda: Exemplo de vídeo, o braço do robô agarra objetos; Direita: Vídeo gerado;

A abertura da gaveta também pode ser feita conforme mostrado no exemplo:

△Esquerda: Vídeo de amostra, abra a gaveta do meio. Direita: Gere vídeo;

No mesmo cenário de ventilador elétrico, use diferentes vídeos de exemplo para guiar o modelo para gerar efeitos como:

△Esquerda: vídeo de amostra, câmera movida para a esquerda: vídeo gerado;

△Esquerda: Vídeo de amostra, câmera movida para a direita: Vídeo gerado;

Você deve saber que em um modelo de mundo ideal, a interação entre o modelo e o ambiente externo deveria ser diversa.A maioria dos trabalhos existentes concentra-se no usoTexto como principal modo de interação, o que dificulta o controle do detalhamento e da diversidade dos resultados gerados.

eO vídeo é altamente concreto e universal, capaz de transmitir uma ampla gama de informações, como exemplos de conclusão de uma variedade de tarefas, incluindo mover ou agarrar objetos.

O método Vid-ICL proposto pela equipe de pesquisa oferece uma alternativa à linguagem e às imagens.nova interface, tornando a interação entre o modelo e o mundo real mais diversificada.

Além do vídeo gerado mostrado acima,Vid-ICL também pode ser combinado com emuladores, use o vídeo gerado e o estado atual para prever as ações correspondentes para a interação correta com o ambiente, assimRealize a interação com o ambiente real。

A figura abaixo mostra o Vid-ICL interagindo com o ambiente real A partir do estado em t=0, ele interage com o simulador RoboDesk para completar a tarefa "Push_red". Vid-ICL fornece controle mais preciso sobre as interações ambientais:

Bom rapaz, o filme “Armadura de Ferro” virou realidade.

Como exatamente funciona o Vid-ICL?

Interpretação da estrutura Vid-ICL

Vid-ICL opera com vídeo como unidade básica.

Especificamente, dado um videoclipe de consulta e k videoclipes de exemplo, o objetivo do Vid-ICL é gerar um videoclipe que deve primeiroMantenha a coerência perceptiva com videoclipes de consulta，Ao mesmo tempo em semântica(como movimento de câmera, ação)O acima é consistente com o vídeo de exemplo。

Treinamento de modelo autorregressivo

Vid-ICL usa Transformer como estrutura do modelo.

Como arquitetura base de grandes modelos de texto, o Transformer demonstrou capacidades poderosas em tarefas de geração e raciocínio de contexto de linguagem. O treinamento do Transformador Generativo de informações visuais consiste em duas etapas:

Primeiro, treine um codificador visual, como o VQ-VAE, para converter cada imagem em um token discreto;

Em segundo lugar, cada amostra de treinamento é construída como uma sequência de tokens, e o objetivo do decodificador Transformer é recuperar essa sequência de tokens.

Em termos de implementação específica, Vid-ICLUsando a arquitetura Llama,usarNormalização RMSNormeIncorporação de posição de rotação (RoPE), treine o decodificador Transformer de maneira autorregressiva. Durante a fase de treinamento, cada sequência é amostrada de um vídeo bruto, sem emendar videoclipes de vídeos diferentes.

Capacidade de amostra zero

A equipe de pesquisa faz uma observação importante neste artigo:

O modelo pode começar a partir de dados de vídeo sem forma de contexto explícita, ou seja,Habilidades de raciocínio contextual aprendidas espontaneamente a partir de videoclipes consecutivos, ou seja, a "capacidade de amostra zero" para aprendizagem em contexto de vídeo.

Isso pode ser atribuído a dois fatores principais. Primeiro, nenhum delimitador especial é inserido entre cada quadro de vídeo, o que permite ao modelo tratar implicitamente sequências de vídeo contínuas como vídeos de exemplo + vídeos de consulta durante o treinamento. Isso significa que o modelo aprendeu a processar sequências de estruturas de consulta de exemplo semelhantes.

Em segundo lugar, as características autoregressivas do Transformer permitem estender a capacidade de previsão de sequência de vídeo de uma única cena para cenas onde exemplos e consultas vêm de vídeos diferentes e generalizar perfeitamente o paradigma de aprendizagem de contexto de texto para aprendizagem de contexto de vídeo.

Integre outras modalidades

Embora o Vid-ICL se concentre no vídeo como exemplo, ele pode ser estendido a outras modalidades, como o texto.

Para fazer isso, basta converter a descrição do texto original em uma representação latente por meio de um modelo de linguagem pré-treinado e, em seguida, usar essa representação latente como prefixo ao treinar o Transformer e realizar o raciocínio contextual, e alinhá-la ao espaço latente do Transformer através da camada de projeção.

Experimentos mostram que Vid-ICLPode receber texto e vídeo como exemplo, e adicionar texto pode melhorar ainda mais a qualidade dos resultados gerados.

Dados e tamanho do modelo

Pode-se observar que o Vid-ICL pode aprender as informações semânticas contidas nos vídeos de exemplo e migrá-las para novas cenas para geração. Isso requer que os dados de treinamento contenham principalmente vídeos com relações causais claras e forte interatividade.

Portanto, os pesquisadores selecionaram dois conjuntos de dados como principais fontes de dados de treinamento: Ego4d e Kinetics-600.

Além disso, para aumentar a diversidade do conteúdo de vídeo, uma pequena parte dos dados do Webvid também é adicionada ao conjunto de treinamento.

A equipa também verificou que devido ao facto da informação semântica contida nos vídeos da Internet ser relativamente vaga e divergente, o tamanho dos dados pode ser aumentado simplesmente adicionando mais vídeos da Internet.não ajuda a melhorar o desempenho contextual do modelo。

Em termos de tamanho do modelo, a equipe treinou modelos de três tamanhos: 300M, 700M e 1.1B, e constatou que a qualidade e o desempenho contextual dos vídeos gerados pelo modelo seguiam a Lei de Escala.

Resultados experimentais

Vid-ICL passa principalmenteForneça vídeos de amostra com semânticas diferentes para o mesmo vídeo de consulta, para avaliar a eficácia e precisão da aprendizagem em contexto de vídeo.

Por exemplo, para um vídeo de consulta de movimento de um objeto para a esquerda, diferentes vídeos podem ser gerados, dando exemplos de vídeos de movimento para a esquerda, movimento aleatório e movimento na direção oposta, e a avaliação dos resultados gerados pode ser usada para determinar se o modelo realmente gerou exemplos de vídeos relacionados.

Em termos de resultados qualitativos, a figura abaixo mostra os vídeos gerados em diferentes vídeos de exemplo (para mais exemplos, consulte o texto original do artigo).

Pode-se observar:

1) ParaGeração de vídeo únicoQuanto à qualidade, o Vid-ICL mantém a coerência do vídeo gerado e do vídeo de consulta, e ambos possuem boa qualidade de geração;

2) ParaConsistência semântica entre vídeos gerados e de exemplo, pode-se observar que todos os vídeos gerados seguem o processo do vídeo de exemplo, o que mostra que o Vid-ICL tem a capacidade de obter espontaneamente a informação semântica do vídeo de exemplo e gerar o vídeo correspondente.

Conforme mostrado na figura abaixo, para o mesmo videoclipe de consulta, o Vid-ICL opta por mover o vídeo gerado de acordo com o movimento da lente no vídeo de exemplo.

Em termos de resultados quantitativos, a equipa de investigação propôs indicadores de avaliação automática em dois aspectos:

1）Qualidade de vídeoPor outro lado, são utilizados indicadores baseados na correspondência ou distribuição de pixels em tarefas visuais tradicionais, como PSNR, FID, etc.;

2）consistência semânticaacima, são usados dois indicadores baseados na precisão da classificação: precisão da classificação de vídeo e precisão da classificação da sonda.

Em diferentes indicadores, o Vid-ICL apresenta melhores resultados do que o modelo de referência. Pode-se observar que sob a orientação de vídeos de exemplo semelhantes, o Vid-ICL gera vídeos mais realistas e semanticamente consistentes.

Consulte o artigo original para obter mais detalhes.

Página inicial do projeto: https://aka.ms/vid-icl
Link do artigo: https://arxiv.org/abs/2407.0735

notícias

Aprendizagem contextual de vídeo! A modelo grande aprende a “imitar um gato e desenhar um tigre”, da MSRA

Interpretação da estrutura Vid-ICL

Resultados experimentais

Introdução

minhas informações de contato