minhas informações de contato
Correspondência[email protected]
2024-07-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Contribuição da equipe Vid-ICL
Qubits | Conta pública QbitAI
A geração de vídeo também pode se referir ao “contexto”? !
MSRA propõeAprendizagem de contexto de vídeo(Video In-Context Learning, Vid-ICL), deixe o modelo grande aprender a estilo "imitar o gato e desenhar o tigre"geração de imitação。
O Vid-ICL utiliza um vídeo de amostra para orientar a geração do modelo em novos cenários, para que os resultados gerados possam “imitar” as tarefas concluídas nos vídeos de amostra em novos cenários.
Por exemplo, a perspectiva da câmera de vídeo de amostra se move para baixo (esquerda) e o vídeo gerado também move a perspectiva para baixo (direita):
O objeto de vídeo de amostra se move para cima (esquerda) e o vídeo gerado também se move para cima (direita):
A captura de objetos também pode ser simulada:
△Esquerda: Exemplo de vídeo, o braço do robô agarra objetos; Direita: Vídeo gerado;
A abertura da gaveta também pode ser feita conforme mostrado no exemplo:
△Esquerda: Vídeo de amostra, abra a gaveta do meio. Direita: Gere vídeo;
No mesmo cenário de ventilador elétrico, use diferentes vídeos de exemplo para guiar o modelo para gerar efeitos como:
△Esquerda: vídeo de amostra, câmera movida para a esquerda: vídeo gerado;
△Esquerda: Vídeo de amostra, câmera movida para a direita: Vídeo gerado;
Você deve saber que em um modelo de mundo ideal, a interação entre o modelo e o ambiente externo deveria ser diversa.A maioria dos trabalhos existentes concentra-se no usoTexto como principal modo de interação, o que dificulta o controle do detalhamento e da diversidade dos resultados gerados.
eO vídeo é altamente concreto e universal, capaz de transmitir uma ampla gama de informações, como exemplos de conclusão de uma variedade de tarefas, incluindo mover ou agarrar objetos.
O método Vid-ICL proposto pela equipe de pesquisa oferece uma alternativa à linguagem e às imagens.nova interface, tornando a interação entre o modelo e o mundo real mais diversificada.
Além do vídeo gerado mostrado acima,Vid-ICL também pode ser combinado com emuladores, use o vídeo gerado e o estado atual para prever as ações correspondentes para a interação correta com o ambiente, assimRealize a interação com o ambiente real。
A figura abaixo mostra o Vid-ICL interagindo com o ambiente real A partir do estado em t=0, ele interage com o simulador RoboDesk para completar a tarefa "Push_red". Vid-ICL fornece controle mais preciso sobre as interações ambientais:
Bom rapaz, o filme “Armadura de Ferro” virou realidade.
Como exatamente funciona o Vid-ICL?
Vid-ICL opera com vídeo como unidade básica.
Especificamente, dado um videoclipe de consulta e k videoclipes de exemplo, o objetivo do Vid-ICL é gerar um videoclipe que deve primeiroMantenha a coerência perceptiva com videoclipes de consulta,Ao mesmo tempo em semântica(como movimento de câmera, ação)O acima é consistente com o vídeo de exemplo。
Vid-ICL usa Transformer como estrutura do modelo.
Como arquitetura base de grandes modelos de texto, o Transformer demonstrou capacidades poderosas em tarefas de geração e raciocínio de contexto de linguagem. O treinamento do Transformador Generativo de informações visuais consiste em duas etapas:
Primeiro, treine um codificador visual, como o VQ-VAE, para converter cada imagem em um token discreto;
Em segundo lugar, cada amostra de treinamento é construída como uma sequência de tokens, e o objetivo do decodificador Transformer é recuperar essa sequência de tokens.
Em termos de implementação específica, Vid-ICLUsando a arquitetura Llama,usarNormalização RMSNormeIncorporação de posição de rotação (RoPE), treine o decodificador Transformer de maneira autorregressiva. Durante a fase de treinamento, cada sequência é amostrada de um vídeo bruto, sem emendar videoclipes de vídeos diferentes.
A equipe de pesquisa faz uma observação importante neste artigo:
O modelo pode começar a partir de dados de vídeo sem forma de contexto explícita, ou seja,Habilidades de raciocínio contextual aprendidas espontaneamente a partir de videoclipes consecutivos, ou seja, a "capacidade de amostra zero" para aprendizagem em contexto de vídeo.
Isso pode ser atribuído a dois fatores principais. Primeiro, nenhum delimitador especial é inserido entre cada quadro de vídeo, o que permite ao modelo tratar implicitamente sequências de vídeo contínuas como vídeos de exemplo + vídeos de consulta durante o treinamento. Isso significa que o modelo aprendeu a processar sequências de estruturas de consulta de exemplo semelhantes.
Em segundo lugar, as características autoregressivas do Transformer permitem estender a capacidade de previsão de sequência de vídeo de uma única cena para cenas onde exemplos e consultas vêm de vídeos diferentes e generalizar perfeitamente o paradigma de aprendizagem de contexto de texto para aprendizagem de contexto de vídeo.
Embora o Vid-ICL se concentre no vídeo como exemplo, ele pode ser estendido a outras modalidades, como o texto.
Para fazer isso, basta converter a descrição do texto original em uma representação latente por meio de um modelo de linguagem pré-treinado e, em seguida, usar essa representação latente como prefixo ao treinar o Transformer e realizar o raciocínio contextual, e alinhá-la ao espaço latente do Transformer através da camada de projeção.
Experimentos mostram que Vid-ICLPode receber texto e vídeo como exemplo, e adicionar texto pode melhorar ainda mais a qualidade dos resultados gerados.
Pode-se observar que o Vid-ICL pode aprender as informações semânticas contidas nos vídeos de exemplo e migrá-las para novas cenas para geração. Isso requer que os dados de treinamento contenham principalmente vídeos com relações causais claras e forte interatividade.
Portanto, os pesquisadores selecionaram dois conjuntos de dados como principais fontes de dados de treinamento: Ego4d e Kinetics-600.
Além disso, para aumentar a diversidade do conteúdo de vídeo, uma pequena parte dos dados do Webvid também é adicionada ao conjunto de treinamento.
A equipa também verificou que devido ao facto da informação semântica contida nos vídeos da Internet ser relativamente vaga e divergente, o tamanho dos dados pode ser aumentado simplesmente adicionando mais vídeos da Internet.não ajuda a melhorar o desempenho contextual do modelo。
Em termos de tamanho do modelo, a equipe treinou modelos de três tamanhos: 300M, 700M e 1.1B, e constatou que a qualidade e o desempenho contextual dos vídeos gerados pelo modelo seguiam a Lei de Escala.
Vid-ICL passa principalmenteForneça vídeos de amostra com semânticas diferentes para o mesmo vídeo de consulta, para avaliar a eficácia e precisão da aprendizagem em contexto de vídeo.
Por exemplo, para um vídeo de consulta de movimento de um objeto para a esquerda, diferentes vídeos podem ser gerados, dando exemplos de vídeos de movimento para a esquerda, movimento aleatório e movimento na direção oposta, e a avaliação dos resultados gerados pode ser usada para determinar se o modelo realmente gerou exemplos de vídeos relacionados.
Em termos de resultados qualitativos, a figura abaixo mostra os vídeos gerados em diferentes vídeos de exemplo (para mais exemplos, consulte o texto original do artigo).
Pode-se observar:
1) ParaGeração de vídeo únicoQuanto à qualidade, o Vid-ICL mantém a coerência do vídeo gerado e do vídeo de consulta, e ambos possuem boa qualidade de geração;
2) ParaConsistência semântica entre vídeos gerados e de exemplo, pode-se observar que todos os vídeos gerados seguem o processo do vídeo de exemplo, o que mostra que o Vid-ICL tem a capacidade de obter espontaneamente a informação semântica do vídeo de exemplo e gerar o vídeo correspondente.
Conforme mostrado na figura abaixo, para o mesmo videoclipe de consulta, o Vid-ICL opta por mover o vídeo gerado de acordo com o movimento da lente no vídeo de exemplo.
Em termos de resultados quantitativos, a equipa de investigação propôs indicadores de avaliação automática em dois aspectos:
1)Qualidade de vídeoPor outro lado, são utilizados indicadores baseados na correspondência ou distribuição de pixels em tarefas visuais tradicionais, como PSNR, FID, etc.;
2)consistência semânticaacima, são usados dois indicadores baseados na precisão da classificação: precisão da classificação de vídeo e precisão da classificação da sonda.
Em diferentes indicadores, o Vid-ICL apresenta melhores resultados do que o modelo de referência. Pode-se observar que sob a orientação de vídeos de exemplo semelhantes, o Vid-ICL gera vídeos mais realistas e semanticamente consistentes.
Consulte o artigo original para obter mais detalhes.
Página inicial do projeto: https://aka.ms/vid-icl
Link do artigo: https://arxiv.org/abs/2407.0735