notícias

Adicione olhos rápidos e lentos ao modelo de vídeo, o novo método sem treinamento da Apple supera tudo SOTA em segundos

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Desde o lançamento do Sora, o campo de geração de vídeo de IA tornou-se mais “ocupado”. Nos últimos meses, testemunhamos Jimeng, Runway Gen-3, Luma AI e Kuaishou Keling se revezando para explodir.

Ao contrário do que acontecia no passado, onde era possível perceber rapidamente que os modelos são gerados por IA, este lote de grandes modelos de vídeo pode ser o “melhor” que já vimos.

No entanto, o incrível desempenho dos modelos de vídeo em linguagem grande (LLM) é inseparável de um conjunto de dados de vídeo grande e bem anotado, que requer um custo muito alto. Recentemente, surgiram vários métodos inovadores no campo de pesquisa que não requerem treinamento adicional: o uso de modelos de linguagem de imagens grandes treinados para processar diretamente tarefas de vídeo, contornando assim o processo de treinamento "caro".

Além disso, a maioria dos LLMs de vídeo existentes sofrem de duas deficiências principais: (1) eles só podem lidar com entrada de vídeo com um número limitado de quadros, o que torna difícil para o modelo capturar o conteúdo espacial e temporal sutil no vídeo (2); ) eles não possuem design de modelagem temporal, mas simplesmente inserem recursos de vídeo no LLM, confiando completamente na capacidade do LLM de modelar movimento.

Em resposta às questões acima,Os pesquisadores da Apple propuseram o SlowFast-LLaVA (abreviadamente SF-LLaVA). Este modelo é baseado na arquitetura LLaVA-NeXT desenvolvida pela equipe Byte. Não requer ajustes adicionais e pode ser usado imediatamente.. Inspirada pela bem-sucedida rede de dois fluxos no campo do reconhecimento de ação, a equipe de pesquisa projetou um novo mecanismo de entrada SlowFast para vídeo LLM.

Simplificando, o SF-LLaVA compreenderá detalhes e movimentos em vídeos por meio de duas velocidades de visualização diferentes (Lenta e Rápida).

Caminho lento: extraia recursos em uma taxa de quadros baixa, mantendo o máximo de detalhes espaciais possível (por exemplo, retendo tokens 24×24 a cada 8 quadros)

Caminho rápido: execute em uma taxa de quadros alta, mas reduza a resolução do vídeo com uma etapa maior de agrupamento espacial para simular um contexto temporal maior e focar mais na compreensão da coerência das ações.

Isso equivale ao modelo ter dois “olhos”: um olha devagar e presta atenção nos detalhes; o outro olha rápido e presta atenção nos movimentos. Isso resolve os problemas da maioria dos LLMs de vídeo existentes e pode capturar tanto a semântica espacial detalhada quanto o contexto temporal mais longo.



Link do artigo: https://arxiv.org/pdf/2407.15841

Os resultados experimentais mostram que o SF-LLaVA supera os métodos existentes sem treinamento por vantagens significativas em todos os testes de benchmark. Comparado com o modelo SFT cuidadosamente ajustado, o SF-LLaVA pode atingir o mesmo desempenho ou até melhor.



Arquitetura do modelo

Conforme mostrado na figura abaixo, SF-LLaVA segue o processo LLM de vídeo sem treinamento padrão. Ele recebe o vídeo V e a pergunta Q como entrada e gera a resposta A correspondente.



Para a entrada, N quadros são amostrados uniformemente de cada vídeo de qualquer tamanho e duração, I = {I_1, I_2, ..., I_N}, e nenhuma combinação ou disposição especial dos quadros de vídeo selecionados é necessária. O recurso de frequência extraído independentemente na unidade do quadro é F_v ∈ R^N×H×W, onde H e W são a altura e a largura do recurso do quadro, respectivamente.





Resultados experimentais

A equipe de pesquisa conduziu uma avaliação abrangente de desempenho do SF-LLaVA, comparando-o com os atuais modelos livres de treinamento SOTA (como IG-VLM e LLoVi) em múltiplas tarefas de resposta a perguntas em vídeo. Além disso, eles o compararam com LLMs de vídeo, como VideoLLaVA e PLLaVA, que foram ajustados supervisionados (SFT) em conjuntos de dados de vídeo.

Abrir perguntas e respostas do vídeo

Conforme mostrado na tabela abaixo, na tarefa aberta de resposta a perguntas em vídeo, o SF-LLaVA tem um desempenho melhor do que os métodos existentes sem treinamento em todos os benchmarks. Especificamente, quando equipado com LLMs de tamanhos de parâmetro 7B e 34B, respectivamente, o SF-LLaVA é 2,1% e 5,0% maior que o IGVLM no MSRVTT-QA, 5,7% e 1,5% maior no TGIF-QA e 5,7% e 1,5% maior no ActivityNet -2,0% e 0,8% maior em controle de qualidade.

Mesmo comparado com o método SFT ajustado, SF-LLaVA mostra desempenho comparável na maioria dos benchmarks, apenas no benchmark ActivityNet-QA, PLaVA e LLaVA-NeXT-VideoDPO são ligeiramente melhores.



Perguntas e respostas em vídeo de múltipla escolha

Como pode ser visto na tabela abaixo, o SF-LLaVA supera outros métodos sem treinamento em respostas a perguntas de múltipla escolha em vídeo em todos os benchmarks. No conjunto de dados EgoSchema que requer raciocínio complexo de longo prazo, as versões SF-LLaVA7B e 34B pontuaram 11,4% e 2,2% mais altas que o modelo IG-VLM, respectivamente.

Embora o VideoTree lidere no teste de benchmark, por ser um modelo proprietário baseado em GPT-4, seu desempenho é muito superior ao do LLM de código aberto. Comparado com o método SFT, o modelo SF-LLaVA 34B também alcança melhores resultados no EgoSchema, o que confirma a forte capacidade do design SlowFast para lidar com vídeos longos.

Geração de texto



Vídeo de Vicente

Conforme mostrado na Tabela 3, o SF-LLaVA também apresenta algumas vantagens para a tarefa de geração de texto de vídeo. O SF-LLaVA-34B excedeu todos os benchmarks sem treinamento em desempenho geral. Embora em termos de orientação de detalhes, o SF-LLaVA seja ligeiramente inferior ao LLaVA-NeXT-Image. Baseado no design SlowFast, o SF-LLaVA pode cobrir contextos temporais mais longos com menos tokens visuais, por isso tem um desempenho particularmente bom em tarefas de compreensão temporal.

Além disso, o SF-LLaVA-34B também supera a maioria dos métodos SFT em termos de desempenho de vídeo Vincent.



Para mais detalhes, consulte o artigo original.