Não espere pelo GPT-4o de código aberto da OpenAI, espere pela versão de código aberto VITA

2024-08-14

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Há boas notícias novamente no campo do código aberto.

Os grandes modelos de linguagem (LLMs) passaram por uma evolução significativa e, recentemente, também testemunhamos um boom em modelos multimodais de grandes linguagens (MLLMs), que exibem capacidades multimodais surpreendentes.

Em particular, o surgimento do GPT-4o promoveu significativamente o desenvolvimento do campo MLLM. No entanto, os modelos de código aberto correspondentes a estes modelos são significativamente insuficientes. A necessidade urgente da comunidade de código aberto promover ainda mais o desenvolvimento deste campo não pode ser exagerada.

Neste artigo, pesquisadores do Tencent Youtu Lab e de outras instituições propõem o VITA, que é o primeiro modelo multimodal de linguagem grande (MLLM) de código aberto, que pode processar e analisar modalidades de vídeo, imagem, texto e áudio ao mesmo tempo. ao mesmo tempo, possui uma experiência interativa multimodal avançada.

Os pesquisadores usaram o Mixtral 8×7B como base linguística, depois expandiram seu vocabulário chinês e aprimoraram as instruções bilíngues. Além disso, os pesquisadores dotaram ainda mais o modelo de linguagem com recursos visuais e de áudio por meio de aprendizagem multitarefa em dois estágios de alinhamento multimodal e ajuste fino de instrução.

A VITA demonstra fortes capacidades de compreensão multilíngue, visual e de áudio, como evidenciado pelo seu excelente desempenho em benchmarks monomodais e multimodais.

Além das capacidades básicas, esta pesquisa também fez grandes progressos na melhoria da experiência natural multimodal de interação humano-computador. Até onde sabemos, este é o primeiro estudo a explorar interações sem vigília e interrupções de áudio no MLLM. Os pesquisadores também projetaram tokens de status adicionais e dados e estratégias de treinamento correspondentes para perceber vários cenários de interação.

O VITA é implantado usando uma abordagem duplex, com um modelo responsável por gerar respostas às consultas dos usuários e outro modelo rastreando continuamente as informações ambientais. Isto dá à VITA capacidades impressionantes de interação humano-computador.

VITA é o primeiro passo para a comunidade de código aberto explorar a integração perfeita da compreensão e interação multimodal. Embora ainda haja muito trabalho a ser feito no VITA para nos aproximarmos dos seus homólogos de código fechado, o estudo espera que o papel do VITA como pioneiro possa servir como pedra angular para pesquisas subsequentes.

Endereço do artigo: https://arxiv.org/pdf/2408.05211
Página inicial do artigo: https://vita-home.github.io/
Título do artigo: VITA: Rumo ao Open-Source Interactive Omni Multimodal LLM

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

No vídeo acima, os usuários podem ter uma comunicação sem barreiras com o VITA. Depois de ver a camiseta branca que o usuário está vestindo, ele receberá a cor da calça que combina quando for feita uma pergunta de matemática; em tempo real e fazer inferências, e depois dar respostas precisas quando estiver conversando com outras pessoas, a VITA não irá interromper, pois sabe que o usuário não está se comunicando com ele durante a viagem; da saída VITA, você também pode interromper uma conversa em tempo real e iniciar outro tópico.

Neste vídeo, o usuário segura um biscoito e pergunta a VITA o que ele está comendo. VITA diz que está comendo biscoitos e dá sugestões de que os biscoitos ficam melhor com leite ou chá.

Ao malhar, sirva como seu parceiro de bate-papo:

Nota: Os vídeos acima são reproduzidos em tempo real na velocidade 1x e não foram acelerados.

Com base no fluxograma fornecido pelo usuário, VITA pode escrever código:

Forneça uma imagem e a VITA também poderá responder perguntas com base no conteúdo da imagem:

Você também pode assistir a vídeos e responder perguntas. Quando os usuários fazem a pergunta "Descreva detalhadamente os movimentos do cão", o VITA também pode dar respostas precisas:

Introdução ao método

Conforme mostrado na Figura 3, o processo geral de treinamento do VITA inclui três estágios: ajuste fino da instrução LLM, alinhamento multimodal e ajuste fino da instrução multimodal.

Ajuste fino de instrução LLM

O desempenho do Mixtral 8x7B está entre os principais LLMs de código aberto, por isso foi usado como base para este estudo. No entanto, os pesquisadores observaram que o modelo Mixtral oficial tem capacidade limitada de compreensão do chinês. Para injetar capacidades de compreensão bilíngue (chinês e inglês), o estudo expandiu o vocabulário chinês para o modelo básico, aumentando o vocabulário de 32.000 para 51.747. Depois de expandir o vocabulário, os pesquisadores usaram um corpus bilíngue sintético de 5 milhões para ajustar as instruções em texto simples.

Alinhamento multimodal

Preencher a lacuna de representação entre o texto e outras modalidades, estabelecendo assim as bases para a compreensão multimodal. Os conectores visuais são treinados apenas durante a fase de alinhamento visual. A Tabela 1 resume os dados de treinamento utilizados, exceto a parte de texto simples.

modalidade visual

O primeiro é o codificador visual. Os pesquisadores usaram o InternViT-300M-448px como codificador visual, que pegou uma imagem com resolução de 448×448 como entrada e gerou 256 tokens após usar um conector visual como um MLP simples de duas camadas. Para entrada de imagens de alta resolução, os pesquisadores usam estratégias de correção dinâmica para capturar detalhes locais.

O vídeo é considerado um caso de uso especial para imagens. Se a duração do vídeo for inferior a 4 segundos, 4 quadros por segundo serão amostrados uniformemente. Se a duração do vídeo estiver entre 4 e 16 segundos, um quadro será amostrado a cada segundo. Para vídeos com mais de 16 segundos, 16 quadros são amostrados uniformemente.

O segundo é o alinhamento visual. Treinamos o conector visual apenas durante a fase de alinhamento visual e não utilizamos perguntas de áudio durante esta fase.

Finalmente, há a cascata de dados. Para dados de texto simples e dados de imagem, esta pesquisa visa concatenar o comprimento do contexto para tokens de 6K, conforme mostrado na Figura 4. Vale ressaltar que os dados do vídeo não são concatenados.

A cascata de dados díspares tem dois benefícios:

Ele suporta comprimentos de contexto mais longos, permitindo o escalonamento de interações de perguntas de imagem única para múltiplas interações de perguntas de imagem, resultando em formulários de entrada mais flexíveis e comprimentos de contexto estendidos.
Melhora a eficiência computacional, uma vez que os quadros de vídeo geralmente contêm um grande número de tokens visuais. Ao concatenar pares imagem-pergunta, este estudo pode manter um número equilibrado de tokens no lote de treinamento, melhorando assim a eficiência computacional.

Além disso, o estudo descobriu que os modelos treinados com dados em cascata tiveram um desempenho comparável ao dos modelos treinados com dados brutos.

modalidade de áudio

De um lado está o codificador de áudio. O áudio de entrada é inicialmente processado através de um bloco de filtro Mel, que decompõe o sinal de áudio em bandas de frequência individuais dentro da faixa de frequência mel, imitando a percepção humana não linear do som. Posteriormente, os pesquisadores usaram uma camada de redução da resolução 4×CNN e um transformador de 24 camadas, com um total de 341 milhões de parâmetros, para processar os recursos de entrada. Eles também usam um MLP simples de duas camadas como conector modal de áudio-texto. Finalmente, cada 2 segundos de entrada de áudio é codificado em 25 tokens.

Outro aspecto é o alinhamento de áudio. Para a tarefa de alinhamento, os pesquisadores utilizaram o reconhecimento automático de fala (ASR). Os conjuntos de dados incluem Wenetspeech (com mais de 10.000 horas de dados de reconhecimento de fala em vários domínios, focados principalmente em tarefas chinesas) e Gigaspeech (com 10.000 horas de dados de áudio de alta qualidade, a maioria dos quais orientados para tarefas de reconhecimento de fala em inglês). Para a tarefa de legenda de áudio, os pesquisadores usaram o subconjunto AudioSet SL do Wavcaps, que contém 400 mil clipes de áudio com legendas de áudio correspondentes. Durante o processo de alinhamento, os codificadores e conectores de áudio são treinados.

Ajuste fino de instrução multimodal

O estudo adaptou o modelo para aprimorar sua capacidade de seguir instruções, sejam elas de texto ou de áudio.

Construção de dados. As fontes de dados para a fase de ajuste de instruções são as mesmas da fase de alinhamento na Tabela 1, mas este estudo fez as seguintes melhorias:

As perguntas são substituídas aleatoriamente (aproximadamente metade) por suas versões em áudio (usando tecnologia TTS, como GPT-SoVITS6), com o objetivo de aprimorar a compreensão do modelo sobre consultas de áudio e sua capacidade de seguir instruções.

Defina diferentes prompts do sistema para evitar conflitos entre diferentes tipos de dados, conforme mostrado na Tabela 2. Por exemplo, algumas questões podem ser respondidas com base em informações visuais ou com base no conhecimento do próprio modelo, gerando conflitos. Além disso, os dados de imagem foram corrigidos, semelhantes aos dados de vídeo multiquadro, o que pode confundir o modelo. O prompt do sistema distingue explicitamente diferentes tipos de dados, o que ajuda a compreender de forma mais intuitiva.

A fim de realizar duas funções interativas, nomeadamente interação sem despertar e interação com interrupção de áudio, este estudo propõe uma estrutura de implantação duplex, ou seja, dois modelos VITA são implantados ao mesmo tempo, conforme mostrado na Figura 1.

Normalmente, um modelo de geração responde às dúvidas do usuário. Ao mesmo tempo, o modelo de Monitoramento detecta sons ambientais durante o processo de geração. Ele ignora as vozes do usuário que não são de consulta, mas interrompe o progresso da geração do modelo quando o áudio da consulta é reconhecido. O modelo de monitoramento integra então o contexto histórico e responde às últimas consultas do usuário, e as identidades dos modelos de geração e monitoramento são trocadas.

Avaliação experimental

desempenho da linguagem. Para verificar a eficácia do processo de treino do modelo linguístico, os investigadores utilizaram quatro conjuntos de dados, nomeadamente C-EVAL, AGIEVAL, MMLU e GSM8K. Esses conjuntos de dados cobrem uma variedade de cenários, incluindo questões gerais de múltipla escolha, questões de questionários multidisciplinares e tarefas de raciocínio matemático e lógico, abrangendo contextos chinês e inglês.

Os resultados da Tabela 3 abaixo mostram que o treinamento neste artigo melhora significativamente a capacidade do modelo linguístico no conjunto de avaliação chinês (C-EVAL e AGIEVAL), ao mesmo tempo que mantém o nível de desempenho original no benchmark relacionado ao inglês (MMLU) e melhorando o raciocínio matemático. Uma melhoria significativa foi alcançada na tarefa (GSM8K).

desempenho de áudio. Para verificar a robustez da representação da fala aprendida pelo modelo, os pesquisadores realizaram testes em dois conjuntos de dados: Wenetspeech e Librispeech.

Entre eles, o Wenetspeech possui dois indicadores de avaliação, nomeadamente test_net e test_meeting. A primeira fonte de dados é mais consistente com os dados de treinamento, por isso é mais fácil; Como conjunto de dados mantidos do modelo, o Librispeech avalia a capacidade de generalização do modelo em conjuntos de dados não vistos. O que começa com "dev" é o conjunto de verificação e o que começa com "teste". é o conjunto de teste, "Limpo" representa um conjunto menos desafiador e "outro" representa um conjunto mais desafiador.

Como pode ser visto nos resultados da Tabela 4 abaixo, a VITA obteve resultados muito bons no teste de benchmark ASR.

Desempenho multimodal. Para avaliar as capacidades multimodais, o estudo avaliou o VITA em quatro benchmarks, incluindo MME, OCRBench, HalllusionBench e Video-MME. Os resultados são mostrados na Figura 5.

Em termos de compreensão de imagem, VITA é melhor que o modelo de código aberto específico de imagem LLaVA-Next e próximo ao modelo de código fechado Gemini 1.5 Pro.

Em termos de compreensão de vídeo, o VITA supera o Video-CCAM, um modelo de vídeo de código aberto. Embora exista uma lacuna entre o VITA e o LLaVA-Next-Video específico para vídeo, isso é aceitável, visto que o VITA suporta uma gama mais ampla de modalidades e prioriza a interatividade.

Finalmente, vale a pena notar que ainda existe uma grande lacuna nas capacidades de compreensão de vídeo entre modelos de código aberto e modelos proprietários.

notícias

Não espere pelo GPT-4o de código aberto da OpenAI, espere pela versão de código aberto VITA

Introdução

Minhas informações de contato