Abandonando o codificador visual, este grande modelo multimodal de "versão nativa" também é comparável aos métodos convencionais

2024-07-16

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Diao Haiwen é estudante de doutorado na Dalian University of Technology e seu orientador é o professor Lu Huchuan. Atualmente estagiando no Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim, o instrutor é o Dr. Wang Xinlong. Seus interesses de pesquisa são visão e linguagem, transferência eficiente de grandes modelos, grandes modelos multimodais, etc. O co-autor Cui Yufeng formou-se na Universidade Beihang e é pesquisador de algoritmos no Centro de Visão do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim. Seus interesses de pesquisa são modelos multimodais, modelos generativos e visão computacional, e seu trabalho principal inclui a série Emu.

Recentemente, a pesquisa sobre grandes modelos multimodais está a todo vapor e a indústria tem investido cada vez mais nisso. Modelos importantes foram lançados no exterior, como GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) e Grok-1.5V (xAI), etc. Ao mesmo tempo, GLM-4V doméstico (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. em plena floração.

O atual modelo de linguagem visual (VLM) geralmente depende do codificador visual (Vision Encoder, VE) para extrair recursos visuais e, em seguida, combina as instruções do usuário com o modelo de linguagem grande (LLM) para processamento e resposta. codificador visual e separação de treinamento de modelo de linguagem grande. Essa separação faz com que os codificadores visuais introduzam problemas de viés de indução visual ao fazer interface com grandes modelos de linguagem, como resolução de imagem e proporção de aspecto limitadas e fortes antecedentes semânticos visuais. À medida que a capacidade dos codificadores visuais continua a se expandir, a eficiência da implantação de grandes modelos multimodais no processamento de sinais visuais também é bastante limitada. Além disso, como encontrar a configuração ideal de capacidade de codificadores visuais e grandes modelos de linguagem tornou-se cada vez mais complexo e desafiador.

Neste contexto, surgiram rapidamente algumas ideias mais inovadoras:

Podemos remover o codificador visual, ou seja, construir diretamente um grande modelo multimodal nativo sem um codificador visual?
Como evoluir de maneira eficiente e suave um grande modelo de linguagem para um grande modelo nativo multimodal sem codificadores visuais?
Como preencher a lacuna de desempenho entre estruturas multimodais nativas sem codificador e paradigmas multimodais baseados em codificadores convencionais?

A Adept AI lançou a série de modelos Fuyu no final de 2023 e fez algumas tentativas relacionadas, mas não divulgou quaisquer estratégias de treinamento, recursos de dados e informações de equipamentos. Ao mesmo tempo, existe uma lacuna significativa de desempenho entre o modelo Fuyu e os algoritmos convencionais em indicadores de avaliação de texto visual público. Durante o mesmo período, alguns experimentos piloto que conduzimos mostraram que mesmo que a escala dos dados de pré-treinamento seja aumentada em grande escala, o grande modelo multimodal nativo sem codificador ainda enfrenta problemas espinhosos, como velocidade de convergência lenta e baixo desempenho.

Em resposta a esses desafios, a equipe de visão do Instituto de Pesquisa Zhiyuan se uniu a universidades nacionais, como a Universidade de Tecnologia de Dalian e a Universidade de Pequim, para lançar uma nova geração de modelo de linguagem visual sem codificação EVE. Por meio de estratégias de treinamento refinadas e supervisão visual adicional, o EVE integra representação visual-linguística, alinhamento e inferência em uma arquitetura de decodificador puro e unificado. Usando dados disponíveis publicamente, o EVE tem um bom desempenho em vários benchmarks de linguagem visual, competindo com métodos multimodais baseados em codificadores convencionais de capacidade semelhante e superando significativamente o colega Fuyu-8B. EVE é proposto para fornecer um caminho transparente e eficiente para o desenvolvimento de arquiteturas multimodais nativas para decodificadores puros.

Endereço do artigo: https://arxiv.org/abs/2406.11832
Código do projeto: https://github.com/baaivision/EVE
Endereço do modelo: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Destaques Técnicos

Modelo de linguagem visual nativa: quebra o paradigma fixo dos modelos multimodais convencionais, remove o codificador visual e pode lidar com qualquer proporção de imagem. É significativamente melhor do que o mesmo tipo de modelo Fuyu-8B em vários benchmarks de linguagem visual e está próximo da arquitetura de linguagem visual baseada em codificador visual convencional.
Baixos custos de dados e treinamento: O pré-treinamento do modelo EVE analisou apenas dados públicos de OpenImages, SAM e LAION e utilizou 665.000 dados de instrução LLaVA e 1,2 milhão de dados de diálogo visual adicionais para construir versões regulares e de alto nível, respectivamente. versão do EVE-7B. O treinamento leva aproximadamente nove dias para ser concluído em dois nós 8-A100 (40G) ou cinco dias em quatro nós 8-A100.
Exploração transparente e eficiente: EVE tenta explorar um caminho eficiente, transparente e prático para o modelo de linguagem visual nativo, fornecendo novas ideias e experiência valiosa para o desenvolvimento de uma nova geração de arquitetura de modelo de linguagem visual de decodificador puro para o futuro multimodal. de modelos abre novas direções para exploração.

2. Estrutura do modelo

Primeiro, ele é inicializado através do modelo de linguagem Vicuna-7B, para que tenha um rico conhecimento de linguagem e poderosas capacidades de acompanhamento de instruções. Com base nisso, o codificador visual profundo é removido, uma camada de codificação visual leve é construída, a entrada da imagem é codificada de forma eficiente e sem perdas, e os comandos da linguagem do usuário são inseridos em um decodificador unificado. Além disso, a camada de alinhamento visual realiza o alinhamento de recursos com um codificador visual geral para aprimorar a codificação e representação de informações visuais refinadas.

2.1 Camada de incorporação de patch

Primeiro, use uma única camada convolucional para obter o mapa de recursos 2D da imagem e, em seguida, execute a redução da resolução por meio de uma camada de pooling média;
Use o módulo de atenção cruzada (CA1) para interagir em um campo receptivo limitado para aprimorar os recursos locais de cada patch;
Use o token <CLS> e combine-o com o módulo de atenção cruzada (CA2) para fornecer informações globais para cada recurso de patch subsequente;
Um token <SPL> que pode ser aprendido é inserido no final de cada linha de recurso de patch para ajudar a rede a compreender a estrutura espacial bidimensional da imagem.

2.2 Camada de alinhamento de patch

Grave a forma 2D de um patch válido; descarte <CLS>/
tokens e usar a camada de pooling adaptativo para restaurar a forma bidimensional original;
Por meio do módulo hierárquico de atenção cruzada (CA3), os recursos visuais de rede multicamadas são integrados para obter um alinhamento refinado com a saída do codificador visual.

3. Estratégia de treinamento

A fase de pré-formação orientada pelo modelo de grande linguagem: estabelece a ligação inicial entre visão e linguagem, lançando as bases para uma subsequente pré-formação estável e eficiente em grande escala;
Estágio generativo de pré-treinamento: melhorar ainda mais a capacidade do modelo de compreender o conteúdo linguístico visual e conseguir uma transição suave de um modelo de linguagem pura para um modelo multimodal;
Estágio supervisionado de ajuste fino: padronizar ainda mais a capacidade do modelo de seguir instruções de linguagem e aprender padrões de diálogo para atender aos requisitos de vários benchmarks de linguagem visual.

Na etapa de pré-treinamento, foram triados 33 milhões de dados públicos do SA-1B, OpenImages e LAION, sendo retidas apenas amostras de imagens com resolução superior a 448×448. Em particular, para resolver o problema de alta redundância em imagens LAION, 50.000 clusters foram gerados aplicando agrupamento K-means nas características de imagem extraídas pelo EVA-CLIP, e as 300 imagens mais próximas de cada centro de cluster foram selecionadas e, finalmente, foram selecionadas. selecionou 15 milhões de amostras de imagens LAION. Posteriormente, descrições de imagens de alta qualidade são regeneradas usando Emu2 (17B) e LLaVA-1.5 (13B).
No estágio de ajuste fino supervisionado, o conjunto de dados de ajuste fino LLaVA-mix-665K é usado para treinar a versão padrão do EVE-7B e conjuntos de dados mistos como AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan e Bunny-695K estão integrados para treinar a versão de alta resolução do EVE-7B.

4. Análise quantitativa

O modelo EVE supera significativamente o modelo semelhante Fuyu-8B em vários benchmarks de linguagem visual e tem desempenho equivalente a uma variedade de modelos de linguagem visual baseados em codificadores convencionais. No entanto, devido à utilização de uma grande quantidade de dados de linguagem visual para treinamento, existem desafios em responder com precisão a instruções específicas, e seu desempenho em alguns testes de benchmark precisa ser melhorado. O que é interessante é que, através de estratégias de treinamento eficientes, o EVE sem codificador pode alcançar um desempenho comparável ao modelo de linguagem visual baseado em codificador, resolvendo fundamentalmente os problemas de flexibilidade de tamanho de entrada, eficiência de implantação e modalidade de modelos convencionais de correspondência de capacidade.

Comparado com modelos com codificadores, que são suscetíveis a problemas como simplificação da estrutura da linguagem e perda de conhecimento rico, o EVE mostrou uma melhoria gradual e estável no desempenho à medida que o tamanho dos dados aumenta, aproximando-se gradualmente do nível de desempenho dos modelos baseados em codificadores. Isso pode ocorrer porque a codificação e o alinhamento de modalidades visuais e de linguagem em uma rede unificada são mais desafiadores, tornando os modelos sem codificador menos propensos a ajustes excessivos em relação aos modelos com codificadores.

5. O que pensam os seus colegas?

Ali Hatamizadeh, pesquisador sênior da NVIDIA, disse que EVE é revigorante e tenta propor uma nova narrativa, que é diferente da construção de padrões de avaliação complexos e melhorias progressivas no modelo de linguagem visual.

Armand Joulin, pesquisador principal do Google Deepmind, disse que é emocionante construir um modelo de linguagem visual de decodificador puro.

O engenheiro de aprendizado de máquina da Apple, Prince Canuma, disse que a arquitetura EVE é muito interessante e é uma boa adição ao conjunto de projetos MLX VLM.

6. Perspectivas Futuras

Como modelo de linguagem visual nativa sem codificador, o EVE alcançou atualmente resultados encorajadores. Ao longo deste caminho, existem algumas direções interessantes que valem a pena explorar no futuro:

Melhoria adicional de desempenho: experimentos descobriram que o pré-treinamento usando apenas dados linguísticos visuais reduziu significativamente a habilidade linguística do modelo (a pontuação SQA caiu de 65,3% para 63,0%), mas melhorou gradualmente o desempenho multimodal do modelo. Isso indica que há um esquecimento catastrófico interno do conhecimento linguístico quando grandes modelos linguísticos são atualizados. Recomenda-se integrar adequadamente dados de pré-treinamento em linguagem pura ou usar uma estratégia de combinação de especialistas (MoE) para reduzir a interferência entre as modalidades visual e linguística.
A visão da arquitetura sem codificador: com estratégias apropriadas e treinamento com dados de alta qualidade, os modelos de linguagem visual sem codificador podem rivalizar com modelos com codificadores. Então, sob a mesma capacidade de modelo e dados de treinamento massivos, qual é o desempenho dos dois? Especulamos que, ao expandir a capacidade do modelo e a quantidade de dados de treinamento, a arquitetura sem codificador pode alcançar ou até mesmo superar a arquitetura baseada em codificador, porque a primeira insere imagens quase sem perdas e evita o viés a priori do codificador visual.
Construção de modelos multimodais nativos: EVE demonstra completamente como construir modelos multimodais nativos de forma eficiente e estável, o que abre uma maneira transparente e viável de integrar mais modalidades (como áudio, vídeo, imagem térmica, profundidade, etc.) mais tarde. A ideia central é pré-alinhar essas modalidades por meio de um modelo de linguagem congelada de grande porte antes de introduzir o treinamento unificado em larga escala e utilizar codificadores monomodais correspondentes e alinhamento de conceito de linguagem para supervisão.

notícias

Abandonando o codificador visual, este grande modelo multimodal de "versão nativa" também é comparável aos métodos convencionais

Introdução

minhas informações de contato