minhas informações de contato
Correspondência[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];
Diao Haiwen é estudante de doutorado na Dalian University of Technology e seu orientador é o professor Lu Huchuan. Atualmente estagiando no Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim, o instrutor é o Dr. Wang Xinlong. Seus interesses de pesquisa são visão e linguagem, transferência eficiente de grandes modelos, grandes modelos multimodais, etc. O co-autor Cui Yufeng formou-se na Universidade Beihang e é pesquisador de algoritmos no Centro de Visão do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim. Seus interesses de pesquisa são modelos multimodais, modelos generativos e visão computacional, e seu trabalho principal inclui a série Emu.
Recentemente, a pesquisa sobre grandes modelos multimodais está a todo vapor e a indústria tem investido cada vez mais nisso. Modelos importantes foram lançados no exterior, como GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) e Grok-1.5V (xAI), etc. Ao mesmo tempo, GLM-4V doméstico (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. em plena floração.
O atual modelo de linguagem visual (VLM) geralmente depende do codificador visual (Vision Encoder, VE) para extrair recursos visuais e, em seguida, combina as instruções do usuário com o modelo de linguagem grande (LLM) para processamento e resposta. codificador visual e separação de treinamento de modelo de linguagem grande. Essa separação faz com que os codificadores visuais introduzam problemas de viés de indução visual ao fazer interface com grandes modelos de linguagem, como resolução de imagem e proporção de aspecto limitadas e fortes antecedentes semânticos visuais. À medida que a capacidade dos codificadores visuais continua a se expandir, a eficiência da implantação de grandes modelos multimodais no processamento de sinais visuais também é bastante limitada. Além disso, como encontrar a configuração ideal de capacidade de codificadores visuais e grandes modelos de linguagem tornou-se cada vez mais complexo e desafiador.
Neste contexto, surgiram rapidamente algumas ideias mais inovadoras:
A Adept AI lançou a série de modelos Fuyu no final de 2023 e fez algumas tentativas relacionadas, mas não divulgou quaisquer estratégias de treinamento, recursos de dados e informações de equipamentos. Ao mesmo tempo, existe uma lacuna significativa de desempenho entre o modelo Fuyu e os algoritmos convencionais em indicadores de avaliação de texto visual público. Durante o mesmo período, alguns experimentos piloto que conduzimos mostraram que mesmo que a escala dos dados de pré-treinamento seja aumentada em grande escala, o grande modelo multimodal nativo sem codificador ainda enfrenta problemas espinhosos, como velocidade de convergência lenta e baixo desempenho.
Em resposta a esses desafios, a equipe de visão do Instituto de Pesquisa Zhiyuan se uniu a universidades nacionais, como a Universidade de Tecnologia de Dalian e a Universidade de Pequim, para lançar uma nova geração de modelo de linguagem visual sem codificação EVE. Por meio de estratégias de treinamento refinadas e supervisão visual adicional, o EVE integra representação visual-linguística, alinhamento e inferência em uma arquitetura de decodificador puro e unificado. Usando dados disponíveis publicamente, o EVE tem um bom desempenho em vários benchmarks de linguagem visual, competindo com métodos multimodais baseados em codificadores convencionais de capacidade semelhante e superando significativamente o colega Fuyu-8B. EVE é proposto para fornecer um caminho transparente e eficiente para o desenvolvimento de arquiteturas multimodais nativas para decodificadores puros.
1. Destaques Técnicos
2. Estrutura do modelo
Primeiro, ele é inicializado através do modelo de linguagem Vicuna-7B, para que tenha um rico conhecimento de linguagem e poderosas capacidades de acompanhamento de instruções. Com base nisso, o codificador visual profundo é removido, uma camada de codificação visual leve é construída, a entrada da imagem é codificada de forma eficiente e sem perdas, e os comandos da linguagem do usuário são inseridos em um decodificador unificado. Além disso, a camada de alinhamento visual realiza o alinhamento de recursos com um codificador visual geral para aprimorar a codificação e representação de informações visuais refinadas.
2.1 Camada de incorporação de patch
2.2 Camada de alinhamento de patch
3. Estratégia de treinamento
4. Análise quantitativa
O modelo EVE supera significativamente o modelo semelhante Fuyu-8B em vários benchmarks de linguagem visual e tem desempenho equivalente a uma variedade de modelos de linguagem visual baseados em codificadores convencionais. No entanto, devido à utilização de uma grande quantidade de dados de linguagem visual para treinamento, existem desafios em responder com precisão a instruções específicas, e seu desempenho em alguns testes de benchmark precisa ser melhorado. O que é interessante é que, através de estratégias de treinamento eficientes, o EVE sem codificador pode alcançar um desempenho comparável ao modelo de linguagem visual baseado em codificador, resolvendo fundamentalmente os problemas de flexibilidade de tamanho de entrada, eficiência de implantação e modalidade de modelos convencionais de correspondência de capacidade.
Comparado com modelos com codificadores, que são suscetíveis a problemas como simplificação da estrutura da linguagem e perda de conhecimento rico, o EVE mostrou uma melhoria gradual e estável no desempenho à medida que o tamanho dos dados aumenta, aproximando-se gradualmente do nível de desempenho dos modelos baseados em codificadores. Isso pode ocorrer porque a codificação e o alinhamento de modalidades visuais e de linguagem em uma rede unificada são mais desafiadores, tornando os modelos sem codificador menos propensos a ajustes excessivos em relação aos modelos com codificadores.
5. O que pensam os seus colegas?
Ali Hatamizadeh, pesquisador sênior da NVIDIA, disse que EVE é revigorante e tenta propor uma nova narrativa, que é diferente da construção de padrões de avaliação complexos e melhorias progressivas no modelo de linguagem visual.
Armand Joulin, pesquisador principal do Google Deepmind, disse que é emocionante construir um modelo de linguagem visual de decodificador puro.
O engenheiro de aprendizado de máquina da Apple, Prince Canuma, disse que a arquitetura EVE é muito interessante e é uma boa adição ao conjunto de projetos MLX VLM.
6. Perspectivas Futuras
Como modelo de linguagem visual nativa sem codificador, o EVE alcançou atualmente resultados encorajadores. Ao longo deste caminho, existem algumas direções interessantes que valem a pena explorar no futuro: