notícias

ACL 2024 Oral|A que distância estamos do verdadeiro raciocínio em cadeia de pensamento multimodal?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Chen Qiguang, o primeiro autor do artigo, está atualmente estudando no Laboratório Sier do Instituto de Tecnologia de Harbin. Suas principais direções de pesquisa incluem grandes cadeias de pensamento de modelos, grandes modelos entre linguagens, etc.

Nos últimos anos, os Grandes Modelos de Linguagem (LLMs) fizeram progressos revolucionários no campo do processamento de linguagem natural (PNL). Esses modelos podem não apenas compreender contextos complexos, mas também gerar textos coerentes e logicamente rigorosos.

Porém, com o desenvolvimento da ciência e da tecnologia e a diversificação dos cenários de aplicação, a capacidade de uma única modalidade de texto obviamente não é mais capaz de atender às necessidades modernas. As pessoas estão cada vez mais ansiosas por sistemas inteligentes que possam processar e compreender múltiplas informações modais (como imagens, vídeos, áudio, etc.) para lidar com tarefas e cenários mais complexos. Os pesquisadores começaram a tentar estender as capacidades do CoT de texto para o campo do raciocínio em cadeia de pensamento multimodal para lidar com requisitos de tarefas mais complexos e diversos.

Um dos primeiros estudos sobre cadeia de pensamento multimodal é o benchmark ScienceQA introduzido por Lu et al. [1], que combina informações visuais e linguísticas para promover o desenvolvimento da cadeia de pensamento multimodal (MCoT). O surgimento do conjunto de dados ScienceQA permite aos pesquisadores avaliar as capacidades de raciocínio da cadeia de pensamento de modelos multimodais sob uma estrutura unificada.

Além disso, a pesquisa de Zhang et al. [2] elevou o desempenho do MCoT a um novo patamar, fazendo com que o desempenho do modelo no conjunto de dados ScienceQA excedesse o nível humano (93%>88%). No entanto, será que a atual investigação sobre a cadeia de pensamento multimodal aborda verdadeiramente todos os desafios? À medida que os resultados de testes de benchmark como o ScienceQA continuam a ser atualizados, podemos pensar que o problema do raciocínio multimodal foi resolvido?

Através de uma análise aprofundada, os investigadores descobriram que o actual benchmark da cadeia de pensamento multimodal ainda tem sérios problemas, levando a uma sobrestimação das capacidades reais do modelo. O atual referencial da cadeia de pensamento multimodal ainda enfrenta os seguintes três problemas graves:Falta de raciocínio modal visualApenas raciocínio modal visual de etapa únicaassim comoCobertura de área insuficiente

Estes problemas restringem seriamente o desenvolvimento do campo da cadeia de pensamento multimodal. Portanto, os pesquisadores propuseram um novo benchmark



(Multi-Domain Multi-step Multi-modal Chain of-Thought), visa resolver os problemas acima e promover o progresso de cadeias de pensamento multi-domínio, multi-etapas e multimodais. Os pesquisadores também conduziram uma avaliação abrangente envolvendo configurações e métodos ricos de inferência multimodal.

Os pesquisadores também descobriram que os atuais grandes modelos multimodais



Existem enormes falhas de desempenho em seu desempenho, embora tenham tido um bom desempenho em benchmarks anteriores de cadeias de pensamento multimodais tradicionais. Em última análise, a equipe de pesquisa espera



Pode tornar-se um recurso valioso e fornecer uma base inovadora para pesquisas em cadeias de pensamento multicampos, multietapas e multimodais.



Endereço da lista: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Endereço do artigo: https://arxiv.org/abs/2405.16473

Endereço do código: https://github.com/LightChen233/M3CoT

motivação

Apesar dos progressos significativos no domínio da investigação MCoT, os parâmetros de referência existentes ainda apresentam muitas deficiências:

1.Falta de raciocínio modal visual: Os modelos muitas vezes podem gerar raciocínios e respostas baseados apenas em modalidades de texto, o que não reflete verdadeiramente as capacidades dos modelos CoT multimodais.

2.Raciocínio modal visual de etapa única: Por exemplo, você só precisa ver a “pena” na imagem uma vez para obter a resposta direta. Em aplicações práticas, o raciocínio em várias etapas é mais comum e necessário, exigindo que o modelo combine dinamicamente informações multimodais várias vezes durante o processo de raciocínio para realizar um raciocínio abrangente.

3.Domínio ausente: Para a cadeia de pensamento, o raciocínio de bom senso e o raciocínio matemático são componentes importantes neste campo, mas os padrões de referência existentes carecem de cobertura de áreas importantes como o bom senso e a matemática, limitando a avaliação abrangente das capacidades CoT multimodais.



Para resolver as questões acima, os pesquisadores desenvolveram um novo benchmark



e espera promover a pesquisa e o desenvolvimento de cadeias de pensamento multicampos, multietapas e multimodais.



Processo de construção de dados





A construção de envolve as seguintes quatro etapas principais:



Transmissão de resultados de avaliação de modelo multimodal de linguagem grande

Os pesquisadores conduziram extensos experimentos em vários modelos de linguagem visual em grande escala (VLLMs), incluindo Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini e GPT4V. Os pesquisadores também exploraram algumas estratégias de solicitação, como envio direto de amostra, solicitação de cadeia de pensamento (CoT) [3] e solicitação descritiva (Desp-CoT) [4] e estratégia de solicitação de cadeia de pensamento de diagrama de cena (CCoT) [5 ].





analisar







explorar

Com base nisso, os pesquisadores exploraram ainda mais vários métodos e configurações multimodais comumente usados ​​atualmente para explorar se eles podem resolver efetivamente



problemas em.

Exploração do uso de ferramentas

Na inferência multimodal, o uso de ferramentas é considerado uma estratégia eficaz para melhorar o desempenho do modelo. Os pesquisadores avaliaram o uso de diversas ferramentas em experimentos, incluindo modelos como HuggingGPT, VisualChatGPT, IdealGPT e Chameleon.

Texto de modelos grandes usando ferramentas multimodais em



Baixo desempenho em: Os resultados experimentais mostram que, embora estas ferramentas tenham um bom desempenho em tarefas monomodais, elas



Ainda há uma lacuna significativa no desempenho do benchmark. Por exemplo, quando o HuggingGPT lida com tarefas complexas de raciocínio em várias etapas, seu desempenho é relativamente inferior devido à falta de uso eficaz da informação visual. Além disso, VisualChatGPT e IdealGPT também não atenderam às expectativas ao lidar com tarefas que exigiam interação multimodal. Esses resultados sugerem que as atuais estruturas de uso de ferramentas precisam de melhorias adicionais para melhor integrar e utilizar informações multimodais.



Exploração de aprendizagem contextual





Exploração de ajuste fino de comando



Conclusão e perspectivas



Referências:

[1] Lu et al. Aprenda a explicar: raciocínio multimodal via

Thought Chains para Respostas a Perguntas Científicas. Em Proc. do NeurIPS 2022.

[2] Zhang et al. Raciocínio multimodal com gráfico de conhecimento multimodal. ACL 2024.

[3] Kojima et al. Grandes modelos de linguagem são raciocinadores de tiro zero. Em Proc. de NeurIPS 2022.

[4] Wu et al. O papel da cadeia de pensamento na tarefa complexa de raciocínio de visão e linguagem. Arxiv 2023.

[5] Mitra et al. Solicitação de cadeia de pensamento composicional para grandes modelos multimodais. CVPR 2024.