Para melhorar o desempenho das tarefas de detecção GPT-4V e Gemini, você precisa deste prompt paradigma

Para melhorar o desempenho das tarefas de detecção GPT-4V e Gemini, você precisa deste paradigma imediato

2024-07-22

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Os autores deste artigo são da Universidade de Zhejiang, do Laboratório de Inteligência Artificial de Xangai, da Universidade Chinesa de Hong Kong, da Universidade de Sydney e da Universidade de Oxford. Lista de autores: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Entre eles, o co-autor Wu Yixuan é estudante de doutorado na Universidade de Zhejiang, e Wang Yizhou é assistente de pesquisa científica no Laboratório de Inteligência Artificial de Xangai. O autor correspondente, Tang Shixiang, é pesquisador de pós-doutorado na Universidade Chinesa de Hong Kong.

Modelos Multimodais de Grandes Linguagens (MLLMs) têm mostrado capacidades impressionantes em diferentes tarefas, apesar disso, o potencial destes modelos em tarefas de detecção ainda é subestimado. Quando coordenadas precisas são necessárias em tarefas complexas de detecção de objetos, as alucinações dos MLLMs muitas vezes fazem com que eles percam objetos alvo ou forneçam caixas delimitadoras imprecisas. Para permitir a detecção de MLLMs, o trabalho existente não requer apenas a coleta de um grande número de conjuntos de dados de instruções de alta qualidade, mas também o ajuste fino de modelos de código aberto. Embora seja demorado e trabalhoso, ele também não aproveita os recursos de compreensão visual mais poderosos dos modelos de código fechado.Para este fim, a Universidade de Zhejiang, o Laboratório de Inteligência Artificial de Xangai e a Universidade de Oxford propuseramCadeia de ferramentas Det , um novo paradigma de estímulo que libera o poder de detecção de modelos multimodais de grandes linguagens. Grandes modelos multimodais podem aprender a detectar com precisão sem treinamento.Pesquisas relacionadas foramECCV 2024 incluído。

Para resolver os problemas do MLLM em tarefas de detecção, o DetToolChain parte de três pontos: (1) Projetar prompts visuais para detecção, que são mais diretos e eficazes do que os prompts textuais tradicionais para permitir que o MLLM entenda as informações de localização, (2) Decompor as tarefas de detecção precisas em tarefas pequenas e simples e (3) usar a cadeia de pensamento para otimizar gradualmente os resultados da detecção e evitar, tanto quanto possível, a ilusão de grandes modelos multimodais.

Correspondendo aos insights acima, DetToolChain contém dois designs principais: (1) Um conjunto abrangente de prompts de processamento visual, que são desenhados diretamente na imagem e podem reduzir significativamente a lacuna entre as informações visuais e as informações textuais. (2) Um conjunto abrangente de raciocínio de detecção leva a melhorar a compreensão espacial do alvo de detecção e determinar gradualmente a localização final precisa do alvo por meio de uma cadeia de ferramentas de detecção adaptativa à amostra.

Ao combinar DetToolChain com MLLM, como GPT-4V e Gemini, várias tarefas de detecção podem ser suportadas sem ajuste de instrução, incluindo detecção de vocabulário aberto, detecção de alvo de descrição, compreensão de expressão referencial e detecção de alvo orientada.

Título do artigo: DetToolChain: um novo paradigma de estímulo para liberar a capacidade de detecção do MLLM

Link do artigo: https://arxiv.org/abs/2403.12488

O que é DetToolChain?

Figura 1 Estrutura geral do DetToolChain

Conforme mostrado na Figura 1, para uma determinada imagem de consulta, o MLLM é instruído a executar as seguintes etapas:

I. Formatação: Converta o formato de entrada original da tarefa em um modelo de instrução apropriado como entrada do MLLM;

II. Pense: divida uma tarefa de detecção complexa específica em subtarefas mais simples e selecione prompts eficazes no kit de ferramentas de prompt de detecção;

III. Executar: Executar prompts específicos (prompts) iterativamente em sequência;

IV.Responder: Use os próprios recursos de raciocínio do MLLM para supervisionar todo o processo de detecção e retornar a resposta final (resposta final).

Kit de ferramentas de prompts de detecção: prompts de processamento visual

Figura 2: Diagrama esquemático de prompts de processamento visual. Projetamos (1) Amplificador Regional, (2) Padrão de Medição Espacial, (3) Analisador de Imagem de Cena para melhorar as capacidades de detecção de MLLMs de diferentes perspectivas.

Conforme mostrado na Figura 2, (1) O Amplificador Regional visa aumentar a visibilidade dos MLLMs na região de interesse (ROI), incluindo o corte da imagem original em diferentes sub-regiões, com foco na sub-região onde o objeto alvo está localizado ; além disso, a função de amplificação permite uma observação detalhada de sub-regiões específicas na imagem.

(2) O Padrão de Medição Espacial fornece uma referência mais clara para detecção de alvos ao sobrepor uma régua e um compasso com escalas lineares na imagem original, conforme mostrado na Figura 2 (2). Réguas e bússolas auxiliares permitem que os MLLMs produzam coordenadas e ângulos precisos usando referências translacionais e rotacionais sobrepostas à imagem. Essencialmente, esta linha auxiliar simplifica a tarefa de detecção, permitindo que os MLLMs leiam as coordenadas dos objetos em vez de predizê-los diretamente.

(3) O Scene Image Parser marca as posições ou relacionamentos previstos dos objetos e usa informações espaciais e contextuais para compreender as relações espaciais da imagem. O Scene Image Parser pode ser dividido em duas categorias:Primeiro, para um único objeto alvo , rotulamos objetos previstos com centróides, cascas convexas e caixas delimitadoras com nomes de rótulos e índices de caixa. Esses marcadores representam informações de localização de objetos em diferentes formatos, permitindo que o MLLM detecte diversos objetos de diferentes formas e fundos, especialmente objetos com formas irregulares ou objetos fortemente ocluídos. Por exemplo, o marcador de casco convexo marca os pontos limite de um objeto e os conecta em um casco convexo para melhorar o desempenho de detecção de objetos de formato muito irregular.Em segundo lugar, para múltiplos alvos , conectamos os centros de diferentes objetos por meio de marcadores de gráfico de cena para destacar as relações entre os objetos na imagem. Com base no gráfico de cena, o MLLM pode aproveitar seus recursos de raciocínio contextual para otimizar as caixas delimitadoras previstas e evitar alucinações. Por exemplo, conforme mostrado na Figura 2 (3), Jerry quer comer queijo, então as caixas delimitadoras devem estar bem próximas.

Kit de ferramentas de prompts de raciocínio de detecção: prompts de raciocínio de detecção

Para melhorar a confiabilidade da caixa de predição, realizamos prompts de inferência de detecção (mostrados na Tabela 1) para verificar os resultados da predição e diagnosticar possíveis problemas que possam existir. Primeiro, propomos o Problem Insight Guider, que destaca problemas difíceis e fornece sugestões de detecção eficazes e exemplos semelhantes para imagens de consulta. Por exemplo, para a Figura 3, o Problem Insight Guider define a consulta como um problema de detecção de pequenos objetos e sugere resolvê-lo ampliando a área da prancha de surf. Em segundo lugar, a fim de explorar as capacidades espaciais e contextuais inerentes dos MLLMs, projetamos o Spatial Relationship Explorer e o Contextual Object Predictor para garantir que os resultados da detecção sejam consistentes com o bom senso. Conforme mostrado na Figura 3, uma prancha de surf pode co-ocorrer com o oceano (conhecimento contextual), e deve haver uma prancha de surf próxima aos pés do surfista (conhecimento espacial). Além disso, aplicamos o Promotor de Autoverificação para melhorar a consistência das respostas em múltiplas rodadas. A fim de melhorar ainda mais as capacidades de raciocínio dos MLLMs, adotamos métodos de estímulo amplamente utilizados, como debate e autodepuração. Por favor, veja o texto original para uma descrição detalhada.

Figura 3 Dicas de raciocínio de detecção podem ajudar os MLLMs a resolver problemas de detecção de pequenos objetos, por exemplo, usando o bom senso para localizar uma prancha de surf sob os pés de uma pessoa, e incentivar o modelo a detectar pranchas de surf no oceano.

Figura 4 Um exemplo de DetToolChain aplicado à detecção de alvo rotativo (conjunto de dados HRSC2016)

Experiência: você pode superar métodos de ajuste fino sem treinamento

Conforme mostrado na Tabela 2, avaliamos nosso método de detecção de vocabulário aberto (OVD), testando os resultados AP50 de 17 novas classes, 48 classes base e todas as classes no benchmark COCO OVD. Os resultados mostram que usando nosso DetToolChain, o desempenho do GPT-4V e do Gemini é significativamente melhorado.

Para demonstrar a eficácia do nosso método na compreensão da expressão referencial, comparamos nosso método com outros métodos de disparo zero nos conjuntos de dados RefCOCO, RefCOCO + e RefCOCOg (Tabela 5). No RefCOCO, o DetToolChain melhorou o desempenho da linha de base do GPT-4V em 44,53%, 46,11% e 24,85%, respectivamente, em val, teste-A e teste-B, demonstrando a compreensão e o desempenho superiores da expressão referencial do DetToolChain em condições de posicionamento zero.

notícias

Para melhorar o desempenho das tarefas de detecção GPT-4V e Gemini, você precisa deste paradigma imediato

Introdução

minhas informações de contato