Controle simultaneamente telefones celulares e computadores, 100 tarefas, benchmarks de avaliação de agentes entre sistemas estão disponíveis

2024-08-14

A coluna Ixiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

CRAB, um benchmark de agente multimodal multiplataforma, é liderado pela comunidade CAMEL AI e desenvolvido em conjunto por pesquisadores de Oxford, Stanford, Harvard, KAUST, Eigent AI e outras instituições. A estrutura CAMEL desenvolvida pela comunidade CAMEL AI é o primeiro projeto de código aberto multiagente baseado em grandes modelos de linguagem. Portanto, a maioria dos membros da comunidade são pesquisadores e engenheiros com rica pesquisa científica e experiência prática no campo de agentes inteligentes.

Os agentes de IA são uma das áreas de pesquisa mais atraentes na grande comunidade de modelos de linguagem. Os usuários só precisam apresentar suas próprias necessidades.A estrutura do agente pode agendar vários LLMs e oferecer suporte a vários agentes para concluir tarefas determinadas pelo usuário de maneira colaborativa ou competitiva.。

Atualmente, os agentes têm sido cada vez mais combinados com modelos multimodais de larga escala (MLM).Suporta a execução de tarefas em ambientes de interface gráfica do usuário (GUI) em uma variedade de sistemas operacionais, incluindo web, desktops e smartphones. No entanto, os benchmarks atuais para este tipo de avaliação de desempenho de agentes ainda apresentam muitas limitações, como a complexidade da construção de tarefas e ambientes de teste, e a unicidade dos indicadores de avaliação.

Em resposta a esses problemas, este artigo propõe uma nova estrutura de benchmark de agente interambiental CRAB.CRAB adota uma abordagem de avaliação refinada baseada em gráficos e fornece ferramentas eficientes de construção de tarefas e avaliadores. A equipe de pesquisa deste artigo também desenvolveu um conjunto de dados de teste de plataforma cruzada CRAB Benchmark-v0 baseado na estrutura CRAB, que cobre 100 tarefas que podem ser executadas em ambientes de PC e smartphones, incluindo tarefas tradicionais de plataforma única e tarefas complexas de plataforma cruzada. tarefas de plataforma que devem ser concluídas operando vários dispositivos simultaneamente.

Título da tese: CRAB: Referência de agente entre ambientes para agentes de modelo de linguagem multimodal
Endereço do artigo: https://arxiv.org/abs/2407.01511
Repositório de código: https://github.com/camel-ai/crab

O autor selecionou quatro modelos multimodais atualmente populares para conduzir experimentos preliminares. Os resultados experimentais mostram que a estrutura de agente único usando GPT-4o como mecanismo de inferência tem a maior taxa de conclusão do ponto de teste de 35,26%.

introdução

Como uma nova estrutura de benchmark de avaliação de agentes, o CRAB (Cross-environment Agent Benchmark) é usado principalmente para avaliar o desempenho de agentes com base em modelos de linguagem multimodal (MLMs) em tarefas entre ambientes.O CRAB pode simular cenários do mundo real onde usuários humanos usam vários dispositivos simultaneamente para concluir tarefas complexas., Conforme mostrado na demonstração, o CRAB pode ser usado para avaliar o processo de um agente manipulando simultaneamente um sistema desktop Ubuntu e um sistema de telefonia móvel Android para concluir o envio de informações.

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150 392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Imagine que se um agente inteligente tiver a capacidade de operar computadores e telefones celulares com precisão ao mesmo tempo, de acordo com instruções humanas, muitas operações complicadas de software poderão ser concluídas pelo agente inteligente, melhorando assim a eficiência geral do trabalho.Para atingir esse objetivo, precisamos construir um ambiente de teste multiplataforma mais abrangente e realista para os agentes, especialmente a necessidade de apoiar a operação simultânea de vários dispositivos e fornecer mecanismos de feedback de avaliação suficientes.. A estrutura CRAB deste artigo tenta resolver os seguintes problemas práticos:

Avaliação de tarefas em vários ambientes:Os benchmarks existentes geralmente se concentram apenas em um único ambiente (como sistema operacional Web, Android ou desktop) [1][2][3][4], ignorando a complexidade dos cenários de colaboração entre dispositivos no mundo real. A estrutura CRAB suporta o encapsulamento da interação de um dispositivo ou aplicativo em um ambiente. Ao oferecer suporte a tarefas em vários ambientes, ele fornece aos agentes um espaço operacional mais rico e mais próximo dos cenários reais de aplicativos.
Métodos de avaliação refinados:Os métodos de avaliação tradicionais focam apenas na conclusão do objetivo final (orientado para o objetivo) ou comparam estritamente a trajetória da operação (orientado para a trajetória) [1][2][3]. Ambos os métodos têm limitações e não podem refletir totalmente o desempenho do agente.CRAB propõe um método de avaliação baseado em gráficos, que pode não apenas fornecer indicadores de avaliação refinados, mas também se adaptar a uma variedade de caminhos eficazes para a conclusão de tarefas.
Complexidade de construção de tarefas: à medida que a complexidade das tarefas aumenta, a construção manual de tarefas e avaliadores torna-se cada vez mais difícil.CRAB propõe um método baseado na combinação de subtarefas para simplificar o processo de construção de tarefas entre ambientes
Avaliação da estrutura do sistema agente:Este artigo também explora o impacto de diferentes estruturas de sistemas de agentes (agente único, multiagente baseado na divisão funcional do trabalho, multiagente baseado na divisão ambiental do trabalho) nos resultados de conclusão de tarefas., que fornece uma base empírica para projetar sistemas de agentes mais eficientes.

A tabela acima mostra a comparação entre a estrutura CRAB proposta neste artigo e outras estruturas de benchmark de agentes existentes. Em comparação com outros benchmarks,CRAB pode suportar ambientes operacionais multiplataforma, como computadores e telefones celulares ao mesmo tempo, e pode simular cenários de uso mais realistas.。

Para CRAB, muitos internautas elogiaram muito.

Algumas pessoas dizem que o AGI foi alcançado porque um grande modelo de linguagem (referindo-se ao CRAB) aprendeu como sair do Vim.

"Você consegue sair do Vim?" Essa pergunta costuma ser uma piada na comunidade técnica ou de programação porque pode ser difícil para iniciantes sair do Vim, especialmente se eles não estiverem familiarizados com os modos de operação do Vim. (Contribua com um emoticon aqui)

Algumas pessoas dizem que é difícil acreditar que um agente possa completar a série de tarefas de “verificar o calendário, abrir o Vim, entrar no modo de inserção, entrar na lista de eventos, sair do modo de inserção e usar :wq para salvar”.

Alguns internautas também concluíram que a próxima geração de automação de processos robóticos (RPA) será mais como "por favor, ajude-me a concluir as seguintes tarefas" sem a necessidade de registrar cada etapa e travar durante a execução em poucos dias.

Alguém também mencionou que o Graph Evaluator no CRAB é uma forma muito inteligente de lidar com o estado do agente no ambiente.

Algumas pessoas até elogiaram o CRAB como o futuro dos PCs com IA, acreditando que é a combinação perfeita de LLM com PCs e dispositivos móveis “É uma IA semelhante ao RabbitOS que permite que os PCs e dispositivos móveis existentes tenham as funções de benchmark do CRAB. Permite testar a eficácia e a utilidade de agentes de modelos de linguagem multimodais no mundo real."

Cada nó no GDT pode representar uma subtarefa (m,i,r), onde m é o ambiente no qual a subtarefa é executada, i é a instrução em linguagem natural e r é a função de recompensa.Usado para avaliar o status do ambiente m e gerar um valor booleano para determinar se a subtarefa foi concluída. As arestas no GDT representam o relacionamento sequencial entre subtarefas.。

Estrutura CRAB

Interação de agente entre ambientes

CRAB introduz pela primeira vez o conceito de tarefas entre ambientes, combinando vários ambientes (como smartphones e computadores desktop) em um conjunto de ambientes, permitindo que os agentes coordenem operações entre vários dispositivos para concluir tarefas complexas.

O processo operacional de utilização de um sistema multiagente baseado na divisão ambiental do trabalho na estrutura CRAB é mostrado na figura acima.O fluxo de trabalho segue um loop. Primeiro, o agente principal observa o ambiente e especifica um plano para os subagentes. Em seguida, todos os subagentes realizam operações em seus respectivos ambientes.. Um avaliador gráfico monitora o status de cada subtarefa no ambiente e atualiza continuamente a conclusão da tarefa em todo o fluxo de trabalho.Este método de avaliação pode ser próximo da cena real para testar a capacidade de raciocínio do agente., o que exige que o agente seja capaz de lidar com mensagens complexas e tenha um conhecimento profundo de situações do mundo real.

Avaliador Gráfico

O avaliador gráfico integrado do CRAB leva em consideração as vantagens da avaliação orientada por objetivos e da avaliação orientada por trajetória., que primeiro decompõe tarefas complexas em múltiplas subtarefas para formar uma estrutura gráfica acíclica direcionada.Em seguida, é definido um mecanismo de ativação de nós, ou seja, os nós (subtarefas) do grafo precisam ser ativados gradativamente com base na conclusão das tarefas anteriores., garantindo a execução sequencial das tarefas. Cada nó está associado a uma função de verificação para verificar os principais estados intermediários no ambiente.Em comparação com os benchmarks de avaliação anteriores, o avaliador gráfico CRAB introduz de forma inovadora uma série de novos indicadores de avaliação：

Taxa de conclusão (CR): A proporção entre o número de nós de subtarefa concluídos e o número total de nós, CR = C/N.
Eficiência de Execução (EE): a relação entre a taxa de conclusão e o número de ações executadas, EE = CR / A, A é o número de ações especificadas.
Eficiência de Custo (CE): A relação entre a taxa de conclusão e o número de tokens de modelo usados, CE = CR/T, T é o número de tokens de modelo usados.

Essas métricas fornecem um foco de avaliação mais refinado e multidimensional para benchmarks de agentes.

Referência CRAB-v0

Detalhes de construção de linha de base

Com base na estrutura CRAB proposta,Este artigo constrói um conjunto de testes de benchmark específico CRAB Benchmark-v0 para pesquisas futuras pela comunidade.. CRAB Benchmark-v0 oferece suporte a telefones celulares Android e ambientes de computador desktop Ubuntu Linux. E diferentes conjuntos de ações são definidos para Ubuntu e Android para simular interações comuns na vida real.Seu espaço de observação consiste nas interfaces do sistema dos dois ambientes, e o status do ambiente é obtido na forma de capturas de tela. Para facilitar a operação do agente na GUI, o autor utiliza GroundingDINO [7] para localizar ícones interativos, utiliza EasyOCR para detectar e marcar texto interativo e atribui um ID a cada item de detecção para facilitar a referência subsequente no espaço de operação .

Vamos pegar uma tarefa específica como exemplo. Por exemplo, conclua a seguinte tarefa no sistema Ubuntu: Crie um novo diretório "/home/crab/assets_copy" e copie todos os arquivos com a extensão "txt" especificada de "/home/crab". /assets" Copie para o diretório "/home/crab/assets_copy".

Esta tarefa requer várias etapas para ser concluída. A figura abaixo mostra como usar o GPT-4 Turbo.Detalhes experimentais quando usados como modelo de inferência e usando uma estrutura de agente único. O agente primeiro usa o comando search_application para localizar o terminal e abri-lo.

Em seguida, use o comando Linux "mkdir -p /home/crab/assets_copy" para criar um novo diretório de destino.

Após criar o diretório de destino, o agente executou diretamente o comando copy no terminal:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" para completar a tarefa, todo o processo é tranquilo e tranquilo, sem erros.

Efeito experimental

O autor então conduziu um experimento básico no CRAB Benchmark-v0.O núcleo do agente é o modelo de linguagem multimodal de back-end, que é usado para fornecer compreensão de linguagem natural e imagem, conhecimento básico de dispositivos, planejamento de tarefas e recursos de raciocínio lógico,Necessidade de apoiar contribuições mistas multimodais e lidar com múltiplas rodadas de diálogo ao mesmo tempo, então o autor selecionou GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (versão de maio de 2024) e Claude 3 Opus (claude-3-opus-20240229) é usado como modelo de linha de base.

Os resultados experimentais são mostrados na tabela acima, na qual os modelos GPT-4o e GPT-4 Turbo alcançaram a maior taxa média de conclusão do ponto de teste (CR) entre os modelos de teste.Em termos de eficiência de execução (EE) e eficiência de custos (CE), a série GPT-4 também é melhor que os modelos das séries Gemini e Claude.。

, duração 02:37

Resumir

Este artigo apresenta um novo benchmark de avaliação multiagente entre ambientes, CRAB.A estrutura CRAB fornece uma plataforma de benchmarking mais abrangente, flexível e realista para a avaliação de agentes autônomos, introduzindo tarefas entre ambientes, avaliadores gráficos e métodos de construção de tarefas baseados em combinações de subtarefas.. Comparado com benchmarks de agentes anteriores, o CRAB reduz a carga de trabalho manual nas etapas da tarefa e melhora muito a eficiência da construção de benchmark. Baseado no CRAB, este artigo propõe o Crab Benchmark-v0, que oferece suporte simultâneo aos agentes para executar uma variedade de tarefas complexas em vários ambientes nos sistemas Ubuntu e Android.Pode não só promover o desenvolvimento de sistemas de avaliação de agentes autónomos, mas também fornecer uma nova inspiração para a concepção de sistemas de agentes mais eficientes no futuro.。

consulte:

[1] Shuyan Zhou et al. WebArena: Um ambiente web realista para construir agentes autônomos. 24 de outubro de 2023. URL: http://arxiv.org/abs/2307.13854. pré-impressão.

[2] Chi Zhang et al. AppAgent: Agentes multimodais como usuários de smartphones. 21 de dezembro de 2023. URL: http://arxiv.org/abs/2312.13771. pré-impressão.

[3] Shunyu Yao et al. “Webshop: Rumo à interação escalável da web no mundo real com agentes de linguagem fundamentados”. Em: Advances in Neural Information Processing Systems 35 (2022), pp. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Benchmarking de agentes multimodais para tarefas abertas em ambientes de computadores reais. 11 de abril de 2024. URL: http://arxiv.org/abs/2404.07972. pré-impressão.

[5] Lin, Fangru, et al. "Modelos de linguagem grande aprimorados por gráficos em raciocínio de plano assíncrono." arXiv pré-impressão arXiv:2402.02805 (2024).

[6] Tushar Khot et al. “Prompt decomposto: uma abordagem modular para resolver tarefas complexas”. Em: Décima primeira conferência internacional sobre representações de aprendizagem. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: Casando DINO com Pré-treinamento Aterrado para Detecção de Objetos em Conjunto Aberto. arXiv.org. 9 de março de 2023.

notícias

Controle simultaneamente telefones celulares e computadores, 100 tarefas, benchmarks de avaliação de agentes entre sistemas estão disponíveis

Introdução

Minhas informações de contato