Contrôlez simultanément les téléphones mobiles et les ordinateurs, 100 tâches et des tests d'évaluation des agents inter-systèmes sont disponibles

Contrôlez simultanément les téléphones mobiles et les ordinateurs, 100 tâches et des références d'évaluation des agents inter-systèmes sont disponibles

2024-08-14

La rubrique Ixiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

CRAB, une référence d'agents multimodaux multiplateformes, est dirigée par la communauté CAMEL AI et développée conjointement par des chercheurs d'Oxford, Stanford, Harvard, KAUST, Eigent AI et d'autres institutions. Le framework CAMEL développé par la communauté CAMEL AI est le premier projet open source multi-agent basé sur de grands modèles de langage. Par conséquent, la plupart des membres de la communauté sont des chercheurs et des ingénieurs possédant une riche recherche scientifique et une expérience pratique dans le domaine des agents intelligents.

Les agents d’IA constituent l’une des directions de recherche les plus attractives dans la vaste communauté des modèles de langage. Les utilisateurs n’ont qu’à mettre en avant leurs propres besoins.Le cadre d'agent peut planifier plusieurs LLM et prendre en charge plusieurs agents pour effectuer les tâches confiées par l'utilisateur de manière collaborative ou compétitive.。

Actuellement, les agents sont de plus en plus combinés avec des modèles multimodaux à grande échelle (MLM).Prend en charge l'exécution de tâches dans des environnements d'interface utilisateur graphique (GUI) sur une variété de systèmes d'exploitation, notamment le Web, les ordinateurs de bureau et les smartphones.. Cependant, les références actuelles pour ce type d'évaluation des performances des agents présentent encore de nombreuses limites, telles que la complexité de la création de tâches et d'environnements de test, ainsi que l'unicité des indicateurs d'évaluation.

En réponse à ces problèmes, cet article propose un nouveau cadre de référence pour les agents inter-environnements CRAB.CRAB adopte une approche d'évaluation basée sur des graphiques à granularité fine et fournit des outils efficaces de construction de tâches et d'évaluateurs. L'équipe de recherche de cet article a également développé un ensemble de données de test multiplateforme CRAB Benchmark-v0 basé sur le framework CRAB, qui couvre 100 tâches pouvant être effectuées dans des environnements PC et smartphone, y compris les tâches traditionnelles monoplateformes et les tâches multiplateformes complexes. tâches de plate-forme qui doivent être accomplies en faisant fonctionner plusieurs appareils simultanément.

Titre de la thèse : CRAB : Benchmark d'agents multi-environnements pour les agents de modèles de langage multimodaux
Adresse papier : https://arxiv.org/abs/2407.01511
Dépôt de code : https://github.com/camel-ai/crab

L'auteur a sélectionné quatre modèles multimodaux actuellement populaires pour mener des expériences préliminaires. Les résultats expérimentaux montrent que la structure mono-agent utilisant GPT-4o comme moteur d'inférence présente le taux d'achèvement des points de test le plus élevé, soit 35,26 %.

introduction

En tant que nouveau cadre de référence pour l'évaluation des agents, CRAB (Cross-environment Agent Benchmark) est principalement utilisé pour évaluer les performances des agents basés sur des modèles de langage multimodaux (MLM) dans des tâches inter-environnements.CRAB peut simuler des scénarios réels dans lesquels des utilisateurs humains utilisent plusieurs appareils simultanément pour effectuer des tâches complexes., Comme le montre la démo, CRAB peut être utilisé pour évaluer le processus d'un agent manipulant simultanément un système de bureau Ubuntu et un système de téléphonie mobile Android pour finaliser l'envoi d'informations.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e15039 2aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Imaginez que si un agent intelligent a la capacité de faire fonctionner avec précision des ordinateurs et des téléphones mobiles en même temps selon des instructions humaines, de nombreuses opérations logicielles complexes peuvent être effectuées par l'agent intelligent, améliorant ainsi l'efficacité globale du travail.Afin d'atteindre cet objectif, nous devons créer un environnement de test multiplateforme plus complet et plus réaliste pour les agents, en particulier la nécessité de prendre en charge le fonctionnement simultané de plusieurs appareils et de fournir des mécanismes de retour d'évaluation suffisants.. Le cadre CRAB de cet article tente de résoudre les problèmes pratiques suivants :

Évaluation des tâches inter-environnements :Les benchmarks existants se concentrent généralement uniquement sur un seul environnement (tel que le Web, Android ou un système d'exploitation de bureau) [1][2][3][4], tout en ignorant la complexité des scénarios de collaboration entre appareils dans le monde réel.. Le framework CRAB prend en charge l'encapsulation de l'interaction d'un appareil ou d'une application dans un environnement. En prenant en charge les tâches multi-environnements, il fournit aux agents un espace de fonctionnement plus riche et se rapproche des scénarios d'application réels.
Méthodes d’évaluation fine :Les méthodes d'évaluation traditionnelles soit se concentrent uniquement sur la réalisation de l'objectif final (orientées vers l'objectif), soit comparent strictement la trajectoire de l'opération (orientée vers la trajectoire) [1][2][3]. Les deux méthodes ont leurs limites et ne peuvent pas refléter pleinement les performances de l’agent.CRAB propose une méthode d'évaluation basée sur des graphiques, qui peut non seulement fournir des indicateurs d'évaluation précis, mais également s'adapter à une variété de chemins efficaces d'accomplissement de tâches.
Complexité de construction des tâches : à mesure que la complexité des tâches augmente, la création manuelle de tâches et d'évaluateurs devient de plus en plus difficile.CRAB propose une méthode basée sur la combinaison de sous-tâches pour simplifier le processus de construction de tâches inter-environnements
Évaluation de la structure du système d'agent :Cet article explore également l'impact de différentes structures de systèmes d'agents (agent unique, multi-agents basés sur la division fonctionnelle du travail, multi-agents basés sur la division environnementale du travail) sur les résultats d'exécution des tâches., qui fournit une base empirique pour la conception de systèmes d'agents plus efficaces.

Le tableau ci-dessus montre la comparaison entre le cadre CRAB proposé dans cet article et d'autres cadres de référence d'agents existants. Par rapport à d'autres référentiels,CRAB peut prendre en charge simultanément des environnements d'exploitation multiplateformes tels que des ordinateurs et des téléphones mobiles, et peut simuler des scénarios d'utilisation plus réalistes.。

De nombreux internautes ont fait l'éloge de CRAB.

Certaines personnes disent que l'AGI a été atteinte parce qu'un grand modèle de langage (faisant référence à CRAB) a appris comment quitter Vim.

"Pouvez-vous quitter Vim ?" Cette question est souvent une plaisanterie dans la communauté des développeurs ou des techniciens, car il peut être difficile pour les novices de quitter Vim, surtout s'ils ne connaissent pas les modes de fonctionnement de Vim. (Contribuez une émoticône ici)

Certaines personnes disent qu'il est difficile de croire qu'un agent puisse accomplir la série de tâches consistant à "vérifier le calendrier, ouvrir Vim, passer en mode insertion, entrer dans la liste des événements, quitter le mode insertion et utiliser :wq pour enregistrer".

Certains internautes ont également conclu que la prochaine génération d'automatisation des processus robotiques (RPA) ressemblera davantage à « s'il vous plaît, aidez-moi à accomplir les tâches suivantes » sans avoir besoin d'enregistrer chaque étape, puis de planter lors de son exécution en quelques jours.

Quelqu'un a également mentionné que l'évaluateur de graphiques de CRAB est un moyen très intelligent de gérer l'état de l'agent dans l'environnement.

Certaines personnes ont même salué CRAB comme l'avenir des PC IA, estimant qu'il s'agit de la combinaison parfaite du LLM avec les PC et les appareils mobiles. « Il s'agit d'une IA de type RabbitOS qui permet aux PC et appareils mobiles existants de disposer des fonctions d'IA de CRAB. Permet de tester l'efficacité et l'utilité des agents de modèles de langage multimodaux dans le monde réel.

Chaque nœud de GDT peut représenter une sous-tâche (m,i,r), où m est l'environnement dans lequel la sous-tâche est exécutée, i est l'instruction en langage naturel et r est la fonction de récompense.Utilisé pour évaluer l'état de l'environnement m et générer une valeur booléenne pour déterminer si la sous-tâche est terminée. Les bords de GDT représentent la relation séquentielle entre les sous-tâches.。

Cadre CRABE

Interaction des agents entre environnements

CRAB introduit pour la première fois le concept de tâches inter-environnements, combinant plusieurs environnements (tels que les smartphones et les ordinateurs de bureau) dans un ensemble d'environnements, permettant aux agents de coordonner les opérations entre plusieurs appareils pour accomplir des tâches complexes.

Le processus opérationnel d'utilisation d'un système multi-agents basé sur la division environnementale du travail dans le cadre CRAB est illustré dans la figure ci-dessus.Le flux de travail se déroule en boucle. Tout d'abord, l'agent principal observe l'environnement et spécifie un plan pour les sous-agents. Ensuite, tous les sous-agents effectuent des opérations dans leurs environnements respectifs.. Un évaluateur graphique surveille ensuite l'état de chaque sous-tâche dans l'environnement et met continuellement à jour l'achèvement de la tâche tout au long du flux de travail.Cette méthode d'évaluation peut être proche de la scène réelle pour tester la capacité de raisonnement de l'agent., ce qui nécessite que l'agent soit capable de gérer des messages complexes et une compréhension approfondie des situations du monde réel.

Évaluateur de graphiques

L'évaluateur de graphiques intégré de CRAB prend en compte les avantages de l'évaluation orientée vers les objectifs et vers la trajectoire., qui décompose d'abord les tâches complexes en plusieurs sous-tâches pour former une structure graphique acyclique orientée.Ensuite, un mécanisme d'activation de nœud est défini, c'est-à-dire que les nœuds (sous-tâches) du graphique doivent être progressivement activés en fonction de l'achèvement des tâches précédentes., assurant l'exécution séquentielle des tâches. Chaque nœud est associé à une fonction de vérification pour vérifier les états intermédiaires clés de l'environnement.Par rapport aux critères d'évaluation précédents, l'évaluateur graphique CRAB introduit de manière innovante une série de nouveaux indicateurs d'évaluation.：

Taux d'achèvement (CR) : rapport entre le nombre de nœuds de sous-tâches terminés et le nombre total de nœuds, CR = C/N.
Efficacité d'exécution (EE) : le rapport entre le taux d'achèvement et le nombre d'actions exécutées, EE = CR / A, A est le nombre d'actions spécifiées.
Rentabilité (CE) : Le rapport entre le taux d'achèvement et le nombre de jetons de modèle utilisés, CE = CR / T, T est le nombre de jetons de modèle utilisés.

Ces métriques fournissent une évaluation plus fine et multidimensionnelle pour les références des agents.

CRAB Benchmark-v0

Détails de la version de base

Sur la base du cadre CRAB proposé,Cet article construit un ensemble de tests de référence spécifique CRAB Benchmark-v0 pour des recherches plus approfondies par la communauté.. CRAB Benchmark-v0 prend en charge à la fois les téléphones mobiles Android et les environnements informatiques de bureau Ubuntu Linux. Et différents ensembles d'actions sont définis pour Ubuntu et Android afin de simuler des interactions courantes dans la vie réelle.Son espace d'observation est constitué des interfaces système des deux environnements, et l'état de l'environnement est obtenu sous forme de captures d'écran. Afin de faciliter le fonctionnement de l'agent dans l'interface graphique, l'auteur utilise GroundingDINO [7] pour localiser les icônes interactives, utilise EasyOCR pour détecter et marquer le texte interactif et attribue un identifiant à chaque élément de détection pour faciliter la référence ultérieure dans l'espace d'opération. .

Prenons comme exemple une tâche spécifique. Par exemple, effectuez la tâche suivante sur le système Ubuntu : Créez un nouveau répertoire "/home/crab/assets_copy" et copiez tous les fichiers avec l'extension "txt" spécifiée à partir de "/home/crab". /assets" Copier dans le répertoire "/home/crab/assets_copy".

Cette tâche nécessite plusieurs étapes. La figure ci-dessous montre comment utiliser GPT-4 Turbo.Détails expérimentaux lorsqu'il est utilisé comme modèle d'inférence et en utilisant une structure à agent unique. L'agent utilise d'abord la commande search_application pour rechercher le terminal et l'ouvrir.

Utilisez ensuite la commande Linux "mkdir -p /home/crab/assets_copy" pour créer un nouveau répertoire cible.

Après avoir créé le répertoire cible, l'agent a directement exécuté la commande copy dans le terminal :

"cp /home/crab/assets/*.txt/home/crab/assets_copy" pour terminer la tâche, l'ensemble du processus est fluide et fluide, sans aucune erreur.

Effet expérimental

L'auteur a ensuite mené une expérience de base sur CRAB Benchmark-v0.Le cœur de l'agent est le modèle de langage multimodal back-end, qui est utilisé pour fournir une compréhension du langage naturel et des images, une connaissance de base des appareils, une planification des tâches et des capacités de raisonnement logique,Nécessité de prendre en charge les apports mixtes multimodaux et de gérer plusieurs cycles de dialogue en même temps, l'auteur a donc sélectionné GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (version mai 2024) et Claude 3 Opus (claude-3-opus-20240229) est utilisé comme modèle de base.

Les résultats expérimentaux sont présentés dans le tableau ci-dessus, dans lequel les modèles GPT-4o et GPT-4 Turbo ont atteint le taux d'achèvement des points de test (CR) moyen le plus élevé parmi les modèles de test.En termes d'efficacité d'exécution (EE) et de rentabilité (CE), la série GPT-4 est également meilleure que les modèles des séries Gemini et Claude.。

, durée 02:37

Résumer

Cet article présente un nouveau référentiel d'évaluation multi-agents multi-environnements CRAB.Le cadre CRAB fournit une plate-forme d'analyse comparative plus complète, flexible et réaliste pour l'évaluation d'agents autonomes en introduisant des tâches inter-environnements, des évaluateurs de graphiques et des méthodes de construction de tâches basées sur des combinaisons de sous-tâches.. Par rapport aux précédents benchmarks d'agents, CRAB réduit la charge de travail manuelle dans les étapes de tâche et améliore considérablement l'efficacité de la construction du benchmark. Basé sur CRAB, cet article propose Crab Benchmark-v0, qui prend simultanément en charge les agents pour effectuer une variété de tâches inter-environnements complexes sur les systèmes Ubuntu et Android. La proposition de ce benchmark,Cela peut non seulement promouvoir le développement de systèmes d’évaluation d’agents autonomes, mais également fournir une nouvelle inspiration pour concevoir des systèmes d’agents plus efficaces à l’avenir.。

se référer à :

[1] Shuyan Zhou et al. WebArena : un environnement Web réaliste pour la création d'agents autonomes. 24 octobre 2023. URL : http://arxiv.org/abs/2307.13854. pré-impression.

[2] Chi Zhang et al. AppAgent : Agents multimodaux en tant qu'utilisateurs de smartphones. 21 décembre 2023. URL : http://arxiv.org/abs/2312.13771. pré-impression.

[3] Shunyu Yao et al. « Webshop : vers une interaction Web évolutive dans le monde réel avec des agents linguistiques ancrés ». Dans : Advances in Neural Information Processing Systems 35 (2022), pp.

[4] Tianbao Xie et al. OSWorld : Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. 11 avril 2024. URL : http://arxiv.org/abs/2404.07972. pré-impression.

[5] Lin, Fangru, et al. « Modèles de langage volumineux améliorés par graphe dans le raisonnement de plan asynchrone. » Préimpression arXiv arXiv:2402.02805 (2024).

[6] Tushar Khot et al. « Decomposed Prompting: A Modular Approach for Solving Complex Tasks ». Dans : Onzième Conférence internationale sur les représentations d'apprentissage. 2023. URL : https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO : associer DINO à une pré-formation ancrée pour la détection d'objets en ensemble ouvert. arXiv.org. 9 mars 2023.

nouvelles

Contrôlez simultanément les téléphones mobiles et les ordinateurs, 100 tâches et des références d'évaluation des agents inter-systèmes sont disponibles

Introduction

Mes coordonnées