Controlla contemporaneamente telefoni cellulari e computer, sono disponibili 100 attività, benchmark di valutazione degli agenti tra sistemi

2024-08-14

La rubrica Ixiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Il benchmark CRAB per agenti multimodali multipiattaforma è guidato dalla comunità CAMEL AI e sviluppato congiuntamente da ricercatori di Oxford, Stanford, Harvard, KAUST, Eigent AI e altre istituzioni. Il framework CAMEL sviluppato dalla comunità CAMEL AI è il primo progetto open source multi-agente basato su modelli linguistici di grandi dimensioni. Pertanto, la maggior parte dei membri della comunità sono ricercatori e ingegneri con una ricca ricerca scientifica ed esperienza pratica nel campo degli agenti intelligenti.

Gli agenti di intelligenza artificiale sono una delle direzioni di ricerca più attraenti nella vasta comunità di modelli linguistici. Gli utenti devono solo proporre le proprie esigenze.La struttura degli agenti può pianificare più LLM e supportare più agenti per completare le attività assegnate dagli utenti in modo collaborativo o competitivo.。

Attualmente, gli agenti sono stati sempre più combinati con modelli multimodali su larga scala (MLM).Supporta l'esecuzione di attività in ambienti di interfaccia utente grafica (GUI) su una varietà di sistemi operativi, inclusi Web, desktop e smartphone. Tuttavia, gli attuali parametri di riferimento per questo tipo di valutazione delle prestazioni degli agenti presentano ancora molti limiti, come la complessità dei compiti di costruzione e degli ambienti di prova, l’unicità degli indicatori di valutazione, ecc.

In risposta a questi problemi, questo documento propone un nuovo quadro di riferimento CRAB per agenti cross-environment.CRAB adotta un approccio di valutazione a grana fine basato su grafici e fornisce strumenti efficienti per la costruzione di compiti e valutatori. Il gruppo di ricerca di questo articolo ha anche sviluppato un set di dati di test multipiattaforma CRAB Benchmark-v0 basato sul framework CRAB, che copre 100 attività che possono essere eseguite in ambienti PC e smartphone, comprese sia attività tradizionali a piattaforma singola che attività complesse multipiattaforma. attività della piattaforma che devono essere completate utilizzando più dispositivi contemporaneamente.

Titolo della tesi: CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
Indirizzo del documento: https://arxiv.org/abs/2407.01511
Repository del codice: https://github.com/camel-ai/crab

L'autore ha selezionato quattro modelli multimodali attualmente popolari per condurre esperimenti preliminari. I risultati sperimentali mostrano che la struttura ad agente singolo che utilizza GPT-4o come motore di inferenza ha il tasso di completamento del punto di test più alto del 35,26%.

introduzione

Come nuovo framework di benchmark per la valutazione degli agenti, CRAB (Cross-environment Agent Benchmark) viene utilizzato principalmente per valutare le prestazioni degli agenti sulla base di modelli linguistici multimodali (MLM) in attività cross-environment.CRAB può simulare scenari del mondo reale in cui gli utenti umani utilizzano più dispositivi contemporaneamente per completare attività complesse.Come mostrato nella demo, CRAB può essere utilizzato per valutare il processo di un agente che manipola simultaneamente un sistema desktop Ubuntu e un sistema di telefonia mobile Android per completare l'invio di informazioni.

Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e1 50392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Immagina che se un agente intelligente ha la capacità di utilizzare con precisione computer e telefoni cellulari allo stesso tempo secondo le istruzioni umane, molte complicate operazioni software possono essere completate dall'agente intelligente, migliorando così l'efficienza complessiva del lavoro.Per raggiungere questo obiettivo, dobbiamo costruire un ambiente di test multipiattaforma più completo e realistico per gli agenti, in particolare la necessità di supportare il funzionamento simultaneo di più dispositivi e fornire sufficienti meccanismi di feedback di valutazione.. Il framework CRAB di questo articolo tenta di risolvere i seguenti problemi pratici:

Valutazione delle attività cross-environment:I benchmark esistenti di solito si concentrano solo su un singolo ambiente (come il web, Android o il sistema operativo desktop) [1] [2] [3] [4], ignorando la complessità degli scenari di collaborazione tra dispositivi nel mondo reale. Il framework CRAB supporta l'incapsulamento dell'interazione di un dispositivo o di un'applicazione in un ambiente Supportando attività multiambiente, fornisce agli agenti uno spazio operativo più ricco ed è più vicino agli scenari applicativi reali.
Metodi di valutazione a grana fine:I metodi di valutazione tradizionali si concentrano solo sul completamento dell'obiettivo finale (orientato all'obiettivo) o confrontano rigorosamente la traiettoria dell'operazione (orientato alla traiettoria) [1] [2] [3]. Entrambi i metodi presentano limitazioni e non possono riflettere pienamente le prestazioni dell'agente.CRAB propone un metodo di valutazione basato su grafici, che non solo può fornire indicatori di valutazione a grana fine, ma anche adattarsi a una varietà di percorsi efficaci di completamento delle attività.
Complessità della costruzione delle attività: con l'aumentare della complessità delle attività, la creazione manuale di attività e valutatori diventa sempre più difficile.CRAB propone un metodo basato sulla combinazione di sottoattività per semplificare il processo di costruzione di attività cross-environment
Valutazione della struttura del sistema di agenti:Questo articolo esplora anche l'impatto delle diverse strutture del sistema di agenti (agente singolo, multi-agente basato sulla divisione funzionale del lavoro, multi-agente basato sulla divisione ambientale del lavoro) sui risultati del completamento delle attività, che fornisce una base empirica per progettare sistemi di agenti più efficienti.

La tabella sopra mostra il confronto tra il quadro CRAB proposto in questo articolo e altri quadri di riferimento degli agenti esistenti rispetto ad altri parametri di riferimento.CRAB può supportare contemporaneamente ambienti operativi multipiattaforma come computer e telefoni cellulari e può simulare scenari di utilizzo più realistici.。

Per CRAB, molti netizen hanno elogiato molto.

Alcune persone dicono che AGI è stato raggiunto perché un ampio modello linguistico (riferendosi a CRAB) ha imparato come uscire da Vim.

"Puoi uscire da Vim?" Questa domanda è spesso uno scherzo nella comunità tecnica o di programmazione perché può essere difficile uscire da Vim per i principianti, soprattutto se non hanno familiarità con le modalità operative di Vim. (Contribuisci con un'emoticon qui)

Alcune persone dicono che è difficile credere che un agente possa completare una serie di attività come "controllare il calendario, aprire Vim, accedere alla modalità di inserimento, accedere all'elenco degli eventi, uscire dalla modalità di inserimento e utilizzare :wq per salvare".

Alcuni utenti della rete hanno anche concluso che la prossima generazione di automazione dei processi robotici (RPA) sarà più simile a "per favore aiutami a completare le seguenti attività" senza la necessità di registrare ogni passaggio e poi bloccarsi durante l'esecuzione entro pochi giorni.

Qualcuno ha anche detto che il Graph Evaluator in CRAB è un modo molto intelligente per gestire lo stato dell'agente nell'ambiente.

Alcune persone hanno addirittura elogiato CRAB come il futuro dei PC AI, ritenendo che sia la combinazione perfetta di LLM con PC e dispositivi mobili. “È un'intelligenza artificiale simile a RabbitOS che consente ai PC e ai dispositivi mobili esistenti di avere le funzioni di benchmark di CRAB Consente di testare l'efficacia e l'utilità degli agenti del modello linguistico multimodale nel mondo reale."

Ogni nodo in GDT può rappresentare una sottoattività (m,i,r), dove m è l'ambiente in cui viene eseguita la sottoattività, i è l'istruzione in linguaggio naturale e r è la funzione di ricompensa.Utilizzato per valutare lo stato dell'ambiente m e restituire un valore booleano per determinare se l'attività secondaria è stata completata. Gli spigoli in GDT rappresentano la relazione sequenziale tra le sottoattività.。

Quadro GRANCHIO

Interazione tra agenti tra ambienti

CRAB introduce per la prima volta il concetto di attività cross-environment, combinando più ambienti (come smartphone e computer desktop) in una serie di ambienti, consentendo agli agenti di coordinare le operazioni tra più dispositivi per completare attività complesse.

Il processo operativo dell'utilizzo di un sistema multi-agente basato sulla divisione ambientale del lavoro nel quadro CRAB è mostrato nella figura sopra.Il flusso di lavoro procede attraverso un ciclo. Innanzitutto, l'agente principale osserva l'ambiente e specifica un piano per gli agenti secondari, quindi tutti gli agenti secondari eseguono le operazioni nei rispettivi ambienti.. Un valutatore grafico monitora quindi lo stato di ciascuna attività secondaria nell'ambiente e aggiorna continuamente il completamento dell'attività durante il flusso di lavoro.Questo metodo di valutazione può avvicinarsi alla scena reale per testare la capacità di ragionamento dell'agente., che richiede che l'agente sia in grado di gestire messaggi complessi e una profonda comprensione delle situazioni del mondo reale.

Valutatore di grafici

Il valutatore grafico integrato di CRAB tiene conto dei vantaggi della valutazione sia orientata agli obiettivi che orientata alla traiettoria., che innanzitutto scompone le attività complesse in più sottoattività per formare una struttura grafica aciclica diretta.Successivamente viene definito un meccanismo di attivazione dei nodi, ovvero i nodi (sottoattività) nel grafico devono essere attivati gradualmente in base al completamento delle attività precedenti., garantendo l'esecuzione sequenziale dei compiti. Ad ogni nodo è associata una funzione di verifica per controllare i principali stati intermedi nell'ambiente.Rispetto ai precedenti benchmark di valutazione, il valutatore grafico CRAB introduce in modo innovativo una serie di nuovi indicatori di valutazione：

Rapporto di completamento (CR): il rapporto tra il numero di nodi di attività secondarie completati e il numero totale di nodi, CR = C / N.
Efficienza di esecuzione (EE): il rapporto tra il tasso di completamento e il numero di azioni eseguite, EE = CR / A, A è il numero di azioni specificate.
Efficienza dei costi (CE): il rapporto tra il tasso di completamento e il numero di token del modello utilizzati, CE = CR / T, T è il numero di token del modello utilizzati.

Questi parametri forniscono un focus di valutazione più dettagliato e multidimensionale per i benchmark degli agenti.

Benchmark CRAB-v0

Dettagli della build di base

Sulla base del quadro CRAB proposto,Questo articolo crea uno specifico set di test di benchmark CRAB Benchmark-v0 per ulteriori ricerche da parte della comunità.. CRAB Benchmark-v0 supporta sia i telefoni cellulari Android che gli ambienti di computer desktop Ubuntu Linux. E sono definiti diversi set di azioni per Ubuntu e Android per simulare le interazioni comuni nella vita reale.Il suo spazio di osservazione è costituito dalle interfacce di sistema dei due ambienti e lo stato dell'ambiente si ottiene sotto forma di screenshot. Per facilitare il funzionamento dell'agente nella GUI, l'autore utilizza GroundingDINO [7] per individuare le icone interattive, utilizza EasyOCR per rilevare e contrassegnare il testo interattivo e assegna un ID a ciascun elemento di rilevamento per facilitare il successivo riferimento nello spazio operativo .

Prendiamo come esempio un'attività specifica. Ad esempio, completa la seguente attività sul sistema Ubuntu: Crea una nuova directory "/home/crab/assets_copy" e copia tutti i file con l'estensione "txt" specificata da "/home/crab. /assets" Copia nella directory "/home/crab/assets_copy".

Questa attività richiede più passaggi per essere completata. La figura seguente mostra come utilizzare GPT-4 TurboDettagli sperimentali se utilizzati come modello di inferenza e utilizzando una struttura ad agente singolo. L'agente utilizza innanzitutto il comando search_application per trovare il terminale e aprirlo.

Quindi utilizzare il comando Linux "mkdir -p /home/crab/assets_copy" per creare una nuova directory di destinazione.

Dopo aver creato la directory di destinazione, l'agente ha eseguito direttamente il comando di copia nel terminale:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" per completare l'attività, l'intero processo è fluido e fluido, senza errori.

Risultati sperimentali

L'autore ha quindi condotto un esperimento di base su CRAB Benchmark-v0.Il nucleo dell'agente è il modello linguistico multimodale back-end, che viene utilizzato per fornire la comprensione del linguaggio naturale e delle immagini, la conoscenza di base dei dispositivi, la pianificazione delle attività e le capacità di ragionamento logico,Necessità di supportare input misti multimodali e gestire più cicli di dialogo contemporaneamente, quindi l'autore ha selezionato GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (versione maggio 2024) e Claude 3 Opus (claude-3-opus-20240229) viene utilizzato come modello di base.

I risultati sperimentali sono mostrati nella tabella sopra, in cui i modelli GPT-4o e GPT-4 Turbo hanno ottenuto il tasso medio di completamento del punto di prova (CR) più alto tra i modelli di prova.In termini di efficienza di esecuzione (EE) ed efficienza di costo (CE), la serie GPT-4 è anche migliore dei modelli delle serie Gemini e Claude.。

, durata 02:37

Riassumere

Questo documento introduce un nuovo benchmark di valutazione multi-agente cross-environment CRAB.Il framework CRAB fornisce una piattaforma di benchmarking più completa, flessibile e realistica per la valutazione di agenti autonomi introducendo attività cross-environment, valutatori di grafici e metodi di costruzione di attività basati su combinazioni di sotto-attività.. Rispetto ai precedenti benchmark degli agenti, CRAB riduce il carico di lavoro manuale nelle fasi delle attività e migliora notevolmente l'efficienza della costruzione del benchmark. Basato su CRAB, questo articolo propone Crab Benchmark-v0, che supporta simultaneamente gli agenti per eseguire una serie di complesse attività cross-environment su sistemi Ubuntu e Android. La proposta di questo benchmark,Non solo può promuovere lo sviluppo di sistemi di valutazione degli agenti autonomi, ma anche fornire nuova ispirazione per la progettazione di sistemi di agenti più efficienti in futuro.。

fare riferimento a:

[1] Shuyan Zhou et al. WebArena: un ambiente Web realistico per la creazione di agenti autonomi. 24 ottobre 2023. URL: http://arxiv.org/abs/2307.13854. preprint.

[2] Chi Zhang et al. AppAgent: agenti multimodali come utenti di smartphone. 21 dicembre 2023. URL: http://arxiv.org/abs/2312.13771. preprint.

[3] Shunyu Yao et al. “Webshop: verso un’interazione web scalabile nel mondo reale con agenti linguistici fondati”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Benchmarking di agenti multimodali per attività aperte in ambienti informatici reali. 11 aprile 2024. URL: http://arxiv.org/abs/2404.07972. preprint.

[5] Lin, Fangru, et al. "Modelli di linguaggio di grandi dimensioni migliorati tramite grafici nel ragionamento di piano asincrono". Preprint arXiv arXiv:2402.02805 (2024).

[6] Tushar Khot et al. “Scomposed Prompting: un approccio modulare per risolvere compiti complessi”. In: Undicesima conferenza internazionale sulle rappresentazioni dell'apprendimento. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: unione di DINO con Grounded Pre-Training per il rilevamento di oggetti open-set. arXiv.org. 9 marzo 2023.

notizia

Controlla contemporaneamente telefoni cellulari e computer, sono disponibili 100 attività, benchmark di valutazione degli agenti tra sistemi

Introduzione

Le mie informazioni di contatto