Gleichzeitige Steuerung von Mobiltelefonen und Computern, 100 Aufgaben, systemübergreifende Agentenbewertungsbenchmarks sind verfügbar

Gleichzeitige Steuerung von Mobiltelefonen und Computern, 100 Aufgaben, systemübergreifende Agentenbewertungs-Benchmarks stehen zur Verfügung

2024-08-14

Die Ixiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

CRAB, ein plattformübergreifender multimodaler Agenten-Benchmark, wird von der CAMEL AI-Community geleitet und gemeinsam von Forschern aus Oxford, Stanford, Harvard, KAUST, Eigent AI und anderen Institutionen entwickelt. Das von der CAMEL AI-Community entwickelte CAMEL-Framework ist das früheste Multi-Agent-Open-Source-Projekt, das auf großen Sprachmodellen basiert. Daher sind die meisten Community-Mitglieder Forscher und Ingenieure mit umfangreicher wissenschaftlicher Forschung und praktischer Erfahrung im Bereich intelligenter Agenten.

KI-Agenten sind eine der attraktivsten Forschungsrichtungen in der großen Sprachmodell-Community. Benutzer müssen nur ihre eigenen Bedürfnisse darlegen.Das Agenten-Framework kann mehrere LLMs planen und Multiagenten dabei unterstützen, vom Benutzer vorgegebene Aufgaben auf kollaborative oder wettbewerbsorientierte Weise zu erledigen.。

Derzeit werden Agenten zunehmend mit groß angelegten multimodalen Modellen (MLM) kombiniert.Unterstützt die Ausführung von Aufgaben in Umgebungen mit grafischer Benutzeroberfläche (GUI) auf einer Vielzahl von Betriebssystemen, einschließlich Web, Desktops und Smartphones. Allerdings weisen die aktuellen Benchmarks für diese Art der Agentenleistungsbewertung noch viele Einschränkungen auf, wie z. B. die Komplexität der Erstellungsaufgaben und Testumgebungen sowie die Einzigartigkeit der Bewertungsindikatoren.

Als Reaktion auf diese Probleme schlägt dieses Papier ein neues umgebungsübergreifendes Agenten-Benchmark-Framework CRAB vor.CRAB verwendet einen feinkörnigen, graphbasierten Bewertungsansatz und bietet effiziente Tools für die Aufgaben- und Evaluatorkonstruktion. Das Forschungsteam dieses Artikels hat außerdem einen plattformübergreifenden Testdatensatz CRAB Benchmark-v0 basierend auf dem CRAB-Framework entwickelt, der 100 Aufgaben abdeckt, die in PC- und Smartphone-Umgebungen ausgeführt werden können, darunter sowohl traditionelle Einzelplattformaufgaben als auch komplexe plattformübergreifende Aufgaben. Plattformaufgaben, die durch den gleichzeitigen Betrieb mehrerer Geräte erledigt werden müssen.

Titel der Abschlussarbeit: CRAB: Cross-Environment Agent Benchmark für multimodale Sprachmodellagenten
Papieradresse: https://arxiv.org/abs/2407.01511
Code-Repository: https://github.com/camel-ai/crab

Der Autor wählte vier derzeit beliebte multimodale Modelle zur Durchführung vorläufiger Experimente aus. Die experimentellen Ergebnisse zeigen, dass die Einzelagentenstruktur mit GPT-4o als Inferenzmaschine die höchste Testpunktabschlussrate von 35,26 % aufweist.

Einführung

Als neues Benchmark-Framework für die Agentenbewertung wird CRAB (Cross-environment Agent Benchmark) hauptsächlich zur Bewertung der Leistung von Agenten basierend auf multimodalen Sprachmodellen (MLMs) bei umgebungsübergreifenden Aufgaben verwendet.CRAB kann reale Szenarien simulieren, in denen menschliche Benutzer mehrere Geräte gleichzeitig verwenden, um komplexe Aufgaben zu erledigen.Wie in der Demo gezeigt, kann CRAB verwendet werden, um den Prozess zu bewerten, bei dem ein Agent gleichzeitig ein Ubuntu-Desktopsystem und ein Android-Mobiltelefonsystem manipuliert, um das Senden von Informationen abzuschließen.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150 392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Stellen Sie sich vor, dass, wenn ein intelligenter Agent in der Lage wäre, Computer und Mobiltelefone gleichzeitig gemäß menschlichen Anweisungen präzise zu bedienen, viele komplizierte Softwarevorgänge von dem intelligenten Agenten ausgeführt werden könnten, wodurch die Gesamtarbeitseffizienz verbessert würde.Um dieses Ziel zu erreichen, müssen wir eine umfassendere und realistischere plattformübergreifende Testumgebung für Agenten aufbauen, insbesondere die Notwendigkeit, den gleichzeitigen Betrieb mehrerer Geräte zu unterstützen und ausreichende Bewertungs-Feedback-Mechanismen bereitzustellen.. Das CRAB-Framework dieses Artikels versucht, die folgenden praktischen Probleme zu lösen:

Umgebungsübergreifende Aufgabenbewertung:Bestehende Benchmarks konzentrieren sich in der Regel nur auf eine einzelne Umgebung (z. B. Web-, Android- oder Desktop-Betriebssystem) [1][2][3][4] und ignorieren dabei die Komplexität geräteübergreifender Zusammenarbeitsszenarien in der realen Welt. Das CRAB-Framework unterstützt die Kapselung der Interaktion eines Geräts oder einer Anwendung in einer Umgebung. Durch die Unterstützung von Aufgaben in mehreren Umgebungen bietet es Agenten einen umfangreicheren Betriebsraum und ist näher an tatsächlichen Anwendungsszenarien.
Feingranulare Bewertungsmethoden:Herkömmliche Bewertungsmethoden konzentrieren sich entweder nur auf die Erreichung des Endziels (zielorientiert) oder vergleichen strikt die Flugbahn des Betriebs (flugbahnorientiert) [1][2][3]. Beide Methoden weisen Einschränkungen auf und können die Leistung des Agenten nicht vollständig widerspiegeln.CRAB schlägt eine diagrammbasierte Bewertungsmethode vor, die nicht nur feinkörnige Bewertungsindikatoren liefern kann, sondern sich auch an eine Vielzahl effektiver Aufgabenerledigungspfade anpassen kann.
Komplexität der Aufgabenerstellung: Mit zunehmender Aufgabenkomplexität wird die manuelle Erstellung von Aufgaben und Evaluatoren immer schwieriger.CRAB schlägt eine Methode vor, die auf der Kombination von Unteraufgaben basiert, um den Erstellungsprozess umgebungsübergreifender Aufgaben zu vereinfachen
Bewertung der Agentensystemstruktur:In diesem Artikel wird auch der Einfluss unterschiedlicher Agentensystemstrukturen (Einzelagent, Multiagent basierend auf funktionaler Arbeitsteilung, Multiagent basierend auf umweltbezogener Arbeitsteilung) auf die Ergebnisse der Aufgabenerledigung untersucht, das eine empirische Grundlage für den Entwurf effizienterer Agentensysteme bietet.

Die obige Tabelle zeigt den Vergleich zwischen dem in diesem Artikel vorgeschlagenen CRAB-Framework und anderen bestehenden Agent-Benchmark-Frameworks.CRAB kann plattformübergreifende Betriebsumgebungen wie Computer und Mobiltelefone gleichzeitig unterstützen und realistischere Nutzungsszenarien simulieren.。

Für CRAB haben viele Internetnutzer großes Lob geäußert.

Einige Leute sagen, dass AGI erreicht wurde, weil ein großes Sprachmodell (gemeint ist CRAB) gelernt hat, Vim zu verlassen.

„Kann man Vim beenden?“ Diese Frage ist in der Programmier- oder Technik-Community oft ein Witz, da es für Anfänger schwierig sein kann, Vim zu beenden, insbesondere wenn sie mit den Betriebsmodi von Vim nicht vertraut sind. (Hier ein Emoticon beisteuern)

Einige Leute sagen, es sei kaum zu glauben, dass ein Agent die Aufgabenreihe „Kalender prüfen, Vim öffnen, Einfügemodus aufrufen, Ereignisliste aufrufen, Einfügemodus verlassen und :wq zum Speichern verwenden“ abschließen kann.

Einige Internetnutzer kamen auch zu dem Schluss, dass die nächste Generation der robotergestützten Prozessautomatisierung (RPA) eher so aussehen wird: „Bitte helfen Sie mir, die folgenden Aufgaben zu erledigen“, ohne dass jeder Schritt aufgezeichnet werden muss und es dann innerhalb weniger Tage abstürzt, wenn es ausgeführt wird.

Jemand erwähnte auch, dass der Graph Evaluator in CRAB eine sehr intelligente Möglichkeit ist, den Status des Agenten in der Umgebung zu verwalten.

Einige Leute lobten CRAB sogar als die Zukunft der KI-PCs und glaubten, dass es die perfekte Kombination von LLM mit PCs und Mobilgeräten sei. „Es handelt sich um eine RabbitOS-ähnliche KI, die es bestehenden PCs und Mobilgeräten ermöglicht, über KI-Funktionen zu verfügen.“ Ermöglicht das Testen der Wirksamkeit und des Nutzens multimodaler Sprachmodellagenten in der realen Welt.“

Jeder Knoten in GDT kann eine Unteraufgabe (m,i,r) darstellen, wobei m die Umgebung ist, in der die Unteraufgabe ausgeführt wird, i die Anweisung in natürlicher Sprache und r die Belohnungsfunktion ist.Wird verwendet, um den Status der Umgebung m auszuwerten und einen booleschen Wert auszugeben, um zu bestimmen, ob die Unteraufgabe abgeschlossen ist. Die Kanten in GDT stellen die sequentielle Beziehung zwischen Teilaufgaben dar.。

CRAB-Framework

Umgebungsübergreifende Agenteninteraktion

CRAB führt erstmals das Konzept umgebungsübergreifender Aufgaben ein, bei dem mehrere Umgebungen (z. B. Smartphones und Desktop-Computer) zu einer Reihe von Umgebungen kombiniert werden, sodass Agenten Vorgänge zwischen mehreren Geräten koordinieren können, um komplexe Aufgaben auszuführen.

Der Betriebsprozess der Verwendung eines Multi-Agenten-Systems basierend auf der Arbeitsteilung in der Umwelt im CRAB-Framework ist in der obigen Abbildung dargestellt.Der Arbeitsablauf durchläuft zunächst eine Schleife. Der Hauptagent beobachtet dann einen Plan für die Unteragenten. Anschließend führen alle Unteragenten Operationen in ihren jeweiligen Umgebungen durch.. Ein Diagrammauswerter überwacht dann den Status jeder Unteraufgabe in der Umgebung und aktualisiert kontinuierlich den Abschluss der Aufgabe während des gesamten Workflows.Diese Bewertungsmethode kann nahe an der realen Szene sein, um die Argumentationsfähigkeit des Agenten zu testen., was erfordert, dass der Agent in der Lage ist, komplexe Nachrichten zu verarbeiten und ein tiefes Verständnis für Situationen in der realen Welt hat.

Diagrammauswerter

Der integrierte Graph-Evaluator von CRAB berücksichtigt die Vorteile sowohl der zielorientierten als auch der flugbahnorientierten Auswertung., das komplexe Aufgaben zunächst in mehrere Unteraufgaben zerlegt, um eine gerichtete azyklische Graphenstruktur zu bilden.Anschließend wird ein Knotenaktivierungsmechanismus definiert, d. h. die Knoten (Unteraufgaben) im Diagramm müssen basierend auf dem Abschluss der vorherigen Aufgaben schrittweise aktiviert werden., um die sequentielle Ausführung von Aufgaben sicherzustellen. Jedem Knoten ist eine Verifizierungsfunktion zugeordnet, um wichtige Zwischenzustände in der Umgebung zu überprüfen.Im Vergleich zu früheren Bewertungsbenchmarks führt der CRAB-Graph-Evaluator auf innovative Weise eine Reihe neuer Bewertungsindikatoren ein：

Abschlussquote (CR): Das Verhältnis der Anzahl abgeschlossener Unteraufgabenknoten zur Gesamtzahl der Knoten, CR = C / N.
Ausführungseffizienz (EE): das Verhältnis der Abschlussrate zur Anzahl der ausgeführten Aktionen, EE = CR / A, A ist die Anzahl der angegebenen Aktionen.
Kosteneffizienz (CE): Das Verhältnis der Abschlussrate zur Anzahl der verwendeten Modell-Tokens, CE = CR / T, T ist die Anzahl der verwendeten Modell-Tokens.

Diese Metriken bieten einen detaillierteren und mehrdimensionalen Bewertungsschwerpunkt für Agenten-Benchmarks.

CRAB Benchmark-v0

Details zum Baseline-Build

Basierend auf dem vorgeschlagenen CRAB-Framework,In diesem Artikel wird ein spezifischer Benchmark-Testsatz CRAB Benchmark-v0 für die weitere Forschung durch die Community erstellt.. CRAB Benchmark-v0 unterstützt sowohl Android-Mobiltelefone als auch Ubuntu-Linux-Desktop-Computerumgebungen. Und für Ubuntu und Android sind unterschiedliche Aktionssätze definiert, um gängige Interaktionen im wirklichen Leben zu simulieren.Sein Beobachtungsraum besteht aus den Systemschnittstellen der beiden Umgebungen, und der Umgebungsstatus wird in Form von Screenshots abgerufen. Um die Bedienung des Agenten in der GUI zu erleichtern, verwendet der Autor GroundingDINO [7] zum Auffinden interaktiver Symbole, verwendet EasyOCR zum Erkennen und Markieren interaktiven Textes und weist jedem Erkennungselement eine ID zu, um die spätere Referenz im Operationsraum zu erleichtern .

Nehmen wir als Beispiel eine bestimmte Aufgabe. Führen Sie beispielsweise die folgende Aufgabe auf dem Ubuntu-System aus: Erstellen Sie ein neues Verzeichnis „/home/crab/assets_copy“ und kopieren Sie alle Dateien mit der angegebenen „txt“-Erweiterung aus „/home/crab“. /assets“ In das Verzeichnis „/home/crab/assets_copy“ kopieren.

Für diese Aufgabe sind mehrere Schritte erforderlich. Die folgende Abbildung zeigt, wie GPT-4 Turbo verwendet wirdExperimentelle Details bei Verwendung als Inferenzmodell und Verwendung einer Einzelagentenstruktur. Der Agent verwendet zunächst den Befehl search_application, um das Terminal zu finden und zu öffnen.

Anschließend erstellen Sie mit dem Linux-Befehl „mkdir -p /home/crab/assets_copy“ ein neues Zielverzeichnis.

Nach dem Erstellen des Zielverzeichnisses führte der Agent den Kopierbefehl direkt im Terminal aus:

„cp /home/crab/assets/*.txt/home/crab/assets_copy“ Um die Aufgabe abzuschließen, verläuft der gesamte Prozess reibungslos und ohne Fehler.

Experimenteller Effekt

Anschließend führte der Autor ein Basisexperiment mit CRAB Benchmark-v0 durch.Der Kern des Agenten ist das multimodale Back-End-Sprachmodell, das verwendet wird, um natürliches Sprach- und Bildverständnis, grundlegende Gerätekenntnisse, Aufgabenplanung und logisches Denken zu vermitteln,Es müssen multimodale gemischte Eingaben unterstützt und mehrere Dialogrunden gleichzeitig abgewickelt werdenDaher wählte der Autor GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (Version Mai 2024) und Claude 3 Opus aus (claude-3-opus-20240229) wird als Basismodell verwendet.

Die experimentellen Ergebnisse sind in der obigen Tabelle aufgeführt, wobei die Modelle GPT-4o und GPT-4 Turbo die höchste durchschnittliche Testpunktabschlussrate (CR) unter den Testmodellen erreichten.Auch in puncto Ausführungseffizienz (EE) und Kosteneffizienz (CE) ist die GPT-4-Serie besser als die Modelle der Gemini- und Claude-Serie.。

, Dauer 02:37

Zusammenfassen

In diesem Dokument wird ein neuer umgebungsübergreifender Multi-Agent-Evaluierungs-Benchmark CRAB vorgestellt.Das CRAB-Framework bietet eine umfassendere, flexiblere und realistischere Benchmarking-Plattform für die Bewertung autonomer Agenten durch die Einführung umgebungsübergreifender Aufgaben, Graph-Evaluatoren und Aufgabenkonstruktionsmethoden basierend auf Unteraufgabenkombinationen.. Im Vergleich zu früheren Agenten-Benchmarks reduziert CRAB den manuellen Arbeitsaufwand in Aufgabenschritten und verbessert die Effizienz der Benchmark-Erstellung erheblich. Basierend auf CRAB schlägt dieser Artikel Crab Benchmark-v0 vor, der Agenten gleichzeitig dabei unterstützt, eine Vielzahl komplexer umgebungsübergreifender Aufgaben auf Ubuntu- und Android-Systemen auszuführen.Es kann nicht nur die Entwicklung autonomer Agentenbewertungssysteme vorantreiben, sondern auch neue Inspirationen für die Gestaltung effizienterer Agentensysteme in der Zukunft liefern.。

siehe:

[1] Shuyan Zhou et al. WebArena: Eine realistische Webumgebung zum Erstellen autonomer Agenten. 24. Oktober 2023. URL: http://arxiv.org/abs/2307.13854. Vorabdruck.

[2] Chi Zhang et al. AppAgent: Multimodale Agenten als Smartphone-Benutzer. 21. Dezember 2023. URL: http://arxiv.org/abs/2312.13771. Vorabdruck.

[3] Shunyu Yao et al. „Webshop: Auf dem Weg zu skalierbarer realer Web-Interaktion mit geerdeten Sprachagenten“. In: Advances in Neural Information Processing Systems 35 (2022), S. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. 11. April 2024. URL: http://arxiv.org/abs/2404.07972. Vorabdruck.

[5] Lin, Fangru, et al. „Graph-enhanced Large Language Modelsin Asynchronous Plan Reasoning.“ arXiv-Vorabdruck arXiv:2402.02805 (2024).

[6] Tushar Khot et al. „Decomposed Prompting: Ein modularer Ansatz zur Lösung komplexer Aufgaben“. In: Die elfte internationale Konferenz zum Thema Lernen von Repräsentationen. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: Verbindung von DINO mit Grounded Pre-Training für die Open-Set-Objekterkennung. arXiv.org. 9. März 2023.

Nachricht

Gleichzeitige Steuerung von Mobiltelefonen und Computern, 100 Aufgaben, systemübergreifende Agentenbewertungs-Benchmarks stehen zur Verfügung

Einführung

Meine Kontaktdaten