携帯電話とコンピュータを同時制御、100タスク、クロスシステムエージェント評価ベンチマークが可能

携帯電話とコンピュータを同時制御、100タスク、クロスシステムエージェント評価ベンチマークが利用可能

2024-08-14

Ixivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

クロスプラットフォームのマルチモーダルエージェントベンチマークである CRAB は、CAMEL AI コミュニティによって主導され、オックスフォード、スタンフォード、ハーバード、KAUST、Eigent AI およびその他の機関の研究者によって共同開発されました。 CAMEL AI コミュニティによって開発された CAMEL フレームワークは、大規模な言語モデルに基づいた最も初期のマルチエージェントオープンソースプロジェクトであるため、コミュニティのメンバーのほとんどは、インテリジェントエージェントの分野で豊富な科学研究と実践経験を持つ研究者やエンジニアです。

AI エージェントは、大規模な言語モデルコミュニティにおいて最も魅力的な研究方向の 1 つです。ユーザーは自分のニーズを提示するだけで済みます。エージェントフレームワークは、複数の LLM をスケジュールし、マルチエージェントをサポートして、ユーザーが指定したタスクを協力的または競合的な方法で完了することができます。。

現在、エージェントは大規模マルチモーダルモデル (MLM) と組み合わせられることが増えています。Web、デスクトップ、スマートフォンなど、さまざまなオペレーティングシステムにわたるグラフィカルユーザーインターフェイス (GUI) 環境でのタスクの実行をサポートします。。しかし、この種のエージェントのパフォーマンス評価の現在のベンチマークには、タスクやテスト環境の構築の複雑さ、評価指標の単一性など、依然として多くの制限があります。

これらの問題に対応して、この論文では新しいクロス環境エージェントベンチマークフレームワーク CRAB を提案します。CRAB は、きめ細かいグラフベースの評価アプローチを採用し、効率的なタスクおよび評価ツールの構築ツールを提供します。この記事の研究チームは、CRAB フレームワークに基づいたクロスプラットフォームテストデータセット CRAB Benchmark-v0 も開発しました。これは、従来の単一プラットフォームタスクと複雑なクロスプラットフォームタスクの両方を含む、PC およびスマートフォン環境で実行できる 100 のタスクをカバーします。複数のデバイスを同時に操作して完了する必要があるプラットフォームタスク。

論文のタイトル: CRAB: マルチモーダル言語モデルエージェントのクロス環境エージェントベンチマーク
論文アドレス: https://arxiv.org/abs/2407.01511
コードリポジトリ: https://github.com/camel-ai/crab

著者は、現在人気のある 4 つのマルチモーダルモデルを選択して予備実験を実施しました。実験の結果、推論エンジンとして GPT-4o を使用したシングルエージェント構造が 35.26% という最も高いテストポイント完了率を示しました。

導入

新しいエージェント評価ベンチマークフレームワークとして、CRAB (Cross-environment Agent Benchmark) は主に、環境間タスクにおけるマルチモーダル言語モデル (MLM) に基づくエージェントのパフォーマンスを評価するために使用されます。CRAB は、人間のユーザーが複数のデバイスを同時に使用して複雑なタスクを完了する現実世界のシナリオをシミュレートできます。, デモで示したように、CRAB を使用すると、エージェントが Ubuntu デスクトップシステムと Android 携帯電話システムを同時に操作して情報の送信を完了するプロセスを評価できます。

動画链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150392aa0 315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

インテリジェントエージェントが人間の指示に従ってコンピュータと携帯電話を同時に正確に操作できる能力を備えていれば、多くの複雑なソフトウェア操作をインテリジェントエージェントが実行できるため、全体的な作業効率が向上すると想像してください。この目標を達成するには、エージェント向けのより包括的で現実的なクロスプラットフォームのテスト環境を構築する必要があり、特に複数のデバイスの同時操作をサポートし、十分な評価フィードバックメカニズムを提供する必要があります。。この記事の CRAB フレームワークは、次の実際的な問題の解決を試みます。

クロス環境タスクの評価:既存のベンチマークは通常、単一の環境 (Web、Android、デスクトップオペレーティングシステムなど) のみに焦点を当てており、現実世界のクロスデバイスコラボレーションシナリオの複雑さは無視されています [1][2][3][4]。。 CRAB フレームワークは、デバイスまたはアプリケーションの対話を環境にカプセル化することをサポートします。マルチ環境タスクをサポートすることで、エージェントにより豊富な操作スペースを提供し、実際のアプリケーションシナリオに近づけます。
詳細な評価方法:従来の評価方法は、最終目標の完了のみに焦点を当てるか (目標指向)、操作の軌跡を厳密に比較するか (軌跡指向) のいずれかです [1][2][3]。どちらの方法にも制限があり、エージェントのパフォーマンスを完全に反映することはできません。CRAB は、きめ細かい評価指標を提供できるだけでなく、さまざまな効果的なタスク完了パスに適応できるグラフベースの評価方法を提案します。
タスク構築の複雑さ: タスクの複雑さが増すにつれて、タスクとエバリュエーターを手動で構築することがますます困難になります。CRABは、クロス環境タスクの構築プロセスを簡素化するために、サブタスクの組み合わせに基づく方法を提案します
エージェントシステム構造の評価:この記事では、さまざまなエージェントシステム構造 (シングルエージェント、機能分業に基づくマルチエージェント、環境分業に基づくマルチエージェント) がタスク完了結果に及ぼす影響についても調査します。、より効率的なエージェントシステムを設計するための経験的基礎を提供します。

上の表は、この記事で提案する CRAB フレームワークと他の既存のエージェントベンチマークフレームワークとの比較を示しています。CRAB は、コンピューターと携帯電話などのクロスプラットフォームのオペレーティング環境を同時にサポートし、より現実的な使用シナリオをシミュレートできます。。

CRABに対しては、多くのネチズンが高い評価を与えている。

大規模な言語モデル (CRAB を参照) が Vim を終了する方法を学習したため、AGI が実現したと言う人もいます。

「Vim を終了できますか?」この質問は、特に Vim の動作モードに慣れていない初心者にとっては、Vim を終了するのが難しいため、プログラミングや技術コミュニティではよく冗談になります。 (ここに絵文字を投稿してください)

「カレンダーを確認し、Vimを開き、挿入モードに入り、イベントリストに入り、挿入モードを終了し、:wqを使用して保存する」という一連のタスクをエージェントが完了できるとは信じがたいという人もいます。

また、一部のネチズンは、次世代のロボットプロセスオートメーション (RPA) は、すべてのステップを記録する必要がなく、数日以内に実行するとクラッシュする必要がなく、「次のタスクを完了するのを手伝ってください」に近いものになるだろうと結論付けています。

CRAB の Graph Evaluator は、環境内のエージェントの状態を処理する非常に賢い方法であるとも誰かが述べていました。

CRAB は、LLM と PC およびモバイルデバイスの完璧な組み合わせであると信じて、AI PC の未来であると称賛する人もいます。現実世界におけるマルチモーダル言語モデルエージェントの有効性と有用性をテストできます。」

GDT の各ノードはサブタスク (m,i,r) を表すことができます。m はサブタスクが実行される環境、i は自然言語命令、r は報酬関数です。環境 m のステータスを評価し、サブタスクが完了したかどうかを判断するブール値を出力するために使用されます。 GDT のエッジは、サブタスク間の順序関係を表します。。

CRABフレームワーク

環境を越えたエージェントの相互作用

CRAB は、クロス環境タスクの概念を初めて導入し、複数の環境 (スマートフォンやデスクトップコンピューターなど) を一連の環境に結合し、エージェントが複数のデバイス間の操作を調整して複雑なタスクを完了できるようにします。

CRABフレームワークにおける環境分業に基づくマルチエージェントシステムの運用プロセスを上図に示します。ワークフローはループを介して進行します。まず、メインエージェントが環境を観察し、サブエージェントの計画を指定します。次に、すべてのサブエージェントがそれぞれの環境で操作を実行します。。次に、グラフエバリュエーターは環境内の各サブタスクのステータスを監視し、ワークフロー全体でタスクの完了を継続的に更新します。この評価方法は、エージェントの推論能力をテストするために実際の場面に近いことができます。そのため、エージェントは複雑なメッセージングを処理でき、現実世界の状況を深く理解できる必要があります。

グラフ評価者

CRAB の組み込みグラフ評価ツールは、目標指向の評価と軌道指向の評価の両方の利点を考慮します。、まず複雑なタスクを複数のサブタスクに分解して、有向非巡回グラフ構造を形成します。次に、ノードのアクティブ化メカニズムが定義されます。つまり、グラフ内のノード (サブタスク) は、前のタスクの完了に基づいて段階的にアクティブ化される必要があります。、タスクの順次実行を保証します。各ノードは、環境内の主要な中間状態をチェックするための検証機能に関連付けられています。以前の評価ベンチマークと比較して、CRAB グラフ評価ツールは一連の新しい評価指標を革新的に導入しています。：

完了率 (CR): ノードの総数に対する完了したサブタスクノードの数の比率、CR = C / N。
実行効率 (EE): 実行されたアクションの数に対する完了率の比率、EE = CR / A、A は指定されたアクションの数です。
コスト効率 (CE): 使用したモデルトークンの数に対する完了率の比率、CE = CR / T、T は使用したモデルトークンの数です。

これらのメトリックは、エージェントのベンチマークに対して、よりきめの細かい多次元の評価の焦点を提供します。

CRAB ベンチマーク v0

ベースラインビルドの詳細

提案された CRAB フレームワークに基づいて、この記事では、コミュニティによるさらなる調査のために、特定のベンチマークテストセット CRAB Benchmark-v0 を構築します。。 CRAB Benchmark-v0 は、Android 携帯電話と Ubuntu Linux デスクトップコンピュータ環境の両方をサポートします。また、実生活での一般的なインタラクションをシミュレートするために、Ubuntu と Android にはさまざまなアクションセットが定義されています。その観測空間は 2 つの環境のシステムインターフェイスで構成され、環境ステータスはスクリーンショットの形式で取得されます。。 GUI でのエージェントの操作を容易にするために、作成者は GroundingDINO [7] を使用してインタラクティブアイコンを見つけ、EasyOCR を使用してインタラクティブテキストを検出およびマークし、操作空間での後続の参照を容易にするために各検出項目に ID を割り当てます。。

たとえば、Ubuntu システムで次のタスクを実行してみましょう。新しいディレクトリ「/home/crab/assets_copy」を作成し、指定された「txt」拡張子を持つすべてのファイルを「/home/crab」からコピーします。 /assets" ディレクトリ "/home/crab/assets_copy" にコピーします。

このタスクを完了するには複数の手順が必要です。次の図は GPT-4 Turbo の使用方法を示しています。推論モデルとして使用され、単一エージェント構造を使用した場合の実験の詳細。エージェントはまず、search_application コマンドを使用して端末を検索し、開きます。

次に、Linux コマンド「mkdir -p /home/crab/assets_copy」を使用して、新しいターゲットディレクトリを作成します。

ターゲットディレクトリを作成した後、エージェントはターミナルでコピーコマンドを直接実行しました。

「cp /home/crab/assets/*.txt/home/crab/assets_copy」でタスクを完了すると、プロセス全体がスムーズで、間違いがありません。

実験効果

次に、著者は CRAB Benchmark-v0 でベースライン実験を実施しました。エージェントの中核はバックエンドのマルチモーダル言語モデルです、自然言語と画像の理解、基本的なデバイス知識、タスク計画、論理的推論能力を提供するために使用されます。マルチモーダル混合入力をサポートし、複数ラウンドの対話を同時に処理する必要がある、そのため、著者は GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024 年 5 月バージョン)、および Claude 3 Opus を選択しました。 (claude-3-opus-20240229) がベースラインモデルとして使用されます。

実験結果は上の表に示されており、GPT-4o モデルと GPT-4 Turbo モデルがテストモデルの中で最も高い平均テストポイント完了率 (CR) を達成しました。実行効率 (EE) とコスト効率 (CE) の点でも、GPT-4 シリーズは Gemini および Claude シリーズモデルよりも優れています。。

、再生時間 02:37

要約する

このペーパーでは、新しいクロス環境マルチエージェント評価ベンチマーク CRAB を紹介します。CRAB フレームワークは、クロス環境タスク、グラフ評価ツール、およびサブタスクの組み合わせに基づくタスク構築方法を導入することにより、自律エージェントの評価のための、より包括的で柔軟かつ現実的なベンチマークプラットフォームを提供します。。以前のエージェントベンチマークと比較して、CRAB はタスクステップにおける手動作業負荷を軽減し、ベンチマーク構築の効率を大幅に向上させます。この記事では、CRAB に基づいて、Ubuntu および Android システム上でさまざまな複雑な環境間タスクを実行するエージェントを同時にサポートする Crab Benchmark-v0 を提案します。これは、自律エージェント評価システムの開発を促進するだけでなく、将来的により効率的なエージェントシステムを設計するための新しいインスピレーションを提供することもできます。。

参照:

[1] Shuyan Zhou他「WebArena:自律エージェントを構築するための現実的なWeb環境」2023年10月24日。URL: http://arxiv.org/abs/2307.13854.プレプリント。

[2] Chi Zhang et al. AppAgent: スマートフォンユーザーとしてのマルチモーダルエージェント。2023年12月21日。URL: http://arxiv.org/abs/2312.13771。プレプリント。

[3] Shunyu Yao他「Webshop: グラウンデッド言語エージェントによるスケーラブルな現実世界のWebインタラクションの実現に向けて」Advances in Neural Information Processing Systems 35 (2022)、pp. 20744–20757。

[4] Tianbao Xie他「OSWorld: 実コンピュータ環境におけるオープンエンドタスクのマルチモーダルエージェントのベンチマーク」2024年4月11日。URL: http://arxiv.org/abs/2404.07972. プレプリント。

[5] Lin, Fangru他「非同期プラン推論におけるグラフ強化大規模言語モデル」arXivプレプリントarXiv:2402.02805 (2024)。

[6] Tushar Khot他「分解プロンプティング：複雑なタスクを解決するためのモジュール式アプローチ」第11回国際学習表現会議。2023年。URL：https://openreview.net/forum?id=_nGgzQjzaRy。

[7] Shilong Liuら「Grounding DINO: DINOとGrounded Pre-Trainingを組み合わせたオープンセット物体検出」arXiv.org。2023年3月9日。

ニュース

携帯電話とコンピュータを同時制御、100タスク、クロスシステムエージェント評価ベンチマークが利用可能

導入

私の連絡先情報