ニュース

Appleの大型モデルの新たな結果:シーン検査大型モデルツール呼び出し、ネチズン:Siriも頑張る必要がある

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • クレシーはアオフェイ寺院から来ています
    パブリックアカウント QbitAI

Apple チームは、新しいオープンソースの成果、つまり大規模モデル ツールを呼び出す機能に関する一連のベンチマークをリリースしました。

このベンチマークは革新的に次のことを使用します。シナリオベースの評価手法これにより、実際の環境におけるモデルのレベルをより適切に反映できます。

また、対話の相互作用や国家依存など、従来の標準では注目されていなかった重要なシナリオも紹介します。



このテスト ベンチマーク セットは ToolSandbox と呼ばれており、Apple の基本モデル チームの責任者である Pang Ruoming 氏も研究作業に参加しました。

ToolSandbox は、既存のテスト標準におけるシナリオベースの評価の欠如を補い、テスト条件と実際のアプリケーションの間のギャップを狭めます。



インタラクションの観点から、作者は GPT-4o をユーザーとして機能させ、テスト対象のモデルと対話させ、それによって現実世界のシナリオをシミュレートします。

たとえば、自分はもうアシスタントではないが、ユーザー B と話しているユーザー A を演じたいと GPT-4o に伝え、一連の特定のリクエストを行います。



さらに、著者は ToolSandbox を使用していくつかの主流モデルと全体的な結果をテストしました。クローズドソースモデルはオープンソースモデルよりもスコアが高い、その中で最も強いのは GPT-4o です。

iOS アプリケーション開発者の Nick Dobos 氏は、Apple の一連の標準は簡潔かつ明確であると述べました。

同時に同氏は、Siriが携帯電話上で数十、数百のアプリケーションを管理したい場合、ChatGPTはすでにある程度限界を迎えており、そのツール呼び出し機能も改善する必要があると指摘した。

これは、ToolSandbox の研究が Siri の将来の研究開発の方向性を明確にすることを意味している可能性があります。



シナリオでモデルをテストする

前述したように、ToolSandbox はシナリオベースの対話型テスト手法を採用しています。

具体的には、ToolSandboxには、単一/複数のツール起動、単一/複数回の対話、状態依存、標準化、情報不足など、7種類合計2,000近くのシナリオが収録されています。

前者は比較的理解しやすいですが、次の 3 つのシーン タイプについて説明します。

  • 状態の依存関係: ツールの実行は特定のグローバル状態に依存しており、この状態は最初に他のツールによって変更される必要があります。
  • 標準化: 自然言語表現をツールに必要な標準形式に変換します。これには、他のツールの助けが必要になる場合があります。
  • 情報が不十分です: タスクを完了するために必要な主要なツールが意図的に欠落しています。モデルがタスクを完了できない状況を識別できるかどうかを確認します。



これらのシナリオでは、ToolSandbox はモデルの 3 つの指標に焦点を当てます。

  • 全体的なパフォーマンス、つまり、さまざまなシナリオにおける事前設定された回答との平均類似度
  • 堅牢性。さまざまな方法を使用してツールを変更および干渉し、この環境でのモデルのパフォーマンスを観察します。
  • 効率、つまりタスク完了ラウンドの平均数

ツールに関しては、実際のシナリオの複雑さに匹敵する 34 個の組み合わせ可能な Python 関数をツールとして選択しました。

これには、ネイティブ Python ツールと一部の統合 RapidAPI ツールの両方が含まれており、検索、対話、ナビゲーション、天気、画像処理などの多くの共通領域をカバーする機能を備えています。

プロセスに関して言えば、最初のステップはテスト シナリオを準備することです。研究者は初期世界状態を定義して保存し、同時に調整された GPT-4o モデルを使用して初期ユーザー メッセージを生成します。

次に対話型の実行段階に入ると、システムはまず役割間の通信チャネルとしてメッセージ バスを初期化し、ユーザーを演じるモデルとテスト対象のモデルを構成します。

会話ループが開始されると、ユーザーをシミュレートするモデルが最初のメッセージを送信し、テスト対象のモデルがメッセージを受信して​​次のアクション (ユーザーに直接返信するか、環境と対話するツールを呼び出すかのいずれか) を決定します。

モデルがツールの呼び出しを選択した場合、必要なパラメーターが JSON 形式で提供され、実行環境がこの呼び出しを解釈して実行し、場合によってはワールド状態を更新し、潜在的な並列呼び出し条件を処理します。

実行結果がテスト対象モデルに返された後、テスト対象モデルは次のアクションを再度決定します。このプロセスは、ユーザー シミュレータがタスクが完了した (または完了できなかった) と判断するまで継続され、その時点で end_conversation が呼び出されます。会話を終わらせるためのツール。



対話プロセス全体を通じて、システムはすべてのメッセージとステータスの変化を記録して完全な「対話トラック」を形成し、評価段階に入ります。

評価では、事前定義された「マイルストーン」と「地雷原」を使用して、エージェント モデルのパフォーマンスを測定します。

マイルストーンタスクを完了するための主要なイベントが定義され、時間依存性を反映する有向非循環グラフが形成されます。

システムは、マイルストーンの位相順序を維持しながら、軌跡内のイベントとマイルストーンの間で最も一致するものを探します。

地雷原これは禁止されたイベントを定義しており、主に情報不足によりモデルが幻覚を起こしているかどうかを検出するために使用されます。

たとえば、次の図は、「情報不足」シナリオでの地雷原評価の例を示しています。

このタスクでは、現在のタイムスタンプが利用できないため、モデルは timestamp_diff ツールを呼び出すべきではありませんが、モデルは現在のタイムスタンプを誤って推測してツールを呼び出し、このラウンドのスコアは 0 になります。



最終的に、システムは平均マイルストーン マッチ スコアと地雷原ペナルティの積である複合スコアを計算します。

さらに、システムは、モデルの効率を評価するための補助指標として、タスクを完了するのに必要な平均ラウンド数もカウントします。

複雑なインタラクションシナリオは依然として課題です

概して、ツール呼び出しの点では、クローズド ソース モデルはオープンソース モデルよりも優れたパフォーマンスを発揮します

平均スコアが最も高いのは GPT-4o で、スコアは 73.0 です。これは、著者が設定した 7 つのシナリオのうち 4 つで唯一 70 を超え、最高スコアを達成しました。

さらに、GPT-4o は非常に堅牢でもあり、著者はツールを変更するために 8 つの方法を使用しましたが、その中で GPT-4o が最も高い堅牢性スコアを獲得しました。

これに僅差でクロード 3-Opus が続き、平均スコアは 69.2 で、情報が不十分なシーンでは GPT-4o を上回り、さらに他のバージョンの GPT とクロードが続きます。

Google の Gemini は比較的遅れていますが、1.5 Pro のスコアは 60.4 で、GPT-3.5 ほどではありませんが、情報不足の 1 つの項目では良好なパフォーマンスを示しています。

オープンソースモデルの最高平均スコアはわずか 31.4 ですが、有名な Mistral-7B スコアは 29.8 ですが、情報不足の単一項目では最高スコア 76.8 を達成しました。

Gorilla や Command-R などのオープン ソース モデルの一部でさえ、ツールの応答をまったく処理できないか、ツール呼び出しの 1 ラウンドをかろうじて完了することができます。



さらなる分析により、オープンソース モデルは、ツールを呼び出す時期を特定することが苦手です、問題を純粋なテキスト生成タスクとして扱うことを好みます。

タスクの側面から見ると、大規模モデルは単一/複数のツール呼び出しと単一ラウンドのユーザー要求では良好なパフォーマンスを示しますが、マルチターン対話や状態依存タスクでは利点が弱まる

GPT、クロード、ジェミニなどの家族では、モデルが大きいほど、複数ツールの呼び出しや複数ターンの対話タスクにおいて、より明白な利点があります。;しかし状態に依存するタスク、中小規模のモデルについて(GPT-3.5、クロード-3-ソネットなど)逆に大型モデルよりは良いです(GPT-4、クロード-3-Opus)より良いパフォーマンスを発揮する

さらに、正規化はすべてのモデルにとって大きな課題であり、特に正規化ツールを必要とするシナリオでは、時間関連のパラメーターの正規化も非常に困難です。

ロバスト性に関する研究では、ツールの説明やパラメーター情報などの変更に対するモデルの感度は大きく異なり、明確な規則は見つからないことが示されています。

効率の点では、通常は強力なモデルの方が効率的ですが、例外もあります。たとえば、Claude シリーズ モデルの効率は一般に GPT よりも優れています。

つまり、現実世界の複雑な相互作用シナリオに対処するツールを使用する場合、大規模なモデルは依然として多くの課題に直面しています。

著者について

ToolSandbox チームのメンバーは、Apple の機械学習、データ サイエンス、基本的な大規模モデルなどのチームから来ています。

筆頭著者は中国人の機械学習エンジニアルー・ジアルイ、清華大学を学士号を取得して卒業し、在学中はZhu Jun教授の研究室で研究助手も務めました。

その後、ルー氏はカーネギーメロン大学で機械学習の修士号を取得し、卒業後の2020年にAppleに入社した。



ルーを含む、署名入り著者12人中10人が中国人, そして全員が名門校出身です。

これには、基本的な大型モデル チームの責任者も含まれます。パン・ルオミン(ルオミン・パン)。



さらに、Appleに8年間勤務したエンジニアリングディレクターベルンハルト・アウマイヤーもこのプロジェクトに参加しました。



用紙のアドレス:
https://arxiv.org/abs/2408.04682