ニュース

Nanyang Polytechnic は、Web エージェントのタスク完了機能を向上させるためにタスク データ セットとテスト ベンチマークを作成します

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

最近、南洋理工大学のインターンである Zhang Ziniu 氏とそのチームは、GPT-4v や Gemini-pro などの大規模モデルを使用することで、Web ページ エージェントの現在の能力が、特に、次のようなタスクを完了する場合にはまだ非常に不足していることを発見しました。複数のサブタスクの組み合わせ。

エージェントの Web ページ上での操作能力を向上させるために、研究チームはタスク データ セットを作成し、ベンチマーク テストを実施しました。

このデータセットの助けを借りて、エージェントはマルチモーダルな Web ページ情報を処理し、さまざまな Web ページでの操作を通じてタスクを完了する必要があります。これにより、実際の状況での Web ページでの人々の操作に近づけることができます。

同時に、チームはエージェントに大きなメモリ欠陥があり、それがマルチホップ問題の精度に重大な影響を与えていることを発見し、これに対応して上記の問題を改善するメモリ モジュールを提案しました。

全体として、この結果はエージェントのタスク完了能力を向上させ、その後の作業のテスト ベンチマークを提供します。

報道によると、この成果は一連の成果の一つだという。当初、Zhang Ziniu 氏、Tian Shulin 氏、Chen Liangyu 氏らは、米国のカーネギー メロン大学チームが作成したシングルホップ シングルモーダル テスト ベンチマーク Webarena を再現しました。

その後、Webarena のタスク機能とエージェントのタスクの完了を注意深く分析した結果、研究する価値のあることがまだたくさんあることがわかりました。

たとえば、タスクが現実に十分に近づいていないのはなぜでしょうか?インテリジェントエージェントの能力が相対的に不足しているのはなぜですか?

Web エージェントに関連する他の論文を読むことによって。チームは、タスクを単一モダリティからマルチモダリティに拡張することを検討しました。

以前は、Web エージェントが Web ページ上の情報を処理する場合、通常はテキストだけを確認していませんでした。この目的のために、彼らは、いくつかの美術館の公式ウェブサイトなど、画像を含むいくつかのオンライン Web サイトから画像情報を抽出しようとしました。

ただし、多くの Web ページは独自の保護手段により、HTML ファイルから画像情報を抽出できません。

その後、ショッピング Web サイトや Wikipedia から画像情報を抽出することに目を向け、Web エージェント向けにいくつかのマルチモーダル タスクを作成しました。

次に、チームはタスクをマルチホップ タスクに拡張し、研究を行うための例として旅行タスクを使用することにしました。次に、データセット上でエージェントをテストしました。

視覚情報の処理に関しても、エージェントにプロンプ​​トとして画像を直接提供する方法や、まず画像をマルチモーダルな大規模モデルに提供して処理し、その後処理結果をエージェントにマージする方法など、さまざまな方法が使用されます。等

この期間中に、タスク全体に対して以前に使用されていた評価方法がマルチホップ タスクには適していないことが判明しました。そこで彼らは、マルチホップタスクに対する新たな評価手法を提案した。

エージェントの実験結果を分析したところ、エージェントの記憶能力が非常に低いことが判明したため、エージェントの能力を向上させるための記憶強化モジュールが提案され、これに対するアブレーション実験が行われました。

最近、関連する論文が「MMInA: マルチホップ マルチモーダル インターネット エージェントのベンチマーク」というタイトルで arXiv に投稿されました。


図 | 関連論文 (出典: arXiv)

同時に、チームは Web エージェントの最新の開発にも注目しています。将来的には、研究チームは、Web ページ全体のスクリーンショットをエージェントへの入力として提供することを計画している可能性があります。