ニュース

最強のエージェント「エージェントQ」登場! Llama 3の成功率は3倍に急上昇、OpenAIの謎の「イチゴ」は迎撃された

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:Qiao Yangはとても眠いです

【新しい知恵の紹介】新興企業 MultiOn は最近、Agent Q をリリースしました。これは「現時点で最も強力」であり、実際の予約タスクで 95.4% の成功率を達成できると同社は主張しています。ネットユーザーは、OpenAI の謎の Q* プロジェクトがその背後にあるのではないかと推測しています。

OpenAI の Q*/Strawberry プロジェクトのリリースを待たずに、MultiOn という新興企業が Q という名前のエージェントを最初にリリースしました。


私たちは、過去 6 か月間私たちが取り組んできたエージェント Q が公開されたことを発表できることを非常にうれしく思っています。これは、推論と検索ができ、インターネット上で実際のタスクを通じて自己再生と強化学習を実行して、自己修正と自律的な改善を実現できる自己教師ありエージェント フレームワークです。

さらに注目を集めたのは、MultiOn Lianchuang/CEO の Div Garg 氏が Twitter でエージェント Q について言及したとき、この目立つものを忘れずに持ってきたことです。


これにはあらゆる分野からの野次馬が絶えず集まり、エージェント Q の背後にいる最大のボスは OpenAI の Q* プロジェクトではないかと推測する人もいました。

それだけでなく、MultiOnは、「人間と機械の区別が難しい」さまざまな奇妙な発言を頻繁に出力するエージェントQのために、独立したTwitterアカウントも開設しました。

アカウントの背景画像や基本情報はイチゴだらけで、以前ウルトラマンが投稿した自宅の庭のイチゴの写真が直貼りされていた。



しかし、驚くべきことは、この謎のアカウントには、Y-Combinator CEO の Garry Tan 氏、Quora CEO の Adam D'Angelo 氏、New York Times のコラムニスト Kevin Roose 氏、Wharton AI 教授の Ethan Mollick 氏、および OpenAI スタッフ数名を含む多くのフォロワーや KOL がいることです。

最近ではウルトラマンも率先してこの謎のアカウントと交流し、「AGIがレベル2に到達」をからかう投稿にコメントした。


MultiOn によるこの一連の作戦が単なる誇大宣伝であるか、それとも OpenAI による Q* の推進と関連しているかは、人々の意見次第です。


これがこれまでにリリースされた中で最高の AI エージェントの 1 つになるか、Div Garg が最悪の誇大広告に巻き込まれて会社の評判を台無しにするかのどちらかです。 AI コミュニティでは、これは逆効果です。

すべての論争はさておき、まずこのエージェント Q にどれだけの技術的な内容が含まれているかを見てみましょう。

CEO の Div Garg 氏によると、Agent Q には計画と推論機能だけでなく、自己修復機能もあるとのことです。わずか 1 日のトレーニングで、Llama 3 のゼロサンプルのパフォーマンスが 340% 向上し、実際の予約タスクで 95.4% の成功率を達成しました。


これは、自律型 AI エージェントが現実世界の環境で複雑かつ信頼性の高い意思決定を行うための大きな前進です。

公式デモ ビデオでは、エージェント Q はレストラン、会議、航空券の予約などのタスクを実行できます。これらのタスクにはすべて、複数のステップの計画、推論、意思決定、およびさまざまなアプリケーションとの対話が含まれます。

MultiOn の研究チームは論文を公式 Web サイトにアップロードしましたが、Agent Q はまだトライアル版として公開されておらず、内部テストの機会を申請するには待機リストに登録する必要があります。


論文アドレス: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

公式ウェブサイトによると、Agent Q は今年後半に MultiOn 開発者とユーザーに公開される予定です。

技術的な解釈

近年、LLM は NLP の分野を完全に覆し、目覚ましい成果を上げていますが、対話型環境、特に Web ページ ナビゲーションなどの複数ステップの推論タスクでは依然として大きな課題に直面しています。

静的言語データセットに依存する現在のトレーニング方法では、これらのモデルを現実世界の動的なインタラクションに適応させるには不十分です。

Agent Q の登場は、探索、内省、強化学習を組み合わせて計画と自己修復を可能にする AI エージェントの分野における大きなマイルストーンです。

新しい学習および推論フレームワークを導入することで、Agent Q は以前の LLM トレーニング手法の制限に対処し、自律的な Web ナビゲーションを可能にします。


スケジュールされたタスクを実行するときのエージェント Q の手順の内訳

現在の方法の問題点

慎重に計画された専門家のデモンストレーションに対する監視付き微調整などの現在の方法は、蓄積されたエラーと限られた探索データにより、エージェントの複数ステップのタスクのパフォーマンスが低下することが多く、そのため、動的な環境での複雑な意思決定と適応が必要になります。学習するにつれて、次善の戦略が必要になります。出現する。

エージェント Q のメソッドとコンポーネント

エージェント Q は、ガイド付きモンテカルロ ツリー検索 (MCTS) と AI 自己反映および反復微調整手法を組み合わせ、同時に Direct Preference Optimization (DPO) などの RLHF アルゴリズムを使用して、LLM エージェントが成功と失敗の軌跡から学習し、複数の汎化を改善できるようにします。段階的な推論タスクの能力。

Agent Q の主なコンポーネントは次のとおりです。

1. MCTS に基づくガイド付き検索: さまざまな動作や Web ページを探索することでデータを自律的に生成し、探索と活用のバランスをとります。

MCTS は、より高いサンプリング温度と多様なプロンプトワードを使用して行動空間を拡大し、多様で最適な軌跡を確実に収集できるようにします。

2. AI 自己批判: 各ステップで、AI ベースの自己批判は、エージェントの意思決定を最適化するための貴重なフィードバックを提供できます。信号がまばらだと学習が困難になることが多いため、このステップレベルのフィードバックは長期的なタスクには非常に重要です。


3. 直接的な好みの最適化: DPO アルゴリズムは、MCTS によって生成されたデータの好みのペアを構築することによってモデルを微調整します。このオフポリシー トレーニング方法により、モデルは、検索プロセス中に探索された次善の分岐を含む、集約されたデータ セットから効果的に学習できるため、複雑な環境での成功率が向上します。

評価実験

xLAM-v0.1-r モデルに基づいて構築されたオンライン ストアをシミュレートするタスクでは、エージェントは特定の製品を見つけるために検索する必要があります。

RFT、DPO、ビーム検索などの方法でも一定の改善は達成できますが、その程度は AgentQ ほど高くありません。

Agent Q と MCTS の手法を同時に使用すると、タスクの成功率は 28.6% から 50.5% に向上します。これは人間の平均レベルの 50% に相当します。


Open Table の実際の予約タスクでは、エージェントは、対応するレストラン ページの検索、適切な日時の選択、ユーザーの好みに応じた適切な座席の選択、ユーザーの連絡先情報の送信、そして最終的な完了など、複数の手順を実行する必要があります。タスク。

この複雑さは明らかに Webshop よりも一歩上です。実験後の統計によると、ウェブショップのタスクを完了するための平均ステップ数は 6.8 ステップですが、Open Table では 2 倍の 13.9 ステップになりました。

Open Table はシミュレートされたデータセットではなく、実際のオンライン環境であるため、自動評価を実行するのは困難です。そのため、この論文では、事前定義に基づいて操作の各ステップに対してエージェントに報酬を与えるための評価器として GPT-4-V を使用しています。インジケーターを使用して、タスクが完了したかどうかをマークします。


エージェント Q は、わずか 1 日の自律的なデータ収集の後、LLaMa-3 のゼロサンプル成功率を 18.6% から 81.7% に増加させ、スコアは 340% 増加しました。

オンライン モンテカルロ ツリー検索を追加すると、成功率はさらに 95.4% まで向上します。


エージェント Q は、上記の評価実験で強力な Web ナビゲーション、検索、推論、計画能力を実証しましたが、現在使用されている方法にはまだ議論と改善の余地がたくさんあります。

- 推論アルゴリズムの設計: 現在、エージェント Q の主要な課題は推論能力が弱いことにあり、探索および検索戦略が制限されます。さらに、エージェント戦略をトレーニングする際、批評家モデルは現在フリーズ状態にあり、追加の追加が発生します。微調整によりパフォーマンスが向上する可能性があります。

- エージェント Q は、MCTS が数学およびコーディング タスクで成功した経験があるため、検索に MCTS を好みますが、実際の環境ではかなりの数の危険な対話が発生する可能性があります。検索戦略を変更する方が適切なオプションである可能性があります。

- オンライン セキュリティとインタラクション: 現在、エージェント Q は実際に、人間の介入を制限しながら、かなりの程度の自律的な探索と自己評価を許可しています。ただし、エージェントの操作、特に電子メール、支払い、アーカイブなどの重要なタスクでは、依然として多くのエラーが発生する可能性があります。

セキュリティの問題が解決されない場合、エージェント Q の実際に展開可能なタスク シナリオは大幅に制限され、将来的に追加のセキュリティ批判モデルと人間参加型トレーニング設定が必要になる可能性があります。

参考文献:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities