エージェントが自分自身を創造し始めたとき、AI 製品の爆発的な普及はまだ遠い夢でしょうか?

2024-08-21

テンセントテクノロジーライターハオ・ボーヤン

編集者鄭科軍

2024年、人工知能この分野で最もホットなトピックは間違いなくエージェントです。

“大型モデルクールですが、それで何ができるでしょうか? 「これは、2023 年の AI アプリケーションに関する年次質問です。2024 年までに、エージェントはこの問題に対する最も有望な解毒剤になっています。

インテリジェントエージェントは複雑なプロセスやツールを通じて使用でき、大規模なモデルがより複雑でカスタマイズされたタスクを処理できるようになり、最終的には自律性、認識、意思決定、およびアクション機能を備えたソフトウェアエンティティまたは物理エンティティを生成できます。 Ng Enda 氏、Jim Fan 氏、その他の業界の著名人が、インテリジェントエージェントの有効性を証明するために参加しました。

Ng Enda 教授は、今年 3 月のブログで、HumanEval データセットで使用すべきであると提案しました。 GPT-3.5(ゼロショット) テスト精度は 48.1% です。 GPT-4（ゼロショット）は67.0％。 GPT-3.5はエージェントワークフローと連携することで95.1%の正解率を達成しました。

(画像注: インテリジェントエージェント技術の下での Ng Enda の実験、GPT 3.5 のパフォーマンスはオリジナルの GPT4 をはるかに上回ります)

そのため、この1年間、大企業から民間の専門家に至るまで、あらゆる人がスマートボディを構築してきました。十分な大きさマイクロソフトCopilit、ナンセンスな AI 占い、Langchain、Coze、Dify などのインテリジェントエージェントフレームワークを構築するツールも雨後の筍のように出現し、その人気は高まり続けています。

（写真注：INSIGHTがまとめたエージェントおよびAI自動化プロセス関連企業）

OpenAI の元科学者であるアンドリュー・カーパシー氏は、一般人、起業家、オタクは AI エージェントを構築する可能性が低いとかつて述べました。オープンAIそのような企業には利点さえあります。

AI エージェントのワークフローに基づいたプロダクトマネージャーの新時代が到来するのでしょうか? AI は人間よりもインテリジェントなエージェントを構築するのが得意である可能性があるため、必ずしもそうではありません。

自動化されたループロジック

8月19日、ブリティッシュコロンビア大学の3人の研究者が「エージェントシステムの自動設計」と呼ばれる論文を発表した。この論文では、AI が独自にエージェントを検出して構築し、独自に反復できるシステムを設計しました。

OpenAI の古典的なエージェントの定義を思い出してください。エージェントは、知識を保存し、ツールを計画し、適用できる製品です。

ワークフローを使用してエージェントを構築する場合、既存の知識 (エージェントの形式に関する知識) を使用して自分で計画し (プロセスを構築し)、ツールを使用して (API にアクセスして) 最終的に出力を実行します。エージェントそのもの。

それでは、エージェントを自動的に検出して設計できるエージェントを構築してみてはいかがでしょうか?

論文の著者はこの考えに従い、デザイナーをメタエージェントと呼び、メタエージェントに新しいエージェントの設計を依頼します。設計したエージェントをデータとしてデータベースに追加し、エージェントの新しい強力なバージョンを継続的に反復します。

彼らはこの一連の手法を ADAS (Automated Design of Intelligent Systems) と呼んでいます。

では、この制度は具体的にどのようにして実現するのでしょうか？

チェーンを回してみましょう

ADAS システムで新しいエージェントを生成するプロセスは、次の 3 つの部分に分けることができます。

最初の部分では検索スペースを確立します。これは、いくつかの基本的なツールとルールを使用して潜在的な新しいエージェントを設計するものとして理解できます。

2 番目の部分は検索を実行することですアルゴリズムこれは、メタエージェントが検索スペースを使用する方法と、その要素を使用して新しいエージェントを具体的に構築する方法を規定します。

最後の部分は、パフォーマンスやその他の目標に基づいて構築されたエージェントを評価する評価関数を実行することです。

研究者らは、論文の中で上記の 3 つのコア部分を構築する方法を段階的に説明しています。

まず、検索空間を構築するための基本要素を決定する必要があります。研究者は、最良の方法はコードであると考えています。

コードはチューリング完全であり、あらゆる可能性を表現できるからです。したがって、理論的には、メタエージェントは、考えられるあらゆる構成要素 (ヒント、ツールの使用法、制御フローなど) と、これらの構成要素を任意の方法で組み合わせたエージェントシステムを発見できます。

さらに重要なのは、エージェントを構築するための Langchain などの Web サイトにすでに存在するさまざまなワークフローが体系化されていることです。したがって、関連データはすぐに利用できるため、再度変換する必要はありません。 RAG (検索拡張生成) などのツール呼び出しやその他の機能コンポーネントには、すでに非常に十分なコードベースがあります。

コードを使用して検索スペースを構築することは、ADAS によって生成されたエージェントを直接実行して、手動介入なしでエラーを修正し、スコアを実行できることも意味します。

検索スペースを定義した後、研究者は、メタエージェントがタスクを完了するための可能な方法を探索できるようにする検索アルゴリズムの設計を開始します。このプロセスは基本的にプロンプトワードプロジェクトに頼ることで完了します。

1 つ目は、一連のシステムプロンプト単語を与えることです。

次に、基本的なものを置きますプロンプト言及された情報はメタエージェントに提供されます。

1. タスクの基本的な説明。

2. プロンプトのフォーマット、カプセル化、その他の操作名のような最も基本的なフレームワークコード、および他の基本モデル (FM) や API を呼び出す機能。

(画像注: フレームワークコードの一部)

3. タスクの入出力の形式と例。

4. 元の反復で生成されたいくつかのエージェントによって形成されたサンプルライブラリ (ベースラインテスト結果を含む)。

(画像注: インテリジェントエージェントライブラリ内の例)

これらの基本的なヒントに基づいて、ADAS は動作を開始し、特定の問題を解決するためのインテリジェントエージェントを生成できます。

このプロセスでは、メタエージェントは 2 回のリフレクションを実行して、生成されたエージェントが新規で正しいことを確認します。新しく生成されたコードフレームワークにエラーがないか、エージェントサンプルライブラリの過去の結果と比較して十分に革新的であるかどうかをチェックします。

また、メタエージェントは、実際のパフォーマンス能力の「理解」に基づいて生成されたエージェントの予備評価を実行し、以前のエージェントよりもパフォーマンスが優れているかどうかを判断する必要があります。

これらの条件の一部が満たされない場合、メタエージェントは生成されたエージェントを変更するか、単純に再作成する必要があります。

(最初の反省を促す)

2 回の反映と修正の後、メタエージェントは、新しくて良いと思われる新しく生成されたエージェントを、第 3 ステップの評価システムに送信します。

評価システムは、ベースラインテストに基づいてエージェントの能力に客観的なスコアを与え、それをエージェントサンプルライブラリに返します。

メタエージェントは、以前のスコアリング結果とサンプルライブラリ内の過去の例に基づいて次の反復の最適化を継続し、より高いタスクパフォーマンススコアを達成します。

このプロセスでは、完全に自動化されたチェーン全体が誕生しました。非常に効果的なエージェントを生成するには、2 桁を超える反復が必要になる場合があります。

手をこする知性を超えて

ADAS 手法によるプロセスの自動化によって得られるインテリジェントエージェントはどの程度複雑になるでしょうか?下の図は、14 回の反復後に生成されたエージェントフレームワークです。

このエージェントの構造には、予備的な回答を提供する 5 つの思考チェーンがあります。 3 人の専門家モデルと人間の評価を模倣したモデルからのフィードバック後、最適化プロセスの段階で回答は 3 回修正および強化されます。最後に、評価後に 3 つの結果が選別され、結合されて最終的な回答が得られます。

このレベルの複雑さを人間が操作すると、おそらく 1 週間かかるでしょう。これは、テストや水平比較は言うまでもなく、プロンプトを作成し、アーキテクチャを設計する時期です。

もちろん、これはメタエージェントの設計における継続的な反復の結果でもあります。

反復プロセス中に、インテリジェントエージェントを生成する能力も反復回数とともに急速に増加します。 3 回目の反復では、メタエージェントは独自にマルチ思考チェーン戦略を学習し、4 回目の反復では、動的メモリを使用して回答を最適化することを学習しました。 14 回目までに、生成されたエージェントは上記の複雑さに達しました。

最終的に、その最適解の能力は、元の単純な大規模言語モデルと比較して 250% 以上向上し、最もパフォーマンスの高い手動エージェント COT-SC (マルチ思考チェーン) と比較して 75% 向上しました。回答）方法です。

ARC だけでなく、ADAS モードで生成されたエージェントは、COT、LLM ディベート、Self-Refine など、現在最も強力なベースラインの手動エージェントよりもあらゆる面で大幅に強力です。また、より複雑なタスクやクロスドメインアプリケーションが処理されるほど、ADAS によって生成されるインテリジェントエージェントは強力になります。

さらに、これらの生成されたエージェント自体は、特定の移行機能を備えています。たとえば、科学的な問題を解決できるエージェントは、数学でも優れた結果を達成できます。したがって、最適なフレームワークは、多くの分野で関連する問題を解決できる可能性があります。

手指消毒剤の時代は終わりに近づいていますが、消毒剤パラダイムの発見の時代は続くかもしれません。全体的なテストにおいて、ADAS は現在のインテリジェントエージェント構築パラダイムの外に新しい構築手法を発見するのではなく、むしろこれらの手法を再編成して使用しました。

ただし、平均的な AI エージェント開発者にとって、これは自分の作業を置き換えるのに十分です。

ただし、ADAS の普及にはまだハードルを乗り越える必要があるかもしれません。それはコストの問題です。

研究者らによると、OpenAI API の費用は、ARC での検索と評価に約 500 ドル、推論と問題解決の領域での 1 回の実行に約 300 ドルかかります。 1 回の反復あたり約 20 ドルになります。このような高コストと比較すると、現段階では人的資源にはまだ一定の利点があります。

しかし研究者らは、早期に研究したため「gpt-3.5-turbo-0125」モデルを使用したとも述べた。 GPT-4の最新モデル「gpt-4o-mini」は、「gpt-3.5-turbo-0125」の3分の1以下の価格で、さらに性能が向上しています。さらに、実験によると、GPT 3.5 機能で反復されたエージェントは、一定回数の反復後にパフォーマンスのボトルネックに陥り、14 回後の反復はすべて無駄になることが示されています。したがって、より適切な評価とリソース管理を備えた設計により、コストも大幅に削減できます。

明らかに、労働力の価格優位性を長期間維持することはできません。

知性の爆発は本当に始まったのだろうか？

この自動化テクノロジーがなぜそれほど重要なのでしょうか?

モバイルインターネットの時代には、さまざまな楽曲に対応したさまざまなアプリが開花し、テクノロジーの隆盛の時代を築き上げています。ただし、当時の新しいツールには学習が必要だったため、モバイルアプリの開発も、最終的に十分な開発者を受け入れるまでに長い普及段階を経ました。

以前の時代では、これはもっと遅かったです。 1990 年代のパーソナルコンピューターの経験に基づいてジェフリームーアによって提案された「キャズムの通過」理論によると、このテクノロジーの出現初期には、このテクノロジーを使用するのは初期アダプターの約 13.5% だけでした。これは開発ではなく使用です。。

したがって、開発者の不足は、技術推進における重要なボトルネックとなる可能性があります。

もちろん、インテリジェントエージェント構築の開発と普及の速度ははるかに速い可能性があります。以前のソフトウェア開発よりもはるかに簡単だからです。たとえば、少し前に普及したワードウェアを使用すると、一般のユーザーでも自然言語を使用してインテリジェントエージェントの構築を完了できるため、敷居が低くなります。

ただし、思考チェーンや複数ステップのループなどの設計は依然として非常に複雑であり、そのプロセスで必要となるツールはますます増えています。そのため、インテリジェントエージェントの開発に本気で打ち込み、このツールを使いこなせる人は多くありません。

ザッカーバーグ氏はかつて、黄仁勲氏との会話の中で、たとえ大規模モデル技術が開発されなくなったとしても、インテリジェントエージェントの可能性を完全に理解するには5年かかるだろうと語った。

したがって、テクノロジーと比較すると、開発者は、まだ爆発的に成長していないインテリジェントエージェントにとって中心的なボトルネックである可能性があります。これができる人はまだまだ少ないです。

しかし、エージェントはたくさんいます。

チューニングエージェントを自動的に生成するこのテクノロジーが、より多くの営利企業によって採用され、最適化されれば、初期の技術担当者のボトルネックは当然ながら存在しなくなります。エージェントがさまざまな分野の機能の範囲と深さを探索できる速度が大幅に向上します。

おそらく来年には、人類史上初のキラーAIアプリが登場するでしょうが、その作者はAIです。

ニュース