私の連絡先情報
郵便管理者@information.bz
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
新しい知恵のレポート
編集者: タオジ
【新しい知恵の紹介】もしかしたら将来、AI軍が企業の重要な任務を引き受けるようになり、人間は脇役に成り下がってしまうのではないか、と考えたことはありますか?
Xiao Zha 氏は、「将来的には、世界には人間よりも AI エージェントの方が多くなるだろう」と強く信じています。
では、これらの AI にも企業文化があるとしたらどうなるでしょうか?
人間と同じでしょうか? AIには意思決定権を持ったAIと、一生懸命働くAIがいます。
数か月前、OpenAI が 5 レベルの AGI ルート、L5 - オーガナイザー: 組織的な作業を完了できる AI を内部で定義したことが明らかになりました。
これが語っているのは、未来の会社の組織図かもしれません。
複数のインテリジェントエージェントの協力が増えているからです。
以前の調査では、30 を超える AI エージェントを備えたシステムが、ほぼすべてのタスクにおいて単純な LLM 呼び出しよりも優れたパフォーマンスを示し、同時に幻覚も軽減し、精度も向上したことが示されました。
論文アドレス: https://arxiv.org/pdf/2402.05120
しかし、複数のエージェントは実際にどのように連携すればよいのでしょうか?
ソフトウェア エンジニアリング タスクにおける AI のパフォーマンスを向上させる方法を模索しているときに、Alex Sima は次のようなひらめきを抱きました。
AIエージェント間のやりとりが制度化され、テクノロジー大手の「組織図」のようになったらどうなるだろうか。
次に、Alex は AI に 6 つの主要テクノロジー企業 (Amazon、Google、Microsoft、Apple、Meta、Oracle) を乗っ取らせ、各企業がどのように連携しているかを確認しました。
まずは写真を撮って雰囲気を味わってみましょう。
重要なポイント
以下は、Alex が Apple、Microsoft、Google と同様の企業構造に AI エージェントを組織した後に得た重要なポイントです。
- Microsoft や Apple など、複数の「競合する」チーム (つまり、最高の最終製品を生産するために競合する) を持つ企業は、集中型の階層構造よりも優れたパフォーマンスを発揮します。
- Google、Amazon、Oracle など、単一障害点 (1 人のリーダーが重要な意思決定を行うなど) があるシステムのパフォーマンスは低下します。
- 大手テクノロジー企業の組織構造は、問題解決能力にささやかではありますが重大な影響を与えます。
AIエージェントとテクノロジー巨大組織
SWE ベンチなど、単純に AI エージェントの数を増やすことでパフォーマンスを向上させるこれまでの方法では、大きな成果は得られませんでした。
これは、数字の増加だけに頼っても問題は解決しないことを示しています。
では、AI エージェントをソフトウェア エンジニアリングでより良くするための他の方法にはどのようなものがあるでしょうか?
3 週間前、アレックスは、「コンウェイの法則」に関する James Huckle の記事を見つけました。ソフトウェアと製品のアーキテクチャは、それを作成した組織構造を反映する運命にあります。
James 氏は、Amazon、Google、Facebook、Microsoft、Apple、Oracle の劇的な組織構造を示す図を示し、次のようなアイデアを提案しました。
大手テクノロジー企業の人間と同様に、マルチエージェントのコミュニケーション構造が問題解決のアプローチを形作る可能性があります。
Alex は、SWE ベンチ インスタンスで James の仮説をテストすることを思いつきました。
実験装置
著者らは、AI エージェントをさまざまな企業構造に編成し、SWE-bench-lite の 13 インスタンスの「ミニ」サブセットで 6 つの異なる組織構造を評価しています。
これら 6 つの組織を構築する際に、彼はいくつかの中心的な観察に基づいてマルチエージェントの組織構造を設計しました。
アマゾン
最上位には「マネージャー」のバイナリ ツリーがあります。
この構造を再現するために、Alex はコード ベースの検索を実行する多数のエージェントと、最終的にコード ベースの更新を実行する単一のエージェントを使用します。
グーグル
Amazon のツリー構造に似ていますが、中間層間の接続が増えています。
Alex は、すべてのエージェントの結果を 1 つのレイヤー内で集約してコピーし、エージェントの次のレイヤーに渡します。
メタ(Facebook)
階層構造はありませんが、エージェント間の接続が多数あるネットワーク組織です。
アレックスは、異なるエージェント間の変換の可能性を高めることにより、元のエージェントの設計を変更しました。
マイクロソフト
それぞれが独自のレベルを持つ競争力のあるチームに重点を置きます。
基本的に、Alex は Amazon を再構築し (エージェントの数を減らし)、ベクトル類似性投票方法を使用して、3 つの別々の実行から「最良の」ソリューションを選択しました (実行ごとに階層をわずかに調整しました)。
りんご
多くの小規模な競技チームがあり、それぞれが独自の最小限の構造を持っています。
Alex は Microsoft と同じ「最適なソリューション」アプローチを使用しましたが、エージェント レベルを使用せずにさらに多くの実行を実行しました (実行ごとに異なる変換が行われました)。
オラクル
より大きな「法的」バイナリ ツリーとより小さなエンジニアリング ツリーの 2 つの異なるチームがあります。
Alex は、法務チームはコード ベースを検索して重要なコンテキストを取得するエージェントであり、エンジニアリング チームは実際にコードを記述するエージェントで構成されていると説明しました。
2 つのチームの構造は Amazon と似ており、トップに立つ 1 人のエージェントが「法務」と「エンジニアリング」の間の情報の流れを調整します。
評価結果
SWE ベンチでパッチの各セットを評価するために、著者は SWE ベンチ評価を使用します。
結果は次のとおりです。
組織図のパフォーマンス分析
以下は、さまざまな企業構造がパフォーマンスにどのように影響するかについての著者の観察の一部です。
- 競争力のあるチームは成功の可能性を高めます。
成績上位 2 社 (Microsoft と Apple) は、複数のチームが問題の解決に競い合っていますが、他の企業は 1 つの巨大なチームだけで 1 つのパッチを作成しているようです。
複数のチームにより、問題解決アプローチの多様性が高まり、問題解決の可能性が高まります。
- 単一障害点のある構造はパフォーマンスが低下します。
単一障害点とは、業務の結果を完全に変えることができる高レベルのマネージャー/エージェントを擁する企業 (Google、Amazon、Oracle など) を指します。
複数のエージェント間の対話を調整するときによくある問題は、1 人のエージェントが失敗し、1 人のエージェントがチームの問題解決戦略の方向を変える可能性があることです。
単一障害点を持つ企業は、これらの問題に対して脆弱です。
さらに、トップパフォーマンスを誇る 2 社である Microsoft と Apple は、たまたま時価総額で世界最大の 2 つのテクノロジー企業でもあります。
現実世界で最もうまく機能すると思われる組織構造は、AI エージェントにもうまく機能することがわかりました。
CompaniesMarketCap、2024 年 7 月 25 日のスクリーンショット
SWEベンチの進歩について思うこと
さまざまな企業構造の結果を見ると、この Mini ベンチマークではこれが予想されるはずです。
全体として、ソフトウェア エンジニアリングのような複雑なタスクでは、エージェントを追加したり、エージェントの編成方法を変更したりしても、パフォーマンスの向上はわずかにしかならないようです。
「More Agents Is All You Need」という論文では、精度が大幅に向上した (約 20%) ことがわかりましたが、GSM8K (小学校数学) テストでは、エージェントが 30 人になるとパフォーマンスが大幅に横ばいになりました。
この研究では、過度に複雑なタスク (SWE ベンチのタスクなど) がモデルの推論能力を超え、パフォーマンスの向上が減少する可能性があることも判明しました。
SIMA を使用した場合もこの結果が確認され、基本アーキテクチャ (40 を超えるエージェントを使用) に比べてせいぜい 2 ~ 3% の改善しかありませんでした。
同氏は、この小さな改善は他の非マルチエージェント アーキテクチャでも同様であると期待しています。
著者らは、ベンチマークでより大きな進歩を達成するには、エージェントの実際の論理的推論能力、またはソフトウェアの問題を解決するためにエージェントが採用できる(または与えられる)戦略と方法を変更する必要があると主張しています。
これは、より強力な基本モデル (GPT-5) を通じて、またはエージェントに広範なツールを提供することによって実現できます。
企業運営でも同じです。
肝心なのは、より賢い従業員を雇用したり、より良いリソースを与えたりしなければ、従業員をどのように組織したり、従業員の数を増やしたりしても、従業員の生産性は向上しないということです。
確かに、13 インスタンスのパフォーマンスは、ベンチマーク全体の実際のパフォーマンスとはおそらくかけ離れています。
この小さなサブセットの違いだけでも、注目する価値があるほど十分に大きいです (Google から Apple への最大 50% の改善)。
基礎となるモデル/ツールはエージェント ソフトウェア エンジニアリングの制限要因になる可能性がありますが、基礎となるモデルが改善されるにつれて、(企業組織内かどうかに関係なく) エージェントのコミュニケーション構造の探索を必ずテストする必要があります。
James Huckle 氏が述べたように、この概念は AI エージェントの設計における「主要なハイパーパラメータ」になる可能性があり、異なるタスクには異なる組織構造がより適している可能性があります。
参考文献:
https://alexsima.substack.com/p/ai-multi-agents-with-corporate- Structures