ニュース

OpenDevin が大規模モデルのエージェント開発者必読の技術レポートをリリースしました

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



マシンハートレポート

編集者:チェン・チェン、ゼナン

人気の汎用大型モデルエージェントプラットフォーム。

今年3月、「世界初のAIソフトウェアエンジニア」であるデビン氏がAIサークルを爆発させた。これまでの AI プログラミング アシスタントとは異なり、Devin はプログラミングを支援する役割を果たすだけでなく、開発プロジェクト全体を独立してエンドツーエンドで完了することができます。



デビンの誕生により、私たちは大型モデルのエージェントの強力な能力を理解することができました。すぐに、それを模倣しようとする多くのオープンソース プロジェクトが業界に現れました。その中でも、OpenDevin は際立って最も注目を集めました。

OpenDevin は、ソフトウェアを通じて世界と対話する汎用エージェントを開発するためのプラットフォームです。

大規模モデルのエージェント、インターフェース、環境間の対話メカニズム。

エージェントが利用できるサンドボックス オペレーティング システム + Web ブラウザ環境。

コードを作成および実行するためのインターフェイス。

マルチエージェントのサポート。

評価フレームワーク。

現在、OpenDevin の GitHub は 29,000 個を超えるスターを獲得しています。



最近、OpenaDevin チームはこのツールに関する技術レポートをリリースしました。



レポートアドレス: https://arxiv.org/pdf/2407.16741

OpenDevin の著者、イリノイ大学アーバナ・シャンペーン校、カーネギーメロン大学およびその他の機関の学者らは、技術レポートの中で、ソフトウェア エージェントを通じて世界と対話する汎用および特殊 AI を開発するためのコミュニティ主導型プラットフォームである OpenDevin について詳しく説明しています。

さらに重要なのは、OpenDevin は概念的なフレームワークであるだけでなく、包括的ですぐに使用できるエージェント、環境、および評価の実装も含まれています。このレポートのリリース時点で、OpenDevin にはエージェント センターが含まれており、CodeAct アーキテクチャに基づく強力な汎用エージェントを含む 10 を超えるエージェントが実装されており、Web ブラウジングとコード編集のための機能が追加されています。ユーザーとエージェントの対話はチャット インターフェイスを通じて行われ、エージェントの現在の操作が視覚化され、リアルタイムのフィードバックが可能になります。さらに、評価フレームワークは現在、エージェントのパフォーマンスの評価に使用できる 15 のベンチマークをサポートしています。

OpenDevin アーキテクチャ

この記事では、(1) エージェントを定義および実装する方法、(2) アクションの実行によって観察が促進される方法、(3) エージェントが一般的に使用するスキルを管理および拡張する方法、(4) という観点から OpenDevin について説明します。複数のエージェントを統合する方法 タスクを解決するために連携します。



エージェントを定義して実装する方法

エージェントは環境の状態を感知し、ユーザー指定のタスクを解決するときに実行するアクションを生成できます。

状態とイベントの流れ。 OpenDevin では、状態は、エージェントがタスクを実行するために関連するすべての情報をカプセル化するデータ構造です。この状態の重要なコンポーネントは、過去のアクションと観察の時系列のコレクションであるイベント ストリーミングです。

アクション。 CodeAct からインスピレーションを得た OpenDevin は、アクションのコア セットを通じてエージェントを環境に接続します。アクション IPythonRunCellAction および CmdRunAction を使用すると、エージェントはサンドボックス環境 (安全に分離された Linux オペレーティング システムなど) 内で任意の Python コードおよび bash コマンドを実行できます。 BrowserInteractiveAction は、エージェントと Web ブラウザ間の対話をサポートします。

観察する。観測値は、エージェントによって観測された環境の変化を記述します。これは、エージェントのアクションによって引き起こされる場合とそうでない場合があります。1) ユーザーによって与えられた自然言語命令、2) エージェントの以前のアクションの実行結果 (コード実行結果など) が考えられます。

新しいエージェントを実装します。エージェントの設計はシンプルでありながら強力であるため、ユーザーはさまざまなタスク用にエージェントを簡単に作成およびカスタマイズできます。核心はステップ関数にあり、現在の状態を入力として受け取り、エージェントのロジックに基づいて適切なアクションを生成します。図 2 は、エージェント抽象化の簡略化されたコード例を示しています。



アクションの実行結果を観察する

エージェント ランタイムは、人間のソフトウェア開発者と同等のアクション スペースをエージェントに提供し、OpenDevin が複雑なソフトウェア開発ワークフロー、データ分析プロジェクト、Web ブラウジング タスクなどを含む、さまざまなソフトウェア開発および Web ベースのタスクを処理できるようにします。これにより、エージェントは bash ターミナルにアクセスしてコードやコマンドライン ツールを実行したり、Jupyter ノートブックを活用してオンザフライでコードを作成および実行したり、Web ブラウザと対話して Web ベースのタスク (情報検索など) を実行したりすることができます。

スケーラブルなエージェント - コンピュータ インターフェイス

著者らは、エージェントの機能を強化するために設計されたツールボックスである AgentSkills ライブラリを構築し、基本的な bash コマンドや Python コードではすぐに利用できないユーティリティを提供しました。

マルチエージェントのインタラクション

OpenDevin を使用すると、複数のエージェントが対話できるようになります。これを実現するために、作成者は、エージェントが特定のサブタスクを別のエージェントに委任できるようにする特別なアクション タイプである AgentDelegateAction を使用しました。

評価する

このセクションでは、OpenDevin (以下の実験結果では OD と略します) とオープンソースの再現可能なベースライン手法を比較します。 15 のベンチマークは、ソフトウェア エンジニアリングや Web ブラウジングなどのタスクをカバーします。



表 3 は、OpenDevin エージェントがすべてのカテゴリで最適なパフォーマンスを達成できるわけではないものの、汎用性を念頭に置いて設計されていることを示しています。



表 4 は、ソフトウェア エンジニアリング ベンチマークにおけるエージェントの結果を示しています。



特に:

SWE ベンチは、バグ レポートや機能リクエストなどの GitHub の問題を解決するエージェントの能力を評価するように設計されています。表 4 に示すように、この記事の最新バージョンの CodeActAgent v1.8 は、claude-3.5-sonnet に基づいており、ソフトウェア開発専用に使用される他のオープンソース エージェントと比較して、最大 26% の問題解決率を持っています。

HumanEvalFix。 OpenDevin CodeActAgent は、Python 分割のエラーの 79.3% を修正することに成功し、すべての非エージェント方式を大幅に上回り、StarCoder2-15B のパフォーマンスをほぼ 2 倍にしました。

GPT-4o に基づく OpenDevin エージェントは、ML-Bench で 76.47% という最高の成功率を達成しました。これは、SWE-Agent (42.64%) よりも優れています。

Gorilla APIBench は、エージェントの API 使用能力を検査します。 GPT-4o を使用した OpenDevin の成功率は 36.4% で、これは API 呼び出し用に特に微調整されていないベースラインよりも優れています。

ToolQA は、外部ツールを使用するエージェントの能力を評価します。 GPT-4o を使用した OpenDevin は、すべてのベースラインと比較して最高のパフォーマンスを示します。エージェントは、CSV およびデータベース ツールの使用に関連するタスクのパフォーマンスは向上しましたが、数学および電卓ツールの使用については改善が必要でした。

表 5 に、Web ブラウジング ベンチマークの評価結果を示します。



表 6 は、さまざまな補助ベンチマークの結果を示しています。



このうち、一般的なタスクを解決するエージェントの能力を評価するために GAIA が使用され、その結果、エージェントは GAIA で 32.1 ポイントを達成し、元の AutoGPT と比較して大幅に向上しました。

GPQA は、大学院レベルの困難な問題を解決しながら、ツールの使用を調整するエージェントの能力を評価するために使用されます。結果を表 6 と 7 に示します。OpenDevin は、複数のツールと Web 検索の使用をサポートする機能を統合し、エージェントが複雑な複数ステップの問題をより適切に解決できるようにします。



詳細な結果については、元の論文を参照してください。