最も強力な AI プログラマーが職を失いました。彼は 84 秒でコードを実行し、人間のように考えました。チームはたったの5人

2024-08-13

ジンレイの西風はアオフェイ寺院から発生します
パブリックアカウント QbitAI

デビンの後にもう一人AIソフトウェアエンジニア画面がスワイプされた——

それは呼ばれますジーニー、現在として知られています表面上は最強、すでに人間のように考えて行動することができます。

では、この「地上最強」はどれほどの強さなのでしょうか？

まずは見てみましょうレビュースコア。

権威あるリスト SWE-Bench で、Genie が解決しました30.07%この質問のスコアはリストのトップでした。

(SWE-Bench は、現実世界のソフトウェア問題を解決するための大規模モデルを評価するために使用されるベンチマークです。)

この結果は2位を19.27%も引き離し、ロックを解除したと言えます。SOTA 改善の最大の増加 - 57%!

ジーニーに関しては実際の効果、チームの言葉では次のようになります。

人間のエンジニアと同じように、現実のソフトウェアの問題を解決できます。

まず、Genie を起動するには、プロンプトワード、GitHub Issue、Linear Ticket、API の 4 つの方法を使用できます。

GitHub の問題の解決を例として挙げると、まず Genie にリポジトリへのリンクをフィードすると、Genie が開始されます。問題を自動的に解決する得たもの:

ジーニークラブ自動反復思考この問題を解決したい場合、満足のいくファイルが見つかるまでどのようなファイルが必要になるでしょうか。

その直後、それは、自動反復分析プロセス:

それからジーニーは「シュシュ、シュシュ、シュシュ」と始めました。コードを自動的に作成して実行する得たもの:

コードの実行中にバグが発生した場合、Genie は問題の領域のみに焦点を当て、分析、コードの作成、実行のプロセスを最後まで繰り返します。

プロセス全体には時間がかかるだけです84秒！

チームの言葉:

Genie は、人間のプログラマーがどのようにソフトウェアの問題を解決するかを何百万回も観察し、そこから学んできました。
これは人間のプログラマーが一生かかっても達成できない数字です。

しかし、さらに予想外だったのは、Genie の背後にあるチームです——コサイン、たったの5人。

また、CEO の Alistair も OpenAI に感謝のメッセージを投稿しました。

あなたなしではジーニーを作ることはできませんでした。

では、Cosine チームはどのようにして Genie を構築したのでしょうか?

最強のAIエンジニアになるには？

Genie の主な特徴は、人間のエンジニアの認知プロセス、ロジック、ワークフローを模倣する機能です。

これを行うために、Genie チームは、過去 1 年間にわたる実際の人間のプログラマーの開発活動を含むデータセットを収集したことを明らかにしました。

結果分析、静的分析、自動再生、ステップバイステップ検証などの手法を使用するだけでなく、大量のラベル付きデータに基づいてトレーニングされた AI モデルも使用します。利点は、基礎となるモデルの機能が向上するにつれて、抽出できるデータの品質も向上することです。

ついにジーニーこの独自データをトレーニングに使用します。

人間の推論の完全なプロセスは、完全な情報追跡、段階的な知識発見、ソフトウェアエンジニアの実際の作業事例に基づく段階的な意思決定プロセスなど、データセットにエンコードされています。

Genie の推論プロセスには以下が含まれます計画、検索、コード作成、コード実行4 つの主なステップは、基本モデルに Web ブラウザーやコードインタプリタなどのツールを追加することに依存している他の AI エンジニアの限界を打ち破り、人間と同じように多様で状況に応じた前例のない問題を処理できるようにします。

このトレーニング方法により、ネチズンはカルパシーが以前に提案したのと同様のアイデアをすぐに思いつきました。

LLM にとって、理想的なトレーニングデータは、作成したコンテンツそのものではなく、作成プロセス中の完全な思考プロセスとすべての編集アクションです。ただし、私たちができるのは、私たちが持っているリソースで最善を尽くすことだけです。

さらに、Genie トレーニングも導入されています自己改善のメカニズム。

初期トレーニングデータはほとんどエラーがなく、正常に実行できるコードであるため、Genie がエラー状況に対処することが困難になります。この問題を解決するために、チームは Genie の最初のバージョンを使用してエラーを含む合成データを生成し、このデータを使用してモデルの次のバージョンをトレーニングしました。

具体的には、古いバージョンの Genie を使用して解決策を提案し、その解決策が間違っている場合は、マスタリングされたタスクの最終状態を使用して、現在の状態から正しい状態に到達するようにタスクに学習させます。

このプロセスを繰り返すことで、Genie が提案する最初の解決策は徐々に正確になり、ほとんどの場合に直接正解が得られ、たとえエラーがあったとしても、データセットの修正が少なくて済みます。

Genie の機能を向上させるもう 1 つの鍵は、OpenAI によって提供される大規模モデルのサポートにあります。

チームは、最初に Genie を開発したとき、微調整のために 16 ～ 32,000 の範囲の短いコンテキストモデルしかアクセスできなかったと述べました。これらのモデルは初期の開発の多くに使用され、1 億を超えるトークンデータをトレーニングに使用しました。彼らは、設計されたアーキテクチャには特定の利点があることを発見しましたが、基本的にはモデルが一定時間内に処理できる情報量によって制限されます。

さまざまな圧縮/チャンキング方法を試した結果、唯一の解決策は、より大きなコンテキストを持つモデルを使用することでした。

OpenAI は長いコンテキストモデルのサポートを提供し、Genie の最新バージョンは数十億のトークンでトレーニングされています。

チームは、ハイパーパラメータの調整やデータ量と比較して、データの品質が鍵であると考えています。そのため、言語、タスクの種類、タスクの長さなどの複数の側面を含むデータ混合に関する多くの実験も実施しました。以下は、Genie のトレーニングに使用されるさまざまなプログラミング言語データの割合です。

さまざまなタイプのインスタンスのデータ比率もあります。

たった5人のチーム

上で述べたように、Cosine のスタートアップチームには現在 5 人しかいません。

公式ウェブサイトの紹介文では、彼らは自分たちについて次のように非常に直接的に説明しています。

小さいけれど力強い。
小さいながらも強力です。

紹介文から察するに、メンバーの中にはユニコーン企業出身の人もいれば、グローバルチームのマネジメント経験のある人もいますし、8歳からプログラミングを始めている人もいます。

しかし、コサインが設立された当初、彼らの目標はわずか 3 人でした。人間の推論を理解する。

チームメンバーの一人が中国人であることは言及する価値があります。ヤン・リー, コサインの共同創設者で、2021年にはフォーブス誌の30歳未満の30人に選ばれました。

さらに、Genie 自体について、CEO の Alistair 氏は次のようにも述べています。

私たちは 2022 年には Genie の構想を描き始めましたが、当時は技術的に実現可能ではありませんでした。
大型モデルが徐々に成熟するにつれ、Genie が現実のものになったのは、ここ半年ほどのことです。

まあ、ビッグモデルがまたもや大きな貢献をしたと言わざるを得ません。

Genie は現在ウェイトリストに申請できます。興味のあるお友達は記事の最後にあるリンクをクリックしてください。

待機リストのアドレス:
https://cosine.sh/register

参考リンク:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/state-of-the-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_

ニュース