「職業としてのプログラミングは今日で終わる」openaiの新モデルの怖いところ o1

「職業としてのプログラミングは今日で終わる」openaiの新モデルo1の怖いところ

2024-09-15

著者：ファンファン、編集者：odette、タイトル画像提供：aiジェネレーション

以前、openai の高層地震をまだ覚えていますか?

サム・アルトマン氏の解任、共同創設者グレッグ・ブロックマン氏の退任、そしてopenai内部の対立激化の引き金となったのは、q*（キュースターと発音）と呼ばれるプロジェクトだった。

事情に詳しい関係者によると、q*プロジェクトは当時大幅な進歩を遂げており、すでに基本的な数学的問題を解決できるようになっていたという。限られた数の演算しか解決できない電卓や、同じ質問に対して毎回異なる答えが得られる gpt-4 とは異なり、q* は、agi への重要なステップである、一般化、学習、理解する能力をすでに備えている可能性があります。openaiの研究者らは、q*の大発見が全人類を脅かす可能性があると警告する書簡を取締役会に送ったが、サム・アルトマンはこれを隠蔽した。

openai は地球を揺るがす内部変化を経験しましたが、openai 自体が q* の存在に直接反応したことはありません。

今日、openai が突然新しいモデルをリリースしましたが、これはまだプレビューバージョンであり、後に「strawberry」というコードネームで呼ばれるようになった伝説の q* であり、現在は openai o1-preview です。

chatgptと同じシリーズではなくなった、複雑な問題を解決するための新しい推論モデル｜openai

o、依然として「omini」、すべてを包括する o ですが、openai によると、このモデルは「人工知能の新たな高みを表し」、作業方法において以前の大きなモデルとは大きく異なるため、新しいモデルを個別に確立することができます1 から数えたシリーズ (gpt5: もう古い!)。

このモデルが、ilya sutskever 氏やその他の openai の反抗的な元中心科学者らによって判断されたように、完全な道徳的制約なしに人類を agi (人工知能) 時代に押し込む「人類を脅かす」かどうかについては、記事を読むことができます。その後は自分で判断してください。

o1、すべてを上回るパフォーマンス

1つ目はおなじみのスコアリングリンクです。

大型モデルは毎世代登場し、前例のない新たな高みに到達しますが、今回の o1 は根本的に異なります。

現在普及している大型モデルの多くはチャットボット形式であり、思考経路の説明が難しく、開発の方向性もマルチモーダル（話す・見る・聞く）となっており、口調がますます人間らしくなってきています。そして反応。 o1はそれらとは異なります。

まず第一に、その目標はますます速くなったり、ますます遅くなったりすることではありません。

openaiの科学者ノーム・ブラウン氏は、現在o1は数秒で答えを出せるが、将来的には数時間、数日、さらには数週間も考える能力が必要になるだろうと述べた。その後、o1 は 10 秒以上考えて、ある症例を診断しました。ノーム・ブラウンが言いたかったことは、推論時間が長いということは、モデルがより長い思考チェーンを構築し、より深い思考を実行できることを意味します。

次に、o1 は、これまでの大規模な言語モデルのアキレス腱である数学を突破しました。

aime (米国数学招待試験) は、オリンピックよりも簡単ですが、sat よりもはるかに難しいです。一般に、米国の数学で優秀な高校生を選抜するために使用されます。 gpt4-o が招待大会の問題を書くように求められたとき、彼は 12 点しか獲得できませんでしたが、o1 は質問に一気に答えて 74 点を獲得しました。 1,000 回サンプリングしてから、スコアリング関数を使用して 1,000 個のサンプルを並べ替えると (これにより、モデルの予想レベルがより適切に反映されます)、o1 は 93 ポイントを獲得し、米国の上位 500 社に入ることができ、米国の最終候補者に選ばれる可能性があります。数学オリンピック。

o1とgpt-4oの性能を比較すると数学的進歩は非常に大きい｜openai

o1 に 2024 年の国際情報オリンピック (ioi) の問題を作成させます。各問題は 10 時間以内に最大 50 回提出でき、そのスコアは 213 ポイントで、人間のプレイヤーの上位 49% にランクされました。提出数が 10,000 件に増加すると、o1 は 362.14 点を獲得し、ioi 金メダルを獲得し、清華大学に推薦される可能性があります。

実際のテストでは、openai で使用できる先進的なバージョンではなく、o1 の微調整されたバージョンが使用されました。

また、利用できない検査も多数あります。たとえば、gpqa (物理学、化学、生物学を組み合わせた知能テスト) では、o1 がいくつかの問題で関連分野の博士号を上回りました。

要するに、すでに強力な分野におけるインボリューションは、もはや o1 の目的ではありません。それは、大規模な言語モデルが苦手とする複雑なロジックでブレークスルーを達成することです。

一歩下がって二歩進む

前述の通り、o1の反応速度は遅くなりました。

反応する前に考えるのにもっと時間がかかり、その後、思考プロセスを洗練し、さまざまな戦略を試し、間違いから学びます。これは怖いですね。

さらに、o1 は現在マルチモーダルモデルではありません。openai は 2 年をかけて、見ることも聞くこともできる大きなモデルに戻りました。o1 は文字入力のみを受け付けることができます。

o1 の場合、遅くて単調です。一歩下がって二歩前進です。 o1 を使用したことのある人は、o1 はこれまで使用した中で最もスマートなモデルであり、o1 との会話は以前の些細な喧嘩を超えたものになったと述べています。

あるテストで、ユーザーは o1 に「この質問の答えには何語ありますか?」という論理的な逆説の質問をしました。

o1 さんは 10 秒間考え、その思考プロセスを示しました。まず、これは自己言及のパラドックス、つまり答えが決まらないときは答えの単語数が決まらない再帰的質問であると考えられました。「明確かつ簡潔な回答には、不必要な表現を避けることが重要です」。次のステップは単語を数えることであり、文中に現れる数字は文中の単語数と一致する必要があります。次に、多くの文をリストし、最も適切な一致オプションを見つけました。「これには 5 つの単語があります」には 5 つの単語があるため、文の構造を完全な答えに変更した後、5 を 7 に置き換える必要があります。

すると、「答えには 7 つの単語があります」と答えました。

この推論プロセスは私の推論プロセスとあまり変わりません｜x

別の例では、o1 は「straberry には r がいくつありますか?」という単純な質問に答えるのに 5.6 秒かかり、631 個のトークンが必要でした。

上記の例から、次のことがわかります。o1 の動作方法は chatgpt とは根本的に異なります。o1 には推論トークンが追加されました。これにより、質問が複数のステップに分割され、それらを個別に検討してから、推論トークンが削除されて回答が生成されます。

以下の図はアイデアチェーンの仕組みを示しており、o1 の応答速度が遅くなった理由も説明されています。

o1 を使用する場合は、その能力をテストするためにいくつかの古典的な論理問題や数学的問題を使用するとよいでしょう。

単純な質問に答える場合、推論を複数回実行するかどうかの違いは明らかではないかもしれませんが、コードの作成、数学の問題、科学などの複雑な問題を解決するために使用される場合、この種の思考能力は不可欠です。

openaiは論文の中で、現在、医療関係者はo1を使用して細胞配列データに注釈を付けることができ、物理学者はo1を使用して量子光学に必要な複雑な数式を生成でき、さまざまな分野の開発者はo1を使用して複数ステップの作業を構築および実行できると述べています。。プロセス。

さらに、これは思考様式の原型であり、知恵の初期の形です。

新しいモデル、新しい習慣

o1 の動作方法は chatgpt とは異なるため、以前に見た、プロンプトの書き方を教えるチュートリアルは適用できなくなりました。現状では、記述が多すぎると大量のトークンを消費するだけで、必ずしもトークンを取得できるわけではありません。より良い結果が得られます。

これをすべてのユーザーに明確にするために、openai は新しいトークンガイドラインを作成しました。 openai はガイドの中で、o1 での最良のプロンプトは直接的かつ簡潔なものであると説明しており、モデルにそれを段階的に実行するよう指示したり、いくつかのプロンプト単語を散在させることは逆効果になる可能性があります。公式の推奨事項をいくつか紹介します。

プロンプトはシンプルかつ直接的なものである必要があります。モデルは、あまり多くの指導を必要としない、簡潔で明確な指示に最もよく反応します。

プロンプトでの思考連鎖を避けます。 o1 は独自の内部推論を行うため、それを段階的にガイドしたり、思考経路を説明したりすることは役に立ちません。

わかりやすくするために区切り文字を使用することをお勧めします。 ""、<>、§ などの区切り文字を使用してプロンプトのさまざまな部分を明確に区別し、モデルがバッチで問題を処理できるようにします。

拡張生成での追加コンテキストの取得を制限します。モデルについて考えすぎないように、最も関連性の高い情報のみを提供してください。

3番目の記事を見て、この形式に少し親しみを感じました。将来のプログラマーは自然言語プログラミングを使用する可能性がありますが、基本的な命令は同じですが、言語化されています。最新のガイドラインに従うと、適切なプロンプトは次のようになります。

または次のようなもの:

§ ホスト § 作家 § バーのオーナー § 油絵師 § 革細工師 § 銀細工師 § 歌手 § タンバリンアーティスト § バックパッカー § 黄金の左頬 § フランス騎士 § 禅の弟子 §

残りはモデルにやってもらいましょう。

3d ヘビを作るので少し待ってください

蛇を例に挙げたのには理由があります。 o1 がリリースされてから 1 日も経たないうちに、3d snake を含む多くの試みが行われました。

x の @ammaar reshi は、非常に簡単なプロンプトを使用して 3d ヘビをわずか 1 分で作成し、o1 はコードの使用方法も彼に教えました。

プロンプトの書き方を学びましたか? ｜@ammaar reshi

効果は少し粗雑ですが、それが貪欲な蛇ではないとは誰も言えません。

そしてとても楽しい｜@ammaar reshi

ネットユーザーの @james wade は、o1 を使用して、各ディストリビューションの簡単な説明と例を表示できるデータ分析アプリを作成しました。これには、展開時間を含めてわずか 15 分しかかかりませんでした。彼はこう言いました。「これまでこんなことをしようと思ったことはなかった。とても面倒だった。」

効果は写真の通り｜@james wade

16 年間働いている別のフルスタックエンジニア @dallas lones は、react native フルスタック開発アプリを数分で作成した後、感慨深そうにこう言いました。すぐに事業を始めたわけではありませんが、今ではこの工芸品は時代の涙になりました。彼はこう言いました。「職業としてのプログラミングは今日正式に終了します。」

o1の限界に挑戦する人が増えており、すでにプレイしている人もいます「誰の質問がより難しく、o1 に最も長い時間考えさせることができるか見てみましょう。」ゲーム。

現在、o1 はまず chatgpt plus と team ユーザーに公開されていますが、api アクセスはまず openai api に 1,000 ドル以上を費やしたレベル 5 ユーザーに公開されます。次のステップでは、openai は o1-mini のロープロファイルバージョンを段階的に無料ユーザーに公開します。

これが人類の夕日となるのでしょうか？

ニュース

「職業としてのプログラミングは今日で終わる」openaiの新モデルo1の怖いところ

導入

私の連絡先情報