openaiイチゴモデルが深夜に急襲！物理学と化学は博士課程の学生のレベルに達し、gpt-4o よりもはるかに優れており、chatgpt が利用可能

openaiイチゴモデルが深夜に急襲！物理学と化学は博士課程の学生のレベルに達し、gpt-4o よりもはるかに優れており、chatgpt が利用可能です

2024-09-13

著者 | バニラ

編集者 | 李水清

zhidongxi は 9 月 13 日に、今朝早く openai が伝説的な「ストロベリー」モデル- の部分プレビューopenai o1 プレビュー版。これは、複雑なタスクを推論し、以前の科学、プログラミング、数学モデルよりも困難な問題を解決できる一連の新しい ai モデルです。

▲openaiがo1モデルをリリース

openai o1 は、ai モデルの新しいシリーズの最初のものです。以前のモデルとは異なり、進化した推論能力、に入ります答える前によく考えてください、ロングを生成します内部の思考連鎖、競技プログラミングの問題のランキングno.89、米国数学オリンピック予選トーナメントでランクイン最初の500、物理、生物学、化学の問題に関するベンチマークテストの精度人間の博士レベルを超える！

もう一つ新たに発売されたのがo1ミニより高速で小型のモデルです、o1 と同様のフレームワークを使用してトレーニングされました。 o1 mini は科学と工学、特に数学とプログラミングが得意です。コストは o1 プレビューバージョンより 80% 安くなります。

これら 2 つのモデルは、openai によって複雑な推論タスクにおける大きな進歩とみなされているため、gpt シリーズの継続ではなく、カウンターをリセットするために o1 という名前が付けられています。

しかし、o1 モデルの推論強化バージョンは、9.9 と 9.11 のサイズを比較するという「高次問題」で惨めに失敗しました。

▲「サイズ比」の疑問に答えるo1モデル

openaiの創設メンバーであり、tesla aiの元シニアディレクターであり、起業するためにopenaiを辞めたアンドレイ・カルパシー氏は今朝、「o1-miniは常に私のためにリーマン予想を解くことを拒否してきた。モデルの怠惰は依然として大きな問題である」と不満を漏らした。問題😞」

▲アンドレイ・カルパシー氏はo1 miniが「怠けている」と不満を漏らしていた

openai は、モデルが安全にリリースできることを確認するために、o1 プレビューバージョンを厳密にテストおよび評価しました。 chatgpt plus と team のユーザーは現在 2 つの新しいモデルを選択でき、tier 5 開発者も最初に新しいモデルへの api アクセスを取得します。

openai はまた、o1 モデルの背後にあるコアチームメンバーを発表しました。これには、起業するために退職した元 openai チーフサイエンティストの ilya sutskever を含む 21 人の基本的な貢献者と 7 人のチームリーダーが含まれます。

1. mmlu は人間の専門家と同等のプログラミング能力を備えています8ダブルキルgpt-4o

以前に公開したように、openai o1 は、問題に対応する前に、より多くの時間をかけて問題について考えるモデルになるようにトレーニングされています。答える前に考えて、非常に長い社内のアイデアの連鎖、人間のようになれる思考プロセスを改善する，新しい戦略を試し続けるそして自分の間違いに気づいてください。

現在、openai o1 は初期プレビューモデルとして、テキスト会話のみをサポートします、情報を取得するために web を閲覧したり、ファイルや写真をアップロードしたりするなどのマルチモーダル機能はありません。

パフォーマンスの点では、openai o1 は物理学、化学、生物学ベンチマークタスクのパフォーマンスと博士課程の学生かなり、そして数学とプログラミング素晴らしいパフォーマンス。

▲数学とプログラミングにおけるopenai o1評価ベンチマーク

国際数学オリンピック (imo) の予選試験では、openai の前世代モデル gpt-4o の正解率は 13% でしたが、openai o1 は83%に達する。コーディングコンテスト codeforces、openai o1 ではスコアは89です、一方、gpt-4oには11しかありません。 o1-preview モデルのプレビューバージョンでさえ、gpt-4o よりも数倍優れたパフォーマンスを発揮します。

o1 は、ほとんどのベンチマークで gpt-4o よりも大幅に優れたパフォーマンスを示し、57 mmlu サブカテゴリのうち 54 をカバーします。視覚認識機能を有効にした後、o1 は mmlu で 78.2% のスコアを獲得し、人間の専門家と競合する最初のモデル。

▲o1プレビュー版とgpt-4oの性能比較

openai o1 プレビューバージョンの例をいくつか示します。

1. 複雑な論理パズルを解く

を入力してください複雑な年齢パズル: プリンセスは、王子の2倍の年齢、および彼女の年齢が現在の年齢の合計の半分の場合、王子と同じ年齢になります。王子様と王女様は何歳ですか？この問題に対するあらゆる解決策を与えてください。

モデルは20秒以上考えた後、答え始めた。彼の答えの論理は非常に首尾一貫しています。 1 つ目は、年齢の方程式を決定し、与えられたステートメントを数学の方程式に変換し、これらの方程式を満たすすべての可能な解を見つけることです。次に、問題を段階的に分析し始めます。

最初のステップは、王子を表す p と王女を表す q を使用して変数を定義することです。第 2 ステップは、問題内の 2 つの条件を理解することです。第 3 ステップは、条件を方程式に変換することです。方程式; 5 番目のステップステップ 1 では、これらの値を使用してすべての条件を検証します。ステップ 6 では、考えられるすべての解が得られます。

最終的に次のような結論に達しました。

2. 誤りのある文章を翻訳する

不要な子音を追加すると、韓国語の読みに影響します。このような文を見たときに自動的にテキストを変更して理解するネイティブスピーカーにとっては、自然に読むことはできません。しかし、これはモデルにとって難しい課題です。

を入力してくださいひどく破損した韓国語のプロンプトワード最後に、openai o1 は、入力テキストに文字化けまたは位置ずれした韓国語の文字が含まれていることを初めて認識し、ユーザーに入力エラーをチェックするかどうかを尋ねました。

o1 モデルはまず基礎となる構造を理解し、約 10 秒間考えた後、文字化けしたテキストを解読し、翻訳を強化し、概念を理解し、一貫した言語に変換します。

gpt-4o とは異なり、o1 モデルは、回答を出力する前に質問について考え、テキストをチェックして、回答を解読するかのように正しい文に修正します。約 15 秒考えた後、o1 は最終的に最適化された翻訳バージョンを作成しました。

これは、推論スキルが問題解決の強力なツールになることを示しています。

3. 大規模言語モデルのよく知られた難しい問題、つまり単語内の文字を数える問題に答えます。

この例は非常に単純です。strawberry という単語を入力し、モデルにこれを答えさせます。単語には r が何個ありますか?。

その結果、gpt-4o は「2」という間違った答えを出しました。

なぜこのような高度なモデルがこのような単純な間違いを犯すのでしょうか?これは、gpt-4o のようなモデルは文字や単語ではなくテキストを処理するように構築されているため、文字や単語の概念の理解が必要な問題に遭遇すると間違いを犯す可能性があるためです。

推論に基づいた新しいモデル o1 は、数秒考えた後に正しい答えを与えることができます。

4. ビデオゲームのプログラミング

モデルに pygame を使用させますsquirrel finderというビデオゲームを作ってくださいを入力し、次の要件を入力します。ユーザーは、矢印キーを押して画面上の「コアラ」アイコンを誘導し、浮遊するイチゴを避け、制限時間 3 秒以内にリスを見つけて勝利する必要があります。

以前のモデルではこれがより困難でしたが、o1 プレビューバージョンではそれが可能になりました。 o1 は 21 秒間考え、その思考プロセスを使用して、ゲームレイアウトの詳細の収集、描画命令、画面の設定などを含むコード構造を計画し、最終的なゲームプログラミングコードを出力しました。

コードをコピーして sublime text エディターに貼り付けます。実行後、数行の短いプロンプトが表示されます。

その後、「リスを探して」ゲームを開始できます。

o1 モデルは、以前のモデルと比較して大幅に強化された計画機能を示します。

2. ミニバージョンの速度向上3~5通常版のみの価格となります1/5

openaiもリリース「スモールカップ版」モデル openai o1-mini、それより速く、より安く、標準バージョンと同様に数学とプログラミングにおいて優れたパフォーマンスを発揮します。

openai o1-mini は、事前トレーニング中の stem (科学、技術、工学、数学) 推論用に最適化されています。 o1 と同じ計算集約型の強化学習 (rl) パイプラインを使用してトレーニングされた o1-mini は、多くの推論タスクで優れたパフォーマンスを達成しながら、コスト効率が大幅に向上します。

openai o1-miniプレビュー版 openai o1 より 80% 安い、推論は必要だが広範な世界知識は必要としないアプリケーションに適しています。インテリジェンスと推論を必要とする一部のベンチマークテストでは、o1-mini が o1-preview よりも優れたパフォーマンスを発揮することさえあります。

▲数学的性能と推論コスト曲線

高校生数学コンクールaimeでは、o1-miniの正答率は70％とほぼ同等でした。米国の高校生トップ500。同時に、o1 と o1-preview の正解率はそれぞれ 74.4% と 44.6% ですが、o1-mini はそれらよりもはるかに安価です。

人間の好みの評価に関して、openai は人間の評価者に、さまざまな分野の挑戦的なオープンプロンプト単語について o1-mini と o1-preview をテストしてもらい、gpt-4o と比較することにより、次のテスト結果を得ました。 o1-preview と同様に、o1-mini は、重い推論タスクを扱う分野では gpt-4o よりも人気がありますが、言語中心の分野では好まれません。

▲人間の嗜好性評価結果

速度の点では、gpt-4o、o1-mini、および o1-preview はそれぞれ、同じ単語推論の質問に答えるのに時間がかかります。3秒、9秒、32秒、しかし、gpt-4oの答えは間違っており、後の2つの答えは正しいです。 o1-mini が答えを得るまでの速度が速いことがわかります。o1に比べて約3～5倍高速。

▲gpt-4o、o1-mini、o1-previewの応答速度

もちろん、所詮は「去勢版」ですし、openai o1-miniにも一定の制限はあります。日付、伝記、日々のトリビアなど、stem 以外のトピックに関する事実の知識に関しては、o1-mini はある程度制限されており、gpt-4o mini などの小型モデルと同等のパフォーマンスを発揮します。 openaiは、将来のバージョンではこれらの制限を改善し、モデルをstem以外の他の専攻やモダリティにも拡張すると述べた。

3. 推論マーカーを導入し、思考の連鎖を使用して問題を解決する

人間と同じように、o1 は難しい質問に答える前に長い間考え、使用します。思考の連鎖。

o1 は強化学習を通じて、思考の連鎖を改善し、戦略を使用することを学びました。間違いを特定して修正し、難しいステップをより簡単なステップに分解し、現在のアプローチが機能しない場合に別のアプローチを試す能力です。このプロセスにより、モデルの推論能力が大幅に向上します。

具体的には、o1 モデルでは次のようになります。推論マーク(推論トークン)。これらの推論マーカーは、「考える」ために使用され、プロンプトの単語の理解を分析し、応答を生成するための複数の方法を検討します。推論トークンが生成された後、モデルは応答を可視の完了トークンとして生成し、推論トークンをコンテキストから破棄します。

以下は、ユーザーとモデル間の複数ステップの会話の例です。各ステップの入力トークンと出力トークンは保持されますが、推論トークンは破棄されます。

▲o1モデル推論プロセス

openai が大規模な強化学習アルゴリズムのトレーニングを実施したとき、次のことが判明したことは注目に値します。集中的な学習と思考時間の増加により、、というかトレーニング時間とテスト時間が増加すると、，o1 のパフォーマンスは今後も向上します。これは、大規模モデルの事前トレーニングにおけるスケーリング則とは大きく異なります。

▲トレーニング時間とテスト時間の計算により、o1のパフォーマンスは着実に向上します

o1 が達成した飛躍を示すために、openai は、プログラミング、数学、解読、英語などの問題を解決する際に o1 のプレビュー版によって生成される思考の連鎖を公開しました。

たとえば、質問を解読する, gpt-4oはまず入力、出力、例を逆アセンブルし、次に考えられるデコード方法の分析を開始しました。

▲gpt-4oの分解入力、出力と例

最初のフレーズは例と同じ構造に従っている可能性があると推測し、入力テキストが自然な分離やパターンに基づいてグループに分類されるように見えることを認識しましたが、その後、動作を停止し、変換や文字のシフトに関するさらなる情報が必要であると述べました。ビットコンテキストに関与します。

▲gpt-4oはさらなる情報が必要だと述べた

一方、openai o1-preview はいくつかの検討を経ました。正確に答えた。

▲o1-preview はデコードの問題に正しく答えます

最終的に提示された答えは非常に短いものでしたが、o1 の思考プロセスは非常に長く、彼の思考と言葉遣いは非常に人間的でした。「ここで何が起こっているのか」と自問することから始まり、リクエストを繰り返します、開始しますタスクを分解し、目標を明確にする。

▲o1の思考プロセス

その後、o1 が開始されます得た情報に注意してください、そして段階的な分析。

▲o1の思考プロセス

何らかの推論の後、o1 が開始されますさまざまな解決策を考え出す。この過程で、人間と同じように、突然「ちょっと待てよ…」と言って、また考え始めます。新しい方法を試す。

▲o1の思考プロセス

そればかりか、o1の思考過程には「えー」や「面白い」などの単語も出てきます。口語的、感情的表現。

▲o1の思考プロセス

一連の思考全体は非常に長いので、ここでは詳しく説明しません。一般に、openai が述べたように、o1 は人間と同じように思考プロセスを継続的に改善し、新しい戦略を試み、自身の間違いを認識して解決することができます。そしてここでの「人間らしさ」は考え方だけではなく、口調にも反映されています。

4、毎週会話可能30~50回、イリヤは基本的な貢献に参加しました

今回はこれまでとは異なり、openaiは先物を上場していませんでしたが、直接オンラインに接続する2つのモデル。

今後、chatgpt plus および team ユーザーは chatgpt で o1 モデルにアクセスし、モデルセレクターを通じて o1-preview または o1-mini を手動で選択できるようになります。エンタープライズおよび教育ユーザーは来週から使用できるようになります。また、無料ユーザーも使用できるようになります。将来的にはアクセスを取得する予定です。

▲chatgpt上でo1モデルにアクセス可能

ただし、おそらくセキュリティやコストを考慮して、現在、プレビューバージョンとミニバージョンの両方のモデルでメッセージの数が制限されています。1 週間に送信されるメッセージの数はそれぞれ 30 件と 50 件です。。 openaiは、クォータを増やし、指定されたプロンプトの単語に基づいてchatgptが適切なモデルを自動的に選択できるようにするために懸命に取り組んでいると述べた。

openaiはo1モデルのapi（アプリケーションプログラミングインターフェース）も開始した。資格のある開発者は、レート制限 20 rpm で両方のモデルの api を使用してプロトタイピングを開始できるようになりました。これらの api には現在、関数呼び出し、ストリーミング、システムメッセージおよびその他の関数のサポートは含まれていません。

▲o1、o1ミニモデルapi

api ドキュメントからわかるように、これら 2 つのモデルはコンテキストウィンドウはすべて 128kミニバージョンの出力ウィンドウは長くなりますが、o1の2倍です, なお、2モデルの学習データは2023年10月時点のものです。

openai は、o1 モデルの背後にあるチームも発表しましたコアチームメンバー：

▲o1モデルを支えるコアチームメンバー

で基本的な貢献メンバーは 21 人です、その中には、起業するために退職した元openaiチーフサイエンティストのイリヤ・サツケヴァー氏も含まれる。

チームリーダーは7人、それぞれヤクブ・パチョッキ、ジェリー・トゥレク（総合）、リアム・フェドゥス、ウカシュ・カイザー、マーク・チェン、シモン・シドル、ヴォイチェフ・ザレンバ。プロジェクトマネージャーは、lauren yang と mianna chen です。

チームメンバーによると、推論とは、思考時間をより良い結果に変換する能力であり、以前よりも多くの計算を投資し、一貫したアイデアを生み出すためにモデルをトレーニングし、以前とはまったく異なるパフォーマンスを生み出しました。

彼らは強化学習を使用して ai モデルをトレーニングし、人間によってプログラムされた思考連鎖よりもさらに優れた独自の思考連鎖を生成して磨き上げます。 ai モデルをトレーニングして独自の思考プロセスを生成するこの方法により、エラーを理解して修正する能力が大幅に向上し、初期の o1 モデルはすでにデータテストでより高いスコアを達成しています。

中心的な貢献者とその他の貢献者のリストは次のとおりです。

▲o1コア貢献者およびその他の貢献者のリスト

管理リーダーには、openai の ceo である sam altman 氏、社長の greg brockman 氏、ceo の mira murati 氏、およびサポートリーダー 8 名を含む 8 名が含まれます。

▲o1 運営リーダーシップ、サポートリーダーシップ

新しい o1 モデルは、状況に応じてセキュリティルールをより効果的に推論し、活用できます。 openai は、既存のリソースから生じる可能性のあるリスクを増大させることなくモデルを安全にリリースできることを保証するために、o1-preview の厳格なテストと評価を実施しました。

結論：openaiはテーブルをひっくり返し、「strawberry」は大規模なモデルパターンを再構築しますか？

謎の q* モデルから「イチゴ」モデルまで、openai の新しいモデルがついに利用可能になりました。昨年 11 月に openai の「クーデター」が始まって以来、このモデルがアルトマン氏の追放につながる重要な要因の 1 つであることが暴露されてきました。当時、q* モデルのデモンストレーションが openai 内で広まっているという噂があり、その開発のスピードは一部の ai セキュリティ研究者に衝撃を与えました。

gpt-4o とは異なり、o1 モデルは gpt の継続ではなく、新しい番号命名シリーズを直接開くことを選択しており、これは openai が gpt を非常に重要視していることを示しています。

多くの大手モデルメーカーがマルチモーダルおよびボリュームアプリケーションを展開し始めている現在、openai の純粋なテキストモデル o1 のリリースは、基礎となるモデル機能の向上に再び世間の注目を集めるかもしれません。大規模なモデルランドスケープが o1 の影響下で再構築されるかどうかは、まだわかりません。

ニュース

openaiイチゴモデルが深夜に急襲！物理学と化学は博士課程の学生のレベルに達し、gpt-4o よりもはるかに優れており、chatgpt が利用可能です

導入

私の連絡先情報