ニュース

openaiの新o1モデルを5次元で評価:コーディングやゲーム制作などの能力は「驚異的」だが事実認識は「覆される」

2024-09-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

伝説の「ストロベリー」モデルが今日、何の前触れもなく突然オンラインに登場しました!

openai によってリリースされた最新モデルは o1 と呼ばれ、一連の推論モデルの最初のバージョンです。現在、公開されているモデルは次のとおりです。o1-preview (プレビュー版) および o1-mini (ミニバージョン)

現在、o1-preview と o1-mini は chatgpt plus と team サブスクライバーにすでに利用可能ですが、enterprise と edu ユーザーは来週初めにアクセスできるようになる予定です。 openaiは、chatgptのすべての無料ユーザーにo1-miniアクセスを提供する計画だと述べたが、リリース日はまだ設定していない。

openai によると、o1 モデルは問題解決能力の点でこれまでのどのモデルよりも人間の思考に近く、数学、コーディング、科学のタスクを「推論」することができます。

新しいモデルの機能がopenaiが主張するほど強力であるかどうかを検証するために、「デイリー経済ニュース」の記者が名作「いちごテスト」よりo1 プレビュー モデルは、コード作成、ミニゲーム制作、数学と経済学、事実知識の 5 つの側面でテストされました。

結果は、o1-preview が、openai が以前にリリースした大規模モデルを超えるプログラミングおよび数学的推論機能を実証したことを示しました。たとえば、o1-プレビュースムーズに実行されるコードを記述し、複雑な環境でも自分で解決策を推論する能力。さらに、記者はテストの過程で、o1-preview が人間化の点でも大幅に改善され、実際の人間の思考を示していると感じました。しかし、新型にも欠点がないわけではなく、事実知識テストで「ひっくり返った」。

伝説の「ストロベリー」が登場

現地時間 9 月 12 日、openai は o1 と呼ばれる新しいモデルをリリースしました。これは、同社が使用する予定の一連の「推論」モデルの最初のバージョンです。これは、業界で噂されている「イチゴ」モデルでもあります。長い間。

画像出典:xプラットフォーム

openai にとって、o1 は人間のような ai という目標に向けた新たな一歩を表します。 openai は、o1 がまったく新しい機能であると考えており、これは非常に重要であると考えられているため、同社は現在の gpt-4 モデルからやり直すことを決定し、「gpt」ブランドを完全に放棄し、1 から名前を付けました。

openaiは、現在のgpt-4モデルからやり直すと述べ、「カウンターを1にリセット」し、これまでチャットボットと生成aiブーム全体を定義してきた「gpt」ブランドも放棄するという。o1 は、人間が推論する方法と同様に、各ステップが前のステップに基づいて構築される、一連の個別のステップを通じて慎重かつ論理的に問題を解決できるシステムを構築しました。

openaiのチーフサイエンティスト、ヤクブ・パチョッキ氏は、以前のモデルではユーザーからの問い合わせを受け取るとすぐに回答を開始していたと述べた。 「そして、このモデル (o1 を参照) には時間がかかります。問題について考え、分解し、角度を見つけて、最良の答えを提供しようとします。これは、ほとんどの人が両親から尋ねられた質問とまったく同じです。」彼らは若かった、話す前に考えてください。

openaiはこう言いました。o1 は、競技プログラミング問題 (codeforces) で 89 パーセンタイルにランクされ、アメリカ数学オリンピック (aime) 予選では米国の上位 500 人の学生にランクされ、物理、生物学、および化学問題のベンチマーク テスト (gpqa) の精度でランク付けされています。人間の博士号のレベルを超える

openai が公開した研究やブログ投稿によると、o1 は高度な数学やコーディングの問題を解決できるだけでなく、複雑なパスワードを解読し、遺伝学、経済学、量子科学に関する専門家や学者からの質問に答えることもできる、非常に強力な「推論」機能を備えているようです。 . 物理学の複雑な問題。多数のチャートがそれを示しています社内評価では、o1 はコーディング、数学、さまざまな科学分野の問題で同社の最先端の言語モデルである gpt-4o を上回り、さらには人間をも超えた可能性があります。

画像出典:openai公式サイト

実技試験の5つの側面:コーディングやゲーム制作などの能力は「すごい」が、事実知識試験では「不合格」

o1 モデルの強力な機能をより深く理解するために、「デイリー エコノミック ニュース」の記者は、古典的なイチゴのテスト、コード作成、ミニゲームの制作、数学と経済学、そして事実の知識。

1) イチゴテスト

まず記者は、これまでにほぼすべての大型モデルが“ひっくり返った”という簡単な質問、つまり「イチゴという単語にはrはいくつあるか?」を使ってテストを行った。。生成された結果から判断すると、o1-preview はまだ少し驚きをもたらしました。

2) コードの書き方

記者は最初に、オンライン プログラミング プラットフォーム leetcode で最も有名な単純なアルゴリズムの質問である two sum (2 つの数値の合計) 問題について o1-preview に質問しました。 o1 は非常に詳細な推論プロセスと回答を提供しました。

その後、記者は意図的に答えを最適化するよう求め、9 秒間考えた後、o1 は自分が提供したものがすでに最適な解決策であることに気づき、さらに「慎重に」次善の解決策も提供しました。記者による以前の他のモデルのテストでは、これらのモデルは謝罪するだけで、次善の解決策に答えを変更していました。

3) ミニゲーム制作

o1モデルのデモでは、openaiが「ミニゲームを一文で書く」機能をデモした。テストプロセス中、記者は o1-preview に便利なコーディング ツールの導入と卓球ゲームの作成を手伝ってくれるように依頼しました。

o1-preview は、スムーズに実行できるコードを提供するのにわずか 19 秒かかり、学習ガイドと励ましの言葉が添付されているため、非常にユーザーフレンドリーです。

o1-preview が不正行為をしたり、回答する推論能力の代わりに記憶能力を使用したりするのを防ぐために、記者は o1-preview にコード実行環境を変更するよう要求しました: jupyter note。この実行環境はデータ分析に特化した python 環境であり、開発者は基本的に小規模なゲームの開発にはこの環境を使用しません。

考えてみると、o1 はまだ実行できるコードを提供していました。ただし、前のコードと比較すると、この回答には多くのバグがありますが、これは、これがトレーニング プロセス中に追加された標準的な回答ではなく、実際に考え抜かれた回答であることも示しています。

o1-preview の革新的な推論機能をさらに検証するために、記者はモデルに、このミニゲームに基づいてより複雑で興味深いミニゲームを開発するように依頼しました。

今回のo1のパフォーマンスは本当にちょっと意外でした。このモデルは、卓球ゲームの衝突メカニズムに基づいて、上向きにジャンプするゲームを繰り返します。一般に、他の大規模なモデルでは、より適切な答えを出力する前に、ユーザーがニーズを明確に説明する必要がありますが、このテストでは、o1 は、スムーズに実行でき、ユーザーにとって十分な答えを出力しました。レポーター。楽しい小さなゲーム。

4) 科学テスト

科学テストに関しては、記者は数学と経済学における o1-preview のパフォーマンスのテストに焦点を当てました。

まず記者は数的推理の質問をした。o1プレビューオイラー方程式の有限時間爆発を解く可能な方法について質問してください (これは、有名な中国の数学者でフィールズ賞受賞者のテレンス・テル教授が今週発表したディスカッション記事です)。

o1 は明確な解決策を提供しませんが、問題を解決するためのアイデアを提供します。この考えは、tao zhexuan 教授の論文と部分的に一致しています (ただし、ごくわずかではあります)。

経済学の方向で、記者は複雑な経済システムの問題について o1-preview に質問しました。寄せられたフィードバックから、基本的に大きな問題はなく、全体的なロジックは明確であり、与えられた数式にはいくつかの小さな間違いがありますが、全体的な状況を損なうものではありません。

5) 事実知識と言語理解

このセッションでは、記者が明の初代皇帝に関する興味深い逸話について o1-preview に質問しましたが、o1 はその逸話を歴史上実際に起こったこととして解釈し、朱元璋の歴史全体を語りました。

同時に、記者はこの質問を gpt-4o モデルにも投げました。比較として、gpt-4o は記者の質問をよく理解し、広く広まった 2 つの昔話を伝えました。

全体、o1 モデルは人間のレベルに近づくことができるという openai の主張は、いくつかの面では正しいようです。

記者が最も驚いたのは、openaiがモデルの思考プロセスをテキストでユーザーに示したことだ。テキストの思考プロセス中に、大きなモデルは「私はそれをやっています」を多用した。「私は考えます」や「私は計画しています」などの言葉は、まるで実際の人間がユーザーの前で自分の思考ロジックを説明しているかのように、より擬人化されているように感じられます。

しかし、これは o1 モデルが完璧であることを意味するものではありません。openai はまた、o1 がデザイン、書き込み、テキスト編集の点で gpt-4o よりもはるかに劣っていることを認めました。o1 には、web を閲覧したり、ファイルや画像を処理したりする機能もありません。

記者にとって最も厄介なことは、出力結果を中国語に変換するなどの非常に単純なリクエストであっても、o1 はそれを考えるのに 10 秒以上かかるのに対し、gpt4o はリクエストを即座に処理することです。

openai の有利な領域であっても、o1 モデルは突然パフォーマンスが低下し、モデルの出力が遅延します。openaiの創設者で辞任したカルパシー氏は、「openaiは私にとってリーマン予想を解決することを拒否した。モデルの怠惰は依然として大きな問題である」と不満を述べた。

openai は、結局のところ、これは推論モデルの初期プレビューにすぎないため、今後のアップデートでこれらの問題に対処すると述べています。

毎日の経済ニュース

レポート/フィードバック