openai が再び大規模モデルを「バブル」して寿命を延ばす

openai が再び大規模モデルに「バブル」を与えて寿命を延ばす

2024-09-14

テキスト丨何乾明

編集者丨チェン・マンチー・ファン・ジュンジエ

今年の openai の最も重要な製品である o1 モデルは予定通りリリースされました。 ai分野で最大の利益を上げるエヌビディアの株価は2日間で10％上昇した。

o1 は、質問に答えるためにより多くのコンピューティング能力を消費しますが、質問を見ると、答える前に数十秒、あるいはそれ以上「考え」ます。 openaiは、オリンピックの数学の質問に答えたり、すでに市場に出ている大規模なモデルよりもはるかに優れたプログラミングタスクを完了したりできると述べています。

しかし、openai ceo サム・アルトマンの良いムードはすぐに打ち砕かれました。 o1 の完全リリースを発表した彼のツイートのトップのコメントは、「新しい音声機能はいつ利用できるようになるのですか??」で、彼はすぐに「この魔法に感謝するのに数週間かかって、それから欲しいと言うことができますか?」と反論しました。新しいおもちゃは？」

altman の後にこのユーザーが望んでいるのは、新しいおもちゃではなく、openai が今年 5 月に約束した次期 gpt-4o エンドツーエンド音声機能です。当時のライブデモでは、この新しい ai は自然に聞こえ、非常に素早く反応し、いつ中断すべきかを知っていたため、他の人が真実と偽りを見分けるのは困難でした。公式スケジュールによれば、数千万人の有料chatgptユーザーが数週間以内にこの機能を使用する予定だったが、現在まで延期されている。

過去 1 年間、openai の製品は同様の「未来」でした。gpt-4 は発売から 1 年以上経ちましたが、openai の次世代モデル gpt-5 はまだリリースの兆しがありません。 openaiが今年初めにリリースしたビデオモデルsoraは、これまでのところ大規模にリリースされておらず、実際に使用しているのは彼らが選んだ少数の業界専門家だけだ。

業界最大の遅延により、大規模な ai モデルに対する資本市場の忍耐力は繰り返し疲弊してきました。中国のテクノロジー大手や大手モデル会社の一部は、今年半ばに基本モデルのトレーニングを中止し、アプリケーション開発により多くのリソースを投資したり、gpuコンピューティング能力を外部顧客に貸し出したりした。彼らはテクノロジーの進歩の余地があまりないことを懸念し、投資を削減し利益を追求し始めます。

今週までに、エヌビディアの時価総額は6月の高値から20％以上下落し、マイクロソフトの時価総額も13％減少し、それぞれ数千億ドルの損失を出していた。マイクロソフトのcfoは、大型モデルの分野に投資した数百億ドルは回収するまでに15年以上待たなければならないと述べた。

sequoiaの調査によると、ai分野への投資は昨年、収益を1,200億ドル以上上回り、今年は5,000億ドルに拡大する可能性がある。しかし、nvidia を除いて、収益の大幅な増加を達成した企業はほとんどありません。業界では、大型モデルの機能がここで止まったら、再びaiバブルが崩壊するのではないかと議論し始める人が増えている。

「バブル」は必ずしも悪いことではありません。新しいテクノロジーが世界を変える前には、ビジョンが現実をはるかに超える段階が存在します。違いは、ビジョンをいつ実現できるかどうかです。長期的にそれが達成できない場合、バブルは崩壊し、企業は倒産します。深刻なバブルの崩壊は、分野や複数の経済を破壊する可能性さえあります。ビジョンが実現すれば、それは技術進歩の単なる脚注に過ぎません。

openaiがリリースしたo1は、大型モデルには進歩の余地がないというためらいを少なくとも一時的に覆し、大型モデルの「バブル」の寿命を延ばすことになるだろう。

新しいテクノロジーが世界を変えるには、進化を続ける必要があります。 o1 の独自性は、プログラミング、数学、物理学、その他の分野のパフォーマンスが大幅に向上しただけでなく、openai 信者のグループとその背後にいる投資家にとって前進する道を見つけたことでもあります。パワーは「知識の暗記」に多く使われた ——大量のデータを使ってモデルをトレーニングすることで、o1はより多くのコンピューティングパワーを「質問に答えるときの思考」、つまり推論プロセスに割り当て、論理能力が大幅に向上しました。

これ以前は、大規模なモデルのトレーニングが元のスケーリング則のボトルネックに陥っていました。モデルパラメーターのスケールが拡張された後、パフォーマンスの向上は徐々に遅くなりました。

o1-mini は、数学、プログラミング、および科学の問題に特別に最適化されており、科学者や開発者の作業効率を直接向上させるだけでなく、他の高価値の垂直分野における開発パフォーマンスとセキュリティにも大きな応用可能性を示します。より良いモデルアプローチです。

いくつかのリリースではいつものように、openai は o1 をリリースするタイミングを慎重に選択しました。メディアの報道によると、o1 のリリース前、openai は 1,500 億米ドルの評価額で 70 億米ドルの新規資金調達を求めていました。潜在的な投資家には apple、nvidia、microsoft、アラブ首長国連邦投資基金などが含まれます。さて、資源投資競争が続く理由はもう一つあります。

大規模言語モデルから「推論モデル」まで、o1は理論に強く、文学に弱い

今回、openai はユーザー向けに o1-preview と o1-mini の 2 つのモデルをリリースし、さらに多くの o1 シリーズモデルが準備中であることを発表しました。

このシリーズが gpt を使用せずに o1 と名付けられているのは、2 つのトレーニング方法に明らかな変更があるためです。 o1 を紹介する openai のブログ投稿では、gpt を呼び出すときに以前よく使用されていたラージ言語モデル (large language model) ではなく、推論モデル (reasoning model) と何度も呼ばれています。

gpt などの従来の大規模言語モデルの全体的なトレーニングロジックは、事前トレーニングと微調整です。まず、事前トレーニングの段階で大量のデータを使用して大規模なモデルに次の単語を予測するよう教え、次に単語の予測を学習させます。微調整段階で次の単語を入力すると、大規模なモデルが特定の分野の知識を学習し、人間が回答を書いて大規模なモデルに人間が望む回答を教え、機械がフィードバックに基づいて改善します。

o1の新しいキーワードは強化学習と思考連鎖（cot）です。

openai はこのプロセスを次のように説明しています。「強化学習を通じて、o1 は思考の連鎖を磨き、使用する戦略を洗練する方法を学び、複雑なステップをより単純なステップに分解することを学びます。現在の方法が機能しない場合に別の方法を試すことで、モデルの推論機能が大幅に向上します。」

2016 年に囲碁世界チャンピオンを破った alphago とその後継モデル alphazero は、強化学習を使用してモデルが自己対戦し、さまざまな状態 (ゲーム) で勝率を向上させるためにどのような戦略を使用するかを学習できるようにしました。モデルは、モデルをトレーニングするための継続的な試行を通じてデータを生成することもできます。

openai o1 も同様の方法を使用しています。つまり、大規模なモデルに段階的な問題解決データを提供することで、モデルが自己修正を学習し、最適な答えを得るために各ステップで質問に答える方法を学習できるようになります。

「aiモデルの能力はやはりデータから生まれます。データにもともと欠けているものや不十分なものがあると、モデルはそれを学習することができません。o1は専門的なデータを合成する手法を実装することに相当します。これらの専門的なデータと、o1は専門的な能力を学ぶことができます」とシリコンモバイルの創設者であるユアン・ジンフイ氏は言いました。

o1 質問に答えるときも、質問をいくつかの小さな質問に分割し、段階的に質問に答えます。これが「思考の連鎖」です。 openai の表示によると、o1 が質問に答えるプロセスは次のとおりです (ユーザーが使用するバージョンでは、openai は思考連鎖の内容を隠します)。

質問（原文は英語）:

行列 ('[1,2],[3,4],[5,6]' 形式の文字列として表される) を受け取り、その行列の転置を同じ形式で出力する bash スクリプトを作成します。

o1-preview の問題解決アイデア (思考の連鎖):

ユーザーは、'[1,2]、[3,4]、[5,6]' などの行列を表す文字列を受け取り、その転置を同じ形式で出力できる bash スクリプトを作成するように要求しました。

まずは入力形式と出力形式について理解しましょう。

入力: '[1,2],[3,4],[5,6]'、対応する行列は次のとおりです。

1 2

3 4

5 6

したがって、入力は角括弧で囲まれ、カンマで区切られた一連の行になります。

この行列の転置は次のとおりです。

1 3 5

2 4 6

したがって、必要な出力は '[1,3,5],[2,4,6]' です。

全体的なミッション:

1 つの引数 (行列を表す文字列) を受け取り、その転置を同じ形式で出力する bash スクリプトを作成します。

それでは、bash で入力文字列を解析し、行列を構築し (おそらく配列を使用して)、転置し、同じ形式を維持したまま転置された行列を出力する方法を考えてみましょう。

制約:

- これは bash であるため、文字列の解析には注意する必要があります。

- スクリプトは入力文字列をパラメータとして受け入れる必要があります。

方法：

- 入力文字列を解析して行列要素を抽出します。

- 配列の配列として行列を構築します。

-行列を転置します。

- 転置行列を同じ形式で出力します。

実装手順:

1. 入力文字列をパラメータとして取得します。

2. すべてのスペース (存在する場合) を削除します。

3. 入力文字列を解析し、数値を配列に抽出します。

-入力形式は「[1,2],[3,4],[5,6]」なので、次のことができます。

--必要に応じて外側のブラケットを取り外します。

-- 文字列を「],」で分割し、各行を取得します。

-- 各行で、「[」と「]」を削除し、要素を「,」で区切って取得します。

4. bash で 2 次元配列 (配列の配列) を構築します。

-bash 配列は 1 次元であるため、2 次元配列をシミュレートする必要があります。

5. マトリックスを転置します。

-転置するときは、行と列を入れ替える必要があります。

6. 転置行列を目的の形式で出力します。

-出力文字列を「[1,3,5],[2,4,6]」の形式で再構築します。

ここで、コードを段階的に書き始めます。

潜在的な問題:

-bash 自体にはネイティブの多次元配列がないため、それをシミュレートする必要があります。

-複数桁の数字を扱う必要があります。

次に、この bash スクリプトのフレームワークを段階的に書き始めます。

【わずかに】

次に、入力例 '[1,2],[3,4],[5,6]' を使用してこのスクリプトをテストしてみましょう。

どうなるかをシミュレーションしてみます。

答えとして書いておきます。

強化学習も思考連鎖も、openai によって提案された最初の技術的方向性ではありません。

o1 がオンラインになる前に、google deepmind は 7 月に同様の方法でトレーニングされた alphageometry モデルの更新バージョンをリリースし、国際数学オリンピック imo で銀メダルを獲得することができました。

しかし、openai は、業界に基づいて、より素晴らしい結果をもたらすモデルを率先して提案できることを再び証明しました。 openai によると、国際情報オリンピックのために特別に訓練された同社の o1-ioi モデルは金メダルを獲得できるとのことです。

新しいトレーニングと推論方法を備えた openai o1-preview は、難しい数学的問題の解決とプログラミングタスクの処理において gpt-4o を大幅に上回ります。たとえば、数学コンテストデータセット aime 2024 では、o1-preview スコアは gpt-4o のスコアの 4 倍を超えていますが、プログラミングコンテストデータセット codeforces では、その差は 5.6 倍になります。

数学コンテスト、プログラミングコンテスト、科学質疑応答データセットテストでは、o1-preview と o1 が gpt-4o を大幅に上回りました。

openaiによると、現在限定されているopenai o1-previewとopenai o1-miniの次のモデルは、物理学、化学、生物学などの難しい試験問題において博士課程の学生と同等の性能を発揮するが、以前のモデルはmostであるという。学部または修士レベルです。

テクノロジーを現実にする openai では、212 人の寄稿者を挙げていますが、これは gpt-4o のテキスト部分の寄稿者 (234 人) に匹敵します。ただし、o1 のトレーニングにはさらに多くの種類のデータが必要です。 openaiは、o1の事前トレーニングで使用されるデータは公開データセット、パートナーの独自データ、および社内で開発されたカスタムデータセットから得られるのに対し、gpt-4oはテキスト機能を習得するときに最初の2種類のデータのみを使用すると述べました。

o1 シリーズは「推論モデル」に偏っており、gpt-4o を完全には超えておらず、言語能力が相対的に弱いのです。

openai のテストでは、データ分析、プログラミング、数学などの推論を重視する質問の解答では、gpt-4o よりも o1-preview の方が優れていると考えられていますが、個人的な執筆、テキスト編集などの観点では、gpt-4o の方が優れています。まだ良いです。

gpt-4o では解決できない問題も o1-preview に現れます。たとえば、9.11 が 9.2 よりも大きいと考えることもあります。

個人的な執筆やテキスト編集などには gpt-4o の方が適しています。

思考の連鎖によってもたらされる応答時間（思考）の長期化は、実際の使用における o1 シリーズの欠点である可能性があります。「3 番目の文字が a である 5 つの国の名前を列挙する」ように依頼した場合、gpt-4o では 3 秒しかかかりませんでしたが、o1-mini では 9 秒、o1-preview では 32 秒、gpt-4o では 10 秒かかりました。簡単な質問には基本的に応じられません。

現時点では、o1-preview と mini には gpt-4o のように web を閲覧したり、情報を取得したり、アップロードされたファイルや写真を処理したりする機能はありません。現時点では、o1 を使用して生産性を向上させることができる最も早い人はソフトウェア開発者であると思われますが、openai は api の呼び出し方法にも制限を設けています。関数呼び出し、ストリーミング、システムメッセージのサポート。

トレーニングスケーリングから推論スケーリングまで、コンピューティングパワー競争は続く

多くの大規模モデル研究者の見解では、o1 の最も重要な変更は、大規模モデルの機能を大幅に向上させるための新しい道が示されたことです。

元のスケーリングの法則は、より多くのデータと計算能力を使用して、より大きなパラメーターでモデルをトレーニングすると、パフォーマンスが向上することを意味します。

以下の図に示すように、o1 は、モデルが質問に答えるためにより多くの時間とより多くの計算能力を費やした場合 (テスト時の計算)、パフォーマンスが向上し続けることを示しています。 nvidia のシニア ai サイエンティストである jim fan 氏はソーシャルメディアで、これは deepmind が 2022 年にチンチルスケーリング則 (元のスケーリング則の最適化) を提案して以来、大規模モデル研究における最も重要な状況になるかもしれないと述べました。

jim fan 氏は、大規模モデルの将来の進化の可能性も提案しました。将来のモデルは推論を知識から分離し、小さな「推論コア」を持ち、トリビアの質問などのテストのために事実 (知識) を記憶するために多数のパラメータを使用する可能性もあります。素晴らしいパフォーマンスです。

openai は、o1 を紹介する記事の中で、gpt シリーズのモデルの開発を継続することにも具体的に言及しました。これは、openai が o1 で使用されているメソッドを次世代 gpt モデルに導入することを示している可能性があります。

o1 が新しい主流の方法になるか、o1 が gpt シリーズと組み合わされて次世代の大規模モデルを進化させるかにかかわらず、コンピューティング能力の要件はさらに増加するはずです。

openai は o1 シリーズの推論コストを明らかにしていませんが、o1 モデルが質問に答えるまでにかかる時間と、o1 に対する openai の使用制限から、o1 は gpt シリーズよりもはるかに大きな推論コンピューティングリソースを必要とすることが推測できます。

月額 20 ドルを支払う chatgpt plus 有料ユーザーは現在、o1-preview を週に 30 回、o1-mini を 50 回しか使用できません。 gpt-4o の現在の制限は 1 週間あたり 4480 回 (3 時間ごとに 80 回) で、これは o1-mini の 90 倍、o1-preview の 150 倍です。

o1-preview が質問に答えるまでの時間は、gpt シリーズモデルの数秒から数十秒、あるいはそれ以上に増加しました。また、質問に回答する際に、大幅に多くのテキストを処理します。「思考の連鎖」のプロセスを示す際に記事に挙げたプログラミング問題を例に挙げると、o1がそれを解いたところ、思考の連鎖を含めてgpt-4oの4.2倍となる6632文字を処理した。計算時間が長くなり、出力が長くなると、計算能力のコストが高くなります。

o1 ai の展望とコンピューティングの電力消費の刺激は、すぐに資本市場に反映されました。今週初めにopenaiが新モデルを発売するとメディアが報じて以来、nvidiaの株価は10％反発し、microsoftも一緒に上昇した。

技術進化の方向性が定かではない企業や、基本モデルの研究が遅れている企業にとっては、新たな取り組みと新たな方向性が求められています。 o1のリリースの可能性が高いということは、「推論モデル」の面で競争力の差が再び拡大し、追い上げと投資が加速するラウンドが始まろうとしていることを意味する。

中国の大型模型研究者は「そろそろ本題に取り掛かる時が来た。そうしなければ我々はもう試合に参加できない」と語った。

タイトル写真：ビジュアルチャイナ

1957 年、人工物体が初めて宇宙に登場し、地球の周りを 3 週間周回しました。人間が見上げると、神話の星と平行して、小さな光が夜空に縞模様を描いているのが見えます。

このような偉業は人種やイデオロギーを超えて世界中に喜びをもたらしました。しかし、人間の偉業に感動するのではないかと思われるような勝利の喜びではありません。政治哲学者ハンナ・アーレントの当時の見解によれば、人々の気分は待望の安堵感に近づいており、科学がついに期待に追いつき、「人類はついに地球の牢獄から抜け出しつつある」という。取られてしまった。」

人々は常に、テクノロジーの探求に基づいて世界に対する期待をすぐに調整します。 sf 作家の空想が現実になるときは、多くの場合、テクノロジーが最終的に人々の期待に追いついたとき、またはアーレントの言葉を借りれば、「テクノロジーは人々の夢が狂気でも虚無的でもないことを認識し、確認する」ときです。

今日のような時は、もっと夢を見た方が良いです。

これは、「latepost」がtech tuesdayコラムを開始することへの期待でもあります。「late」が日々注目しているビジネスの世界に加え、新たな科学研究や技術進歩を定期的に紹介していきたいと考えています。

これらは、最先端の研究の進歩に関するもの、技術応用の観察に関するもの、あるいは優れた技術や時代への賛辞に関するものである場合もあります。

このコラムでは、世の中の多様な変化を科学技術の視点から記録していきます。この旅を通じて、読者の皆様にも参加していただき、世界についてもう少し理解を深めていただければ幸いです。

· 終了 ·

ニュース

openai が再び大規模モデルに「バブル」を与えて寿命を延ばす

導入

私の連絡先情報