ニュース

openai「strawberry」には1兆の価値があるのか​​?

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

著者 | 王晶

ウルトラマンと馬宝国の共通点は何ですか?回答: 彼らは皆、急所攻撃を行うのが好きです。

「strawberry」のニュースは数ヶ月前から流れているが、これはopenai内で謎のプロジェクトであると言われており、前世代のモデルとは大きく異なるようだ。しかし、openaiはそれを秘密にしていたが、それが暴露される直前となったのは、ceoのサム・アルトマンがソーシャルメディアに投稿した本物のイチゴの写真だった。

ほんの数日前、the information は「strawberry」が今後 2 週間以内にリリースされるというニュースを発表しました。

これほど注目度が高かったにもかかわらず、openai は依然として世界を驚かせました。現地時間 9 月 12 日の午後、openai は何の予告も記者会見もなく、突然新モデルをリリースしました。

ただし、新しいモデルの名前は、「イチゴ」ほどおいしいものではなく、非常に深刻で意味のあるものです:o1。

ご存知のとおり、openai モデルは、2018 年の gpt-1 から今年 5 月の gpt-4o まで、これまで「gpt」シリーズで反復されてきました。現在、openai は新しいラインを開拓しています。

o1 を発表した公式ブログ投稿の中で、openai は次のように述べています:「初期モデルとして、chatgpt を便利にする機能の多くはまだありません...しかし、複雑な推論タスクにとって、これは大幅な改善であり、ai の機能を表しています。これを考慮して、カウンターを 1 にリセットし、このシリーズを openai o1 と名付けました。」

新しいモデルは現在、chatgpt 有料加入者と一部のプログラマにのみ公開されています。モデルがまだ成熟していないことを示すために、一時的に「o1-preview」と呼ばれます。プレビューとはプレビューを意味します。また、openaiは小型モデル版o1-miniもリリースしました。 o1-preview であっても o1-mini であっても、現在、週あたりの応答数には制限があります。

ウルトラマン自身もsnsで新型モデルを絶賛

いつもchatgptに冷水を浴びせるのが好きなai学者ゲイリー・マーカス氏は、openaiの動きは「よくあるレシピ」だと冗談を飛ばし、デモを発表し、限られた数のユーザーに公開し、資金を集めて、またそれをやるというものだった。

o1 がリリースされた時点で、openai は新たな資金調達ラウンドを受けていました。ブルームバーグの最新ニュースによると、今回の資金調達ラウンドは規模が数百億ドル、目標評価額が1,500億ドルとなる大規模なイベントとなる。

01

まずはモデル自体を見てみましょう。

以前から噂されていた通り、o1の主な焦点は「推理」です。 「推論」の鍵となるのは「思考」です。

ユーザーにとって最も直観的な感覚は、o1-preview は質問に答えるまでに時間がかかるということです。

o1-preview モデルでは、アルファベット リストが chatgpt に「今日は何月何日ですか?」と尋ねます。質問が送信されると、chatgpt は進行中の思考ステップを 1 つずつ表示します。つまり、日付の質問に回答し、ガイドラインを確認し、現在の日付を理解し、「8 秒間考える」とマークされた回答を返します。

対照的に、gpt-4o モデルでは、chatgpt は中間ステップを示さずに 3 秒以内に直接回答を返します。

「これは、強化学習によってトレーニングされ、複雑な推論タスクを実行するように設計された新しい大規模なオラクル モデルです。o1 は質問に答える前に考えます。ユーザーに答える前に、内部で長い「思考連鎖」を生成することができます。」と openai はブログ投稿で述べています。

今回、o1モデルがリリースされたが、openai関係者は技術的な詳細をほとんど明らかにせず、彼らが繰り返し強調していたのは「思考の連鎖」だった。

openai によると、人間が難しい質問に答える前に長く一生懸命考えるのと同じように、o1 は問題を解決しようとするときに思考連鎖を使用します。 o1 は強化学習を通じて、思考の連鎖を洗練し、その使用戦略を最適化することを学びました。自身の間違いを認識して修正し、複雑なステップをより単純なステップに分割する方法を学習します。現在の方法が機能しない場合は、別の方法が試行されます。

「このプロセスにより、モデルの推論機能が大幅に向上します。」

では、o1の能力はどれくらい強いのでしょうか? openaiが公開したいくつかのデモビデオに加えて、最も説得力があるのはテスト結果です。 openaiによれば、o1は推論中心のベンチマークの数々において「人間の専門家に匹敵する」パフォーマンスを示し、以前の技術を上回っているという。たとえば、国際数学オリンピック (imo) では、以前の技術スコアは 13% でしたが、o1 のスコアは 83% にも達しました。

codeforces プログラミング コンペティションでは、o1 が 89% という優れたスコアを達成しました。 openaiはo1をベースに、よりプログラミングに優れたo1-ioiも開発し、その結果は出場者の93%を一気に超えた。

openai が特に「自慢」するもう 1 つのテストは、化学、物理学、生物学の専門知識のベンチマーク テストである gpqa ダイヤモンドです。 openai は博士号を持つ専門家を招待して競争させたところ、「o1 のパフォーマンスは人間の専門家を上回った」ことがわかりました。

openaiはまた、視覚認識機能を有効にした後、o1はmmmuテストで78.2%のスコアを獲得し、「人間の専門家と競争できる最初のモデルになった」と述べた。さらに、o1 は 57 mmlu サブカテゴリのうち 54 において gpt-4o よりも優れています。

つまり、o1はopenaiのこれまでのモデルよりも推論能力に重点を置き、特に数学とプログラミングの能力が向上しており、大げさに言えばボクシングの医者、キックの専門家のようなものである。 、モデルの錯視を軽減することも期待されます。

02

しかし、ウルトラマンが強調したように、o1はまだ比較的初期段階にあり、「まだ欠陥と限界がある」。

アルファベットリストの浅い試みのみ、o1-preview でエラーが発生しました。たとえば、「9.11 と 9.9 はどちらが大きいですか?」という質問に対して、gpt-4o は誤答し、o1-preview も誤答し、「9.11 は確かに 9.9 より大きいです。9.11 (つまり 9.11) はより大きいからです」と真剣に言いました。 9.9 (9.90)。」考えるのに 15 秒かかったのは言うまでもなく、冗長さの中にユーモアのヒントがあります。

また、the information は、o1-preview を試した一部のユーザーが、多くのインタラクションに「10 ~ 20 秒余分に待つ価値がない」と述べ、gpt-4o の応答速度の方が好みだと述べたと報告しました。

現在、o1-preview と o1-mini は有料ユーザーに公開されていますが、数には制限があります。o1-preview は 1 週間あたり 30 メッセージ、o1-mini は 1 週間あたり 50 メッセージです。

来週から、chatgpt の企業および教育 (edu) ユーザーも両方のモデルにアクセスできるようになります。 openaiは将来的にはすべてのユーザーにo1-miniを無料で提供したいとも述べているが、具体的な時期は明らかにされていない。

openai がモデルをリリースするときに「プレビュー」に似たサフィックスを追加するのはこれが初めてです。以前は、gpt-4 と gpt-4o の両方が完全なモデルを直接リリースしていました。

o1 の無視できない特徴の 1 つは、高価であることです。

開発者による o1 へのアクセスのコストは非常に高くなります。api の観点から見ると、o1-preview の料金は、モデルによって解析される入力トークンまたはテキスト ブロック 100 万件あたり 15 ドルで、gpt-4o の 3 倍であり、出力トークン 100 万件あたり 60 ドルです。 、gpt-4oの4倍。

the atlanticはレポートの中で、o1はより多くの時間を必要とするように特別に設計されており、必然的により多くのリソースを消費し、aigcの収益性が困難になると分析している。

03

この記事の冒頭で言及したゲイリー・マーカスは、人間の神経科学と人工知能の接点にある学者であり、ニューヨーク大学の名誉教授であり、ai スタートアップの geometric intelligence の創設者兼 ceo として最も人気のある人物です。 「「ai世界の棘」はopenaiを繰り返し批判してきた。

彼の見解では、openai による o1-preview の突然のリリースは、むしろプロパガンダ手段であると考えられています。

結局のところ、openai は重要な資金調達ラウンドを迎えているとのことで、ブルームバーグの最新レポートによると、openai は評価額 1,500 億ドルで投資家から 50 億ドルを調達する交渉を行っているとのことです。リボルビングクレジット形式の銀行。

「デモを送信し、限られたユーザーに公開し、資金を集め、それを繰り返す。」これがマーカス氏の openai の「手段」の要約です。

今年7月、the informationは、openaiが今年最大50億ドルを失う可能性があると報じた。その中で、openaiの今年の従業員コストは約15億ドル、aiのトレーニングと推論コストは70億ドルに上る可能性があり、年間収益は35億~45億ドルになると予想されている。

当時、the information は、このペースで資金を燃やすと、openai はすぐに資金調達が必要になると予測していました。openai にとって最後の重要な資金調達は、microsoft が数百億ドルを投資した 2023 年初頭でした。

openaiが主要ノードで「未成熟な製品」をリリースしたのはこれが初めてではない。

昨年10月、openaiが株式売却を検討しているというニュースが流れ、当時は評価額が860億ドルになると噂されていた。しかし翌月、openaiは経営陣の衝撃的な交代を経験し、アルトマン氏は同社から追放されたが、すぐに「宮殿の戦い」に勝利してceoの地位に復帰した。しかし、株式売却計画は一時的に遅延し、11月末まで取引が「軌道に戻った」というニュースはなかった。関係者らによると、当時、従業員らは緊急事態が株式売却に影響を及ぼし、会社の評価に影響を与えるのではないかと懸念していたという。

興味深いことに、今年2月15日、openaiは突然新しいビデオ生成モデルsoraを発表し、そのデモは外の世界に衝撃を与えました。ニューヨーク・タイムズ紙は、3日以内にopenaiが従業員株の売却を完了し、同社の評価額が「予想通り」800億米ドルを超えたと報じた。

半年以上が経過したが、soraは一般に公開されておらず、大規模なテストも推進されていない。外の世界は、ソラが実際にはその動作をサポートするのに十分な計算能力を持っていないのではないかと疑い始めました。市場調査組織 factorial funds が発表したレポートでは、sora を導入するには 720,000 個の nvidia h100 チップが必要になると考えられています。

9月初旬、「台湾経済日報」は、tsmcのa16オングストロームレベルのチップがすでにappleやopenaiなどの主要顧客から注文を受けていると報じた。 openai はカスタム チップを使用して sora のビデオ生成機能を強化します。これは、ソラが以前にコンピューティングパワージャムに遭遇したことを裏付けるものでもあるようです。

イチゴ味の chatgpt が登場したので、おそらく近いうちに、openai が新たな資金調達ラウンドを無事に完了し、その評価額が 1 兆元を超えたというニュースを見ることになるでしょう。