ニュース

重い! 「問題解決ロジックを考える」ことができる大規模openai推論モデルが登場、認知力は「理学博士レベル」に跳ね上がる

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

北京時間金曜日の午前1時頃、ai時代は新たな出発点を迎え、一般的かつ複雑な推論が可能な大規模モデルがついに最前線に登場した。

画像出典:visual china-vcg31n2008743681

openaiは公式サイトで次のように発表した。openai o1 プレビュー モデルをすべてのサブスクライバーにプッシュ開始 - 広く期待されている「strawberry」大型モデル。 openai は、複雑な推論タスクについては、新しいモデルは新しいレベルの人工知能機能を表します, そのため、カウントを 1 にリセットし、「gpt-4」シリーズとは異なる新しい名前を付ける価値があります。

大規模推論モデルの特徴は次のとおりです。人間が問題解決のプロセスについて考えるのと同じように、ai は答える前に考えることに多くの時間を費やすようになります。。以前の大規模なモデルの背後にあるロジックは、多数のデータセットのパターンを学習することによって単語生成の順序を予測することでした。厳密に言えば、彼らはこの質問を実際には理解していませんでした。

openaiはo1シリーズモデルの最初のバージョンとして、o1-previewプレビュー版とo1-miniミニ版のみをリリースし、有料ユーザー、無料ユーザー、開発者に段階的にリリースされ、開発者向けの価格はかなり高価でした。

o1 モデルの使用コストは gpt-4o の少なくとも 3 倍であり、新しい方法を使用してトレーニングされます。

レポートによると、o1 の新しいモデルは、その背後にある新しいトレーニング方法を通じて、より複雑なプログラミング、数学、科学の問題に答えることができ、答えを与える前に「考える」ことができ、人間よりも高速です。小型で安価なミニ バージョンは、プログラミングのユースケースに焦点を当てています。

chatgpt plus と team の有料ユーザーは、ユーザー インターフェイスの ai モデル セレクターのドロップダウン メニューから手動で選択して、両方のモデルにすぐにアクセスできます。どちらのモードも来週、chatgpt enterprise と edu ユーザーが利用できるようになり、o1-mini へのアクセスは将来不明な時期にすべての無料ユーザーが利用できるようになります。 openai は、将来的にはプロンプトに基づいて正しいモデルを自動的に選択することを期待しています。

ただし、api (アプリケーション プログラミング インターフェイス) では、o1-preview の料金は 100 万入力トークンあたり 15 ドルであり、gpt-4o のコストの 3 倍であり、100 万出力トークンあたり 60 ドルです。 gpt-4oの4倍のコスト。 100 万トークンはモデルが解析するテキスト ブロックのサイズで、約 750,000 ワードに相当します。

openaiの研究責任者であるジェリー・トゥレク氏はメディアに次のように語った。1 1その背後にあるトレーニング方法は、以前のモデルとは根本的に異なります。

まず、o1 は「完全に新しい最適化アルゴリズムと、それに特別に調整された新しいトレーニング データセットを使用してトレーニングされました」。これには、「推論データ」と特にそれに合わせて調整された科学文献が含まれていました。

第二に、以前の gpt モデルのトレーニング方法はデータセットのルール/パラダイムを模倣するものでしたが、o1 は「強化学習」を使用して、報酬と罰、そして「アイデアの連鎖」を通じてモデルに自ら問題を解決するよう教えます。 (アイデアの連鎖) 思考) を使用して、ユーザーのクエリの問題に対処し、人間が段階的に問題に対処する方法と同様に、思考の連鎖の要約バージョンを提供します。

右側の図では、アイデアのチェーンをクリックすると、o1 モデルがどのように「考える」かを確認できます。

複雑な数学的問題に対するアイデアの連鎖を示す図

openai は、この新しいトレーニング方法により、o1 モデルの精度が向上し、回答をでっち上げる「幻覚」の問題が軽減されると考えていますが、「幻覚」の発生を完全に排除することはできません。新しいモデルと gpt-4o の主な違いは、プログラミングや数学などの複雑な問題をより適切に解決できると同時に、推論プロセスを改善し、さまざまな戦略を試し、自身の答えのエラーを特定して修正できることです。

認知力は「科学の博士課程の学生のレベル」にまで飛躍する

openaiは、2023年にリリースされたgpt-4は高校生の知能レベルに相当し、gpt-5は「高校生から博士号まで」のaiの成長を完了すると説明している。この o1 モデルは重要なステップです。

gpt-4o などの既存の大規模モデルと比較して、openai o1 は、過去のモデルに存在する機械的な欠陥を改善しながら、より困難な推論問題を解決できます。

たとえば、新しいモデルはイチゴに「r」が何個あるかを数えることができます。

同時に、ai はプログラミングの質問に答える際に、より体系的に答えられるようになります。コードを書き始める前に、回答プロセス全体をよく考えてください。、コードを出力します。

たとえば、事前に設定された条件 (たとえば、2 番目の文の最後の単語が i で終わる必要がある) を持つ詩を書くタスクでは、「ペンを手に取って書く」gpt-4o は答えを返しますが、多くの場合、条件の一部のみが満たされます。また、自己修正されません。これは、ai が最初に生成されるときに正しい答えに遭遇する必要があり、そうでないと間違いを犯すことを意味します。しかし、o1 モデルでは、ai が試行錯誤を続けて答えを磨き上げ、生成される結果の精度と品質が大幅に向上します。

面白いのは、aiの思考プロセスをクリックすると、「これを考えているんですが、これをやってもいいですか?」「ああ、時間が足りないので、これをやってもいいですか?」とaiも表示されることです。できるだけ早く答えを出さなければなりません」など。 openaiは、ここに示されているのは元の思考連鎖ではなく、「モデルによって生成された概要」であることを確認し、同社はまた、ここに「競争上の優位性」を維持するための要素があることを率直に認めた。

openai の研究責任者である jerry tworek 氏は、o1 モデルの背後にあるトレーニングが以前の製品とは根本的に異なることを明らかにしました。以前の gpt モデルはトレーニング データのパターンを模倣するように設計されていましたが、o1 は問題を独自に解決するようにトレーニングされました。強化学習のプロセスでは、人間が問題を分解して分析する方法を学ぶのと同じように、報酬と罰のメカニズムを使用して、問題に対処するために「思考の連鎖」を使用するように ai を「教育」します。

テストによると、o1 モデルは国際数学オリンピック予選試験で 83% の得点を獲得できましたが、gpt-4o は問題の 13% しか正しく解決できませんでした。プログラミング能力を競う codeforces では、o1 モデルのスコアは 89% でしたが、gpt-4o のスコアはわずか 11% でした。

openaiは、テストに基づいて、次の更新バージョンでは、ai は物理学、化学、生物学における困難なベンチマークで博士レベルのパフォーマンスを発揮できる

短所: リアルタイムの web ページを閲覧できない、ファイルや写真をアップロードできない、広範な世界知識が不足している、または幻覚を起こしやすい

しかし、o1 モデルの初期バージョンとして、本日リリースされた o1 プレビュー バージョンにも明らかな欠点があります。たとえば、web 情報の閲覧やファイルや写真のアップロードが一時的にできない「テキストのみのバージョン」であるため、chatgpt の多くの機能は備えておらず、多くの点で gpt-4o ほど強力ではありません。ユースケースには使用制限があり、o1 プレビュー バージョンには週あたり 30 メッセージの制限があり、ミニ バージョンには週あたり 50 メッセージの制限があります。

その他の制限としては、o1 モデルは多くの分野で gpt-4o ほどの能力がなく、世界に関する事実の知識が不十分であること、ユースケースによっては推論能力が遅く、質問に答えるのに時間がかかる場合があることなどが挙げられます。純粋なテキスト モデルのみであり、特定のドキュメントについて推論したり、ネットワークからリアルタイムの情報を収集したりする機能がありません。

さらに、ai モデルに三目並べをプレイさせることは、業界では常に問題視されてきました。推論機能を備えた新しい o1 モデルでも、このゲームでは間違いが発生します。つまり、技術的な問題を完全に克服することはできません。 。

openaiはまた、技術論文の中で、o1プレビューとミニバージョンはgpt-4oとそのミニバージョンよりも「錯覚」を生み出す可能性が高い、つまりaiは依然として非常に優れていたという「逸話的なフィードバック」を受けたことを認めた。自信を持って答えを作り上げ、o1 が質問の答えを知らないことを認めることはめったにありません。

有名なテクノロジーメディアである techcrunch は、openai が o1 モデルに関連するブログ投稿で、この新しいモデルの元の「思考の連鎖」をユーザーに示さないことに決めたが、その概要を提供することにしたと指摘したと指摘しました。目的は、「競争上の優位性」を維持し、考えられる欠点を補うために、「解答の中で思考の連鎖において有用なアイデアを再現するようモデルに教えることに努める」ことです。

日々の経済ニュース総合広報

毎日の経済ニュース

レポート/フィードバック