ニュース

o1 完全な思考連鎖は openai の最大のタブーになります!質問が多すぎる場合は、アカウントが禁止されるまで待ってください。

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

警告してください!最新の o1 モデルが何を考えているかを chatgpt で尋ねないでください—

数回試すだけで、openai からメールが送信されます資格を剥奪すると脅す

このアクティビティを停止し、chatgpt の使用が当社の利用規約に準拠していることを確認してください。この規定に違反すると、openai o1 へのアクセスが失われる可能性があります。

新しい大型モデル o1 が発売されてから 24 時間も経たないうちに、多くのユーザーがこの警告メールを受信したと報告し、不満を引き起こしました。

一部のユーザーは、プロンプトの単語に「推論トレース」や「思考回路を表示」などのキーワードが含まれている限り、警告が表示されると報告しました。

キーワードが完全に回避され、モデルが制限を回避するように他の手段が使用された場合でも、それは検出されます。

実際に自分のアカウントが1週間禁止されたと主張する人もいた。

これらのユーザーは皆、o1 をだまして、彼が言ったことを繰り返すように頼もうとしています。完全な内部思考プロセスつまり、すべてのオリジナルの推論トークンです。

現在、chatgpt インターフェイスの展開ボタンを使用できます。見える、単に元の思考プロセスを見直したものですまとめ

実際、o1 がリリースされたとき、openai はモデルの完全な思考プロセスを非表示にする理由を説明しました。

要約すると、openai はモデルの思考プロセスを内部で監視する必要があるため、これらの元のトークンにセキュリティ制限を追加することができず、ユーザーにとっては不便です。

ただし、誰もがこの理由に同意するわけではありません。

誰かがそれを指摘した1 1思考プロセスは他のモデルにとって最適なトレーニング データですしたがって、openai はこれらの貴重なデータが他の企業に盗まれることを望んでいません。

これは、o1 には本当に堀がないことを示していると考える人もいます。その思考プロセスが一度公開されると、他の人が簡単にコピーできます。

「これが、何も説明せずにaiを盲目的に信頼できる答えなのでしょうか?」

o1モデルの技術原理については、今回明らかになった部分はほとんどなく、有効な情報は「強化学習が使われている」ということだけだった。

つまり、openai はますますオープンでなくなりつつあります。

o1 はイチゴですが、gpt-5 ではありません

openai が長い間宣伝してきたのが o1 であることは今や確実です。"いちご"、つまり「イチゴ」に代表される手法を使っています。

しかし、これは次世代モデル gpt-5 として数えられるのでしょうか、それとも単なる gpt-4.x なのでしょうか?

これは gpt-4o に基づいた単なるエンジニアリング調整ではないかと疑う人が増えています。

有名な速報アカウント flowers (以前は flowers from the future) はこう言いました。openai の従業員は社内で o1 を「推論のある 4o」と呼んでいます

そして彼は、多くの openai 従業員がこのニュースを黙って気に入っていると主張しました、上のスクリーンショットも openai 従業員からのものです。

しかし、マスク氏は最近twitterを変更し、元の投稿者以外は誰が何をいいねしたかを確認できないようにしたため、このニュースはまだ確認できていない。

openai 開発者アカウントが開催したばかりの「ask me anything」イベントでも、fflowers 氏は質問をしました。

openai の従業員はここで多くの質問に答えていますが、「いいね!」リストの上位にランクされているこの質問は避けてください。

ウルトラマンのベンマンさえもリドラーとして再び登場し、「ストロベリー」は終わりを迎え、次の作品にはコードネームが付けられることを示唆していますオリオン新しいモデルも登場中です。

「orion」は、o1である「strawberry」によって生成された合成データによって訓練された、openaiの次世代の新しいフラッグシップモデルであることが以前に報告されました。

オリオン座はウルトラマンの口に登場する「冬の星座」の代表のひとつ。

リリースされた o1 に戻りますが、それを取り巻く別の批判は次のとおりです。「科学研究の基準を満たしていない」

例えば推論時間の計算に関するこれまでの関連研究は引用されていません。、そしてまた他社の最新鋭モデルとの比較ができない

前の点に関しては、openai はもはや研究機関ではなく、営利企業としてみなされるべきであるとの指摘がありました。

研究をしたい人を集めるために、研究室のふりをすることもあります。

ただし、後者の点については、api がリリースされたので、他の最先端のモデルと比較するかどうかは、すでに多くのサードパーティのベンチマークで結果が得られています。

ケラスの父親が保有する100万ドルagi賞コンテスト中、o1-preview と o1-mini の両方のバージョンが公開テスト セットでテストされました。独自の gpt-4o を超えました

しかし、o1-プレビュー隣のクロード 3.5-ソネットとちょうど同点です

o1の広報に注力コーディング能力優れた、オープンソースのペアプログラミングツールaiderチームはテストを実行し、o1 シリーズも実行しました明らかな利点はない

コード書き換えタスク全体では、o1-preiview が 79.7 ポイント、claude-3.5-sonnet が 75.2 ポイントを獲得し、o1 が 4.5 ポイントリードしました。

しかし、より実践的なコード編集タスクに関しては、o1-preview は claude-3.5-sonnet に比べて 2.2 ポイントの差があります。

さらに、支援チームは、claude プログラミングの代わりに o1 シリーズを使用したい場合、コストがはるかに高くなることに注意しています。

openaiと提携「aiプログラマー」デビンチームは事前にo1アクセス資格を取得しています。

彼らのテストでは、o1 シリーズによって駆動される devin のベース バージョンは、gpt-4o と比較して非常に大きな改善を達成しました。

しかしリリースされた devin 製品版と比較すると、まだ大きなギャップがあります。これは主に、devin 製品バージョンが独自のデータに基づいてトレーニングされているという事実によるものです。

さらに、devin チームは、o1 は正しい解決策に到達する前に後戻りして別の選択肢を検討することが多く、幻覚を起こしたり、確信を持って間違ったりする可能性が低いことを共有しました。

o1-preview を使用する場合、devin問題の症状に対処するよりも、バグの根本原因を正確に診断する可能性が高くなります。

数学と論理的推論に重点を置くライブベンチリストには o1-preview が含まれています単一コードカテゴリの遅れこの場合の合計スコアは、クロード-3.5-ソネットを追い抜き、明らかなギャップを開く

livebench チームは、多くのテストには「段階的に考えてください」などのプロンプト単語が組み込まれているため、これらは暫定的な結果にすぎないと共有しましたが、これは o1 の最適な使用方法ではありません。

中国語による大型モデルの総合評価ベンチマークsuperclueの中国語複雑課題高度推理テスト真ん中、o1-preview の推論能力も大幅に上回っています。

最後に、o1 モデルを使用するときに注意する必要があることがいくつかあります。

コストは非常に高く、100 万出力トークンのコストは 60 米ドルで、価格は一夜にして gpt-3 時代に戻ります。

隠された共鳴トークンも出力トークンに含まれており見ることはできませんが、支払う必要があります。

ほとんどのタスクでは、最初に gpt-4o を使用し、コストを節約するのに十分でない場合は o1 に切り替えるのが最善です。

コード タスクでは依然として claude-3.5-sonnet が優先されます。

つまり、開発者コミュニティには、openai の新しいモデル o1 に関して依然として多くの疑問が残っています。

o1 は、高レベルの ai 推論のための新しいパラダイムを切り開きましたが、まだ完璧ではなく、その価値を最大化する方法はまだ検討されていません。

このような背景から、openai の「質疑応答」イベントには 4 時間以内に数百の質問が寄せられました。

イベント全体の抜粋と概要を以下に添付します。

openai の従業員がすべての質問に答えます

まず、突然リリースされたこの新モデルについて多くの人が興味を持っているのですが、なぜ openai はこのモデルに o1 のような名前を付けたのでしょうか?

これは、openai を見ると、o1 が新しいレベルの ai 機能を表すため、「カウンター」がリセットされ、o が openai を表すためです。

o1登場時にウルトラマンが言ったように、複雑な推理ができるo1は新たなパラダイムの始まりである。

プレビューとミニの 2 つのバージョン番号に関して、openai の科学者はネチズンの推測の一部を裏付けています—

プレビューは一時的なバージョンです。正式版は今後リリース予定(実際、プレビュー バージョンは o1 の初期チェックポイントです)。ミニバージョンが近い将来に更新されるという保証はありません。

openai メンバーの kevin lu によって以前に公開されたこの写真を見ると、それがさらに明確になります。

プレビューと比較して、mini は特定のタスク、特にコード関連のタスクで優れたパフォーマンスを発揮し、より多くの思考連鎖を探索できますが、世界の知識は比較的少なくなります。

これに関して、openai の科学者 zhao shengjia 氏は次のように説明しました。mini は、少数の機能のみに焦点を当てた高度に特殊化されたモデルです。、より深く進むことができます。

これは、ウルトラマンが以前にこの問題について解決した謎を明らかにしたとみなすことができます。

o1 の動作に関して、openai 科学者のノーム ブラウン氏も、これは一部のネチズンが考えているようなモデル + cot で構成される「システム」ではなく、思考連鎖をネイティブに生成できるようにトレーニングされたモデル

ただし、推論過程の思考連鎖は隠蔽されるため、ユーザーにトークンを見せる予定はないことを関係者は明らかにしている。

openai が明らかにしたいくつかのニュースは、cot の関連トークンは概要であり、推論プロセスと完全に一致することが保証されていないということです。

推理モードに加えて、この質疑応答アクティビティでも学習できます。o1 は gpt-4o よりも長いテキストを処理でき、今後も処理し続けるでしょう。

パフォーマンスに関しては、openai の内部テストでは、o1は哲学的推論の能力を示します、「人生とは何ですか?」などの哲学的な質問について深く考えることができます。

研究者らはまた、o1 を使用して、レビューのために所有者にコードを ping できる github ボットを作成しました。

もちろん、次のような一部の非推論タスクの場合は、クリエイティブライティングでは、o1 のパフォーマンスは gpt-4o と比べて大幅に改善されず、場合によってはわずかに劣ることさえあります。

さらに、いくつかの質問に基づいて、openai はネチズンが懸念しているいくつかの未リリース機能を研究中、または研究する計画があると述べましたが、明確なリリース時期はありません。

ツール呼び出しはまだサポートされていませんが、関数呼び出しとコードインタープリターは将来的に計画されています。

今後の api アップデートでは、構造化出力、システム プロンプト ワード、プロンプト ワード キャッシュ機能が追加される予定です。

微調整も予定

api ユーザーは推論時間とトークン消費量に独自の制限を設定できるようになります

o1 には、mmmu およびその他のデータセット上の sota をターゲットとするマルチモーダル機能があり、後で実装される予定です。

パフォーマンスの面では、openai はレイテンシーと推論に必要な時間の削減にも取り組んでいます。

最後に、人々、特に api ユーザーが懸念しているのは価格の問題です。結局のところ、推論プロセスが出力トークンに含まれていることを考慮すると、o1 の価格は依然として比較的高価です。

openaiは言った「1~2年ごとの値下げ傾向に従う」使用制限が緩和されると、一括 api の価格設定も開始されます。

さらに、web/app 側のユーザーは現在、週に 30 + ミニ 50 メッセージのプレビューに制限されています。

しかし、良いニュースは、ちょうど今朝早く、人々が o1 に非常に熱心だったため、多くの人がすぐに割り当てを使い果たしてしまったということです。openai の特別なケースではクォータが一度リセットされます

以上