OpenAIのQ*はこれまで見たことがありませんが、多くのスタートアップ企業のQ*はここにあります

OpenAI の Q* はこれまで見たことがありませんが、多くのスタートアップ企業の Q* がここにあります

2024-07-31

私たちは「ゆっくり考える」AIからどれくらい離れているのでしょうか？

著者｜ステファニー・パラッツォーロ

編集 | ワン・チェン

編集者｜ジンユ

昨年、サム・アルトマン氏が一時的に解雇される前後に、OpenAIの研究者らは共同書簡を取締役会に送り、コードネーム「Q」と名付けられた謎のプロジェクトが全人類を脅かす可能性があると指摘した。 OpenAI は、従業員に宛てたフォローアップの社内書簡で Q* を認め、このプロジェクトを「超人的な自律システム」と表現しました。

Q* はまだ目撃されていませんが、世界では常に噂が流れています。

Google DeepMind のシニアエンジニアである Lu Yifeng 氏は、かつて専門的な観点から Geek Park に次のような推測をしました。モデルは、どのような問題が不明で、次に何をすべきかを認識する必要があります。現時点では、モデルはインターネットをサーフィンしたり、本を読んだり、実験をしたり、説明できないアイデアを考えたり、人間と同じように他の人と話し合ったりする必要があるかもしれません。

今年は、大手模型メーカーのAIアシスタントアプリに質問すると、昨年よりも回答の信頼性が高まっていると感じ、模型に考えさせ、さらなる改良に取り組んでいるというメーカーも多かった。彼らの推論能力。これまでの進捗状況はどうですか？

上記の問題に関して、The Information記者のStephanie Palazzolo氏は、「OpenAIの小規模なライバル企業はどのように「理由」を付ける独自のAIを開発しているか」という記事で、中国企業Q*を含む、モデル推論能力を向上させるための既存のスタートアップ企業のモデルについて論じた。主催はGeek Park、以下の通りです。

OpenAI に対する小規模な競合他社

独自の「推論」AI を開発する

バブルを除けば、この AI の波がどれほど役立つかは、今年繰り返し注目されるテーマです。

大規模モデルの原理は、確率予測に基づいて単語ユニットを 1 つずつ生成することですが、トレーニング中に供給されたコーパスに基づいて単語をオウム返ししたり、これまで見たことのない質問に遭遇したときに幻覚をでっちあげたりすることは、明らかに誰もが行うことができるわけではありません。期待しています。モデルの推論機能をさらに向上させることが鍵となります。

この点に関して、OpenAIとGoogleの進歩はまだ見ていないが、一部のスタートアップや個人は、何らかの形のAI推論機能を実現するための「安価な」方法（チープハック）を考え出したと述べている。

これらのショートカットには、複雑な問題をより単純なステップに分割し、それらのステップの分析に役立つようにモデルに数十の追加の質問をすることが含まれます。

たとえば、新製品に関するブログ投稿の下書きを依頼されると、AI アプリケーションは、大規模モデルにその回答と改善領域を評価するよう求めるなど、追加のクエリを自動的にトリガーします。もちろん、ユーザーインターフェイスでは、バックグラウンドでモデルによって実行されるこれらのアクションを見ることはできません。

これは、生徒に自分の信念や議論について批判的に考えるように教えるソクラテスの方法に似ています。後者では、ソクラテスは生徒とコミュニケーションをとる際に、直接答えを与えるのではなく、常に質問することで生徒が自分で問題を発見し、自分の意見の矛盾や欠陥を明らかにできるように指導します。、そして徐々に修正して正しい結論を導き出します。

このリンクを使用すると、AI アプリケーションは、作成時に自身に与えたフィードバックを考慮して、上記のブログ投稿を書き直すように大規模モデルに要求できます。このプロセスはリフレクションと呼ばれることが多く、ある AI アプリケーション起業家は、このプロセスがより良い結果につながることが多いと述べました。

リフレクティブなアプローチに加えて、開発者は Google をフォローして試すこともできます。サンプリングと呼ばれる手法。サンプリング中に、開発者は同じ質問を数十回、場合によっては 100 回質問し、最良の回答を選択することで、大規模モデルが創造的でランダムな回答を生成する能力を向上させます。

たとえば、プログラミングアシスタントアプリは、大規模なモデルに同じ質問に対して 100 の異なる回答を与えるように要求し、アプリはこれらのコードスニペットをすべて実行します。最終的なプログラミングアシスタントアプリは、正しい答えを生成するコードを選択し、最も簡潔なコードを自動的に選択します。

Meta は、最近の Llama 3 論文でいくつかの同様のテクニックを強調しました。

しかし、この回避策 (大規模な言語モデルを 100 回呼び出すか、大量のテキストとコードの出力を要求する) は、非常に時間がかかり、コストがかかります。おそらく一部の開発者が、これらのテクノロジーを使用する新興企業である Cognition が開発したプログラミングアシスタントのパフォーマンスが遅いと批判しているのはそのためでしょう。

開発者もこの問題を認識しており、解決しようとしています。方法は特定の問題に対して優れた推論能力を示すモデルの例を選択し、それらをモデルに「フィードバック」します。トレーニングデータこの問題を解決することに集中してください。ある起業家が言ったように、このアプローチは小学校で九九を学ぶのと似ています。最初は、生徒は各掛け算の問題を手動で計算する必要があるかもしれません。しかし、時間の経過とともに、これらの九九を暗記するにつれて、答えは生徒の直感の一部となります。

この種の AI を開発するには、開発者は大規模なモデルを制御する必要があります。しかし、OpenAI や Anthropic のクローズドソースモデルから制御の感覚を得るのは難しいため、Llama 3 のようなオープンウェイトモデルを使用する可能性が高くなります (オープンウェイトとはオープンソースの世界の用語であり、高いコードを意味します)このタスクの開放度。

上記の 2 つの方法は、OpenAI の推論における画期的な技術の背後にある可能性があります。もちろん、OpenAI は「Strawberry」プロジェクトとしても知られる Q* をまだリリースしていません。

中国のQ*

中国の開発者や研究者もこれらのテクノロジーを徐々に習得しつつあります。

中国のスカイワークAIと南洋理工大学の研究者らは、今年6月にこの問題に関する論文を発表した。この記事では、これまで見たことのない OpenAI のバージョンに敬意を表して、テクノロジーに Q* という名前も付けました。

中国の Q* テクノロジーを使用すると、大規模なモデルで複雑な論理パズルなど、複数のステップを伴う問題を解決できます。

方法は結論に達するためにステップに従うのではなく、大規模なモデルが試すべき最適な次のステップを答えの各ステップで「検索」することによって (この方法はモンテカルロ木探索とも呼ばれ、Google AlphaGo で以前に使用されていました) 。これは、大規模モデルが考えられる次の各ステップの将来の報酬、つまり最終的な答えが正しい可能性を推定するのに役立つ Q 値モデルと呼ばれる特別な方程式によって実現されます。

研究者らは、この秋にこの技術を一般公開する予定だと述べている。

インテリジェントエージェントのスタートアップである Minion AI の CEO であり、GitHub Copilot の元チーフアーキテクトである Alex Graveley 氏は、彼らはまだ努力していると語った。何か問題が発生したことに気付いたら 1 ステップ戻るように言語モデルに教えます。彼は、この認識は、大規模なモデルが間違った答えを生成したり、中間ステップを振り返るように求められたときに発生する可能性があると主張しています (上記のブログ投稿の例と同様)、間違いがあったことに気づきました。

スタンフォード大学とNotbad AIが3月に発表した「Quiet-STaR」論文など、業界ではさらなる試みが行われている。人間が話したり書いたりする前に立ち止まって自分の考えについて考えるのと同じように、この論文では、より良い意思決定を行うために、複雑な推論問題で人間が行う内部の「思考」ステップに関する情報を生成するように大規模な言語モデルを教える方法について説明します。

OpenAI の Q*/Strawberry テクノロジーは有利なスタートを切るかもしれませんが、他の誰もが追いつくために競争しているようです。

※ヘッド画像出典：GulfNews

オタクが尋ねた

私たちは遠く離れていると思いますか

「遅い思考」ができるAIはどこまで進んでいるのか？

iOS 18.1 ベータ版の通話録音の実測値。Android スマートフォンは引き続き録音プロンプトを受信できます。

いいねとフォローGeek Park ビデオアカウント，

ニュース

OpenAI の Q* はこれまで見たことがありませんが、多くのスタートアップ企業の Q* がここにあります

導入

私の連絡先情報