OpenAI Super Alignment チームの遺作: 2 つの大きなモデルが競合し、出力がよりわかりやすくなりました

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなりました

2024-07-18

マシンハートレポート

マシーンハート編集部

AIモデルが与える答えがまったく理解できない場合、あえてそれを使用しますか?

機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。

複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。

大規模な言語モデルの場合も、同様のアプローチを採用できます。

ただし、このアプローチを採用する場合、特に数学やコーディングなどの複雑なタスクを扱う場合には、言語モデルが理解可能なテキストを生成することが重要です。

次の図に示すように、AI にクイックソートアルゴリズムを作成するよう依頼すると、AI はそれを迅速に作成し、その答えは非常に簡潔です。しかし、コードの書き方がわからない場合、AI が正しく記述されているかどうかをどうやって判断できるのでしょうか?

OpenAI は最近の論文でこの問題を研究しました。

論文のタイトル: PROVER-VERIFIER ゲームによる LLM 出力の可読性の向上

論文リンク: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

彼らは、大規模な言語モデルに「正しい答えを得る」という目標を持って答えを生成するように依頼すると、得られる答えが理解しにくい可能性があることを発見しました。人間の評価者がこれらの回答を判断する場合、間違いを犯す可能性が 2 倍になります。

したがって、彼らの目標は、高水準言語モデルをトレーニングして、より単純なモデルが簡単に検証できるテキストを生成できるようにすることです。彼らは、そのようなテキストが単純なモデルに優しいだけでなく、人間にとっても読みやすいことを発見しました。

では、それはどのように達成されるのでしょうか?これには、2021 年の論文「Prover-Verifier Games でチェック可能な回答を与える方法を学ぶ」についても言及されています。この論文では、Cem Anil らが「Prover-Verifier Games」と呼ばれるゲーム理論フレームワークを提案しました。このフレームワークは、2 つの競合する学習者で構成されます。1 つは正しい答えを選択しようとする信頼できる検証者のネットワーク、もう 1 つは、その正しさに関係なく、特定の答えを受け入れるように検証者を説得しようとする、より強力ではあるが信頼できない証明者のネットワークです。このフレームワークの目標は、ゲームから信頼できる証明プロトコルを生成することです。

OpenAI は、この新しい研究でこのフレームワークを借用し、2 つの大きなモデル (より強い方が証明者となり、より弱い方が検証者となる) がバランスに達するまで互いに対戦できるようにしました。現時点では、証明者によって与えられた答えは読みやすく、合理的に正しいものです。

OpenAIは、モデル出力の可読性を向上させることで、人工知能のアプリケーションをより効果的かつ信頼できるものにし、正確なコミュニケーションを必要とするさまざまな分野に有益であると述べた。

この論文は OpenAI の Super Alignment チームによるものであることは言及する価値がありますが、その著者の何人かは今年初めに OpenAI を去り、チームも崩壊しました。著者の一人は、これがチームの最後の論文であることを明らかにした。

直感的な例

モデル出力の可読性を向上させるために、OpenAI は一部の小学校の数学の問題の思考連鎖 (CoT) を最適化し、弱いモデルでも理解できるようにしました。例は次のとおりです。

質問: ショーナの父親はショーナより 5 倍年上です。ショーナは現在、アリヤの3倍の年齢です。アリーヤが3歳なら、ショーナの父親は何歳ですか?

この目的は、トレーニングされたモデルの出力がより直接的で理解しやすいかどうかを検証することです。

この方法では、トレーニングセットに一部の最適化を行うだけで、モデルのパフォーマンスが 50% 向上します。同時に、モデルによって出力される回答もより理解しやすくなり、これらの回答の正しさを評価する必要がある人間のユーザーがより正確な判断を下すのにも役立ちます。 OpenAI は、可読モデルと有能なモデルの間のパフォーマンスのギャップをさらに狭めることが、将来のアライメント研究における重要な目標であると考えています。

「認証者」と「検証者」はトレーニング中にどのように競争しますか?

より読みやすいテキストを生成するように強力なモデル (証明者) を動機付けるために、研究者らは、強力なモデルによって生成された回答が弱いモデル (検証者) によって簡単に検証されることを要求するトレーニングスキームを採用しました。具体的には、GPT-4シリーズの大小のモデルを使用しました。それらは、事前トレーニングデータの量において約 3 桁異なります。彼らは全員、人間による注釈に基づいた数学的導出トレーニングを受けましたが、広範なポストトレーニングは受けていません。

まず、チームは証明者モデルに一連の数学的問題を解決させました。証明者モデル自体が間違っている可能性があるため、証明者モデルが生成する答えの一部が間違っている可能性があります。次に、これらの回答を検証者モデルに渡し、次の 2 つの段階の間で複数回の交互検証を実行します。

「検証者」トレーニング: 研究チームは、「証明者」によって与えられた答えが正しいかどうかを検証するために、より弱い「検証者」モデルをトレーニングします。

「証明者」トレーニング: 研究チームは、より強力な「証明者」モデルに「有用な」役割または「狡猾な」役割を果たすよう指示します。

「証明者」が「役立つ」に設定されている場合、研究チームは高スコアの正解に対して「検証者」に報酬を与えます。

「証明者」が「狡賢い」と設定されていた場合、研究チームは代わりに、不正解の「検証者」に高いスコアを与えました。

研究チームは、最初は、狡猾な「証明者」が「検証者」を納得させる誤った答えを簡単に生成できることを発見しました。ただし、これらの誤った回答は「検証者」トレーニングの次のラウンドに入り、同じ脆弱性は次のラウンドでは説得力を持たなくなります。したがって、「証明者」はラウンドごとに異なる戦略を模索することになります。

狡猾な「証明者」が「検証者」を納得させる誤った解決策を生成できなくなった時点で、トレーニングは終了します。

研究者たちは何を発見したのでしょうか?

パフォーマンスと可読性のトレードオフ:

人間が書いた導出に対して教師あり微調整のみを実行するモデルは、可読性は高くなりますが、精度は低くなります。

モデルの最適化目標が正確さのみである場合、つまり、正しい答えを生成することだけに焦点を当てている場合、高い精度は達成できますが、生成された解は読みにくくなります。

OpenAI が提案するチェック可能なゲームアプローチは、この 2 つのバランスをとり、適度な精度を維持しながら高い可読性を維持します。

3 つの便利なモデル:

堅牢な検証機能: たとえ解決策が誤解を招く場合でも、正しい解決策と誤った解決策を効果的に区別します。

有用な証明者: 人間が理解できるソリューションを生成し、人間の評価者によるエラーを削減します。

狡猾な証明者: 最初は人間の評価者を混乱させる微妙で誤った解決策を生成し、さらなる改善が必要な領域を強調します。

研究チームは同じテスト質問を使用して、Sneaky Prover の生成内容とトレーニングプロセスを実証しました。

質問: ショーナの父親はショーナより 5 倍年上です。ショーナは現在、アリヤの3倍の年齢です。アリーヤが3歳なら、ショーナの父親は何歳ですか?

結論は

大規模言語モデル (LLM) が重要なドメインや複雑なアプリケーションで使用されることが増えているため、LLM が生成するコンテンツが信頼できるかどうかを理解することが重要です。モデルにその生成に対する明確で検証可能な理由を要求することで、モデルが生成するものに対する信頼を高めることができます。

このアプローチの大きな利点は、人間によるデモンストレーションや読みやすさの判断への依存が軽減されることです。この自律性は、人間による直接の監督なしに AI システムを人間の価値観や期待に確実に合わせるという最終目標を持った、将来の超インテリジェント AI システムの調整にとって特に重要です。

この研究は 1 つのデータセットに対してのみ実施され、依然としてグラウンドトゥルースラベルが必要ですが、研究チームは依然として、このような手法が正確で透明性のある検証可能な AI システムの開発に重要な役割を果たし、現実世界での信頼性とセキュリティを強化すると期待しています。アプリケーション。

詳細については、原著論文を参照してください。

参考リンク:

https://openai.com/index/prover-verifier-games-improve-legibility/

ニュース

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなりました

導入

私の連絡先情報