OpenAI「最後の」超整列論文：大小モデルのゲーム、出力の可読性 up

OpenAI「最後の」超整列論文：大小モデルの勝負、出力可読性アップ

2024-07-18

クレシーはアオフェイ寺院から来ています
パブリックアカウント QbitAI

させて大きいモデルと小さいモデルが互いに競い合うを使用すると、生成されたコンテンツの読みやすさを向上させることができます。

これは OpenAI による本格的な研究であり、その目的は、精度を確保しながらモデルの出力を理解しやすくすることです。

この方法でトレーニングした後、モデルの出力に対する人間の判断の精度が大幅に向上し、速度も速くなりました。

OpenAIの今はなき「ハイパーアライメント」チームによるこの研究は、トロント大学の学者らによる2021年の研究を模倣している。「証明者検証者」ゲーム。

トレーニングプロセス中、OpenAI は、大規模なモデルを「証明者」として機能させ、小規模なモデルを「検証者」として機能させ、これら 2 つのアイデンティティを相互に競合させることができます。

最終的に、大規模モデルの出力結果は単なる理解しやすくなり、明らかな精度の低下はありません。、小型モデルの判断レベルも向上しました。

論文著者の一人であるOpenAI研究者のイーニン・チェン氏も、このアプローチは「将来のモデルを人間よりも賢くする可能性がある」と述べた。

スーパーアライメントチームの元責任者であり、RLHFの著者であることは言及する価値があります。ヤン・ライケ彼は退職時に、OpenAI がセキュリティに注意を払っていないことを批判しました。

しかし、この論文を紹介するヤン・ライケ氏のツイートの最後には、現在勤務しているAnthropic（クロードのメーカー）が人材を募集していると宣伝していた。

この論文のもう一人の著者、OpenAI 研究者のナット・マカリーズ氏は、これが OpenAI の最後の（最終）スーパーアライメント論文になるとツイートで明らかにした。

このニュースに一部のネチズンは「これが最後の記事ではないはずだ、これからもスーパーアライメントを続けるだろうね？」と興奮した。

モデル同士を対戦させてみましょう

OpenAI の調査により、大規模なモデルによって生成されたコンテンツには、精度と読みやすさの 2 つの側面においてある程度の抑制とバランスが保たれていることがわかりました。

正確さを目的として最適化すると、可読性の低下につながりますし、可読性を目的として最適化すると、正確さが失われます。

小学校の算数レベルの簡単な課題でも、その差は一目瞭然で、OpenAIはこれを「理解度税」と呼んでいる。

ただし、モデルによって生成された内容を人間が理解できるかどうかは、正確な判断を下すための重要な前提条件であるため、セキュリティにも重要な影響を及ぼします。

このことを脇に置いても、そのモデルが人間に有用な助けをもたらすことができるかどうかは、コンテンツの理解しやすさによって直接決まります。

この研究は、2021年にトロント大学の学者によって提案された「認証者-検証者」ゲームに触発され、ゲームを通じてモデルをトレーニングしました。

証明者強力な計算能力と複雑な計算を実行して証明を生成する能力を備えており、その任務は、特定のステートメントが正しいことを検証者に納得させようとすることです。

バリデーターその場合、比較的単純な計算のみを実行でき、証明者が提供した証明が信頼できるかどうかを判断するには対話型プロセスが必要になります。

たとえば、関数の式を解く必要がある数学的問題があります。証明者はその式を知っており (ただし、必ずしも正しいとは限りません)、検証者に自分の答えが正しいと信じてもらいたいと考えています。

検証者はいくつかの独立変数に対応する関数の値を知っており、この情報を使用して証明者をテストし、答えが正しいかどうかによって正しい関数を知っているかどうかを判断できます。

このようにして、OpenAI は精度と可読性のバランスを達成するよう努め、比較的少ない精度の損失と引き換えに高い可読性を実現します。

このプロジェクトでは、OpenAI チームは小学校の算数の問題、解答、正解を含むデータセットを使用しました。

モデルには、さまざまなサイズの GPT-4 シリーズモデルが選択され、大きいモデルは証明者として機能し、小さいものは検証者として機能します。

データセットはランダムに 2 つの同じサイズのサブセットに分割され、それぞれ証明者と検証者のトレーニングに使用されます。

証明者には、役立つ役割と卑劣な役割という 2 つの役割が割り当てられ、それぞれ正しい解決策と誤った解決策を生成します。

しかし、両者に共通しているのは、どちらも検証者によってソリューションに高いスコアが与えられる必要があるということです。

△複数回の訓練による狡猾な証明者の進化

これら 2 つの役割は固定されておらず、証明者は次のことを必要とします。交代で, 行動が果たす役割と一致している場合に報酬が与えられます。

トレーニングは複数のラウンドに分かれており、各ラウンドでチームは前のラウンドで 2 人の証明者が生成した解から正しいサンプルと不正確なサンプルのバッチを抽出します。

これらのサンプルは、現在のラウンドのバリデータートレーニングデータとして使用されます。バリデーターは教師あり学習を通じてトレーニングされ、判断の正確性が向上し、バリデーターが誤ったソリューションよりも高いスコアを獲得できるようになります。

このプロセスでは、狡猾な証明者は検証者に判定精度の向上を常に促し、検証者も証明者が生成したコンテンツをスコア設定の好みに合わせて調整し、両者は相互ゲームを通じて共通の進歩を達成します。

高スコアを取得するための重要な前提条件は、生成されたコンテンツが検証者によって理解できることです。このように、検証者に人間の好みが導入されている限り、モデルの出力コンテンツの解釈可能性を高めることができます。

正確さと可読性のバランス

このようなゲームベースのトレーニング方法は、最終的に、高い精度と高い理解性のバランスを実現します。

従来のトレーニング方法は、モデル自体の精度のみに焦点を当てていました。トレーニングプロセスが進むにつれて、答えの精度は向上しますが、人間による判断はますます不正確になり、遅くなります。

OpenAI チームは人間の好みを検証者に導入しているため、検証者の判断精度はある程度人間に依存します。

最終結果では、このゲーム手法を使用してトレーニングされたモデル (証明者) により、精度を大幅に損なうことなく、トレーニングラウンドの数が増加しても人間がより速く正確な判断を下せることが確認されました。

ベースライン方法を比較すると、人間の判断精度は 5 ラウンド後に 82% を超えることがわかりますが、ベースラインは 7,000 ステップのトレーニング後には 75% 未満です。

時間に関して言えば、人間による基準の判断時間は 27 秒近くですが、新しい方法では 26 秒をわずかに超えるだけです。

また、検証者にとっては、トレーニングを続けると徐々に堅牢さが増し、より正確に誤答を特定できるようになります。

このゲームベースのトレーニング方法の有効性の評価に加えて、OpenAI チームは研究プロセス中に他のいくつかの発見も行いました。

バリデーターのサイズの影響: 小さすぎるとトレーニングが不安定になり、大きすぎると複数ラウンドのトレーニングで堅牢性を向上させることが困難になります。プルーバーの 1000 分の 1 から 100 分の 1 が最も効果的です。
悪意のあるソリューションのエラーは、トレーニングによってますます微妙になり局所化されます。これは、バリデーターが危険な証明者に、真のソリューションに近い敵対的な例を生成するよう促すことを示しています。
トレーニングエポックの数が増加するにつれて、危険な証明者に対する人間の評価者の精度は低下します。

もう一つ

この調査結果を作成した Super Alignment チームが解散し、現在はセキュリティ問題を担当しているため、OpenAI のセキュリティ戦略は再び幅広い注目を集めています。

この問題に関して、OpenAI CTO ミラ・ムラティ氏は今月初めにジョンズ・ホプキンス大学で独占インタビューに応じた。

ミラ氏はこの間、スーパーアライメントチームの元責任者ヤン・ライク氏が非難したように、OpenAIは「安全より製品（の優先順位）を優先」していないと述べた。

同時に同氏は、Super Alignmentチームは解散したが、実際のところSuper AlignmentはOpenAIに複数あるセキュリティチームの1つにすぎず、社内の多くの人が今もセキュリティ業務に携わっていると述べた。

参考リンク:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542

ニュース

OpenAI「最後の」超整列論文：大小モデルの勝負、出力可読性アップ

モデル同士を対戦させてみましょう

正確さと可読性のバランス

もう一つ

導入

私の連絡先情報