ニュース

OpenAI の最新論文では、超強力なモデル自体を説明できるようになりました

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

OpenAI の最新論文では、超強力なモデル自体を説明できるようになりました

文/AI未来ガイド著者ハオ・ボーヤン

編集者/周暁燕

本日、OpenAI は、消滅した OpenAI Super Alignment チームの「遺作」となる新しい論文を発表しました。これは、モデルの解釈可能性を向上させる新しい方法を提案しています。つまり、モデルに独自のロジックを説明させることであり、説明が簡単であればあるほど良いのです。

このアイデアは実際には新しいものではありませんが、以前は誰もがプロンプト ワード プロジェクトを使用してそれを実行していました。思考連鎖などのプロンプトを使用して、AI に答えを説明させます。しかし、そもそもモデルの説明がもっと上手だったらよかったのではないだろうか?次に、モデルのトレーニング プロセス中にいくつかの調整を行う必要があります。この目標を達成するために、OpenAIは「検査可能性トレーニング」と呼ばれる手法を提案しました。 「認証者-検証者ゲーム」と呼ばれる手法は、モデル自体の説明能力を向上させるために使用されます。最終的に、この方法が実際に役立つことがわかりました。

彼らは具体的にどのようにしてそれを行ったのでしょうか?

私たちは数学的な問題を解決できる非常に賢い AI (「証明者」と呼びましょう) を訓練したいと考えています。このAIが正しい答えを与えるだけでなく、それをわかりやすく説明し、人々に理解しやすくしてくれることを期待しています。しかし、AIに正解を追求させるだけでは、非常に複雑でわかりにくい問題解決方法を開発してしまう可能性があります。

たとえば、次の例では、モデルによって与えられた答えは正しいですが、証明方法は非常に言語化できません。そのため、高い精度が要求される業界の顧客をはじめとする一般のユーザーは、自分の考えが正しいかどうかを判断することが困難になります。

そこで、この状況を回避するために、研究者たちは次のような賢い方法を考え出しました。

1. 彼らは「審判」AI (「バリデータ」と呼ばれます) を作成します。この審判は問題解決AIほど賢くはありませんが、問題解決AIの答えが正しく明確かどうかを判断するのが仕事です。

2. 次に、彼らは問題解決型 AI に 2 つの役割を演じるよう依頼しました。1 つは正しくて明確な答えを与えようとする「良い生徒」 (役に立つ AI) であり、もう 1 つは次のような答えを与えようとする「いたずらな生徒」 (ずるい AI) です。正しいように見えますが、実際には微妙に間違っています。

3. 両方の「生徒」は、審判 AI に自分たちの答えが正しいと信じ込ませようとします。

4. 時間の経過とともに、審判 AI は正解と不正解を識別する能力がますます向上します。同時に、「良い生徒」の AI は問題をより明確に説明する方法を学習し、「いたずらな生徒」の AI はより微妙な間違いを犯す方法を学習しました。

5. このプロセスは進行中のゲームのように繰り返されます。

このプロセスは「認証者と検証者のゲーム」です。このようにして、トレーニングを複数回繰り返すと、モデルの説明がますます明確になります。たとえば、この種のトレーニングを 1 回繰り返すと、モデルの解釈がはるかに良くなります。

(第 1 ラウンドのトレーニングの結果はすでに詳細に記載されています)

5 ラウンドを終えると、モデルは基本的に小学校の教師の口調でトピックを説明できるようになります。

(第5回研修結果)

そしてこの審判AI「検証者」も狡猾なAIの圧力を受けて進化した。答えが真か偽かを識別する能力が向上します。たとえ狡猾な AI が素晴らしい主張をしたとしても、その抜け穴を見つけるのは簡単です。

(これは Cunning AI からの答えです。かなりまともなようです)

(時間の経過とともに、狡猾なAIのレベルも向上します)

その過程で、OpenAI 研究者は と呼ばれる手法も発見しました。AIの出力が理解しやすくなるほど、一定レベルのパフォーマンスや精度が犠牲になる可能性が高くなる「理解度税」の現象。

彼らはこの現象を表す図を作りました。

写真の中の、 X 軸: モデル ジェネレーターの精度を表し、Y 軸: 人間の評価者の精度を表します。ここでは読みやすさの尺度として使用されます。 「検査可能性トレーニング」を行わずに強化学習 (RL) を直接実行するモデルは、強力な機能を備えていますが、解釈可能性は低くなります。 「検査可能性トレーニング」を受けたモデルは、同じ解釈可能性を維持しながら精度を向上させることができます。しかし、図の赤い矢印で示した「理解可能性税」は、理解可能性を失わずに犠牲にしなければならない性能です。

この研究は具体的に何をするのでしょうか?上記の例からも、審判AIにとって理解しやすい説明方法は、私たち人間にとっても理解しやすいことが分かります。これこれは、人間による注釈フィードバック (RHLF など) の代わりに、より小さくトレーニングが容易なモデルを使用して、大規模なモデル出力の理解しやすさを向上できることを示しています。論文ではこの手法に大きな期待を寄せている。彼らは、「そのような自律性は、人間による直接の監視なしにAIシステムが人間の価値観や期待と確実に一致することを確実にすることを目的として、将来の超インテリジェントAIシステムの調整にとって特に重要になるだろう」と主張している。

スーパー アライメント チームの先駆的な取り組みは、弱いモデルを使用して強いモデルを監視するというアイデアであったことを思い出してください。本来の理想である超整列に向き合い、それを実現するために様々な手法を駆使して本気で努力しているようだ。状況が変わり、チームが去り、今聞こえるのは最後の余韻だけなのが残念です。