私の連絡先情報
郵便管理者@information.bz
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- クレシーはアオフェイ寺院から来ています
キュービット | 公式アカウント QbitAI
大きなモデルは、現実世界についての独自の理解を形成することができます。
MIT の研究では、モデルの能力が高まるにつれて、現実の理解が単純な模倣を超える可能性があることが判明しました。
例えば、大型モデルが匂いを嗅いだことがないということは、匂いが理解できないということでしょうか?
研究の結果、理解を容易にするためにいくつかの概念を自発的にシミュレートできることが判明しました。
この研究が意味するのは、大型モデルは将来、言語と世界をより深く理解できるようになると期待されています、この論文は ICML 24 に受理されました。
この論文の著者は、中国人の博士課程学生である Charles Jin と、その指導教員である MIT コンピュータ人工知能研究所 (CSAIL) の Martin Rinard 教授です。
研究中、著者は大規模モデルにコードテキストのみを学習するよう依頼したところ、モデルが徐々にその背後にある意味を理解することがわかりました。
リナード教授は、この研究は現代の人工知能の中核問題を直接ターゲットにしていると述べた——
大規模モデルの力は単に大規模な統計的相関関係から生じているのでしょうか、それとも、モデルが対処しようとしている現実世界の問題について有意義な理解を生み出すのでしょうか?
△出典:MIT公式サイト
同時に、この研究は多くの議論を引き起こしました。
一部のネチズンは、大きなモデルは人間とは異なる言語を理解するかもしれないが、この研究は少なくともモデルが訓練データを記憶するだけではないことを示していると述べた。
大規模なモデルが意味レベルの理解を生み出すことができるかどうかを調査するために、著者はプログラムコードとそれに対応する入出力合成データセット。
これらのコード プログラムは、と呼ばれるプログラムを使用して記述されます。カレルこれは教育言語で書かれており、主に 2D グリッド世界でロボット ナビゲーションのタスクを実現するために使用されます。
このグリッド ワールドは 8x8 グリッドで構成されており、各グリッドには障害物、マーカー、またはオープン スペースを含めることができます。ロボットはグリッド間を移動し、マーカーの配置/ピックアップなどの操作を実行できます。
カレル言語には、move (1 歩進む)、turnLeft (左に 90 度回転)、turnRight (右に 90 度回転)、pickMarker (マーカーを拾う)、putMarker (マーカーを配置する) の 5 つの基本操作が含まれています。プログラムはこれらの基本操作で構成されます。一連の操作。
著者らは、各プログラムの長さが 6 ~ 10 である 500,000 の Karel プログラムを含むトレーニング セットをランダムに生成しました。
各トレーニング サンプルは、5 つの入力状態、5 つの出力状態、および完全なプログラム コードの 3 つの部分で構成され、入力および出力状態は特定の形式の文字列にエンコードされます。
このデータを使用して、著者らは標準の Transformer アーキテクチャの CodeGen モデルのバリアントをトレーニングしました。
トレーニング プロセス中、モデルは各サンプルの入出力情報とプログラム プレフィックスにアクセスできますが、プログラム実行の完全な軌跡と中間状態を確認できない。
トレーニング セットに加えて、著者はモデルの汎化パフォーマンスを評価するために 10,000 個のサンプルを含むテスト セットも構築しました。
言語モデルがコードの背後にあるセマンティクスを把握しているかどうかを調査し、同時にモデルの「思考プロセス」を深く理解するために、著者は線形分類器と単一/二重隠れ層MLPを含む検出器の組み合わせを設計しました。
検出器の入力は、プログラム トークンの生成プロセスにおける言語モデルの隠れた状態であり、予測ターゲットは、ロボットの向き、初期位置に対するオフセット、ロボットが向いているかどうかなど、プログラム実行の中間状態です。障害物(障害物)に向かって進む、この3つの特性。
生成モデルのトレーニング プロセス中、著者は 4000 ステップごとに上記 3 つの特徴を記録し、検出器のトレーニング データ セットを形成するために生成モデルの隠れた状態も記録しました。
言語モデルによって生成されるプログラムの多様性、複雑さ、その他の指標がトレーニング プロセスとともにどのように変化するかを観察することにより、著者はトレーニング プロセスを 3 つの段階に分割します。
具体的には、バブリング段階はトレーニング プロセス全体の最初の 50% を占めます。たとえば、トレーニングが約 20% に達すると、どのような仕様が入力されても、モデルは固定プログラム (「pickMarker」を 9 回繰り返す) のみを生成します。
文法習得段階はトレーニング プロセスの 50% から 75% にあり、カレル プログラムにおけるモデルの複雑さは大幅に低下しています。これは、言語モデルがカレル プログラムの統計的特性によりよく適応し始めていることを示していますが、精度は低下しています。生成されたプログラムは大幅に改善されておらず (約 10% から約 25%)、依然としてタスクを正確に完了できません。
意味取得段階は最後の 25% で、生成されたプログラムは指定されたタスクを正確に完了できるようになり、約 25% から 90% 以上に大幅に向上しました。
さらなる実験により、検出器は時刻 t における同期タイム ステップを予測できるだけでなく、後続のタイム ステップでのプログラムの実行ステータスを予測する。
たとえば、生成モデルが時刻 t にトークン「move」を生成し、時刻 t+1 に「turnLeft」を生成すると仮定します。
同時に、時刻 t でのプログラムの状態はロボットが北を向いており、座標 (0,0) に位置していることになりますが、時刻 t+1 のロボットは西を向いており、その位置は変わらない。
検出器が時刻 t での言語モデルの隠れ状態から、時刻 t+1 でロボットが西を向くことをうまく予測できた場合、それは、「turnLeft」を生成する前に、隠れ状態にこれによって引き起こされる状態変化がすでに含まれていることを意味します。操作情報。
この現象は、モデルが生成されたプログラム部分の意味を理解しているだけでなく、生成の各ステップで、次に生成されるコンテンツをすでに予測および計画しており、予備的な内容を示していることを示しています。未来志向の推論スキル。
しかし、この発見はこの研究に新たな疑問をもたらしました——
実験で観察された精度の向上は、本当に生成モデルの向上なのか、それとも検出器自身の推論の結果なのでしょうか?
この疑問を解決するために、著者はこう付け加えた。意味検出介入実験。
実験の基本的な考え方は、プログラム動作の意味解釈ルールを変更することであり、「反転」と「敵対的」の2つの方法に分けられます。
「フリップ」は命令の意味を強制的に反転するもので、たとえば「turnRight」は強制的に「turn left」として解釈されますが、この種の反転を実行できるのは「turnLeft」と「turnRight」だけです。
「adversarial」は、すべての命令に対応するセマンティクスをランダムにスクランブルします。具体的な方法は次の表のとおりです。
生成モデルの隠れ状態が意味情報ではなくプログラムの構文構造のみをエンコードしている場合でも、検出器は同等のパフォーマンスで隠れ状態から変更された意味情報を抽出できるはずです。
逆に、検出器のパフォーマンスが大幅に低下した場合は、生成モデルの隠れ状態が実際のセマンティクスをエンコードしているため、検出器によって示されたパフォーマンスの向上が実際に起こったことを意味します。
実験結果は、両方の新しいセマンティクスの下では検出器のパフォーマンスが大幅に低下することを示しています。
これは、「敵対的」モードで特に顕著であり、このモードのセマンティクスが元のセマンティクスと大幅に異なるという特徴とも一致します。
これらの結果は、検出器が「意味論的マッピングを独自に学習する」可能性を強く排除し、生成モデルが実際にコードの意味を把握していることをさらに裏付けています。
用紙のアドレス:
https://icml.cc/virtual/2024/poster/34849
参考リンク:
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/