ニュース

世界モデルが再び近づいている? MIT の驚くべき研究: LLM はランダムなオウムではなく、現実世界をシミュレートしました。

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】MIT CSAIL の研究者らは、LLM が「心の奥深く」で現実のシミュレーションを開発しており、モデルによる言語と世界の理解が単なる「オウム」をはるかに超えていることを発見しました。言い換えれば、将来的には、LLM は言語を現在よりも深く理解することになるでしょう。

LLM は世界モデルからどれくらい離れていますか?

昨年、MIT の記事で、LLM の内部には世界モデルがあるという驚くべき結論が見つかりました。

LLM は地表統計を学習するだけでなく、空間や時間などの基本的な緯度を含む世界モデルも学習します。


それだけでなく、MIT は最近、LLM の奥深くで現実のシミュレーションが発達しており、言語の理解が単なる模倣をはるかに超えていることを発見しました。


論文アドレス: https://arxiv.org/abs/2305.11169

具体的には、MIT のコンピューター サイエンスおよび人工知能研究所 (CSAIL) の 2 人の学者が次のことを発見しました。

LLM は、純粋な統計的確率のみを含むように見える「次のトークンを予測する」という目標のみを使用してプログラミング言語を学習するようにトレーニングされていますが、モデルは依然としてプログラムの形式的セマンティクスを学習できます。

これは、言語モデルが生成能力を向上させる方法として、現実に対する独自の理解を発展させる可能性があることを示唆しています。


したがって、LLM はいつか言語を現在よりも深いレベルで理解できるようになるかもしれません。

この記事は ICML 2024 に受理されており、実験で使用されたコードは GitHub で公開されています。


ウェアハウスのアドレス: https://github.com/charlesjin/emergent-semantics

目がなければ、LLM は「見る」ことができないのでしょうか?

GPT-4に雨に濡れたキャンプ場の匂いを嗅いでもらうと、丁重に拒否される。


それでも、詩的な説明が得られます。新鮮な土の香りと、松や濡れた葉の香りを伴う爽やかな雨の香りがあります。

GPT-4 は雨を経験したことがなく、鼻もありませんが、大量のトレーニング データに存在するテキストを模倣することができます。

目が欠けているということは、言語モデルでは「ライオンは飼い猫よりも大きい」ということを決して理解できないということなのでしょうか?


LLM は現実世界とさまざまな抽象概念を理解できますか?それとも単に「オウム返し」をして、純粋に統計的確率に頼って次のトークンを予測しているのでしょうか?

LLM の動作原理はまだ未解決の謎です。 AI 界の偉い人たちは、この問題について時々議論を始めるでしょう。

LeCun は、LLM の知性は間違いなく過大評価されていると確信しています。彼の最も有名な主張は、「大規模な言語モデルは家庭で飼う猫ほど優れていない」というものです。

「猫は記憶することができ、物理的な世界を理解でき、複雑な行動を計画することができ、ある程度まで推論することができます。これは実際、機械を作る上で概念的なレベルで重要なギャップがあることを意味します。動物のように、人間と同じくらい賢い。」


多くの人は、これを純粋に統計的な現象として説明します。LLM は、大量のトレーニング コーパスに存在するテキストを「オウム返し」して模倣しているだけであり、人間と同じレベルの知能や認識を持っていません。

しかし今、MIT の研究により、これは事実ではないことが証明されました。

LLM 内には、現実世界の理解が確実に存在します。

LLM がカレルパズルを解く、それは何を意味するのか

この謎を探るために、MIT CSAIL の研究者は一連の小さなカレル パズルを開発しました。


カレルのパズルとは何かを簡単に紹介

これには、シミュレートされた環境でロボットの動作を制御するための命令をモデルに使用させることが含まれます。


カレル文法の仕様

次に、LLM がどのように機能するかを実証することなく、特定のソリューションを学習するようにトレーニングします。

最後に著者は、モデルが新しい解決策を生成するときの「思考プロセス」を深く理解するための「プロービング」と呼ばれる機械学習手法を提案します。


研究者は、ランダムな参照プログラムをサンプリングしてトレーニング サンプルを構築し、次に 5 つのランダムな入力をサンプリングしてプログラムを実行し、対応する 5 つの出力を取得します。 LM は、インターリーブされた入力と出力で構成される例のコーパスで次のトークンを予測するようにトレーニングされ、その後に参照手順が続きます。テスト時に、研究者は LM に目に見えない入出力仕様を提供し、貪欲なデコードを使用してプログラムを予測します。

100 万を超えるランダムなパズルでトレーニングした後、研究者らは、モデルが基礎となる模擬環境の概念を自発的に形成することを発見しました。彼らは訓練中にこの情報に触れませんでしたが。

この結果は、LLM に対する私たちの固有の印象に疑問を投げかけるだけでなく、思考プロセスの性質についての私たちの理解を疑問視します。

意味論を学習する過程ではどのような種類の情報が必要ですか?


実験の開始時には、モデルによって生成されたランダムな命令を実行することはほとんど不可能でしたが、トレーニングが完了すると、命令の精度は 92.4% に達しました。

論文の筆頭著者であるジン氏は、「言語モデルがこの精度でタスクを完了できれば、言語の意味も理解できると期待できるので、これは非常にエキサイティングな瞬間だ」と述べた。

「これにより、LLM が実際にテキストを理解できるかどうかを調査する出発点が得られました。そして今では、このモデルが盲目的に単語をつなぎ合わせる以上のことができることがわかりました。」

LLM の頭脳を開く

この実験中、ジンはこの進歩を直接目撃しました。

LLM はなぜこれらの指示がこれを意味すると考えているのでしょうか?

彼は、LLM が各コマンドに応じてロボットがどのように動くかについての独自の内部シミュレーションを開発していることを発見しました。

難しい問題を解決するモデルの能力がますます高くなるにつれて、これらの概念はますます正確になり、LM が指示を理解し始めていることがわかります。

やがて、LLM は一貫して各部分を正確につなぎ合わせて作業指示書を作成できるようになりました。


さまざまなプローブ分類子によって測定された意味内容 (緑色)

思考探査

上記の発見への主な貢献は「思考探査」です。

これは、LLM の思考プロセスに介入するための効果的なツールであり、論文ではこれを「プロービング」と呼んでいます。


具体的には、LM の状態には入力プログラムと生成されたプログラムの純粋な構文記録が含まれていますが、プローブは抽象的な解釈を理解することを学習できるようです。

実際の実験では、著者はまず LLM 状態追跡データセットを構築し、次に標準的な教師あり学習手法を使用して、線形分類器や 2 層 MLP などの小さなモデルをプローブとしてトレーニングしました。


トレーニング後半の現在と次の 2 つの抽象状態の意味内容 (1 層 MLP)

ただし、重要な問題は、プローブをモデルの実際の思考プロセスや生成された命令から分離する必要があるということです。

プローブの唯一の目的は「LLM の脳に入る」ことですが、モデルの思考も行うとしたらどうなるでしょうか?

研究者が確認する必要があるのは、LLM による構文の把握に基づいてプローブにロボットの動作を推測させるのではなく、LLM がプローブから独立して命令を理解できることです。

LLM の思考プロセスをコード化した大量のデータがあり、プローブの役割は法医学分析者のようなものであると想像してください。

私たちはこのデータの山を分析者に渡し、「これはロボットの動きです。このデータの山の中でロボットがどのように動くかを調べてみてください。」と言いました。分析者は、このデータの山の中のロボットを知っていると言いました。 。 どうしたの。


しかし、このデータの山が生の命令をエンコードしているだけで、アナリストがその命令を抽出してそれに基づいて行動するための賢い方法を考え出したとしたらどうなるでしょうか?

この場合、LLM はこれらの命令の意味をまったく理解していません。

この目的のために、研究者たちは独創的な設計を行い、モデルに「奇妙な世界」を作り出しました。

この世界ではプローブのコマンドの意味が逆になり、「上」は実際には「下」を意味します。


たとえば、元のセマンティクスの exec(turnRight,·) はロボットを時計回りに 90 度回転させますが、exec adversarial(turnRight,·) はロボットを空間に押し込みます。

これにより、プローブが「ご都合主義」ではなくなり、LLM が命令をエンコードする方法を直接学習して理解できるようになります。

ある作家ジンはこのように紹介しました——

プローブが指示をロボットの位置に翻訳する場合、不可思議な意味を持つ指示を同様に翻訳できる必要があります。

しかし、プローブが実際に言語モデルの思考プロセス内の元のロボットの動きのエンコードを探している場合、元の思考プロセスから奇妙なロボットの動きを抽出するのは困難になるはずです。

プローブには変換エラーがあり、異なる命令の意味を持つ言語モデルを解釈できないことが判明しました。

これは、元のセマンティクスが言語モデルに埋め込まれていることを意味し、LLM が元の検出分類子とは独立して必要な命令を理解できることを示しています。


前半では、介入前の 2 つの条件によってどのようにして測定値の意味論的な内容が高くなったかを説明します。下の部分は、2 つの仮説が分離される理由を示しています。LM 表現に文法のみが含まれている場合 (左下)、プローブ alt をトレーニングして、代替状態 prog の観点からレコードを解釈することを学習できるはずです (太字の赤色の結果)。 ; ただし、LM 表現に元の抽象状態のエンコードが含まれている場合 (右下)、alt を検出するには元の状態 prog から代替状態 'prog' を抽出する必要があり、結果として意味論的な内容が低くなります (灰色の太字の結果)。


LLM は子供のように言語を理解します

興味深いことに、ジンは、子供たちが言語を複数の段階で学習するのと同じように、LLM の言語理解が段階的に発達することを発見しました。

最初は赤ちゃんのように喃語を話し、言葉の繰り返しで理解するのが難しいものがほとんどです。


その後、LLM は文法または言語規則の取得を開始して、実際の解決策のように見える命令を生成できるようにしますが、それでも機能しません。

ただし、LLM 命令は徐々に改善されます。


モデルが意味を獲得すると、子供が文を構築するのと同じように、必要な仕様を正しく実装するための命令を生成し始めます。

結果を図 2 に示します。LLM の言語理解は、子どもの言語学習と同様に、大きく 3 つの段階に分かれていることがわかります。

  • せせらぎ (灰色の部分): トレーニング プロセス全体の約 50% を占め、反復性の高いプログラムが生成され、精度は約 10% で安定しています。

  • 構文の取得 (オレンジ色の部分): トレーニング プロセスの 50% から 75% で、生成される結果の多様性が急激に増加し、構文属性が大幅に変化し、モデルはプログラムのトークンのモデル化を開始しますが、生成の精度は改善は明らかではない

  • 意味の獲得 (黄色の部分): トレーニング プロセスの 75% が終了し、多様性はほとんど変化しませんが、生成の精度が大幅に向上し、意味の理解が出現していることを示しています。


実験では、比較のために 3 つの異なるプローブ アーキテクチャ、つまり線形分類器、単層 MLP、および 2 層 MLP を使用しました。

2 ステップ先を予測する場合、2 層 MLP 予測精度の絶対値は、現在の状態で予測されたベースライン モデルよりも高くなります。 LLM が命令を生成する前に、LLM の思考プロセスと命令を生成する「意図」がモデル内に格納されていると推測することも可能です。


LLM = ワールドモデル?

この研究では、LLM がトレーニング データ内の各命令の意味をどのように考え、内部状態で命令に対するロボットの応答をシミュレートするかを説明します。

これらはすべて、現在の AI 研究における核心的な疑問を示しています。LLM の驚くべき能力は、単に大規模な統計的相関によるものなのでしょうか、それとも、LLM の現実についての意味のある理解につながるのでしょうか?

調査によると、LLM は、そのモデルを開発するためのトレーニングを受けていないにもかかわらず、現実をシミュレートする内部モデルを開発しました。


さらに、言語モデルは言語の理解をさらに深めることができます。

ただし、1 つの論文だけではこの質問に完全に答えることはできません。

著者のジン氏も、この研究にはいくつかの限界があることを認めました。研究では、非常に単純なプログラミング言語 Karel と非常に単純なプローブ モデル アーキテクチャのみを使用しました。

今後の作業は、より一般的な実験設定に焦点を当て、LLM の「思考プロセス」に関する洞察を最大限に活用してトレーニング方法を改善する予定です。

この記事のもう一人の著者であるリナード氏は、「興味深い未解決の疑問は、ロボットのナビゲーション問題を解決するとき、LLM は現実を推論するために内部現実モデルを使用しているのかということです。」と述べています。

論文で示された結果はこの結論を裏付ける可能性がありますが、この実験はこの質問に答えるように設計されたものではありません。

ブラウン大学コンピューターサイエンス言語学部助教授のエリー・パブリック氏は、この研究を高く評価した。

彼女は、LLM がどのように機能するかを理解することで、このテクノロジーに固有の可能性と限界について、より合理的な期待を抱くことができると述べました。この研究では、制御された環境でまさにこの疑問を調査します。

コンピューター コードには、自然言語と同様に構文とセマンティクスの両方がありますが、自然言語とは異なり、コードのセマンティクスはより直観的であり、実験のニーズに応じて直接制御できます。

「実験計画は洗練されており、その結果は有望であり、おそらく LLM が言語の『意味』をより深く理解できることを示唆しています。」

著者紹介

この記事の最初の著者である Charles Jin は、MIT EECS 部門の博士号取得候補者であり、彼の指導教員である Martin Rinard は、この記事の研究に重点を置いています。


ジンはイェール大学でコンピュータ サイエンスと数学の学士号と修士号を取得し、かつては Weiss Asset Management でアナリストとして働いており、博士課程の在学中は Google Brain で研究インターンとして働いていました。

参考文献:

https://the-decoder.com/training- language-models-on-synthetic-programs-hints-at-emergent-world- Understanding/

https://news.mit.edu/2024/llms-develop-own- Understanding-of-reality-as- language-abilities-improve-0814