ICML2024 のスピーチが話題に! Meta Zhu Zeyuan が明らかにする大型モデルの内部世界: 人間の推論とは異なる

ICML2024 でのスピーチが話題に

2024-08-05

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

大規模言語モデル (LLM) は数学的な問題をどのように解決しますか?それはテンプレート記憶によるものなのでしょうか、それとも本当に推論を学習しているのでしょうか？モデルの暗算プロセスは何ですか?どのような推論スキルを学ぶことができますか?人間と同じですか、それとも人間を超えていますか？ 1 種類の数学の問題だけを学習することは、一般的な知能の発達に役立ちますか? LLM が推論上の誤りを犯すのはなぜですか?推論を行うには、LLM をどの程度深く理解する必要がありますか?

論文アドレス: https://arxiv.org/abs/2407.20311

最近、Meta FAIR、CMU、MBZUAI の Ye Tian、Xu Zicheng、Li Yuanzhi、Zhu Zeyuan を含む 4 人チームが、arXiv の最新論文「言語モデル物理学パート 2.1: 小学校の数学と隠された推論プロセス」を発表しました。「管理された実験を使用して、上記の問題に対する賢明な質問に答えます。 Twitter ユーザーの @xlr8harder は、「この結果により、LLM に推論能力があるのか、それともただのランダムなオウムなのかという議論に完全に終止符が打たれることになるだろう」とコメントした。

編集者注：「言語モデル物理学」シリーズ全体は、7月22日に開催されたICML 2024国際機械学習トップカンファレンスで2時間の特別報告に招待されました。反響は大きく、会場では拍手が鳴り止まなかったと報告されています。シーン。今回はシリーズのパート 2.1 をお届けします。

図1

論文の詳しい解説

まず第一に、このシリーズの慣例によれば、GPT-4 のような大きなモデルと対話して考え方を推測すべきではないと著者は考えています。これは動物の行動に似ており、実現可能ではありますが、十分に厳密ではありません。 GPT-4プロセスの内なる思考を科学的に明らかにします。

さらに、データの観点から見ると、モデルの事前学習データに完全にアクセスすることによってのみ、どの質問がモデルで確認され、どの質問が推論を通じて学習されたかを知ることができます。たとえモデルが、8,000 問の小学校算数問題のベンチマークセットである GSM8k で高得点を達成したとしても、それらの問題のバリエーション (さまざまな言語でのバリエーションや GPT-4 の書き換えなど) が見られたかどうかを判断するのは困難です。

この目的を達成するために、著者は、小学校の数学レベルをシミュレートする思考問題の合成セットである iGSM を作成し、モデルを最初から iGSM で事前トレーニングして、モデルがさらされる質問の種類を制御しました。 iGSM には常識的な情報は含まれておらず、mod 23 の範囲内の加算、減算、乗算のみが含まれており、すべての計算は CoT を使用して段階的に実行されることに注意してください。 iGSM を使用すると、他の要素 (大きな整数演算など) を無視して、モデルの推論機能を具体的に研究する制御された実験を実行できます。図 2 に簡単な例を示します。

図2

このデータセットを使用して、著者は最初に GPT2 (RoPE バージョン) のパフォーマンスをテストしました。問題を解くために必要な数学的演算のステップ数を表すために op を使用すると、著者は、op ≤ 21 の質問でトレーニングすると、モデルが 99% の精度を達成できるだけでなく、より難しい質問 (たとえば、 op=32 として)、83% の精度を維持します (図 3 を参照)。これは、op>21 の質問を一度も見たことがないため、モデルが何らかの推論スキルを学習したことを示しています。 (ちなみに、GPT-4o は、このデータセットでは op=10 の質問のみを処理できます。この困難を超えると、盲目的な推測のようなものになります。この問題については、記事の最後で説明します。)

それでは、モデルはどのような推論スキルを学習したのでしょうか? iGSM の数学的問題を解決するには、少なくとも 2 つの考え方があります。一つは著者の言うところの「レベル 0 の推論 」、つまり「暴力的な計算ができる」ということです。質問内の変数には複雑な依存関係がある可能性があるため、直接計算できるものもあれば、最初に計算する必要があるものもあります。たとえば、Xiao Zhang が Xiao Wang の 3 倍多くの果物を持っている場合、最初にリンゴと梨の数を計算する必要があります。 Xiao Wang は持っています。そして、合計した後でのみ、Xiao Zhang の果物の数を計算し始めることができます。「レベル0推論」は、すべての変数を可能な限り列挙し、その都度計算可能な変数をランダムに見つけて結果を計算し続けるというものです。

これに対応するのが「レベル 1 の推論 ": トポロジカルソートを通じて、問題から開始して逆方向に計算してどの変数を計算する必要があるかを決定します。その後、リーフノードから開始して上向きに計算して「最短の答え」を目指します。一般的な数学の問題の解決策では、通常、レベル 1 の推論が使用され、「不必要な変数」は計算されません。たとえば、Xiao Zhang は Xiao Wang の 3 倍の果物を持っています。Xiao Zhang に果物の数を尋ねる場合、Xiao Li のリンゴの数は不要な変数ですが、Xiao Wang のリンゴと梨の数は両方とも必要です。

図 3 に示すように、著者は GPT-2 がレベル 1 の推論を学習し、ほぼ毎回最短の答えを与えることができることを発見しました。これはとても簡単です。なぜなら、モデルが最初の文を生成する前に、トポロジカルなソート全体がモデルの頭の中で行われている必要があるからです。そうでなければ、どの変数が不必要であるかをどうやって知ることができるでしょうか?モデルが最初から「Xiao Li にはリンゴが 7 個ある」と生成した場合、後戻りする方法はなく、最短の答えは得られません。

画像3

では、モデルはどのようにして「レベル 1 推論」を学習するのでしょうか?この目的を達成するために、著者はモデルの内部パラメータに関する詳細な研究を実施しました (図 4 を参照)。結論は、モデルが最初の文を生成する前に、暗算によってどの変数 A が「必要」であるかをすでに決定している (nece (A)=True) ことを示しています (プローブ法の詳細については論文を参照)。同時に、各文が話された後、モデルは後続のすべての「計算可能な」変数 A (cannext (A)=True) も暗算します。したがって、モデルは nece と cannext に対して論理 AND 演算を継続的に実行するだけでよく、完全な計算プロセスはリーフノードから開始して段階的に実行できます。

注目すべきことに、これらの複雑な暗算能力はトレーニングセットには現れませんでした。モデルは iGSM データにさらされているだけで、「言語」部分 (質問と回答) しか見ていませんが、人間のような思考プロセス (精神プロセス) を独自に学習し、最適解に到達しました。言い換えれば、この研究は、1週間前の「言語≠思考、大規模モデルは推論を学習できない：ネイチャーの記事がAIコミュニティを爆発させた」のレポートに反論し、科学的手法を使って証明したということだ。大規模なモデルは実際に言語を介して思考することを学ぶことができます。

さらに驚くべきことは、モデルはそれ以上のことを学習するということです。図 4 で、著者は、このモデルが問題の解決には役に立たない多くの情報を暗算していることも発見しました。たとえば、変数の関係が説明された直後、または質問がされる前であっても、モデルは、2 つの変数 A と B の間に再帰的な依存関係があるかどうかをすでに知っています。たとえこれらの変数が問題の解決に無関係であってもです。人間の場合、通常、質問から始めて不必要な変数を無視して逆方向に作業しますが、GPT-2 のような言語モデルは関係グラフ全体をくまなく調べて、将来尋ねられる可能性のある質問に対処します。著者はこの能力を「レベル 2 の推論」。

レベル 2 の推論は問題解決には必須ではありませんが、より一般的なスキルであることは確かです。このモデルは並列機能を利用して、大量の情報の原因と結果の並べ替えを実行します。この能力は、言語モデルが問題の解決方法を学習するときに習得されます。これを行うように誰も (データ) が教えたわけではありません。著者は、これが汎用人工知能 (AGI) における「ユニバーサル」という用語の潜在的な起源である可能性がある、つまり、言語モデルはデータセットによって教えられるスキルを超えた、より一般的な能力を学習できるのではないかと推測しています。

図4

次に、著者らはモデルがなぜ間違いを犯したのかを検討しました。要約すると、iGSM データセットでは、モデルはほとんど 2 種類のエラーのみを発生します。1 つは不要な変数の計算で、もう 1 つは現在計算できない変数の計算です (図 5 を参照)。

前者については、モデルが答えを生成する前に暗算エラーを起こし、ある変数 A が「必要」であると誤って信じた場合 (nece (A) = True)、モデルが強制的に A を計算してしまう可能性があることを著者は発見しました。答えを生成するとき、これにより最短ではない解が生成されます。この発見は非常に興味深いものであり、エラーの多くが系統的であり、モデルは最初のトークンが生成される前に口を開く前に（プローブを介して）間違いを犯すと確信していることを示唆しています。このタイプのエラーは、モデル生成プロセスやビーム探索におけるランダム性とは何の関係もありません。

後者についても、著者は暗算エラーが原因であると考えており、最終的に問題解決の精度を向上させるために、モデルの暗算能力を具体的に向上させるために、フォローアップのパート 2.2 論文全体を使用する予定です。この論文はまだ発表されていませんが、引き続き注目し、公開アカウントで報告していきます。

図5

次の結論は、著者は、大規模モデルのスケーリング則で強調されている「大きなものだけ」、つまりモデルのパフォーマンスはパラメータの数にのみ関係し、幅や幅とは何の関係もないと反論したということです。深さ。この見解は OpenAI の Scaling Law 論文で初めて提案され、その後のほぼすべての研究で踏襲されています。

図 6 に示すように、著者は iGSM データセットを使用して制御された実験を実施しました。より小さくて深いモデルと、より大きくて幅広いモデルを比較することで、iGSM の数学的問題を解決するには、モデルの奥行きは幅よりも明らかに重要です 。たとえば、20 レイヤー、9 ヘッドモデルは、4 レイヤー、30 ヘッドモデルよりもパラメーターが 2 倍多いにもかかわらず、パフォーマンスがはるかに優れています。

さらに進んで、著者は発見した深さへの依存は、モデルの暗算の複雑さから生じます。 。著者は、モデルのさまざまな深さでの調査研究を通じて、問題から遠く離れた変数 A については、暗算の必要性 (A) により多くの層が必要になることがわかりました。具体的には、変数 A と問題変数の間の距離が t の場合、(A)=True である必要があることを知るには、t ステップの暗算が必要です。図 6 に示すように、t が大きいほど、モデルに必要な層の数が増えます。

著者は、モデルの深さへの依存は思考連鎖 (CoT) によって相殺できないことを強調しています。実際、iGSM での数学的問題解決には可能な限り CoT が使用されています。つまり、すべての計算がステップごとに分割されています。それでも、モデルは CoT の最初のステップをどうするかを計画するために暗算を行う必要があり、この暗算プロセスには依然として複数のステップが必要になる場合があります。これは、モデルが深さに依存していることを説明しています。

図6

要約すると、LLM の行動プロセスを研究する 99% 以上の論文とは異なり、この記事の著者は新しいアプローチを採用し、数学的問題を解決する際の LLM の精神的プロセスを明らかにし、LLM の知能について新たな洞察を提供します。視点。

記事の最後で著者は、GPT-4 でも iGSM データセットに対して最大 10 ステップの推論しか実行できないことを指摘しています。これは、おそらくすべてのインターネットデータを利用する最も強力な現在のモデルでさえ、依然として 10 ステップを超える推論を正確に完了できないことを示しています。これは、既存の大規模モデルで使用される事前学習データにはまだ改善の余地が多くある可能性があることを意味します。この論文の方法を通じて、モデルの推論能力と情報選別能力を強化するために人工的に合成されたデータを確立するという新たな可能性が考えられます。

ニュース

ICML2024 でのスピーチが話題に

導入

私の連絡先情報