公理トレーニングにより、LLM は因果推論を学習できるようになります: 6,700 万のパラメータモデルは、1 兆のパラメータレベルに匹敵します GPT-4

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータモデルは、1 兆個のパラメータレベル GPT-4 に匹敵します。

2024-07-16

マシンハートレポート

編集者：パンダ

LLM に因果連鎖を示すと、公理を学習できます。

AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンスタオは、GPT などの AI ツールを活用した研究と探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論機能が不可欠です。

この記事で紹介した研究では、小さなグラフ上の因果推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフ上の推移性公理に一般化できることがわかりました。

言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理トレーニングフレームワークは、受動的データに基づいて因果推論を学習するための新しいパラダイムであり、実証が十分である限り任意の公理を学習するために使用できます。

導入

因果推論は、因果関係に特に対処する事前定義された公理または規則に準拠する一連の推論プロセスとして定義できます。たとえば、d 分離 (有向分離) および do 計算ルールは公理と考えることができ、コライダーセットまたはバックヤードセットの仕様は公理から導出されるルールと考えることができます。

通常、因果推論では、システム内の変数に対応するデータが使用されます。公理やルールは、正則化、モデルアーキテクチャ、または特定の変数の選択を通じて、帰納的バイアスの形で機械学習モデルに統合できます。

Judea Pearl の「因果ラダー」は、利用可能なデータの種類 (観察データ、介入データ、反事実データ) の違いに基づいて、考えられる因果推論の種類を定義します。

公理は因果関係の基礎であるため、機械学習モデルを直接使用して公理を学習できるかどうか疑問に思わずにはいられません。つまり、公理を学習する方法が、何らかのデータ生成プロセスを介して取得されたデータを学習することではなく、公理の記号的実証を直接学習すること (つまり、因果推論を学習すること) である場合はどうなるでしょうか?

特定のデータ分布を使用して構築されたタスク固有の因果モデルと比較して、このようなモデルには利点があります。さまざまな下流シナリオで因果推論を可能にすることができます。言語モデルが自然言語で表現された記号データを学習する機能を獲得するにつれて、この質問は重要になります。

実際、最近の研究では、自然言語で因果推論問題をエンコードするベンチマークを作成することにより、大規模言語モデル (LLM) が因果推論を実行する能力を評価しています。

マイクロソフト、MIT、インド工科大学ハイデラバード校 (IIT ハイデラバード) の研究チームも、この方向に向けて重要な一歩を踏み出しました。公理的なトレーニングを通じて因果推論を学習する方法。

論文のタイトル: 公理的トレーニングによるトランスフォーマーの因果推論の教育
論文アドレス: https://arxiv.org/pdf/2407.07612

公理トレーニング

彼らは、因果公理が次のような記号タプル⟨前提、仮説、結果として表現できると仮説を立てました。このうち、仮説は仮説、つまり因果関係のステートメントを指します。前提は、ステートメントが「真実」であるかどうかを判断するために使用される関連情報を指し、結果は当然のことです。結果は単純な「はい」または「いいえ」になります。

たとえば、論文「大規模言語モデルは相関から因果関係を推測できるか?」のコライダー公理は次のように表現でき、結論は「はい」です。

このテンプレートを基に、変数名、変数番号、変数の順序などを変更することで、多数の合成タプルを生成できます。

Transformer を使用して因果公理を学習し、公理トレーニングを実装するために、チームは次の方法を使用してデータセット、損失関数、位置埋め込みを構築しました。

公理的トレーニング: データセット、損失関数、位置コンパイル

トレーニングデータ

特定の公理に基づいて、「仮説」を「前提」に基づいて適切なラベル (はいまたはいいえ) にマッピングできます。トレーニングデータセットを作成するために、チームは特定の変数設定 X、Y、Z、A の下で考えられるすべてのタプル {(P, H, L)}_N を列挙します。ここで、P は前提、H は仮説、L はラベルです（はい、もしくは、いいえ）。

何らかの因果関係図に基づいた前提 P が与えられ、特定の公理を (1 回以上) 使用して仮説 P を導出できる場合、ラベル L は Yes、そうでない場合は No になります。

たとえば、システムの基礎となる実際の因果グラフに、X_1 → X_2 → X_3 →・・・→ X_n というチェーントポロジがあるとします。次に、考えられる前提は X_1 → X_2 ∧ X_2 → X_3 であり、X_1 →上記の公理は帰納的に何度も使用して、より複雑なトレーニングタプルを生成できます。

トレーニング設定では、推移性公理によって生成された N 個の公理インスタンスを使用して合成データセット D が構築されます。 D の各インスタンスは (P_i, H_ij, L_ij) の形式で構成されます。ここで、n は各 i 番目の前提内のノードの数です。 P は前提、つまり、特定の因果構造の自然言語表現 (X が Y を引き起こす、Y が Z を引き起こすなど) であり、その後に質問 H (X は Y を引き起こすかなど) が続きます。またはいいえ)。この形式は、特定の因果関係グラフ内の各固有のチェーンのノードのすべてのペアを効果的にカバーします。

損失関数

データセットが与えられると、損失関数は各タプルのグラウンドトゥルースラベルに基づいて定義され、次のように表現されます。分析により、この損失を使用すると、次のトークンの予測と比較して有望な結果が得られることが示されています。

位置エンコーディング

トレーニング関数と損失関数に加えて、位置エンコーディングの選択も重要な要素です。位置エンコーディングは、シーケンス内のトークンの絶対位置および相対位置に関する重要な情報を提供できます。

有名な論文「attention is all you need」では、周期関数 (サイン関数またはコサイン関数) を使用してこれらのコードを初期化する絶対位置コーディング戦略を提案しています。

絶対位置エンコーディングは、任意のシーケンス長のすべての位置に決定的な値を提供します。ただし、いくつかの研究では、絶対位置エンコーディングは Transformer の長さ一般化タスクに対処するのが難しいことが示されています。学習可能な APE バリアントでは、各位置の埋め込みがランダムに初期化され、モデルを使用してトレーニングされます。この方法は、新しい位置の埋め込みがまだトレーニングされておらず、初期化されていないため、トレーニング中のシーケンスよりも長いシーケンスに対処するのに苦労します。

興味深いことに、最近の発見は、自己回帰モデルから位置埋め込みを削除するとモデルの長さ汎化能力が向上し、自己回帰デコード中のアテンションメカニズムは位置情報をエンコードするのに十分であることを示唆しています。チームは、学習可能な位置エンコーディング (LPE)、正弦波位置エンコーディング (SPE)、位置エンコーディングなし (NoPE) など、因果関係タスクにおける一般化への影響を理解するために、さまざまな位置エンコーディングを使用しました。

モデルの汎化能力を向上させるために、チームは長さ、ノード名、チェーンの順序、分岐条件の摂動などのデータの摂動も使用しました。

実験

このデータを使用してモデルをトレーニングした場合、モデルは公理を新しいシナリオに適用することを学習できるでしょうか?という疑問が再び生じます。

この質問に答えるために、チームは、この因果的に独立した公理の象徴的なデモンストレーションを使用して、Transformer モデルをゼロからトレーニングしました。

一般化パフォーマンスを評価するために、サイズ 3 ～ 6 ノードの単純な因果的に独立した公理チェーンでトレーニングし、長さ一般化パフォーマンス (サイズ 7 ～ 15 チェーン)、名前一般化 (長い変数名)、逐次的一般化 (エッジが反転したチェーンまたはノードがシャッフルされたチェーン)、構造的一般化 (分岐のあるグラフ)。図 1 は、Transformer の構造一般化を評価する方法を示しています。

具体的には、GPT-2 アーキテクチャに基づく 6,700 万個のパラメータを使用してデコーダベースのモデルをトレーニングしました。モデルには 12 のアテンションレイヤー、8 つのアテンションヘッド、および 512 の埋め込み次元があります。彼らは、各トレーニングデータセットでモデルをゼロからトレーニングしました。位置埋め込みの影響を理解するために、正弦波位置エンコーディング (SPE)、学習可能位置エンコーディング (LPE)、および位置エンコーディングなし (NoPE) という 3 つの位置エンベディング設定も研究しました。

結果を表 1、図 3、図 4 に示します。

表 1 は、トレーニング中には見られなかったより大きな因果チェーンで評価したときのさまざまなモデルの精度を示しています。新しいモデル TS2 (NoPE) のパフォーマンスは、1 兆パラメータースケールの GPT-4 のパフォーマンスに匹敵することがわかります。

図 3 は、長いノード名 (トレーニングセットよりも長い) の因果系列に対する汎化能力と、異なる位置の埋め込みの影響を評価した結果を示しています。

図 4 は、より長い目に見えない因果シーケンスに対する汎化能力を評価しています。

彼らは、単純なチェーンで訓練されたモデルは、より大きなチェーン上の公理の複数の適用には一般化できるが、逐次的または構造的一般化などのより複雑なシナリオには一般化できないことを発見しました。ただし、モデルが単純なチェーンとランダムな逆エッジを持つチェーンで構成される混合データセットでトレーニングされた場合、モデルはさまざまな評価シナリオによく一般化します。

彼らは、NLP タスクにおける長さの一般化に関する結果を拡張し、長さおよびその他の次元にわたる因果的一般化を確実にする上での位置埋め込みの重要性を発見しました。彼らの最高のパフォーマンスのモデルには位置エンコーディングがありませんでしたが、状況によっては正弦波エンコーディングがうまく機能することもわかりました。

この公理トレーニング方法は、図 5 に示すように、より困難な問題に一般化することもできます。つまり、統計的独立性の記述を含む前提に基づいて、タスクの目標は相関関係と因果関係を識別することです。このタスクを解決するには、d 分離やマルコフ特性など、いくつかの公理の知識が必要です。

チームは、上記と同じ方法を使用して合成トレーニングデータを生成し、モデルをトレーニングしたところ、3 ～ 4 つの変数を含むタスクデモンストレーションでトレーニングされた Transformer が、5 つの変数を含むグラフタスクを解決できることを確認しました。そして、このタスクに関しては、このモデルの精度は、GPT-4 や Gemini Pro などのより大きな LLM の精度よりも高くなります。

研究チームは、「私たちの研究は、公理の象徴的なデモンストレーションを通じて因果推論を学習するための新しいパラダイムをモデルに提供します。これを私たちは公理トレーニングと呼んでいます。この方法のデータ生成とトレーニングのプロセスは、公理が可能である限り普遍的です。」と述べています。シンボリックタプルの形式で表現されているため、この方法を使用して学習できます。

ニュース

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータモデルは、1 兆個のパラメータレベル GPT-4 に匹敵します。

導入

私の連絡先情報

ニュース

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータ モデルは、1 兆個のパラメータ レベル GPT-4 に匹敵します。

導入

私の連絡先情報

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータモデルは、1 兆個のパラメータレベル GPT-4 に匹敵します。