ニューラルネットワークアーキテクチャは「異なるパスが同じ目標につながる」? ICML 2024 論文: モデルは異なるが学習内容は同じ

ニューラルネットワークアーキテクチャは「異なるパスが同じ目標につながる」? ICML 2024 論文: モデルは異なるが、学習内容は同じ

2024-07-16

新しい知恵のレポート

編集者：喬楊

【新しい知恵の紹介】ディープニューラルネットワークにはさまざまなサイズとアーキテクチャがあり、これがモデルによって学習される抽象表現に影響を与えることが一般的に受け入れられています。しかし、ICML 2024 で 2 人の UCL 学者によって発表された最初の論文は、モデルアーキテクチャが十分に柔軟であれば、特定のネットワーク動作が異なるアーキテクチャ間で広く普及すると指摘しました。

AI が大規模モデルの時代に入って以来、スケーリング則はほぼコンセンサスになっています。

論文アドレス: https://arxiv.org/abs/2001.08361

OpenAIの研究者らは2020年のこの論文で、モデルのパフォーマンスはパラメータの数N、データセットのサイズD、トレーニングの計算能力Cという3つの指標とべき乗則の関係があると提案した。

これら 3 つの側面に加えて、ハイパーパラメーターの選択やモデルの幅と深さなどの要因は、妥当な範囲内ではパフォーマンスにほとんど影響を与えません。

さらに、このべき乗則関係の存在は、モデルアーキテクチャに何の規定も与えません。つまり、スケーリング則はほぼすべてのモデルアーキテクチャに適用できると考えられます。

また、2021年に神経科学の分野で発表された論文では、この現象について別の角度から触れられているようです。

論文アドレス: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

彼らは、視覚タスク用に設計された AlexNet、VGG、ResNet などのネットワークには大きな構造上の違いがあるにもかかわらず、同じデータセットでトレーニングした後、オブジェクトカテゴリの階層関係など、非常によく似たセマンティクスを学習できるようであることを発見しました。。

しかし、その理由は何でしょうか?表面的な経験を超えて、さまざまなネットワークアーキテクチャは本質的なレベルでどの程度似ているのでしょうか?

UCLの2人の研究者は今年論文を発表し、ニューラルネットワークによって学習された抽象表現を調べることでこの質問に答えようとしました。

論文アドレス: https://arxiv.org/abs/2402.09142

彼らは、複雑で大規模なモデルアーキテクチャにおける表現学習のダイナミクスを効果的に要約する理論を導き出し、その「豊富な」特性と「怠惰な」特性を発見しました。モデルが十分に柔軟であれば、特定のネットワーク動作がさまざまなアーキテクチャに広がる可能性があります。

この論文は ICML 2024 会議に採択されました。

モデリングプロセス

普遍近似定理は、十分なパラメーターが与えられれば、非線形ニューラルネットワークは任意の滑らかな関数を学習して近似できると述べています。

この定理に触発されて、この論文はまず、入力から隠蔽表現へのエンコードマッピングと隠蔽表現から出力へのデコードマッピングが任意の滑らかな関数であると仮定します。

したがって、ネットワークアーキテクチャの詳細を無視しても、機能ダイナミクスは次の方法でモデル化できます。

ニューラルネットワークのトレーニングプロセスは、特定のデータセットに対する平滑化関数の最適化とみなすことができ、MSE 損失関数を最小限に抑えるためにネットワークパラメーターを常に変更します。

で⟨⋅⟩記号はデータセット全体の平均を表します。

私たちは空間を表す動的プロセスを研究することに興味があるため、関数は 2 つの滑らかなマップの組み合わせに分割できます: エンコードマップℎ:→、およびマッピングのデコード:→、このとき、方程式 (1) の損失関数は次のように書くことができます。

次に、勾配降下法を使用してパラメーターを更新するプロセスは次のように記述できます。

ここで、は学習率の逆数です。

式 (4) は十分に正確ですが、問題は、それがネットワークパラメータに明示的に依存しており、十分に一般的な数式を使用するには、この実装の詳細を無視する必要があることです。

理想的には、ニューラルネットワークの表現能力が十分に豊かであれば、損失関数の最適化は約 2 つのマッピングとして直接表現されるはずです。ℎそして機能。

ただし、これが数学的にどのように達成されるかは依然として不明です。したがって、より単純なケースから始めましょう。データセット全体ではなく、2 つのデータポイントを考慮します。

トレーニング中はマッピング機能によりℎ合計が変化すると、さまざまなデータポイントの表現が隠れた空間内で移動したり、互いに近づいたり、相互作用したりします。

たとえば、データセット内の 2 つの点の場合、ℎ(1) およびℎ⁢(2) は十分に近く、ℎが滑らかな関数である場合、2 つの点の平均を使用して 2 つのマッピング関数の線形近似を実行できます。

でℎそしてそれぞれℎとのヤコビアン行列。

ニューラルネットワークに十分な表現力と自由度があると仮定すると、線形化パラメーターはℎ、効果的に最適化できる場合、勾配降下プロセスは次のように表すことができます。

式 (6) は、この論文の主要なモデリング仮説を説明しています。これは、大規模で複雑なアーキテクチャシステムの等価理論であることを目的としており、特定のパラメーター化方法の影響を受けません。

図 1 は、上記のモデリングプロセスを視覚的に表現したもので、問題を単純化するために、2 つのデータポイントが隠れた空間内で近づくか遠ざかるだけで、回転はしないと仮定しています。

私たちが注目する主な指標は、隠れ空間内の距離「‖ℎ」です。これにより、モデルによって学習された表現構造を知ることができます。また、モデルによって出力された距離「‖」は、損失曲線のモデル化に役立ちます。

さらに、外部変数は表現速度を制御するために導入されます。または、予測された出力と実際の出力の間の角度差を表す出力の調整と見なすこともできます。

これから、3 つのスカラー変数の独立したシステムが得られます。

その中で、ニューラルネットワークの実装の詳細は、次の 2 つの定数として抽象的に表現されています。ℎ1/ は有効学習率を示します。

動的一貫性の学習

モデリングが完了した後、論文では 2 点データセット上でさまざまなアーキテクチャのニューラルネットワークをトレーニングし、実際の学習ダイナミクスを等価理論の数値解法と比較しました。その結果を図 2 に示します。

デフォルトの構造は、20 層のネットワーク、層あたり 500 個のニューロン、およびリーキー ReLU を指します。

適合する必要がある定数は 2 つだけですが、今説明した等価理論はさまざまなニューラルネットワークの実際の状況によく適合できることがわかります。

同じ方程式は、トレーニング中の複数の複雑なモデルとアーキテクチャのダイナミクスを正確に記述することができます。これは、モデルが十分に表現力豊かであれば、最終的には共通のネットワーク動作に収束することを示しているようです。

それを MNIST のような大規模なデータセットに置き、2 つのデータポイントの学習ダイナミクスを追跡しても、等価性理論は依然として当てはまります。

ネットワークアーキテクチャには 4 つの完全に接続された層が含まれ、各層には 100 個のニューロンが含まれ、リーキー ReLU 活性化関数が使用されます。

ただし、初期の重みが徐々に増加すると (図 3)、「ℎ」、「⁢」および 3 つの変数の変化パターンが変化することに注意してください。

初期の重みが大きい場合、トレーニングの開始時に 2 つのデータポイントが遠く離れているため、式 (5) の線形近似が成り立たなくなり、上記の理論モデルは失敗します。

構造化された表現

平滑性制約と上記の等価理論から、ニューラルネットワークの表現構造における規則を要約できるでしょうか。

式 (7) によれば、一意の固定点が存在し、これが 2 つのデータ点の最終的な表現距離であると推測できます。

初期の重みが大きい場合、最終的な表現距離は高い値に収束し、その値はデータ入力とランダムな初期化に依存します。逆に、初期の重みが小さい場合は、入力と出力に応じて低い値に収束します。データの構造。

ランダムメカニズムと構造化メカニズムの間のこの分離は、特に初期重みのスケールが重要な要素になることを考慮すると、以前の論文で提案されたディープニューラルネットワークの学習プロセスにおける「豊かさ」と「慣性」をさらに検証します。

この論文では、この現象について直感的に説明しています。

初期の重みが大きい場合、隠れ空間内の 2 つのデータポイントはトレーニングの開始時に大きく離れているため、ネットワークの柔軟性により、デコーダーは大幅な学習を必要とせずに、各データポイントの正しい出力を個別に自由に学習できます。表現構造の調整。したがって、最終的に学習されたパターンは、初期化時にすでに存在していた構造に似ています。

逆に、重みが小さい場合、2 つのデータポイントは互いに近くに配置され、滑らかさの制限により、エンコードマッピング関数をターゲット出力に応じて調整し、データに適合するように 2 つのデータポイントの表現を移動する必要があります。。

したがって、重みが小さい場合、表現学習は構造化された効果を示すことがわかります (図 5)。

ニューラルネットワークのタスクを排他的論理和関数 (XOR) のフィッティングに変更すると、これをより直観的に示すことができます。初期化の重みが小さい場合、モデルは XOR 関数の構造的特徴を明らかに学習します。

右側の 2 層のみのニューラルネットワークでは、理論と実験の間に大きな乖離があり、上記の理論におけるモデルの高い表現力の仮定の重要性が示されています。

結論は

この論文の主な貢献は、異なるニューラルネットワークアーキテクチャで動的学習プロセスの共通部分を表現できる等価理論を導入し、構造化された表現を実証したことです。

モデリングプロセスの滑らかさの限界とデータポイントの相互作用の単純化により、この理論は依然としてディープニューラルネットワークのトレーニングプロセスを記述するための普遍的なモデルにはなり得ません。

ただし、この研究で最も価値のあることは、表現学習に必要な要素の一部が、特定のモデルアーキテクチャに含まれる帰納的バイアスからだけではなく、すでに勾配降下プロセスに含まれている可能性があることを示していることです。

さらに、この理論では、初期重みのスケールが表現構造の最終的な形成における重要な要素であることも強調しています。

今後の研究では、2 つのデータ点の相互作用を単にモデル化するのではなく、等価理論を拡張して、より大規模で複雑なデータセットを処理する方法を見つける必要があります。

同時に、多くのモデルアーキテクチャは表現学習に影響を与える帰納的バイアスを導入し、モデリングの表現効果と相互作用する可能性があります。

参考文献:

https://arxiv.org/abs/2402.09142

ニュース