ニュース

科学者はディープ ニューラル ネットワークの線形特性を明らかにし、より優れたモデル融合アルゴリズムの作成に役立てます

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


ディープラーニングは近年大きな成功を収めていますが、その理論に対する人々の理解は依然として遅れています。

このため、ディープラーニングの損失関数と最適化プロセスを理論的な観点から説明しようとする研究テーマがより注目されています。

深層学習で使用される損失関数は、高次元の複雑なブラックボックス関数とみなされることが多いですが、これらの関数、特に実際のトレーニング軌跡で遭遇する関数には、勾配ベースの最適化プロセスを効果的に促進できる複雑で良性の構造が含まれていると考えられています。

他の多くの科学分野と同様、深層学習の理論を構築するための重要なステップは、実験から発見された自明ではない現象を理解し、その根底にあるメカニズムを解明することにあります。

最近、この分野の学者は、モード接続性という驚くべき現象を発見しました。

つまり、2 つの独立した勾配最適化によって得られた異なる最適点をパラメータ空間内の単純なパスで接続することができ、そのパスに沿った損失または精度はほぼ一定のままです。

非凸関数の異なる最適点は異なる孤立した「谷」に位置する可能性が高いため、この現象は間違いなく驚くべきものです。

ただし、実際に見つかった最適な点ではこれは起こりません。

さらに興味深いのは、一部の研究者がモード接続よりも強力な線形モード接続を発見したことです。

線形モード接続に関する研究では、さまざまな最適なポイントを線形パスで接続できることが示されています。

通常、2 つの完全に独立したネットワークはリニア モード接続を満たしませんが、それを満足するネットワークを取得するには 2 つの方法があります。

最初のネットワークは Spawning Method です。

ネットワークが初期化から開始され、少数のエポックでトレーニングされると、パラメーターがコピーされて 2 つのネットワークが取得されます。その後、2 つのネットワークは、異なる確率論の下で独立してトレーニングされ続けました。

2 番目のネットワークは Permutation Method です。

つまり、2 つのネットワークは最初に独立してトレーニングされ、次に一方のネットワークのニューロンがもう一方のネットワークのニューロンと一致するように再配置されます。

以前の研究で、上海交通大学の Zhou Zhanpeng 博士と上海人工知能研究所の共同研究者は、特徴学習の観点から線形モード接続性を説明したいと考えていました。

そして、2 つのトレーニング済みネットワークの重みを線形補間すると、内部特徴はどうなるのかという疑問が生じます。


写真 | 周振鵬 (出典:周振鵬)

研究を通じて、ほぼすべての層の特徴が強い形式の線形接続も満たしていることがわかりました。つまり、重み補間ネットワークの特徴マップは、2 つの元のネットワークの特徴マップの線形補間とほぼ同じです。

彼らはこの現象を Layerwise Linear Feature Connectivity と呼んでいます。

さらに、レイヤーごとの線形フィーチャの接続が常に線形モードの接続と同時に発生することがわかりました。

そして、この規則が証明されます。同じデータ セットでトレーニングされた 2 つのモデルが層ごとの線形フィーチャ接続性を満たす場合、それらは同時に線形モード接続性も満たすことができます。

さらに、研究チームは、レイヤーごとの線形特徴の接続性の理由について詳細な調査を実施しました。

そして、ReLU 関数の弱い加法性と 2 つの学習済みネットワーク間の可換性という 2 つの重要な条件が特定されました。

これら 2 つの条件から出発して、彼らは ReLU ネットワークで層ごとの線形特徴接続性を取得できることを証明し、これら 2 つの条件を実験的に検証しました。

同時に、順列法により 2 つのネットワークを交換可能にすることで、それらのネットワークが線形モード接続を満たすことができることも証明しました。

一般に、研究チームは、線形モード接続よりも粒度が細かく、ニューラル ネットワークをよりよく満足できる線形プロパティを発見しました。

ただし、上記の調査結果はすべて、同じデータセットでトレーニングされたネットワークに基づいています。

そこで彼らは、異なるデータ セットでトレーニングされた 2 つのモデル上で層ごとの線形特徴の接続を確立できるか?という新たな疑問を提起しました。

チームは、スポーン方法がトレーニング前の微調整トレーニング パラダイムに非常に近いことに気づきました。つまり、スポーン方法と微調整の両方が、一定期間トレーニングされたモデルから開始して、さらなるトレーニングを実行します。

ただし、生成方法のモデルは引き続き同じデータ セットでトレーニングされますが、微調整のモデルは異なるデータ セットでトレーニングできます。

最近の研究で、彼らは、事前トレーニング微調整パラダイムの下で、さまざまな微調整モデルが、研究チームがクロスタスク線形性と呼んでいる層ごとの線形特徴接続性の特性も満たしていることを発見しました。

事前トレーニングと微調整のパラダイムの下では、ネットワークは実際にはパラメーター空間から特徴空間への線形マッピングにより近似していることがわかりました。

つまり、クロスタスク線形性は、レイヤーごとの線形特徴接続性の定義を、異なるデータ セットでトレーニングされたモデルに拡張します。

興味深いことに、チームはまた、クロスタスク線形性の調査結果を使用して、2 つの一般的なモデル融合手法を説明しました。

まず、モデルの平均化は、同じデータセットで異なるハイパーパラメーター構成を使用して微調整された複数のモデルの重みの平均を取得し、それによって精度とロバスト性を向上させます。

この研究では、研究グループの平均重みが各層の特徴の平均として解釈され、モデル平均化とモデル統合の間に密接な関係が確立され、モデル平均化の有効性が説明されました。

次に、単純な算術演算を使用して、Task Arithmetic はさまざまなタスクで微調整されたモデルの重みを組み合わせて、それに応じてモデルの動作を制御できます。

研究中、チームはパラメータ空間での算術演算を特徴空間での演算に変換し、それによって特徴学習の観点からタスク算術を説明しました。

その後、彼らはクロスタスク線形性が発生する条件を調査し、クロスタスク線形性の事前トレーニングの重要性を発見しました。

実験結果は、事前トレーニング段階から得られた共通知識がクロスタスク線形性の要件を満たすのに役立つことを示しています。

研究中に、クロスタスクの線形性を証明するための予備的な試みも行い、クロスタスクの線形性の出現がネットワークランドスケープの平坦性と、2つの微調整されたモデル間の重みのギャップに関連していることを発見しました。

最近、「Pretraining-Finetuning におけるクロスタスク線形性の出現について」というタイトルの関連論文が、International Conference on Machine Learning (ICML) 2024 で発表されました [1]。


図 | 関連論文 (出典: ICML 2024)

研究チームは、この発見がより良いモデル融合アルゴリズムのインスピレーションとなることを期待していると述べた。

将来的に、多機能で微調整された大規模モデルを構築する必要がある場合、大規模モデルの融合はコア技術の 1 つになるでしょう。この研究は、大規模モデル融合に対する確かな実験的および理論的サポートを提供し、より優れた大規模モデル融合アルゴリズムを生み出すことができます。

次に、トレーニング ダイナミクスの観点から、線形モードの接続性、レイヤーごとの線形特徴の接続性、およびタスク間の線形性を理解したいと考えています。

機能レベルからはある程度の説明は得られていますが、第一原理の観点からはまだリニアモード接続を説明できません。

たとえば、最終的にリニア モード接続を満たす 2 つのモデルを取得するために、スポーン メソッドは最初にいくつかのエポックをトレーニングするだけで済むのはなぜでしょうか?

そして、そのような産卵時刻を予測するにはどうすればよいでしょうか?これらの質問に答えるには、トレーニングと最適化の観点からリニア モード接続を理解する必要があり、これはチームのフォローアップの取り組みでもあります。

参考文献:

1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. 「事前トレーニング-微調整パラダイムにおけるクロスタスク線形性の出現について」第 41 回国際機械学習会議。

運営・組版:何チェンロン

01/ 香港市のチームは、特殊なシナリオでの淡水処理に使用できる新しいタイプのナノ層膜を開発し、二次元材料の応用のブレークスルーを見つけます。

02/ 科学者たちは、数十年にわたる化学的問題に信頼できる答えを与え、塩化水素が溶解して塩酸を生成する新しい顕微鏡メカニズムを提案しました。これにより、複数の分野の発展が促進されます。

03/ 科学者は、弱い信号を正確に検出でき、個々の核スピンの検出と制御に使用できる量子センシング制御の新しい方法を作成します。

04/ 「MIT Technology Review」の新しい「35 歳未満の技術革新者トップ 35」中国の受賞者が正式に発表されました。上海の科学技術の若者の革新的な力を目撃してください。

05/ 北京大学チームは、動的強度14GPaを備え、軽量で高性能の構造材料および保護材料として使用できる超強力カーボンナノチューブ繊維の開発に成功した。