ニュース

Nature の表紙: AI は AI を訓練します、訓練すればするほど愚かになります

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

バイジャオはアオフェイ寺院から来ています
パブリックアカウント QbitAI

AIトレーニング AIがAIをバカにしてしまうかも? !

オックスフォード、ケンブリッジ、その他の機関の研究者らは最近、大規模なモデルが合成データでトレーニングされると崩壊する可能性があることを発見しました。その研究成果が最新のネイチャーカバー

直接のもの:ゴミを捨てろ!



ご存知のとおり、テクノロジー企業の大規模モデルのほとんどは現在、「データ不足」を軽減するために合成データを使用しています。これは間違いなく業界全体に冷水を浴びせられたものだ。

研究チームはそのような例を挙げた。

彼らはメタの OPT-125m モデルをテストし、中世の建築に関する情報を求めました。



それぞれの微調整は、前回生成されたデータに基づいてトレーニングされます。最初の数ラウンドでの答えはかなり良いものでした。結果、9回目で意味不明なことを言い始めてしまいました…。

ウサギって一体何なの? !

論文の筆頭著者は、合成データによって大規模なモデルに誤差が生じる可能性があると考えていたが、モデルがこれほど急速に劣化するとは予想していなかった、と述べた。

3 つのエラーがモデルの崩壊を引き起こす

まず、チームはモデルの崩壊とは何かを定義しました。

モデルの崩壊は、モデルで生成されたコンテンツが次世代のトレーニング データ セットを汚染する劣化プロセスです。汚染されたデータでトレーニングした後、新世代のモデルは現実を誤解する傾向があります。

このサイクルは延々と続き、各世代が次の世代よりも悪化します。



時間の経過に応じて、主に初期モデル崩壊と後期モデル崩壊の 2 つの状況があります。

初期のモデル崩壊では、モデルは一部のテール情報を失い始めます。 (確率分布におけるいくつかの低確率のイベントと同様) そして、モデル崩壊の後期では、モデルは元の分布とほとんど類似しないように収束します。

このプロセスの発生は、モデルの設計、学習プロセス、および使用されるデータの品質に関連しています。

理論に特有のものとしては、主に、これら 3 つのエラーによって引き起こされる、元のモデルからの大きなモデルの偏差が含まれます。

  • 統計的近似誤差 。これは、サンプル サイズが限られているために発生する主なタイプの誤差であり、サンプル サイズが無限大になると消えます。これは、リサンプリングの各ステップで、ゼロではない確率で情報が失われる可能性があるためです。
  • 関数の表現力エラー 。この誤差は、関数近似の表現能力が限られているために発生します。特に、ニューラル ネットワークは、そのサイズが無限大に達した場合にのみ普遍的な近似となります。ただし、他の 2 つのエラーが存在しない場合、このエラーは最初の世代でのみ発生します。
  • 関数近似誤差 。主に、確率的勾配降下法や目標の選択における構造的なバイアスなど、学習プロセスの制限によって引き起こされます。この誤差は、無限のデータと各世代の完璧な表現力の場合に生じる誤差と見ることができます。
言語モデルへの影響

次に研究者らは、モデル崩壊が言語モデルに及ぼす影響を評価しました。大規模なモデルを最初からトレーニングするのは非常にコストがかかるため、言語モデルの最も一般的な設定を評価することにしました。設定を微調整する

各トレーニング サイクルは、最新のデータを含む事前トレーニングされたモデルから始まります。トレーニング データは、別の微調整された事前トレーニング モデルから取得されます。

彼らは、wikitext2 で微調整されたメタ因果言語モデル OPT-125m を使用しました。

トレーニングされたモデルからデータを生成するために、チームは 5 方向ビーム検索を使用しました。彼らは、トレーニング シーケンスの長さを 64 トークンに設定し、トレーニング セット内の各トークン シーケンスについて、モデルに次の 64 トークンを予測するよう求めました。

元のトレーニング データセットをすべて調べて、同じサイズの人工データセットを生成します。モデルの誤差が 0 の場合、元の wikitext2 データセットが生成されます。

違いをさらに実感するために、彼らは 2 つの異なる設定を使用しました。一方のグループは、最初のトレーニングを除いて、その後のプロセスでは元のトレーニング データがありません。もう一方のグループは、元のデータの 10% を保持します。



結果は、モデルによって生成される誤差が時間の経過とともに増加することを示しました。また、モデルが完全に破綻する前に、データセット内の確率の低いイベントをモデルが忘れて、その出力がより均一になります。結局、始まりの現象が現れました。

さらに、同様のモデル崩壊現象が VAE モデルと GMM モデルでも見られています。





デューク大学のエミリー・ウェンガー教授は、この問題を軽減するのはこれまでのところ簡単ではないと述べた。

大手テクノロジー企業が「ウォーターマーク」を埋め込むテクノロジーを導入しました -

AI が生成したコンテンツにフラグを立ててトレーニング データから除外します。問題は、これにはテクノロジー企業間の調整が必要なため、商業的に実現可能性が低いことです。

このようにして、インターネットからデータを取得する企業は、より現実世界を表すモデルをトレーニングできます。したがって、大型モデルの最初の波には先行者利益がありました。

この観点についてどう思いますか?

参考リンク:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y