オックスブリッジは AI に「毒」を与えることに失敗し、ネイチャー誌の表紙を 9 回も飾り、学界で激しい議論を巻き起こしました。 AIで訓練されたAIは突破できるか

オックスブリッジは AI に「毒」を与えることに失敗し、ネイチャー誌の表紙を 9 回も飾り、学界で激しい議論を巻き起こしました。 AIは突破できるようにAIを訓練できるか

2024-07-27

新しい知恵のレポート

編集者: アエネアスはとても眠いです

【新しい知恵の紹介】モデル崩壊の原因となった9件の中毒に関するオックスフォードとケンブリッジの論文は多くの批判を受けている：これも『Nature』誌に掲載できるのか？これは学界でもさらに議論されており、誰もが同じ見解を持っています。合成データは多くの人によって万能薬とみなされていますが、世界にはフリーランチは存在しません。

AI 時代において、データは新しい石油です。世界中の人間データが徐々に枯渇していく時代において、合成データは私たちの未来なのでしょうか?

Nature 誌の表紙を飾った論文によって引き起こされた最近の論争は、重要なのは「合成データ」ではなく、「合成データの正しい使用」であることを私たちに理解させます。

木曜日、オックスフォード、ケンブリッジ、インペリアル・カレッジ、トロント大学およびその他の機関からの論文がネイチャー誌の表紙に掲載された。

しかし、人々が予期していなかったのは、論文が発表されると、AI コミュニティで多くの議論を引き起こしたということです。

問題の核心は「合成データ」ではなく「データ品質」にあると考える人もいる。

たとえすべて人工的なデータを使用したとしても、品質が低すぎると、結果は「ゴミが入ってゴミが出る」という結果になります。

研究者が実際の運用と一致しない方法を意図的に採用しており、実際には「誇張的」であると考える人さえいます。

この点に関して、馬毅教授は、現在、私たちは科学的な考え方や手法が欠如している時代に入っていると述べました—

多くの研究は、科学的常識の再発見にすぎません。

モデルのクラッシュを回避するにはどうすればよいですか?

そこで問題は、AI を使用してデータを合成するときにモデルの崩壊をどのように回避できるかということです。

ハイブリッドデータは未来です

Scale AI の CEO である Alexandr Wang は、Nature の表紙に掲載されたこの記事に深く同意しています。

同氏は、純粋に合成データを使用してモデルをトレーニングしても情報は得られないと述べた。

通常、自己蒸留によって評価指標が上昇する場合は、より微妙なトレードオフが原因である可能性が最も高くなります。

合成データは短期的には評価結果を向上させることができますが、その後はモデルの崩壊という代償を払うことになります。
モデルのトレーニングや微調整の過程で目に見えない負債が蓄積し、返済が困難になります。

具体的には、後続世代の合成トレーニングでは、主に次の 3 つの側面からエラーが発生します。

統計的近似誤差
関数表現エラー
関数近似誤差

つまり、前のモデルによって生成されたデータを使用して新しいモデルをトレーニングするたびに、一部の情報と精度が失われ、モデルがますます空洞化し、最終的には適切に動作しなくなります。

これらの実験は小規模モデル (1 億パラメータ) で実行されましたが、観察された基本的な効果は時間の経過とともにより大規模なモデルにも現れるでしょう。

たとえば、今日のほとんどのモデルは、やはりモデルのクラッシュが原因で、Slate Star Codex スタイルのブログ投稿を生成できません。モデルを継続的にトレーニングすると、モデルは広範囲にわたる予測を行う能力を徐々に失います。

Wang 氏の見解では、ハイブリッドデータは将来の開発の方向性であり、モデルの崩壊に関連するすべてのやっかいな問題を回避できます。

つまり、データを合成するプロセスでは、何らかの新しい情報源を通じてデータを生成する必要があります。

(1) 実世界のデータをシードとして利用する

(2)人間の専門家が参加

(3) 形式論理エンジン

対照的に、何の情報も得られずに誤って合成データでモデルをトレーニングした開発者は、最終的には、時間の経過とともにモデルがますます奇妙で愚かになっていくことに気づくでしょう。

必要なのは強化学習だけです

Meta、ニューヨーク大学、北京大学の研究者らは、モデルの元のパフォーマンスを回復、またはそれを超えることができる、人間またはより弱いモデルを介した「ランキング枝刈りフィードバック」手法を提案しました。

この研究に関して、LeCun 氏も支持を表明するためにそれを転送しました。

誰もが知っているように、人間や機械にとって、高品質のサンプルを最初から生成するよりも、良いサンプルと悪いサンプルを区別する方がはるかに簡単です。

これに基づいて、著者は合成データのフィードバックを通じてモデルの崩壊を防ぐまったく新しい方法を提案します。

論文アドレス: https://arxiv.org/abs/2406.07515

この疑問を調査するために、著者はまず理論的な設定で分析結果を提供します。

ここで著者らは、分類子として混合ガウスモデルと高次元の線形モデルを提案し、検証者（人間やオラクルなど）に生成されたデータを選択またはプルーニングさせます。

この結果は、合成データポイントの数が無限に近づくと、選択したデータでトレーニングされたモデルが、生データでトレーニングされたモデルと同等の最適な結果を達成できることを示しています。

合成データのシミュレーションでは、生のアノテーションを使用した場合と比較して、オラクル監視が一貫して最適に近い結果を生成することが示されています。

さらに、人間による監視による高品質データの区別は、人間による直接のアノテーションよりも簡単で安価であるため、これは人間による監視の有効性を示す強力な証拠となります。

線形ジェネレーターと線形プルーナーを備えた混合ガウスモデル: プルーナーは合成データを選択的に強化することでパフォーマンスを向上させます。

次に、著者らは 2 つの大規模な実験を実施しました。

1. 算術タスク (行列固有値予測) で Transformer をトレーニングし、実際の値からの距離を使用して大量の合成データをプルーニングします。

2. 大規模言語モデル（Llama 2）と限られた合成データを使用したニュース要約

結果は、どちらの場合も、生成されたデータのみに依存すると、データ量が増加してもパフォーマンスの低下やモデルのクラッシュにつながることがわかりました。

さらに、複雑度のみに基づいて世代プールから最適なソリューションを選択してもパフォーマンスは向上しません。つまり、モデル自体には複雑度に基づいて最適な予測を選択する機能がありません。

対照的に、オラクルの監視下では、データ量が増加するにつれて元のデータセットのパフォーマンスを上回るフィードバック強化された合成データセットを取得できます。

人間とモデルの拡張によりパフォーマンスが向上し、拡張なしで発生するモデルのパフォーマンス低下を防ぎます。

したがって、合成データを使用して新しいモデルをトレーニングするときは、ジェネレーターの品質に焦点を当てるだけでなく、データを選択する高品質の検証ツールも必要です。

一言で言えば、必要なのは強化だけです！

実データ + 合成データ

このネイチャーの表紙論文に対する読者の苦情について、スタンフォード大学博士課程の学生、ライラン・シェーファー氏は理解を表明した。

同氏は、研究者が実際の実践と一致しない手法を意図的に採用した場合にモデルの崩壊がよく起こると指摘した。

データの蓄積は崩壊するかもしれないし、崩壊しないかもしれません。それはすべて特定の運用の詳細に依存します。

故意に崩れさせれば当然崩れます。

メリーランド州スタンフォード大学とマサチューセッツ工科大学（MIT）が共同執筆したこの論文では、データの蓄積がモデルの崩壊にどのような影響を与えるかをシェーファー氏が検証している。

実験の結果、世代ごとに元の実データを合成データに置き換えると、実際にモデルが崩壊することが確認されました。

ただし、連続世代の合成データが元の実データと並行して蓄積される場合、モデルの崩壊は回避できます。

論文アドレス: https://arxiv.org/abs/2404.01413

実際には、LLM の将来の世代は、時間の経過とともに増加するデータ量でトレーニングされることになります。たとえば、Llama 1 は 1.4 兆のトークンを必要とし、Llama 2 は 2 兆のトークンを必要とし、Llama 3 は 15 兆のトークンを必要とします。

このデータ蓄積の設定は、ある意味非常に悲観的である――。

この仮想的な未来では、合成データが制御不能にインターネット上に投棄され、モデルの次の反復のトレーニングに使用されます。

図の右側に示すように、データを蓄積することでモデルの崩壊を回避できます。

研究者らは、因果変換器、拡散モデル、自己変動エンコーダという 3 つの異なる実験設定を使用し、それぞれ実際のテキスト、分子構造、画像データセットでトレーニングしました。

彼らは、データを置き換えるとすべてのモデルとすべてのデータセットでモデルの崩壊が発生するのに対し、データを蓄積するとモデルの崩壊が防止されることを発見しました。

Transformer に基づく因果言語モデリング

まず、テキストデータで因果的 Transformer をトレーニングしました。

具体的には、単一エポックの 9M パラメーター GPT-2 と、12M、42M、および 125M パラメーターの Llama 2 言語モデルが、TinyS トリーで事前トレーニングされました。

前者は、幼稚園の読み聞かせレベルで GPT-3.5/4 によって生成された 4 億 7,000 万トークンの短編小説データセットです。

モデルフィッティング反復 n ≥ 2 ごとに、前の反復の言語タイプから TinvStories と同じサイズの新しいデータセットをサンプリングし、以前のデータセットを新しく生成されたデータセットに置き換えるか連結します。

モデルフィッティングの各反復では、前の反復からの置換または連結されたデータセットに基づいて、新しい初期化されたモデルを事前トレーニングします。

結果は、すべてのアーキテクチャ、パラメーター数、サンプリング温度において、データを置き換えると、モデルフィッティングの反復回数が増加するにつれてテストのクロスエントロピーが増加することを示しています (図 2 左)。

また、すべてのアーキテクチャ、パラメータ数、サンプリング温度において、モデルフィッティングの反復回数が増加するにつれて、蓄積されたデータの結果、テストクロスエントロピーが以下になることもわかりました (図 2、右)。

図 3 は、データの置換 (上) とデータの蓄積 (下) を繰り返した場合の、各モデルフィッティング反復の学習曲線です。

結果は、データの蓄積により言語モデリングにおけるモデルの崩壊が回避されることを示しています。

125M Llama2 と 9M GPT-2 は両方とも、データを置き換えるとき (R) に品質の低下が見られましたが、データを蓄積するとき (A) は高品質のテキスト生成を維持しました。

分子立体構造データの拡散モデル

次に、分子構造データに基づいて一連の拡散モデルをトレーニングしました。

具体的には、研究者らは、分子構造生成のための幾何学的拡散モデルである GeoDiff を GEOMDrugs データセット上でトレーニングしました。

彼らは、GEOM-Drugs データセットのトレーニング部分を 40,000 分子立体構造までダウンサンプリングし、それを初期トレーニングセットとして使用し、予測ごとに 50 の拡散ステップを実行しました。

結果モデルフィッティングを 8 回繰り返した後、研究者らは、データを置き換えるとテスト損失が増加し、これは言語モデルの実験と一致し、データを蓄積してもテスト損失は比較的一定のままであることを発見しました (図 4)。

言語モデルとは異なり、データを置き換えると、合成データに対するトレーニングの最初のモデルフィッティング反復でパフォーマンスが大幅に低下し、その後の反復ではさらに大幅に低下しないことがわかりました。

画像データ用の自己変量エンコーダ

実験の最後に、研究者らは CelebA で変分エンコーダー (VAE) シーケンスをトレーニングしました。このデータセットには 200,000 個の顔画像が含まれており、トレーニングセットとテストセットに分割されています。

この選択により、多くのサンプル、カラー画像、解像度を含む現実的なデータセットと、蓄積されたデータに対して多くの反復でモデルをトレーニングする計算上の実行可能性との間のバランスが取れます。

その結果、反復ごとにデータを置き換えると、モデルの崩壊が再び発生することがわかりました。

反復が追加されるたびにテスト誤差が急速に増加し、すべてのモデル生成が単一のパターンを表すようになるまで、反復ごとに生成される面の品質が低下し、多様性が低下します。

対照的に、反復ごとにデータを蓄積すると、モデルの崩壊が大幅に遅くなります。

反復が追加されるたびに、テスト誤差の増加が大幅に遅くなります。

図 6 の中央および右側のパネルと比較すると、世代の多様性は減少していますが、性別などのデータセットの主な変動軸は依然として表されていますが、モデルはデータの短い軸に沿って他の軸を生成していないようです。メガネやアクセサリーなどの詳細。

もう 1 つの興味深い現象は、言語モデリングとは異なり、蓄積されたデータのテストエラーが反復回数に応じて増加することです (置換データよりもはるかに遅いですが)。

なぜこのような違いが存在するのでしょうか?この研究の方向性は将来に委ねられる。

参考文献:

https://x.com/alexandr_wang/status/1816491442069782925 https://x.com/RylanSchaeffer/status/1816535790534701304

https://arxiv.org/abs/2404.01413

https://arxiv.org/abs/2406.07515

ニュース

オックスブリッジは AI に「毒」を与えることに失敗し、ネイチャー誌の表紙を 9 回も飾り、学界で激しい議論を巻き起こしました。 AIは突破できるようにAIを訓練できるか

導入

私の連絡先情報