元 Google 科学者 Yi Tay の最初のブログシリーズ「LLM の物語」: なぜ BERT は消えたのか?

2024-07-21

新しい知恵のレポート

編集者: ヨンヨン・チャオ・ヤン

【新しい知恵の紹介】元 Google 科学者の Yi Tay は、「LLM 時代のモデルアーキテクチャ」シリーズのブログを立ち上げました。その最初のブログ投稿は、エンコーダのみのアーキテクチャに基づく BERT が、エンコーダ - デコーダアーキテクチャに基づく T5 にどのように置き換えられ、どのように分析されたかについてです。 BERT の消滅の全貌とさまざまなアーキテクチャモデルの長所と短所歴史を教訓とすることは、将来のイノベーションにとって非常に重要です。

元 Google の科学者でブログに熱中している Yi Tay 氏は、最近退屈すぎて飛行機に乗ることができなかったので、多くの人が現在懸念しているテーマ、つまり LLM 時代のモデルアーキテクチャの盛衰について論じた詳細な記事を書きました。。

今回Yi Tayは、「BERTとT5に何が起こったのか」について、新しいLLM時代に起こっているすべてを解き明かそうとしました。 Transformer エンコーダ、PrefixLM、ノイズ除去ターゲットの栄枯盛衰についても。

ブログアドレス: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

なぜエンコーダのみのモデルは「人気がなくなった」のでしょうか？ BERT は非常に強力であるにもかかわらず、「拡張」できないのはなぜですか?

現場にいると全体像を見るのは難しいです。業界関係者を悩ませるこれらの問題について、Yi Tay 氏は自身の観察と考えを共有しました。

また、Yi Tay 氏は、これは一連のブログ投稿の最初にすぎず、「LLM 時代のモデルアーキテクチャ」というテーマに関するさらなる内容を期待できるとも述べました。

LLM 時代のモデルアーキテクチャに関する更新の新しいブログシリーズを開始することを決定しました。以下はパート 1 で、トランスフォーマーエンコーダー/エンコーダーデコーダー、PrefixLM、およびノイズ除去ターゲットのより広範なアーキテクチャについて説明します。多くの人が抱く疑問は、「約 5 年前に言語と NLP の研究に従事していた人々は、エンコーダーモデルがどこに行ってしまったのか疑問に思っていました。BERT がそれほど効果的であるなら、なぜその規模を拡大しないのでしょうか?」というものです。さらに、エンコーダ/デコーダまたは純粋なエンコーダモデルはどうなったのでしょうか?ノイズ除去ターゲットは適切ですか? このブログ投稿で私の考えを共有します。

Yi Tay は、LLM 時代のまさに「ストーリーテラー」であり、ブログの中で、過去数年間のモデルアーキテクチャの発展を簡潔に要約し、彼自身の洞察を述べました。

背景

テクノロジーにあまり詳しくない人でも読みやすいように、Yi Tay 氏はまず物語の背景を説明しました。

ここ数年、モデルアーキテクチャには 3 つの重要なパラダイムがありました。

エンコーダのみのモデル (BERT など)、エンコーダ/デコーダモデル (T5 など)、デコーダのみのモデル (GPT シリーズなど)。

しかし、人々はこの区分について非常に混乱しており、多くの誤解があるため、Yi Tay がこのブログ投稿を書く目的は、誰もがより明確に理解できるようにしたいと考えています。

最初に明確にしておきたいのは、エンコーダー/デコーダーモデルは実際には依然として自己回帰モデルであるということです。エンコーダ-デコーダモデルのデコーダは、文字通りにも本質的にも、依然として因果的なデコーダです。

テキストは最初にエンコーダーに渡され、次にデコーダーモデルに事前設定されるのではなく、クロスアテンションメカニズムを通じてデコーダーに送信されます。

したがって、T5 モデルは言語モデルでもあります。

その変形として、プレフィックス言語モデル (PrefixLM アーキテクチャ) があります。これは、クロスアテンションメカニズムを除いて、ほぼ同じことを行います。 (エンコーダ/デコーダ間の重み共有やエンコーダのボトルネックがないなど、その他の細かい点もいくつかあります)

PrefixLM は、非因果デコーダと呼ばれることもあります。つまり、エンコーダ-デコーダ、エンコーダのみ、PrefixLM はそれほど違いはありません。

これについてまだ疑問がある場合は、Yi Tay 氏も参考資料を提供しました。今年 4 月にスタンフォード大学で行われたヒョンウォン氏の素晴らしいスピーチで、彼はこれらのモデル間の関係を巧みに説明しました。

講演アドレス：https://www.youtube.com/watch?v=orDKvo8h71o

同時に、BERT などのエンコーダのみのモデルのノイズ除去方法は異なり (つまり、インプレース)、事前トレーニングされたさまざまなベースモデルを実行するために追加された追加の「タスクヘッド」にある程度依存します。オペレーション。

BERT のノイズ除去ターゲットは後に T5 などのモデルに適用されましたが、特定の変更とシーケンス間の形式が適用されました。

そうは言っても、T5 でのノイズ除去自体は、正確には新しい目的関数 (機械学習の意味で) ではなく、むしろ入力間のデータ変換であることに注意する価値があります。つまり、因果関係デコーダーのスパン破損ターゲットでも実行できます。訓練する！

人々は常に、エンコーダ/デコーダモデルはノイズ除去モデルに違いないと考えていますが、この錯覚の理由の 1 つは、T5 モデルが代表的すぎることにあります。

ただし、常にそうとは限りません。

通常の言語モデリングタスク (つまり、CLM) を使用してエンコーダー/デコーダーをトレーニングすることも、スパン破損タスクを使用して因果デコーダーをトレーニングすることもできます。

前述したように、これは主にデータ変換です。

一般に、2N パラメータのエンコーダ/デコーダの計算コストは N パラメータのデコーダのみのモデルと同じであるため、FLOP/パラメータ比が異なることにも注意してください。

以上のような背景を理解した上で、本文に入ります——。

ノイズ除去の目標について（役に立たない？スケールしない？シンプルすぎる？）

明確にしておきますが、Yi Tay 氏が言及したノイズ除去の目的は、スパン破損のあらゆる変種を指します。

場合によっては、「穴埋め」または「空白埋め」と呼ばれることもあります (スパンの長さ、ランダム性、センチネルトークンなどと同様に) は、すべて同じ意味です。

BERT スタイルのモデルのノイズ除去の目標はほぼ決まっていますが、もう少し現代的なアプローチは「T5 スタイル」です。これは、エンコーダー/エコーダーまたはデコーダーのみのモデルによってデータ変換が処理されます。

このデータ変換では、モデルが予測を行うためにマスクトークンが単に「後ろに移動」されます。

事前トレーニングの主な目的は、最も効率的かつ効果的な方法で下流のタスクと連携する有用な内部表現を構築することです。

内部表現が優れているほど、これらの学習された表現を後で役立つ目的で使用することが容易になります。

誰もが知っているように、次のトークンを予測するという単純な「因果言語モデリング」(CLM) の目標はこれをうまく実行し、LLM 革命の基礎となっています。ここで問題となるのは、ノイズ除去ターゲットが同等に優れているかどうかです。

公開情報から、T5-11B はアライメント/SFT 後でも非常に良好に動作することがわかっています (Flan-T5 XXL の MMLU スコアは 55+ で、当時のこのサイズのモデルとしてはかなり良好です)。

したがって、いくつかの結論を導き出すことができます。ターゲットのノイズ除去能力を事前トレーニングからアライメントに移行することで、モデルが 11B のスケールでより適切に機能するようにサポートできます。

Yi Tay 氏の見解は、ノイズ除去ターゲットは優れていますが、スタンドアロンのターゲットとしては十分ではないというものです。

その欠点は、「損失エクスポージャー」が少ないことだと言えます。ノイズ除去ターゲットでは、少数のトークンのみがマスクされ、学習プロセス (つまり、損失値の更新) で使用されます。

対照的に、従来の言語モデリングでは、トークンの使用率は 100% に近くなります。

ノイズ除去ターゲットのこの特性により、FLOP あたりのサンプリング効率がかなり低くなり、そのため FLOP ベースの比較では非常に不利になります。

もう 1 つの欠点は、ターゲットのノイズ除去は入出力を奇妙な方法で再フォーマットするため、通常の言語モデリングよりも不自然であることです。これにより、数回の学習には少し扱いにくくなります。 (それでも、これらのモデルは、ショット数の少ないタスクで適度にパフォーマンスを発揮するように調整できます)

したがって、Yi Tay 氏は、ノイズ除去ターゲットは、独立したトレーニングターゲットとしてではなく、従来の言語モデリングの補足としてのみ使用できると考えています。

Unity の初期の頃と xBERT が消滅した理由

BERT のようなモデルの段階的廃止は興味深い段階ですが、最近それについて話す人は多くなく、微妙です。

これは、非常に大規模な BERT モデルが実行されなくなった理由も説明する可能性があります。理由は何ですか？

これは主に、タスク/モデリングパラダイムの統合と変換の問題です。

BERT スタイルのモデルは不器用でしたが、人々がすべてのタスクに 1 つのモデルを使用することを望んでいたため、実際には非推奨になりました。そのため、ノイズを除去するためのより良い方法、つまり自己回帰モデルを使用する方法が導入されました。

2018 年から 2021 年にかけて、シングルタスクの微調整から大規模なマルチタスクモデルへのパラダイムシフトが隠れて起こりました。

誰もが徐々に統一 SFT モデルに注目していきましたが、これは今日私たちが見ている統一一般モデルでもあります。

BERT でこれを行うのは難しすぎます。

ただし、BERT のこの「ぎこちなさ」は、「ノイズ除去」タスクとはほとんど関係がありません。それでもこのタイプのモデルを使用したい場合は、「ノイズ低減」タスクを別の方法 (T5 など) で表現できます。

したがって、BERT スタイルのモデルは、厳密に優れた代替モデルが出現するため、現時点ではほぼ非推奨となります。

より具体的には、エンコーダ/デコーダおよびデコーダのみのモデルは、タスク固有の分類ヘッダーを必要とせずに、複数のタスクを同時に表現できます。

同時に、研究者やエンジニアは、エンコーダ-デコーダモデルの場合、エンコーダを単純に削除してデコーダのみを残した場合、そのパフォーマンスが BERT のエンコーダと同等の競争力を持つことを発見しました。

それだけでなく、デコーダのみを残すことで、小規模 (通常は運用規模) タスクにおいて BERT が GPT モデルよりも優れた双方向注意の利点も維持されます。

ノイズ除去ターゲットの値

通常の言語モデリングの仕組みと同様に、ノイズ除去事前トレーニング目標も次の単語を予測することを学習します。

ただし、従来の CLM とは異なり、後者は、左から右に自然に表示されるテキストを単に予測するのではなく、シーケンスに対してデータ変換を実行して「空白を埋める」ことを学習します。

ノイズ除去目標は「充填タスク」と呼ばれることがあり、事前トレーニング用の通常の言語モデリングタスクと混合される場合があることに注意してください。

特定の構成と実装の詳細は異なる場合がありますが、今日の LLM は言語モデリングとパディングの組み合わせを使用する可能性があります。

そして興味深いことに、言語モデリングとパディングのハイブリッドはほぼ同時期に普及したようであり (UL2、FIM、GLM、CM3 など)、多くのチームが何らかの方法でハイブリッドに独自の「風味」を持ち込んでいます。

ちなみに、この方法でトレーニングされた最大の公開および報告されたモデルは PaLM-2 です。

混合トレーニングは必ずしも同時に混合する必要はなく、順番に積み重ねることができることに注意してください。

たとえば、Flan-T5 は最初に 1Tspan 破損トークンでトレーニングされ、その後、命令の微調整の前に 100B トークンのプレフィックス言語モデリングタスクに切り替えられました。

ある意味、これはノイズ除去/言語モデリングをターゲットとしたハイブリッドモデルと言えます。

Yi Tay 氏はまた、非公式の経験を共有しました。ノイズ除去ターゲットによって学習された表現は、特定のカテゴリのタスクでより優れたパフォーマンスを発揮し、より効率的な方法でサンプリングされることもあります。

この目的でトレーニングされた微調整モデルは、一般に、特に小規模な場合に、より優れた SFT モデルを生成します。

シングルタスクの微調整に関して言えば、PaLM-1 62B モデルが小型の T5 に負けていることがわかります。

双方向の注意 + ターゲットのノイズ除去は、比較的狭い範囲で大きな役割を果たします。多くの実務家が、特に本番環境でこの状況を目の当たりにしていると思います。

エンコーダ/デコーダアーキテクチャの長所と短所

実際、エンコーダ/デコーダアーキテクチャには、通常のデコーダのみのモデルに比べていくつかの利点があります。

エンコーダ側は、自己回帰設計の制限を気にすることなく、アグレッシブなプーリングやあらゆる形式の線形アテンションを使用して、アテンションレイヤーを狂ったように積み重ねることができる限り、因果マスクによって制約されません。

これは、それほど重要ではない「コンテキスト」をエンコーダに渡す良い方法です。エンコーダーを小さくすることもできるので、これもいいですね。

Charformer の例は、エンコーダ/デコーダアーキテクチャの必要性を示しています。バイトレベルでエンコードする際の速度の欠陥を軽減するために、エンコーダについて大騒ぎすることができます。

しかし同時に、PrefixLM と比較したエンコーダ/デコーダの欠点の 1 つは、入力とターゲットの割り当て長が固定されている必要があることです。

たとえば、所定の入力長が 1024 トークンの場合、エンコーダ側でこの値までパディングする必要があり、大量の計算無駄が発生する可能性があります。

これに対し、PrefixLM では入力とターゲットを直接接続できるため、この問題が軽減されます。

今日のモデルとの関連性と重要なポイント

モデルアーキテクチャの観点から見ても、トレーニング前の観点から見ても、有能な LLM 研究者および実践者になるには、推論に帰納的バイアスを使用する能力が不可欠です。また、異なるモデルアーキテクチャ間の基本的なニュアンスを理解することは、将来のイノベーションに役立ちます。

Yi Tay 氏は重要なポイントを次のように共有しました。

エンコーダ/デコーダモデルとデコーダのみのモデルはどちらも自己回帰モデルですが、実装レベルに違いがあり、それぞれに長所と短所があります。それらの誘導バイアスは微妙に異なり、最適な使用法は実際にはダウンストリームのユースケースとアプリケーションのかなりの制限に依存します。ほとんどの LLM アプリケーションやニッチなユースケースでは、BERT スタイルのエンコーダのみのモデルは時代遅れであると考えられています。
ノイズ除去ターゲットは主に CLM の補足であり、事前トレーニングの「補助ターゲット」として、通常は何らかの助けになります。これはコードモデル (コードスタッフィングなど) でよく起こりますが、今日の汎用モデルでは、事前トレーニングに何らかのノイズ除去目的を備えた CLM を使用することは珍しくありません (ただし、これは要件ではありません)。
双方向アテンションメカニズムは小規模なスケールでは非常に役立ちますが、多くの場合、大規模なモデルではオプションでしかありません。 Yi Tay 氏は、Transformer アーキテクチャの他の多くの種類の変更と同様、双方向の注意には誘導性のバイアスがあると考えています。

最後に、要約すると、xBERT のスケーリングに成功した例はありません。BERT モデルは非推奨となり、より柔軟なノイズ除去 (自己回帰) T5 モデルが採用されました。

これは主にパラダイムの統一によるもので、誰もがタスク固有のモデルではなく一般的なモデルを使用したいと考えています。

同時に、自己回帰ノイズ除去が付随的なトレーニング目標として CLM に組み込まれることがあります。

著者について

Yi Tay は現在、AI スタートアップ Reka の共同創設者兼主任科学者です。 Reka は、最先端の生成モデルの構築と人工知能研究の推進に専念しています。

それ以前は、Google Brain の上級研究員として LLM および AI 関連の業務に従事し、Google Research の米国研究チームのテクニカルディレクターも務めて、Transformer の拡張機能とアーキテクチャに取り組みました。

Google 在籍中に、Yi Tay は約 20 の製品リリースに貢献しました。

Yi Tay が Google の研究科学者として在職中、出版された著作のほとんどは Transformer を中心としており、特に効率、スケーラビリティ、アーキテクチャの研究に関連していました。

イ・タイさんはブログのほかにクラシック音楽も大好きで、「研究者になっていなかったら、プロの音楽家になりたかったかもしれない」と語った。興味深いことに、彼はその点で卒業証書を実際に受け取りました。

イーテイがまた長距離便に乗って、またブログを更新するのを見るのを楽しみにしています。

参考文献:

https://x.com/YiTayML/status/1813262126162845772

ニュース