有名な BERT はどこへ行ったのでしょうか?この質問に対する答えは、LLM

有名な BERT はどこへ行ったのでしょうか?この質問に対する答えは、LLM のパラダイムシフトを示唆しています。

2024-07-22

エンコーダーモデルはどこへ行ったのでしょうか? BERT がうまく機能するのであれば、それを拡張してみてはいかがでしょうか?エンコーダ/デコーダまたはエンコーダのみのモデルについてはどうですか?

大規模言語モデル (LLM) の分野では、現在、デコーダーモデル (GPT シリーズのモデルなど) のみが主流の時代です。エンコーダ-デコーダまたはエンコーダのみのモデルの開発についてはどうですか?かつては非常に有名だった BERT が、徐々に注目を集める人が少なくなっているのはなぜでしょうか?

最近、AI スタートアップ Reka の主席科学者兼共同創設者である Yi Tay 氏がブログ投稿を公開して自身の見解を共有しました。 Yi Tay は、Reka を共同設立する前に Google Research と Google Brain に 3 年以上勤務し、PaLM、UL2、Flan-2、Bard などの有名な LLM や、次のようなマルチモーダルモデルの開発に参加しました。 PaLI-X と ViT-22B は機能します。以下は彼のブログ投稿の内容です。

基本的な紹介

一般的に言えば、ここ数年の LLM モデルアーキテクチャは主に、エンコーダのみのモデル (BERT など)、エンコーダ-デコーダモデル (T5 など)、デコーダのみのモデル (GPT シリーズなど) の 3 つの主要なパラダイムに分かれています。モデル）。これらの分類方法と構造は混乱し、誤解されることがよくあります。

最初に理解すべきことは、エンコーダー/デコーダーモデルは実際には自己回帰モデルであるということです。エンコーダ-デコーダモデルでは、デコーダは依然として本質的に因果的なデコーダです。デコーダーモデルを事前に設定する代わりに、一部のテキストをエンコーダーにオフロードし、それをクロスアテンション経由でデコーダーに送信します。はい、T5 モデルも言語モデルです。

このタイプのモデルのバリエーションは、プレフィックス言語モデル (略して PrefixLM) です。これは、ほぼ同じように機能しますが、クロスアテンション (およびエンコーダー/デコーダー間の共有重みやエンコーダーボトルネックなしなどのその他の細かい詳細) はありません。 PrefixLM は、非因果デコーダと呼ばれることもあります。簡単に言えば、エンコーダ/デコーダ、デコーダのみのモデル、および PrefixLM の間には、全体的に大きな違いはありません。

ヒョンウォンの最近の素晴らしい講義では、これらのモデル間の関係を専門的に説明しています。詳細については、マシンハートのレポート「AI研究の主な原動力は何になるのか？」を参照してください。 ChatGPTチームの研究員：コンピューティングコストが削減》

同時に、BERT のようなエンコーダのみのモデルのノイズ除去方法は異なります (つまり、インプレース)。事前トレーニング後にエンコーダのみのモデルが実際に役割を果たすためには、ある程度、次のことが必要です。分類「タスク」ヘッダーに依存します。その後、T5 などのモデルでは、シーケンスツーシーケンス形式を使用する「修正された」バージョンのノイズ除去ターゲットが採用されました。

この目的のために、次のことを指摘することが重要です。T5 でのノイズ除去は、(機械学習の意味での) 新しい目的関数ではなく、入力全体にわたるデータ変換です。つまり、破損した目的全体にわたってトレーニングされた因果デコーダーを使用することもできます (スパン破損)客観的）。

人々は、T5 が非常に代表的であることもあり、エンコーダ/デコーダモデルはノイズ除去モデルに違いないと常に考えています。しかし、常にそうとは限りません。通常の言語モデリングタスク (因果関係のある言語モデリングなど) を使用して、エンコーダー/デコーダーをトレーニングできます。さらに、因果デコーダは、スパン破損タスクを使用してトレーニングすることもできます。前に述べたように、これは基本的にデータ変換です。

注目に値するもう 1 つの点: 一般に、2N パラメータを持つエンコーダ/デコーダは、N パラメータを持つデコーダのみのモデルと計算的には同じであるため、パラメータ数に対する FLOP の比率は異なります。これは、入力とターゲットの間で「モデルの疎性」を分散するようなものです。

これは何も新しいことではありませんし、私自身が思いついたわけでもありません。 2019年のT5論文にも記載されており、UL2論文でもこの点が改めて強調されている。

とりあえず、これを明確にできてよかったです。さて、目標です。

ノイズ除去の目標について (機能しませんか? スケールしませんか? それとも簡単すぎますか?)

ここでのノイズ除去ターゲットとは、「スパンダメージ」タスクのあらゆるバリエーションを指します。これは、「穴埋め」または「穴埋め」と呼ばれることもあります。スパン長、ランダム性、センチネルトークンなど、それを表現する方法はたくさんあります。鍵は理解できたはずです。

BERT スタイルのモデルのノイズ除去の目標は基本的に適切です (たとえば、分類ヘッドはマスクトークン上にあります) が、「T5 スタイル」はより現代的です。つまり、エンコーダ-デコーダまたはデコーダのみを使用します。データ変換を処理するモデル。このようなデータ変換では、モデルが予測できるように、マスクされたトークンが単純に「戻される」だけです。

事前トレーニングの主な目的は、可能な限り最も効率的かつ効果的な方法で、下流のタスクに合わせた内部表現を構築することです。この内部表現が優れているほど、これらの学習された表現を後続のタスクで使用することが容易になります。単純な次の単語の予測が「原因言語モデリング」の目標に対して非常にうまく機能し、LLM 革命の中核となったことは誰もが知っています。ここで問題となるのは、ノイズ除去ターゲットが同等に優れているかどうかです。

公開情報に基づいて、アライメントと監視付き微調整の後でも、T5-11B は非常にうまく機能することがわかっています (Flan-T5 XXL の MMLU スコアは 55+ で、当時このサイズのモデルとしてはかなり良好でした) 。したがって、ノイズ除去ターゲットの転送プロセス (事前トレーニング → アライメント) は、この規模では比較的うまく機能すると結論付けることができます。

私の意見では、ノイズ除去ターゲットはうまく機能しますが、単独でターゲットとして機能するには十分ではありません。大きな欠点は、いわゆる「損失エクスポージャ」が少ないことに起因します。ノイズ除去ターゲットでは、少数のトークンのみがマスクされて学習されます (つまり、損失が考慮されます)。逆に、通常の言語モデリングでは、これは 100% に近くなります。これにより、フロップごとのサンプルが非常に非効率になり、フロップベースでの比較においてノイズ除去ターゲットが大幅に不利になります。

ノイズ除去目標のもう 1 つの欠点は、入力/出力が奇妙な方法で再フォーマットされるため、通常の言語モデリングよりも不自然であることです。そのため、少数ショット学習には適していません。 (ただし、ショット数の少ないタスクで適度にパフォーマンスを発揮するようにこれらのモデルを調整することは可能です。) したがって、ノイズ除去目標は、通常の言語モデリングを補完する目標としてのみ使用されるべきだと私は考えています。

Unity の初期の頃と BERT 風のモデルが消滅した理由

BERT のようなモデルは徐々に姿を消し、今ではあまり話題になりません。これは、現在非常に大規模な BERT モデルが見られない理由も説明できます。理由は何ですか？これは主に、タスク/モデリングパラダイムの統合とシフトによるものです。 BERT スタイルのモデルは扱いにくいですが、BERT モデルが非推奨になった本当の理由は、人々がすべてを一度に実行したいため、より良いノイズ除去方法である自己回帰モデルが採用されたためです。

2018 年から 2021 年にかけて、シングルタスクの微調整から大規模なマルチタスクモデルへという暗黙のパラダイムシフトが起こりました。これにより、私たちは徐々に、今日見られる普遍的なモデルである統一 SFT モデルに到達しました。 BERT ではこれを行うのが困難です。これは「ノイズ除去」とはあまり関係ないと思います。このようなモデル (T5 など) を引き続き使用したい人のために、ノイズ除去の事前トレーニングタスクを再定式化する方法が見つかりました。これにより、より優れた代替プランがあるため、現在では BERT スタイルのモデルは基本的に非推奨になっています。

より正確には、エンコーダー/デコーダーおよびデコーダー専用モデルは、タスク固有の分類ヘッダーを必要とせずに、さまざまなタスクに使用できます。エンコーダ/デコーダの場合、研究者やエンジニアは、エンコーダを放棄した場合の影響が BERT エンコーダの場合と同様であることに気づき始めました。さらに、これにより、双方向の注意の利点が維持されます。この利点により、BERT は小規模 (多くの場合、実稼働規模) で GPT と競合できます。

ノイズ除去ターゲットの値

ノイズ除去の事前トレーニングターゲットは、通常の言語モデリングと同様の方法で次の単語を予測することも学習します。ただし、従来の因果関係言語モデリングとは異なり、モデルが単に自然テキストを左から右に予測するのではなく「空白を埋める」ことを学習できるように、シーケンスでデータ変換を使用する必要があります。

ノイズ除去ターゲットは「パディングタスク」と呼ばれることがあり、事前トレーニングプロセスで通常の言語モデリングタスクと混合される場合があることに注意してください。

正確な構成と実装の詳細は異なる場合がありますが、今日の最新の LLM は言語モデリングとパディングの組み合わせを使用する場合があります。興味深いことに、この「言語モデル + パディング」のハイブリッドは実際に同時期に普及し (UL2、FIM、GLM、CM3 など)、多くのチームが独自のハイブリッドソリューションを導入しました。ちなみに、この方法でトレーニングされた既知の最大のモデルはおそらく PaLM-2 です。

また、トレーニング前のタスクミックスは順番に積み重ねることもでき、必ずしも同時に混合する必要はないことにも注意してください。たとえば、Flan-T5 は最初に 1T スパンの破損したトークンでトレーニングされ、その後切り替えられました。次に、flan コマンドを微調整します。これは、ハイブリッドノイズ除去/LM ターゲットモデルにある程度適しています。明確にしておきますが、プレフィックス言語モデリングの目標 (アーキテクチャと混同しないでください) は純粋に因果関係のある言語モデリングであり、分割点がランダムに決定され、(損失や非因果関係のマスキングなしで) 入力に送信されます。

ちなみに、パディングはコード LLM の分野に由来している可能性があり、そこでは「空白を埋める」というよりもコードを書くために必要な機能でした。同時に、UL2 の動機は、ノイズ除去の目標と、双方向 LLM が得意とするタスククラスを、本質的に生成的なタスク (要約やオープンエンド生成など) と統合することにあります。自己回帰デコードのこの「後方シフト」の利点は、モデルがより長距離の依存関係を学習できるだけでなく、非明示的な双方向の注意から暗黙的に恩恵を受けることもできることです (空白を埋めるために、未来が見えてきました）。

伝説的な経験があります。ノイズ除去ターゲットによって学習された表現は、特定のタスクカテゴリでより優れたパフォーマンスを発揮し、場合によってはサンプル効率が高くなることがあります。 U-PaLM の論文では、少量のスパンダメージを与えたアップトレーニングが一連の BIG-Bench タスクの動作と創発現象をどのように変化させるかを示しています。これに基づいて、特に規模が小さい場合、この目的でトレーニングされたモデルを微調整すると、多くの場合、より優れた教師あり微調整モデルが得られます。

シングルタスクの微調整という点では、PaLM-1 62B モデルがはるかに小型の T5 モデルに負けていることがわかります。比較的小規模な場合、「双方向の注意 + ノイズ除去ターゲット」は美しいコンビネーションパンチです。多くの実務者も、特に本番アプリケーションでこの状況に気づいていると思います。

双方向の注意についてはどうでしょうか？

双方向の注意は、言語モデルにとって興味深い「帰納的バイアス」であり、人々が目標やモデルのバックボーンと混同することがよくあります。誘導バイアスは、さまざまなコンピューティング領域でさまざまな用途に使用され、展開曲線にさまざまな影響を与える可能性があります。そうは言っても、双方向の注意は、大規模なスケールでは小規模なスケールほど重要ではない可能性があり、あるいは異なるタスクやモダリティでは異なる効果をもたらす可能性があります。たとえば、PaliGemma は PrefixLM アーキテクチャを使用します。

Hyung Won 氏は講演の中で次のようにも指摘しました。PrefixLM モデル (双方向アテンションを使用するデコーダ専用モデル) にもキャッシュの問題があり、これはこのタイプのアーキテクチャに固有の欠陥です。ただし、この欠陥を回避する方法はたくさんあると思いますが、それはこの記事の範囲を超えています。

エンコーダ/デコーダアーキテクチャの長所と短所

エンコーダ/デコーダアーキテクチャには、デコーダのみのモデルと比較して長所と短所があります。 1 つ目のケースは、エンコーダ側が因果マスクによって制限されない場合です。ある程度までは、自己回帰の設計制限を気にすることなく、アテンション層から手を離して、プーリングやあらゆる形式の線形アテンションを積極的に実行できます。これは、重要度の低い「コンテキスト」をエンコーダにオフロードする優れた方法です。エンコーダを小さくできることも利点です。

必要なエンコーダ/デコーダアーキテクチャの例としては、エンコーダを大胆に利用し、バイトレベルモデルの速度上の欠点を軽減する Charformer があります。エンコーダ側でイノベーションを起こせば、因果マスキングの重大な落とし穴を心配することなく、すぐにメリットを得ることができます。

同時に、PrefixLM と比較すると、エンコーダー/デコーダーの欠点は、入力とターゲットに固定のバジェットを割り当てる必要があることです。たとえば、入力バジェットが 1024 トークンの場合、エンコーダー側はこの値までパディングする必要があり、多くの計算が無駄になる可能性があります。これに対し、PrefixLM では入力とターゲットを直接接続できるため、この問題が軽減されます。

今日のモデルとの関連性と重要なポイント

今日の時代において、資格のある LLM 研究者および実践者になるための重要な能力は、アーキテクチャの側面と事前トレーニングの側面の両方から帰納的バイアスを推測できることです。微妙な違いを理解することは、人々が推定して革新を続けるのに役立ちます。

私の重要なポイントは次のとおりです。

エンコーダ/デコーダモデルとデコーダのみのモデルはどちらも自己回帰モデルであり、実装レベルで異なり、独自の利点と欠点があります。それらはわずかに異なる誘導バイアスです。どちらを使用するかは、ダウンストリームのユースケースとアプリケーションの制約によって異なります。同時に、BERT スタイルのエンコーダモデルは、ほとんどの LLM ユースケースおよびニッチなユースケースでは時代遅れであると考えることができます。

ノイズ除去ターゲットは主に因果言語モデルの補足として使用できます。彼らは訓練段階で「支援対象」としてうまく活用されてきました。ノイズ除去ターゲットを使用した因果言語モデルのトレーニングは、多くの場合、ある程度役立ちます。これはコードモデル (つまり、コードスタッフィング) の世界では非常に一般的ですが、今日の汎用モデルでは、因果関係のある言語モデルと事前トレーニング用のノイズ除去ターゲットを使用することも一般的です。

双方向の注意は小規模なモデルには非常に役立ちますが、大きなモデルには必要ありません。これらはほとんどが噂です。 Transformer モデルに対する他の多くのタイプの変更と同様に、双方向の注意には誘導的なバイアスがあると思います。

最後にまとめです。現在、稼働中の BERT モデルの大規模バージョンはありません。BERT モデルは非推奨となり、より柔軟なノイズ除去 (自己回帰) T5 モデルに置き換えられました。これは主にパラダイムの統一によるものです。つまり、人々はさまざまなタスクを実行するために (タスク固有のモデルを使用するよりも) 一般的なモデルを使用することを好みます。同時に、自己回帰ノイズ除去は、因果言語モデルの副目的として使用されることがあります。

元のリンク: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

ニュース