私の連絡先情報
郵便管理者@information.bz
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
新しい知恵のレポート
編集者:喬楊
【新しい知恵の紹介】パフォーマンスをモデル化するためには、トレーニング後のトレーニングも同様に重要であることが、ますます多くの研究で判明しています。 Allen AI の機械学習研究者である Nathan Lambert は、最近、テクノロジー大手が使用しているポストモデル トレーニング レシピを要約した技術ブログ投稿を公開しました。
LLM の学術界と産業界の急速な発展に伴い、事前トレーニングに使用されるコンピューティング能力とデータが猛烈な勢いで投入されるだけでなく、トレーニング後の調整方法や微調整方法も常に更新されています。
InstructGPT や WebGPT などの以前にリリースされたモデルは標準の RLHF メソッドを使用しており、それらのデータ管理スタイルと規模は時代遅れになっているようです。
ここ数カ月間、Meta、Google、NVIDIA などの AI 大手が、、、、、Apple Intellegence の基本モデル レポートなどの詳細な論文やレポートを伴うオープンソース モデルをリリースしました。
この開示された情報から、トレーニング後の方法に関するいくつかの最先端の傾向がわかります。 Allen AI 研究科学者の Nathan Lambert は最近、このトピックに関する記事を発表しました。
元のアドレス: https://www.interconnects.ai/p/frontier-model-post-training
ネイサン ランバート博士はカリフォルニア大学バークレー校を卒業し、HuggingFace の RLHF チームを率い、現在は Allen AI の機械学習研究者です。
同氏は記事の中で、合成データ、反復トレーニング、人間の好みのラベル、広範なフィルタリングが、これらのモデルで使用されるトレーニング後の手法の共通の特徴であると指摘しています。具体的には、新しいポストワークアウトレシピは次のプリセットに基づいて構築されています。
- 合成データは、特に困難なタスクの場合、人間のデータよりも高品質である可能性があります。
- RLHF は命令の微調整よりも大きなスケールに拡張できます
- 最適なモデルを取得するには、複数回のトレーニングと生成が必要です
- データのフィルタリングはトレーニングの最も重要な部分です
これらの前提は主に絡み合って、大規模なチームに拡張できるトレーニング計画を形成するため、テクノロジー大手にとって理想的なものになります。具体的な記事の内容では、上記4点について詳しく解説しています。
新しい標準パイプライン
ChatBot Arena スコアがモデルのトレーニング後のパフォーマンスを測定し、スタイルと堅牢性に主に関連していることを考慮すると、ほとんどすべての主要なラボが反復トレーニングを通じて大幅な向上を達成しています。
Gemini 2 または GPT-5 のリリースはまだ確認されていませんが、これにより現在のトレーニング後のパラダイムがリセットされ、モデルに対するより深い制御が可能になる可能性があります。
しかし、現在の観点から見ると、さまざまなトップ研究所が使用する手法は明らかに収束しており、この傾向は予想よりもはるかに明らかです。
人間の嗜好データ
初期の RLHF パイプラインは人間のデータに焦点を当てており、これには主に 2 つの形式があります: 1) 特殊なタスクの微調整指示のための人間のデータ、2) タスクの完了に関する人間の好みのデータ。
このような微調整データセットは高価であり、厳重に保護されています。私の知る限り、唯一公開されているのは、Lambert が HuggingFace チームにいたときにリリースした No Robots です。
倉庫アドレス: https://huggingface.co/datasets/HuggingFaceH4/no_robots
人間の好みのデータは、特定のモデルの改善に大きく関係しています。しかし、データをオープンにできる場合でも、あるモデルの設定を別のモデルに転送できるという確実性はありません。
ランバート氏と彼のチームは、HuggingFace でも同様の試みを行ったが、小規模な有料データ契約で失敗した。
現時点では、人間のデータが使用される唯一の側面は嗜好データです。ラマ 2 によって明らかにされたデータやその他の噂から判断すると、メタは嗜好データに 1,000 万ドルから 2,000 万ドル、あるいはそれ以上を費やした可能性があります。これも最終的に公開されたモデルに限定されており、より広範な実験や評価は含まれていません。
Nemotron は人間のデータを置き換えるために大量の合成データを使用しますが、比較的言えば、このモデルの微調整はそれほど良好ではありません。
オープン コミュニティにとっては、緊急の課題であると同時にチャンスでもあります。それは、この種のデータに対する人間の介入の範囲と、それを LLM-as-a-Judge や報酬モデルなどの手法で置き換えることができるかどうかを解明することです。
拡張RLHF
Llama 3の調整責任者であるトーマス・シャロム氏はポッドキャストLatent Spaceで次のように述べた。
RLHF はよりスケーラブルです。安価で操作が簡単で、一般にパフォーマンスが向上します。
同氏はまた、「指導に多くの時間を費やすのではなく、アライメントデータ予算の100%をRL段階で必要なアライメントデータに使用する」と述べた。
オープンソースの調整の取り組みのほとんどは、拡張命令微調整 (IFT または SFT) に重点を置いています。 IFT は操作が簡単で、さまざまなタスクに適しており、合成データの使用も簡単です。
しかし、業界が RLHF を拡大するための出発点としてのみ IFT を使用していることは明らかです。 SFT データは主に、以前のモデルがカバーできなかった特定の領域に焦点を当てており、これに基づいて RLHF を拡張します。
RLHF は反復プロセスであり、モデル生成プロセスにより継続的に改善することができます。 5 ラウンドのトレーニングについては、Llama 2 および Nemotron の論文で詳しく説明されていますが、この数に上限があるかどうかはわかりません。
Llama 3.1 は 6 ラウンドの優先データでトレーニングされ、Llama 2 は 5 ラウンドでトレーニングされ、Nemotron は 4 ラウンドでトレーニングされ、以前には複数ラウンドの命令の微調整がありました。
人間の好みのデータの場合、主に実現可能性を考慮して複数回の反復が行われる場合があります。
1. データはアノテーション会社から研究室にバッチで転送されます
2. 小規模なトレーニングを複数回実施することで、最終製品の納品のリスクを軽減できます。トレーニングを開始する前にすべてのデータが利用可能になるのを待つのではなく、モデルを徐々に軌道に乗せます。
このような実際的な要因は重要ではないように思えるかもしれませんが、特定の業界標準のきっかけとなることがよくあります。
下の写真は Llama 2 の論文からのもので、5 ラウンドの拒絶サンプリングと PPO に関連するデータが記録されています。
Nemotron は 2 輪の SFT トリムと 4 輪のアライメントも行います。このうち、RPO は DPO オプティマイザーで重み付けされた報酬モデルです。
同様の反復 RLHF 手法は、Anthropic によって提案された「憲法的人工知能」に遡ることができますが、オープンソース コミュニティはこの結果を大規模に再現していないようです。
現在、学術界は「オンライン DPO トレーニング」に注目していますが、これは方向性は似ていますが、ラウンド間のデータにはそれほど注意を払っていません。このアプローチには現時点でもまだ多くの手作業が必要ですが、プロセスが自動化されれば、将来はオンライン DPO になるでしょう。
実際、トレーニング後の段階での各チームのアルゴリズムの選択は、それほど厳格であってはなりません。 DPO と PPO にはそれぞれ独自の長所と短所があります。前者は拡張が容易ですが、PPO に基づいた方法 (オンライン RL など) の方がパフォーマンスの上限が高くなります。
これらのチームはまだ比較的新しく、モジュール式システムを構築しているため、これらのアプローチは現在主にシンプルさによって動機付けられており、Llama 3 ポストトレーニング チームのメンバーはエンジニアリングのシンプルさに対するこのアプローチを確認しました。
Llama 3 には、リジェクション サンプリング、SFT、DPO というシンプルなポストトレーニング ループがあります。これにより、経験レベルで最適なパフォーマンスが得られるだけでなく、再現性も可能になります。さらに、チームはさまざまなワークフロー (コーディング、数学など) を非同期的に探索し、データを同じ単純なループにまとめることができます。合成データ
この新しい RLHF サイクルの重要な部分は、ほとんどのタスクで人間の能力を超える合成コマンド データです。
モデルを少し改善して、より良い命令を生成できる場合は、「最初からやり直し」てチェックポイントを更新します。
Meta は論文の中で、「小規模モデルのトレーニング後の品質を向上させるために 405B モデルを使用している」と明示しています。Google は Gemini Flash を抽出することでこれを行っていますが、実際には、ほとんどの最先端のモデルにはおそらく同様の手順が含まれています。
OpenAI は次世代モデルのトレーニングに 50 兆トークンのデータを使用しており、そのほとんどが合成データであると聞きました。昨年、Anthropic が「トレーニング前スケールのConstitution AI コーパス」を持っているという噂がありましたが、今ではそれが妥当であると思われます。
これらの AI 企業は、自己反復トレーニングにモデル出力を使用しなくなった 12 ~ 18 か月前に合成データの重要性に気づきました。しかし、Meta は他のより優れたオープン モデルの恩恵を受けるため、異なります。
今日のポストトレーニングを見ると、合成データでのモデルのクラッシュの問題が大幅に誇張されていることがわかります。モデルの崩壊は、元のデータが破棄され、生成された新しいデータのみが人為的に設定された環境に残された場合にのみ発生します。
データ品質は最も重要です
Llama 3.1 レポートの大部分はデータ管理の詳細に関するもので、関連する各サブエリアでは広範で具体的な管理手順が必要です。
これは、OpenAI の John Schulman 氏率いるポストトレーニング チームや他の同様のチームについて私が知っていることと一致しています。特定のドメインを指定し、関連するデータを取得すると、モデルが改善されます。
しかし、広範なデータのフィルタリングと管理がなければ、上記の RLHF 方法はどれも機能しません。
Allen AI では、トレーニング後のプロセスでデータの優先順位をさらに高め始めました。モデルの改善速度の変化をすぐに感じることができます。
ケーススタディ - ネモトロンとラマ
Llama のトレーニング後のプロセスは次のとおりです。
Nemotron のこの図は比較的単純です。
まとめると、ほとんどのメソッドに共通することがわかります。
しかし、以下のグラフとほとんどの業界研究論文はデータを無視しています。
Llama 3.1 などのモデルは、正則化、損失関数の調整、モデルの平均化など、レポートで多くの詳細について言及していますが、これらはモデルのパフォーマンスにおけるわずかな向上であり、コアとなる微調整サイクルの範囲を大きく超えています。 。
ある時点で、これらの詳細は重要ではなくなります。
参考文献:
https://www.interconnects.ai/p/frontier-model-post-training