ニュース

LLMアライメントデータは全自動合成! ワシントン大学の中国博士課程の学生がカササギ方式を提案、Macbook Air で実行可能

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:喬楊

【新しい知恵の紹介】ワシントン大学と Allen AI による最近の論文では、データ合成に対する斬新で興味深いアプローチが提案されています。彼らは、LLM の自己回帰特性を最大限に利用することで、高品質の命令微調整データを自動的に生成するようにモデルを誘導できることを発見しました。

LLM トレーニングにはデータが不可欠ですが、私たちはトレーニング データと評価データに重点​​を置くことが多く、データの微調整は無視されます。

たとえば、Llama シリーズ モデルにはオープン ウェイト (Llama-3-Instruct など) がありますが、微調整データ セットは依然として非公開です。

LLM の成功の大部分は、命令の微調整にかかっています。これは、モデルがトレーニング中に経験しなかったタスクに対してより適切に一般化できるようにするプロセスです。

トレーニングの有効性がトレーニング コーパスの品質に依存するのと同様に、命令の微調整の有効性も高品質の命令データ セットの利用可能性に依存します。

ただし、ラベルなしの自己教師ありトレーニング コーパスと比較すると、より多くの手動アノテーションが必要であり、事前定義されたヒント範囲があるため、高品質の微調整および位置合わせデータセットの構築と拡張はより困難です。

AIテクノロジーの巨人へのデータ提供を専門とする企業でさえ、現段階では自動アノテーションを実現できておらず、微調整や整合性の取れたデータセットの構築に参加するために高給で専門家を雇わなければならないことさえある。

Scale AI の CEO、Alexandr Wang 氏はかつてこう言いました。

最近、ワシントン大学と研究機関 Allen AI が共同で発表した論文では、aligned LLM を使用して高品質の微調整データを合成する方法に焦点を当てています。


論文アドレス: https://arxiv.org/abs/2406.08464

論文で提案した手法は、シード問題を一切必要とせず、プロセス全体の自動化を実現します。さらに驚くべきことは、コードはローカルで実行できるだけでなく、LLM を使用して非常に信頼性の高い高品質のデータを自動的に生成できることです。

Llama-3-8B のベース モデルを使用して生成した SFT データ セットを微調整した後、公式の微調整バージョンの Llama-3-Instruct よりも強力なパフォーマンスを持つモデルを取得しました。


この論文は、AI 界の重鎮である Sebastian Raschka によって転送され、承認されました。


当初、彼はこの方法が本当に MacBook Air 上でローカルで実行できるとは信じていませんでしたが、自分で試してみた後、本当に実行できることがわかり、嬉しい驚きを感じました。


Raschka は、『Building Large Language Models from Scratch』、『Python Machine Learning』など、いくつかの技術的ベストセラー本の著者です。現在、Lightning AI で研究エンジニアを務めています。



この論文の筆頭著者である Zhangchen Xu は、ワシントン大学サイバーセキュリティ研究所の博士課程 2 年生で、Radha Poovendran 教授に師事しており、現在は機械学習のセキュリティ、プライバシー、公平性を研究対象としています。信頼できる LLM を構築する方法について説明します。


それでは、この効率的なデータ合成方法がどのように実装されているかを詳しく見てみましょう。

手法の概要

一般的な LLM 入力は通常、次の 3 つの部分で構成されます。

- 事前クエリテンプレート

・クエリ内容(クエリ)

- ポストクエリテンプレート

通常、テンプレートのうち 2 つは、モデルが正しくプロンプトを表示されるようにするために、モデル開発者によって事前定義されています。

たとえば、Llama-2-chat の入力フォームは次のとおりです。

[INST] こんにちは![/INST]

これまでの研究では、微調整データセットを構築するには通常 2 つの方法がありました。 1 つは人間が直接手動で作成する方法ですが、これには明らかに時間とリソースが消費されます。 2 つ目は、手動で注釈を付けた少数のシード命令から開始し、プロンプトを通じて LLM を呼び出して、より多くの命令を合成することです。

2 番目の方法は人的資源を節約しますが、迅速なエンジニアリングのレベルと最初のシード問題の選択が非常に試されます。つまり、制御可能な大規模拡大を実現することが難しいのです。

さらに致命的な問題は、合成された命令がシード命令に非常に近いことが多く、大規模なデータ セットの多様性に深刻な影響を与えることです。高品質で多様な命令データセットをスケーラブルな方法で作成することは、LLM 分野において依然として困難な問題です。

しかし、著者は初期の実験で興味深い発見をしました。LLM の自己回帰特性により、プレクエリ テンプレートのみが入力されると、モデルは自動的にクエリを合成します。コンテンツの観点から見ると、優れた品質と多様性。これは、調整プロセス中に学習した機能を効果的に活用できることを示しています。

これに触発されて、著者は命令データセットを構築するための次のアイデアを提案しました。それは、プレクエリテンプレートをプロンプトとして使用し、それをアライメントされた LLM に入力し、命令データを自動的に生成するというものです。

以下の図に示すように、各命令データ インスタンスには 1 つ以上の命令と応答のペアが含まれており、命令のプロバイダーとフォロアーの役割が指定されています。


図 1 はデータ全体から自動生成されるパイプラインを示しており、大きく 2 つのステップに分かれています。

1 つ目は命令の生成です。 MAGPIE メソッドは、クエリ コンテンツを LLM 事前定義命令テンプレートの形式に構築しますが、命令プロバイダー (ユーザーなど) のみが含まれ、特定の命令コンテンツは含まれません。

これを LLM 入力として使用すると、モデルは自己回帰的な方法で命令を生成します。このプロセスでは、特定のヒント エンジニアリング スキルが必要なく、シード質問も使用されないため、生成される命令の多様性が確保されます。

2 番目のステップでは、MAGPIE は以前に生成した命令を LLM に入力して、応答コンテンツを取得します。

以上の 2 つの手順を繰り返すことで、複数回の命令データを取得できます。特定のフィールドのデータを生成したい場合は、対応するプロンプトを追加することで実行できます。


元の生成結果を取得した後、作成者はテキストの長さ、タスク カテゴリ、入力品質、入力難易度、その他の指標に基づいて結果をフィルタリングしました。


この論文では、それぞれ Llama-3-8B-Instruct と Llama-3-70B-Instruct という 2 つのモデルを使用して 2 つのデータ セット MAGPIE-Air と MAGPIE-Pro を構築し、生成された命令の例を付録に示しています。


ご覧のとおり、テキストの品質は確かに高く、人間が書いた指示と完全に匹敵します。

しかし、このような大規模なデータの品質を評価するには主観だけでは不十分であるため、生成された指示データセット MAGPIE-Pro に対して定量的な分析を行いました。

データセット分析

カバレッジ

指示テキストの多様性を考慮する場合、効果的な指標は、意味空間内のテキスト埋め込みの範囲です。

著者は、MAGPIE-Pro から命令テキストをランダムにサンプリングし、それを埋め込みベクトルにエンコードし、t-SNE 法を使用して 2 次元空間に投影しました。Alpaca、Evol Instruct、UltraChat を含む 3 つのベースライン データ セットが比較に使用されました。

以下の図の各 t-SNE 投影点は、ランダムに選択された 10,000 個の命令を表します。 MAGPIE-Pro の投影は基本的に他の 3 つのデータ セットの範囲をカバーしていることがわかり、これは、MAGPIE-Pro がより広範で多様なトピックを提供していることを示しています。


コマンドの属性

この論文では、Llama-3-8B-Instruct モデルを使用して、指示のタスク カテゴリ、品質、難易度、類似性、応答品質など、MAGPIE 指示データのさまざまな属性を評価します。

指示を生成するためのタスク カテゴリは、主に情報検索であり、半分以上を占めますが、クリエイティブ ライティング、アドバイスの求め、計画、数学、推論、ブレインストーミング、編集なども含まれており、これらは基本的に人間のユーザーの主流のニーズと一致しています。 。


指示の品質と難易度も、Llama-3-8B-Instruct モデルを使用して自動的に評価されます。

どちらのデータセットでも、ほとんどのインスタンスが平均以上であると判断され、MAGPIE-Pro の全体的な品質が MAGPIE-Air よりも優れていることがわかります。

データ セットの指導難易度の分布は基本的に同様で、60% 以上が「簡単」レベルに集中しており、Pro データ セットは Air よりもわずかに難しいです。


命令類似度を計算することで、多様化の度合いを別の側面から評価することができます。この論文では、FAISS を使用して各テキスト埋め込みの最近傍を検索し、それらの間の距離を計算して類似度を測定します。

応答品質に関しては、報酬評価モデルとして FsfairX-LLaMA3-RM-v0.1 を使用し、ベースラインモデルとして URIAL を使用して比較しています。報酬の差が正の場合は、品質が高いことを示しており、指示の微調整プロセスに有益です。

図 5b からわかるように、MAGPIE のデータ分布は全体として右にシフトしており、ベースライン モデルよりもピーク値が低く、全体的な応答品質が優れていることを示しています。


安全性

さらに、コマンドのセキュリティに関して、著者は自動評価に Llama-guard-2 を使用しました。その結果、MAGPIE データ セットの大部分は安全であるものの、有害なコマンドや応答結果がまだ 1% 未満しか含まれていないことがわかりました。


成果の評価

この研究の最大のハイライトの 1 つは、効率的なランニングコストと、手動介入を必要としない完全に自動化されたパイプラインです。

3M MAGPIE-Air データ セットを作成するときは、4 つの A100 GPU を使用してコマンド/応答の生成を 1.55 時間/50 時間で完了しました。 1M MAGPIE-Pro データセットの生成には、それぞれ 3.5 時間/150 時間かかります。

クラウドサーバー上で実行する場合、コストも非常に高くなります。 Air または Pro データセットに応じて、生成される 1,000 インスタンスあたり 0.12 ドルまたは 1.10 ドルの費用がかかります。

MAGPIE 法の利点を真に反映するために、この論文では実際にデータセットをベースモデルの微調整に適用し、公式にリリースされた微調整バージョンと比較します。

著者は、ShareGPT や Evol Instruct など、6 つの最も高度なオープンソース命令微調整データ セットをベースラインとして選択しました。このうち、ShareGPT と WildChat は人間によって作成され、Evol Instruct と UltraChat は合成データセットです。

微調整されたベース モデルには Llama-3 と Qwen-1.5 が含まれており、パフォーマンスを評価するために広く使用されている 2 つの指標、AlpacaEval と Arena-Hard が選択されています。

2 つのテーブル間の詳細なデータ比較から、どのベース モデルが使用されているかに関係なく、MAGPIE メソッドによって生成されたデータ セットの品質が高く、すべてのベースライン データ セットよりも優れており、公式データよりも優れていることがわかります。ほとんどのインジケーターに設定されているファインチューニングモデルをリリースしました。



LLM のスケーリング則が徐々にデータの壁に触れる中、この論文の方法は合成データに新たな希望の扉を開きます。おそらく、慎重に設計されたアルゴリズムと技術を使用すれば、LLM 合成データは徐々に公開データ セットの「主流」になる可能性があります。

参考文献:

https://arxiv.org/abs/2406.08464