ニュース

ai の呪文にまだ苦労していますか?北京大学白川校が自動リマインダーエンジニアリングシステムpasを開発

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

aixivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、heart of the machine aixiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この論文の共同筆頭著者である zheng miao 氏は、zhou zenan 氏が率いる baichuan alignment チームの出身で、大規模言語モデル、マルチモーダル学習、およびコンピューター ビジョンを研究対象としています。 mmflow などのプロジェクト。共同筆頭著者の liang hao は、北京大学フロンティア学際研究研究所の博士課程の学生であり、彼の研究の方向性は大規模モデルのデータ側であり、指導教授は zhang wentao 教授です。北京大学と白川インテリジェント ai システム共同研究室は、2024 年 1 月に設立されました。科学的かつ体系的なデータ生成と品質評価戦略、大規模モデルのトレーニング、人工知能モデル システムの技術プロセス全体にわたる推論の高速化などの重要な問題を研究することを目的としています。 。この共同研究室は、北京大学博雅特別教授の崔斌氏と百川インテリジェンスの共同創設者陳偉鵬氏が所長を務める。

transformer アーキテクチャに基づく大規模な言語モデルは、さまざまな分野で画期的な成果を上げています。これにはプロンプトエンジニアリングが重要な役割を果たします。

適切なヒントワードを使用すると、研究者や開発者は、特定のタスクでモデルのパフォーマンスが向上するように導くことができます。この方法により、モデルのパフォーマンスが大幅に向上するだけでなく、モデルの適応性も向上し、さまざまな複雑なタスクに直面する際のモデルの柔軟性と効率が向上します。

さらに、プロンプト ワード プロジェクトは、モデルの学習プロセスを最適化し、複雑な問題処理の効率を向上させ、トレーニング時間とコンピューティング リソース要件を削減することもできます。

従来の微調整方法と比較して、プロンプト ワード エンジニアリングは、非常に低コストでモデルを複数の下流タスクに適応させることができ、コンピューティング リソースとデータ収集コストを大幅に節約できます。ただし、効果的な合図ワードをデザインすることは、専門家以外にとって依然として困難であり、多くの場合、多くの学習と練習が必要です。

通常、自動プロンプト プロジェクトに大規模な言語モデルを直接使用して理想的な結果を達成することは困難です。不適切なプロンプトはモデルの注意をそらし、実際にパフォーマンスを低下させる可能性があります。したがって、ユーザーを支援でき、操作が簡単な自動プロンプトエンジニアリングシステムを開発することが特に重要です。

pas: 画期的な自動警報エンジニアリング システム

この課題に対処するために、北京大学と白川の共同研究室は、pas 自動プロンプト エンジニアリング システムを提案しました。 pas の革新性は次のとおりです。

1. 高品質の自動プロンプト データセットを設計する

2. gpt モデルで少数サンプル学習とデータ スクリーニングを実行します。

3. 合理化された効率的なプロンプト データ セットを自動的に構築します

4. 微調整による効果的な自動プロンプトエンジニアリングの実装

pas はユーザー入力を簡潔かつ効果的に補完し、ストリーミング表示をサポートする高速かつシンプルな自動プロンプト プロジェクトを実現します。

複数のベンチマーク テストにおいて、pas は既存の sota モデルよりもはるかに優れたパフォーマンスを示し、必要なデータも少なくなります。手動による評価結果でも、pas が優れたパフォーマンスを示しており、実際のアプリケーションにおけるその大きな可能性が強調されています。

この画期的な成果は、プロンプトワードエンジニアリングの開発を促進するだけでなく、より広範囲の分野で大規模な言語モデルを適用する道を開くものでもあります。

  • 論文アドレス: https://arxiv.org/abs/2407.06027

  • pku-baichuan-mlsystemlab:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

方法

pas のトレーニングは主に 3 つのステップに分かれています。

ステップ 1: 高品質の問題データセットを構築する

pas のトレーニングにおける最初のタスクは、高品質の問題データセットを構築することです。図 (a) に示すように、研究者は lmsys-1m および wildchat データセットに基づいて、次の 3 つの側面を通じて質の高い質問を選別しました。

1. データ重複排除: 埋め込みテクノロジーとクラスタリング アルゴリズムを組み合わせて使用​​し、重複データを効果的に削除します。

2. 品質スクリーニング: baichuan 大型モデルを使用してデータ品質を評価およびスクリーニングします。

3. 多様性の保証: 10 カテゴリー以上をカバーする 9,000 件の質の高い質問データが最終的に選択されました。

ステップ 2: プロンプトエンジニアリングデータを補足する

この段階で、研究者らは社内に蓄積された 100 件の高品質データと最初のステップでスクリーニングされた問題データを包括的に使用し、数ショット学習法を使用して、gpt モデルの助けを借りて自動的にプロンプ​​トエンジニアリングデータを構築しました。

1. 初期データ生成: 少数ショット学習を使用して gpt をガイドし、予備的なプロンプト エンジニアリング データを生成します。

2. 品質管理: critique ステップを設計し、数ショット学習を再度使用して、生成されたデータの品質を gpt に評価させます。

3. 反復的な最適化: 低品質のデータを自動的に除外して再生成し、複数回の反復を通じてデータの品質を確保します。

4. 最終結果: 最終的に 9,000 個の高品質な自動即時エンジニアリング データが得られました。

データ配信

生成された 9000 個のデータの分布は上の図に示されており、データの多様性と代表性が保証されています。

ステップ 3: 自動プロンプト モデルを微調整する

最後のステップでは、最初の 2 つのステージで取得したデータセットを使用して、大規模な言語モデルを微調整します。

1. qwen2-7b やその他のモデルなどの基本モデルを選択します。

2. 指示された微調整: 微調整には高品質のデータセットを使用します。

3. 特化したトレーニング: 最後に、自動プロンプト プロジェクト専用の大規模な言語モデルを取得します。

実験と結果

手動レビュー

人間の評価者の評価によれば、pas は以前の sota (state-of-the-art) モデルと比較して、さまざまな分野で高い勝率を示しています。多くの分野で平均勝率は50%を超え、勝率と引き分け率の合計は80%を超えるほど高い。

機械評価ベンチマーク

pas のパフォーマンスを総合的に評価するために、研究者らは arena-hard、alpaca-eval 2.0、alpaca-eval 2.0 (lc) の 3 つのベンチマークを選択しました。

次に研究者らは、以下を含む 6 つの上位 ai モデルに pas を適用しました。

  • gpt-4 (3 つのバージョン)

  • gpt-3.5

  • qwen2-72-指示

  • llama3-70b-指示

評価結果は次のとおりです。

  • pas は、プロンプトなしの場合と以前の sota 自動プロンプト エンジニアリング モデルの両方と比較して、大幅な改善を実現します。

  • 従来の bpo モデルと比較して、pas は高い適応性を示し、さまざまな非常に大規模なモデルと互換性があり、各モデルのパフォーマンス向上を実現します。

計算効率解析

pas は、パフォーマンスの面で優れているだけでなく、計算効率も非常に優れています。データ効率の面では、優れたパフォーマンスを実証するために必要な微調整されたデータは 9,000 個だけです。出力効率の観点から、補足的な自動プロンプトの長さを通常 30 ワード以下に制限できます。

ユーザー エクスペリエンスの観点から、pas は大規模モデルにも次のような利点をもたらします。

  • bpo などの以前のモデルとは異なり、pas ではユーザーの元の質問を変更する必要はなく、補足的な自動プロンプトを表示するだけです。

  • 制御可能な応答時間で優れたユーザー エクスペリエンスを提供します。

  • gpt のようなストリーミング表示をサポートし、インタラクティブなエクスペリエンスをさらに強化します。

例: pas は大規模モデルのロジック トラップの回避に役立ちます

「木に10羽の鳥がいて、そのうちの1羽が射殺された場合、地上には何羽の鳥がいるでしょうか?」

この一見単純な質問には、実は巧妙な論理的な罠が隠されているのです。これを見ると、木に 9 羽の鳥が残っており、地上には 1 羽だけであることがわかるでしょう。

図に示すように、pas の支援がなければ、gpt は間違った答えを返します。 pas システムは、プロンプト ワードを補完することにより、モデルのパフォーマンスを大幅に向上させます。

pas の指導の下、モデルの新しい回答は大幅な改善を示し、質問内の論理的なトラップを回避し、明確な複数のステップから成る論理的推論プロセスを示しただけでなく、ガイド ユーザーが理解できる正しい回答を提供しました。推論プロセス全体。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。