ラマ 8B は 100 回検索し、GPT-4o を超えました。推論検索でパフォーマンスを向上できる、新しい「スケーリング則」

2024-08-15

新しい知恵のレポート

編集者：喬楊

【新しい知恵の紹介】最近の論文では、LLM などの生成モデルが検索によって拡張可能であり、非常に大幅なパフォーマンスの向上が達成できることが示されています。別の反復実験では、パラメータが 8B のみの Llama 3.1 モデルを 100 回検索すると、Python コード生成タスクで GPT-4o と同じレベルに達する可能性があることもわかりました。

強化学習の先駆者であり、カナダのアルバータ大学のCS教授であるリッチ・サットン氏は、2019年に「The Bitter Lesson」と呼ばれるブログ投稿を書き、これはAI分野における古典的な議論の1つとなった。

実際、行間に反映されたリッチ・サットンの直観は、スケーリングの法則に非常に似ています。

元のアドレス: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

この記事では、チェス、囲碁、音声認識、視覚の分野における AI の発展の道筋を簡単にレビューし、次のような見解を提唱しています。

私たちが学ぶべき難しい教訓の 1 つは、普遍的なアプローチの力を認識することです。このアプローチは、利用可能な計算能力の急増により計算量が増加するにつれて、拡張し続けることができます。このように任意に拡張できるように見える 2 つの方法は、検索と学習です。

ただし、この見方はスケーリングの法則とまったく同じではなく、小さなモデルは無関係になる運命にあると信じる根拠として使用することはできません。

サットン氏が説明するように、スケーリングへの道のりには、学習と検索という 2 つの大きな課題があります。

OpenAI が提案するスケーリング則は前者を強調しています。 Ceteris paribus では、トレーニングセットからより多くの知識とパターンを学習できるため、モデルが大きいほどパフォーマンスが向上します。

しかし、私たちが見落としがちなのが後者です。また、検索方法は、推論段階での計算能力の増加に応じてスムーズに拡張して、より多くの、またはより高品質の候補回答を生成できます。

スタンフォード、オックスフォード、ディープマインド、その他の機関の学者によって最近発表された論文は、この点に焦点を当てています。

論文アドレス: https://arxiv.org/abs/2407.21787

推論段階で繰り返されるサンプルの数が増加するにつれて、GSM8K、MATH、MiniF2F-Math、SWE-bench Lite などの数学、推論、およびコード分野におけるモデルのパフォーマンス (つまり、問題カバレッジ) が低下しました。大幅に改善されました。

さらに、両者の間には指数関数的な線形関係があるようであり、指数関数則によってモデル化することができ、推論段階でのスケーリング則の存在を説明できると考えられます。

この論文に触発されて、2 人のエンジニアはそれを再現しようと試み始めました。その結果、100 個の小さな Llama モデルを使用して検索することで、Python プログラミングタスクで GPT-4o に追いつくか、さらには GPT-4o を超えることができることがわかりました。

二人の著者は鮮やかな比喩を使っています。以前は境界能力を得るには馬ほどの大きさのアヒルが必要でしたが、今では 100 頭のアヒルほどの大きさの馬 (より正確にはアルパカのラマ) を使用することを選択できます。

実験で使用したソースコードはGitHubにアップロードされており、複製コストは非常に低いです。

https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

より高いパフォーマンスを試すために、作成者は vLLM ライブラリを使用してバッチ推論を実装し、ハードウェア条件を 10 個の A100-40GB GPU に拡張し、出力速度は 40k トークン/秒に達しました。

評価指標と結果

著者は、上記の Large Language Monkeys 論文ではカバーされていないベンチマークテスト、HumanEval を選択しました。

このデータセットの利点は、LLM-as-Judge や人間による評価を必要とせずに、実行テストを使用して生成されたコードを評価できるため、より客観的な正確性の測定が可能になることです。

モデルのパフォーマンスは、pass@k とfail@k の 2 つの指標によって測定されます。 PapersWithCode のレポート結果によると、ゼロサンプル推論における GPT-4o の pass@1 スコアは 90.2% です。

https://paperswithcode.com/sota/code-generation-on-humaneval

上記の論文で提案された方法に、最小限の迅速な微調整を加えて (他のハイパーパラメータを調整せずに) 使用することで、Llama 3.1 8B の pass@k スコアが大幅に改善されました。

反復サンプル数 k が 100 の場合、パフォーマンスは GPT-4o と同等 (90.5% 対 90.2%)、k が 1000 に達すると、スコアは 95.1% となり、GPT-4o よりも大幅に優れています。

failed@k インジケーター (1-pass@k と同等) を使用して、上図の 2 つの座標軸を対数変換すると、下図に示す曲線が表示されます。これは、「スケーリング則」に完全に準拠しているように見えます。」。

この小さな実験は論文を厳密に再現したものではなく、核となるメソッドのみを抽出したものであることは注目に値します。

ただし、これらの結果は、推論段階の拡張に検索手法を使用すると、より小さなモデルが GPT-4o のような「ビッグ Mac」モデルよりも予想通り優れたパフォーマンスを発揮できることを強調しています。

検索の未来

この検索方法が強力な理由は、計算量の増加に応じて「透過的に」拡張できることと、リソースの消費をメモリから計算に移してさらなるリソースバランスを実現できることです。

AI や AI のレベルなど、数学における AI の最近の主要な成果は、そこで使用される検索と切り離すことができません。

ただし、検索を実装するには、まず結果の高品質な評価が必要です。 DeepMind のモデルは、自然言語で表現された数学的問題を形式的な表現に変換することで、Lean のようなコンパイラ/検証者から詳細な監督を受けます。

これにより、並列処理と自動化の程度が大幅に向上します。

カリー-ハワード-ランベックの対応によれば、コンピュータープログラムを使用して数学的証明とコード生成結果を自動的に識別および評価することは比較的簡単です。

しかし、同様のアプローチは数学やプログラミング以外の分野では失敗する可能性があります。たとえば、「メールの要約」などのオープンエンドの NLP タスクでは、効果的な検索を行うのは困難です。

この観点から見ると、検索は評価の下流にあります。特定の分野における生成モデルのパフォーマンス向上は、評価および検索能力に正比例すると大まかに予想できます。

この目的を達成するには、反復可能なデジタル環境でエージェントを使用することが有望な方向であると思われます。

参考文献:

https://modal.com/blog/llama-human-eval

ニュース

ラマ 8B は 100 回検索し、GPT-4o を超えました。推論検索でパフォーマンスを向上できる、新しい「スケーリング則」

導入

私の連絡先情報