ACL2024: Yuntian Lifei SPACEエンジンが公開、大型モデル推論は新たな段階に入る可能性
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
8月11日から16日まで、タイのバンコクで第62回計算言語学協会(ACL)年次総会が開催されました。
Yuntian Lifei の大規模モデル チームによる論文「Generation Meets Verification: Accelerated Large Language Model Inference with Smart Parallel Auto-Correct Decoding」が、ACL24 の調査結果の長編論文として受理されました。これは、Yuntian Lifei の大型モデルの研究結果の一部を段階的に表示したものです。
ACL 年次会議は、計算言語学および自然言語処理の分野で世界トップクラスの学術会議であり、国際計算言語学協会によって主催され、推奨会議のクラス A 会議としてリストされています。中国コンピュータ連盟 (CCF) のリスト。
Yuntian Lifei の選択した論文は、大規模モデル推論のロスレス加速を実現する革新的なソリューションである SPACE エンジンを提案しました。さまざまなタイプの大型モデルでのテストの結果は、次のことを示しています。SPACE エンジンを使用した後、HumanEval テスト セットでのモデルの推論速度は 270% ~ 400% 向上しました。推論結果の品質はそのままに、「高速な計算」と「正確な計算」を両立できます。
Yuntian Lifei 大型モデルチームの厳選論文
主流の推論ソリューションでは「ニーズとウォンツの両方」を実現することが困難
スペースはSマートポアラレルあuto-C正しいDeコーディングの略語は、「インテリジェント並列自動誤り訂正復号化」を意味します。
この推論スキームには 2 つの大きな特徴があります。まず、次のことを採用しています。半自己回帰推論モデルを追加すると、推論が大幅に高速化されます。確認するこの方法により、推論の精度を確保しつつ、推論速度を向上させることができる。
「半自己回帰」とは何ですか? なぜ検証を追加する必要があるのでしょうか? これらの問題を説明する前に、まず現在の大規模モデルがどのように「機能」するかを理解する必要があります。
ビッグ言語モデルのアプリを開き、ダイアログ ボックスに「ビッグ モデルとは何ですか?」と入力すると、ビッグ モデルはその答えを一言一句出力します。この回答のプロセスは非常に単純に見えます。しかし実際には、大規模なモデルは舞台裏で複数の「自己回帰」サイクルを経験しています。
まず、大規模モデルは、入力された内容に基づいて出力の最初の単語「big」を予測し、次に単語「big」を入力端に戻し、次の単語が何を出力するかを予測します。 「大きい」という言葉。もちろん、この「予測」は何もないところからの「やみくもな推測」ではなく、モデルが前回の学習プロセスで得られたデータに基づいて総合的に判断し、最も確率の高い単語を次の出力単語として選択します。 。
この場合、2 番目の出力単語は「module」です。2 番目の単語を出力した後、ビッグ モデルは単語「big modulus」を再び入力端子に戻し、3 番目に生成された単語を予測します。このサイクルは完全な文が終了するまで続きます。
このプロセスは「自己回帰」です。
現在、自己回帰は、大規模モデルの推論に使用される主流のソリューションです。ChatGPT、オープンソース Llama、または多くの大規模な国産モデルのいずれであっても、主に自己回帰推論ソリューションが使用されます。
自己回帰スキームの概略図
自己回帰スキームの長所と短所も非常に明白です。利点は、生成されたコンテンツが正確で意味があり、文脈的に一貫していることが保証されることです。欠点は、計算コストが高く、推論遅延が長いことです。
これらの問題を克服するために、業界が提案する解決策は次のとおりです。「半自己回帰」そして「推測解読」。
「半自己回帰」は、「自己回帰」と「非自己回帰」の妥協点です。前述した、「自己回帰」生成された単語を使用して次の単語を予測します。「非自己回帰」これは「自己回帰」の逆で、文全体を一度に予測します。「非自己回帰」この解決策により推論の効率は向上しますが、出力の精度は大幅に低下します。 「半自己回帰」ソリューションは、「自己回帰」と「非自己回帰」の長所と短所を包括的に考慮して、大規模モデル推論の速度と精度の要件のバランスをとります。
しかし、「半自己回帰」ソリューションの使用により、新たな問題が発生しました。第一に、ほとんどの大規模モデルが使用できないこと、第二に、精度が業界の要件を満たせないことです。主流の大規模モデルは、自己回帰推論モードに従って構築されます。半自己回帰ソリューションを使用する場合は、大規模モデルを最初から再トレーニングする必要があります。大規模なモデルをトレーニングするには、大量の電力、計算能力、人的資源が必要になります。推論スキームを変更するために、最終的にトレーニングされた大規模なモデルを破棄して最初からやり直す人はほとんどいません。
もう 1 つのオプションは「投機的デコード」です。この計画は以下に基づいています「ドラフト - 検証」プロセス作業では、まず、比較的少数のパラメータを備えた補助モデルを導入する必要があります。小規模モデルは、まず回答候補を「草案」し、次に大規模モデルが回答候補が正しいかどうかを検証します。小さなモデルは大きなモデルよりも推論が速く、大きなモデルは複数の回答候補を同時に検証できるため、このデコード方法は出力結果の精度を確保するだけでなく、推論を高速化することもできます。
しかし、この解決策には欠点もあります。まず、非常に「信頼性の高い」小さなモデルを最初に作成し、迅速かつ正確に答えを「作成」できるようにする必要がありますが、それ自体が困難です。第 2 に、2 つのモデル間で「同じテキスト、同じトラック、同じシステム」が必要です。単語セグメンタと単語リストに関して高度な一貫性を達成することによってのみ、検証結果が保証されます。
SPACE 推論エンジン - 小さな変更で大幅な高速化
いくつかのソリューションは「ニーズとウォンツの両方」を達成することができないため、それぞれの利点を維持し、欠点だけを回避できるソリューションはあるでしょうか? これが Yuntian Lifei 大型モデル チームによって提案された SPACE 推論エンジンです。 SPACE は、「半自己回帰教師あり微調整」と「自動補正デコード」の 2 つのソリューションを組み合わせて、大規模モデルが 1 回の推論で複数の結果を生成し、生成された結果の品質を保証するために結果の検証を同時に完了できるようにします。同時に、この推論エンジンはあらゆる大規模モデルに適しています。モデルの微調整と最適化により、大規模なモデルがこの推論エンジンを採用すると、追加の補助モデルをトレーニングする必要がなくなるだけでなく、推論効率が向上し、GPU などの並列コンピューティング リソースを最大限に活用し、高いコンピューティング能力利用率を実現します。
自己回帰スキーム (左) と SPACE スキーム (右) の違い
前述したように、ほとんどの大規模な言語モデルには独自の「自己回帰」特性があり、「半自己回帰」ソリューションを直接適用することはできません。この点において、SPACE は「半自己回帰教師あり微調整」の手法を採用しており、教師ありトレーニングを通じて、モデルは特別な [MASK] マークに遭遇したときに一連の候補単語を提案することを学習します (上の図を参照)。 。これにより、モデルは推論中に「推測」と同様の操作を実行し、最も可能性の高い正しい候補単語をいくつか出力できるため、半自己回帰推論の機能が得られます。
簡単に言うと、「半自己回帰教師あり微調整」スキームのサポートにより、大規模モデルは推論中に自ら「推測」を行い、正解の可能性が高い複数の単語を回答候補として出力できます。
ただし、試験と同様に、下書きには多くの内容を記載できますが、正解は試験用紙に記入する必要があります。それが正しいことを確認するにはどうすればよいでしょうか? これには結果の検証が必要であり、これが「自動修正デコード」によって行われます。
具体的には、推論の際、推論の前のステップで大規模モデルによって生成された単語候補もモデルに入力し、モデルが自己チェックしてこれらの回答候補が正しいかどうかを判断できるようにします。
判定方法も非常に簡単で、モデルが生成した単語が前の回答候補と一致する場合、その候補単語は正しいと見なされます。従来の自己回帰推論で単語が正しいかどうかを確認するには、その単語を言語モデルに再入力して次の単語を推測する必要があります。
しかし、ここSPACEではその必要はありません。事前に候補語をモデルに入力し、その候補語が正しいことが検証されているため、この時点で正しい候補語から直接新しい答えを得ることができ、答えを再入力する必要がありませんモデルに入力してから推論に進みます。したがって、このメカニズムの利点は、候補単語が正しいと検証された場合、次の答えを生成するためにモデルにフィードバックする必要がなくなり、推論時間が短縮されることです。
たとえて言えば、従来の自己回帰推論は 4 × 100 メートルのリレー レースに例えることができます。通常の競技では、レース全体を完走するために 4 人の選手が 1 人ずつバトンを引き継ぐ必要があります。これは自己回帰スキームに似ています。そして逐語的な推論が必要です。 SPACEの計画では、4人の選手が同時に走り始め、最初の選手が100メートルを全力疾走して終了点に到着すると、他の選手もそれぞれの100メートルステージの終了点に到着する。ただし、最初のアスリートはゴールラインに到達した後に検証する必要があり、検証に合格した場合は 2 番目のアスリートのスコアが確認され、次に 2 番目のアスリートが検証されます。
アスリートが検証に合格しなかった場合、レースを完走するには 100 メートルのスタートラインに戻り、再スタートする必要があります。最良の場合、4 人のアスリートのそれぞれが検証に合格できれば、このグループは通常の試合の 1/4 の時間を費やすだけで試合を完了できるため、最悪の場合でも加速効果が得られます。すべての選手が検証に合格しなかった場合、所要時間は通常の競技会と同じになります。検証に合格できるかどうかは、主に回答候補の正確さに依存します。
同時に、SPACE モデルの推論プロセス中に、特別な [MASK] 識別子も入力に挿入して、大規模モデルが回答候補の更新バージョンを生成するようにガイドします。このメカニズムの下では、推論モデルの各ラウンドは、前のラウンドで生成された候補単語の精度を検証するだけでなく、次の推論のための新しい候補単語も提供します。
このデザインの目的は、単語候補の精度を高める, 新しい答えが現れるたびに、元の候補単語が更新されてより正確になるからです。このプロセスは天気予報に似ています。私たちは毎日、次の一週間の気象状況を予測します。時間が経つにつれて、将来の特定の日の天気予報の精度が徐々に高まります。これは、時間の経過とともにより多くのセンサー データが蓄積され、より正確な天気予報を提供できるようになるためです。
従来の検証および修正方法は、前述の「投機的デコード」です。つまり、最初に信頼できる小さなモデルをトレーニングし、次にそれを検証するために大きなモデルを使用する必要があります。小さなモデルの生成品質は、最終的な結果に大きく影響します。
しかし、SPACEは、小さなモデルを使わずに生成と検証の目的を達成でき、検証作業と生成作業を同時に実行できる新しいソリューションを提案しました。このようにして、推論の効率と精度を大幅に向上させることができます。
最初の例に戻りましょう。SPACE 推論モードで「大規模モデルとは何ですか?」と入力すると、大規模モデルはまず「大規模モデルには数千万のパラメータがあります」という単語を同時に自動的に生成します。復号化アルゴリズムは、生成された単語を 1 つずつ即座に検証し、正しい検証結果を持つ単語のみを最終的な答えとして保持します。これにより、前方推論の過程で複数の単語を生成する効果が得られます。加速の目的を達成する大型モデル。
最後に、SPACEの効果を見てみましょう。
私たちは、60 億から 700 億のさまざまなパラメーター サイズを持つ主流の大規模言語モデルをカバーする、多数のオープンソースの大規模言語モデルで実験を実施しました。以下の表からわかるように、SPACE はパラメータが大きいモデルに対してより明らかな加速効果をもたらします。。
さらに、SPACE は、継続バッチ処理、フラッシュ アテンション、KV キャッシュ、量子化などの他の推論高速化テクノロジと組み合わせて使用して、推論速度を向上させることもできます。
この観点を検証するために、主流の推論フレームワークである TGI に SPACE を実装したところ、他の推論高速化技術と組み合わせた場合でも、SPACE による高速化効果が優れていることが実証されました。
大規模モデルは何千もの業界に導入されており、「推論」が重要です
トレーニングと推論は、大規模モデルのライフサイクルの 2 つの中心的な段階です。トレーニングでは「大規模なモデルを最初から作成する」という問題が解決され、推論では大規模なモデルを何千もの業界に適用する方法の問題が解決されます。
昨年が大規模モデルの爆発元年と定義されるなら、今年は大規模モデル アプリケーションの実装初年となるため、大規模モデルの推論機能がますます注目されています。
Yuntian Lifei は、大規模モデルの適用を加速するために多くの努力を行ってきました。コンピューティング能力の面では、同社は昨年、大型モデルのエッジ推論チップである DeepEdge10 を発売し、最近では言語、ビジョン、マルチなどのさまざまな大型モデルの推論高速化に適用できる IPU-X6000 アクセラレータ カードを発売しました。モダリティ。
アルゴリズムに関しては、Yuntian Lifei が SPACE 推論エンジンを提案しました。これにより、大規模モデルの推論速度が大幅に向上します。応用面では、Yuntian Lifeiが自社開発した大規模モデルYuntian Tianshuは、スマート政務、都市ガバナンス、スマートセキュリティ、スマート交通、スマートビジネス、スマート教育などの多くの業界に適用され、産業の探索と創造を行っています。ベンチマーク。
今後もYuntian Lifeiは、大型模型関連技術の研究開発、応用、推進に一層の貢献をしてまいります。