Llama 3.1 405B を 1 枚のカードで扱えるため、大型モデルも簡単にスリム化できます。超圧縮ツールキットはこちら

2024-08-02

モデルツールチェーンチームからの貢献
パブリックアカウント QbitAI

最新の大型モデル圧縮ツールである Llama 3.1 (405B) を 1 枚のカードで処理できるようになりました。

最近、Llama-3.1 はオープンソースの頂点に達しましたが、その最も強力な 405B バージョンモデルは 900 GB 以上のメモリを必要とし、リソースに対する要求がより厳しい課題となっています。

Beihang University、SenseTime、Nanyang Polytechnic、その他のチームが共同で立ち上げた大規模モデル圧縮ツールとベンチマークLLMC、この問題は非常にうまく解決できます。

これにより、1 台の 80G A100 で Llama 3.1 405B の校正と評価を完了できるため、超低コストの定量化が実現します。

強力なスケーラビリティと包括的な評価機能を備え、複数の圧縮アルゴリズム、モデル、推論バックエンドをサポートします。

現在、研究チームはGitHubのホームページに利用方法を公開しており、記事末尾のリンクから入手できる。

Llama3.1 はサイズが大きく、圧縮が難しい

低ビット量子化は、リソースに制約のある問題を解決するための一般的な手法の 1 つです。この目的を達成するために、関連研究者は LLMC を使用して Llama 3.1 で量子化圧縮を実行しました。

結果を表 1 に示します。QuaRot や AWQ などの LLMC の一部のアルゴリズムは、70B および 405B パラメータを持つモデルの量子化精度を効果的に維持できます。最も単純な「丸め」(Naive) アルゴリズムでは、これらの大規模モデルでは、特にアクティベーションが量子化されている場合に、大幅な精度の低下が見られます。

研究チームは、Llama 3.1シリーズモデルの定量化精度の低下は、活性化テンソルに他のモデルよりも重要な外れ値または異常値が存在することが原因であることを発見しました。 Llama 3.1 モデルのサイズが大きくなるにつれて、これらの外れ値の現象はさらに深刻になります。外れ値とは、特定の値が他の値と大きく異なるデータ内の点を指し、定量化の精度に影響を与える重要な要素の 1 つです。

研究チームは、LLMC ツールの助けを借りて、Llama 3.1 シリーズモデル (8B、70B、405B) の最初のブロックの 4 層 (q_proj、o_proj、gate_proj、down_proj) の入力活性化テンソルを視覚化しました (図を参照)。 1-3)。各サブ図の下部には、このレイヤーの活性化値におけるすべてのトークンの尖度値の平均と標準偏差が表示されます。

図 1-3 から、Llama 3.1 シリーズのモデルでは、活性化テンソルの一部のチャネルに外れ値があり、この現象は大規模なモデルでより顕著であることがわかります。

したがって、次のことが合理的に推測できます。Llama 3.1 405B モデルは強力になりましたが、より「異常」になり、定量化するのが難しくなりました。。

LLMC ツールは、AWQ、SmoothQuant、OS+、QuaRot など、大規模モデルの外れ値を抑制するための一連の量子化アルゴリズムをサポートしています。表 1 からわかるように、これらの方法は外れ値を効果的に抑制することで、Llama 3.1 の量子化精度を大幅に向上させます。たとえば、405B モデル W8A8 の量子化では、SmoothQuant、OS+、QuaRot は浮動小数点モデルとほぼ同じ精度を達成できます。

LLMC: ワンストップ大型モデルスリム化ツールキット

△LLMCフレームワーク図

複数のアルゴリズムをサポート 。 LLMC は、重みのみ、重み活性化、および混合精度量子化をカバーする 16 の異なる量子化方法を含む複数の圧縮アルゴリズムをサポートします。この多様性により、さまざまなアプローチの公正な比較と詳細な分析が可能になります。もちろん、量子化に加えて、さまざまなタイプのスパースアルゴリズムおよび関連アルゴリズムが現在サポートされています。

△現在 LLMC でサポートされているハードウェアに適した圧縮アルゴリズムの分類

高精度なアライメント 。 LLMC チームは、いくつかの確立された量子化アルゴリズム (LLMC と元の論文/コード) を比較するいくつかの位置合わせ実験を実施しました。

実験設定は、元の論文またはそのオープンソースコードのデフォルト設定と同じです (表 3 を参照)。

これらの実験の結果を表 4 ～ 6 にまとめます。表の結果は、LLMC ツールのパフォーマンスが文献で報告されている元の量子化アルゴリズムとほぼ一致していることを示しています。これらの実験を通じて、LLMC が効果的であるだけでなく、既存の定量法の結果を再現する上で信頼性があることを実証します。これにより、LLM 定量的研究に対するツールの貢献が信頼でき、価値のあるものになることが保証されます。

超低コストで定量化 。 LLMC ツールキットは、リソース効率が高く、最小限のハードウェア要件で大規模なモデルを実行できるように設計されています。シングルブロックレベルの動作メカニズムのおかげで、Llama 3.1 405B の校正と評価を完了するには 80G A100 が 1 台だけ必要となり、超低コストの定量化が実現します。

複数のバックエンドの互換性 。 LLMC はさまざまな量子化設定とモデル形式をサポートし、LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM、llama.cpp などの複数のバックエンドやハードウェアプラットフォームと互換性があるため、非常に汎用性が高くなります。

高い拡張性 。このツールキットは高度なモジュール化と拡張性があり、整数量子化から浮動小数点量子化、密集モデルから混合エキスパート (MoE) モデル、LLM から視覚言語モデル (VLM)、量子化からスパース化まで簡単に適応できます。このモジュール設計により、ユーザーはニーズに合わせてツールキットを拡張およびカスタマイズできます。

多様性の評価 。 LLMC は、圧縮モデルの包括的な評価が可能で、パープレキシティ (PPL)、データ視覚化分析、尖度 (尖度)、エラーおよび外れ値の分布などの詳細なパフォーマンス指標と分析を提供します。この包括的な評価機能により、ユーザーはモデルに最適な圧縮戦略について情報に基づいた意思決定を行うことができます。

LLMC チームは、複数の圧縮アルゴリズム、モデル、推論バックエンドをサポートし、強力なスケーラビリティと包括的な評価機能を備えた多機能大規模モデル圧縮ツールキットである LLMC をリリースしました。

このツールキットを使用すると、ユーザーは 1 つの GPU のみを使用して 1,000 億パラメータの LLM を圧縮できるため、LLM 量子化の適用が大幅に容易になります。この強力なツールキットを装備すると、将来の大規模モデル研究者だけでなく一般ユーザーも、アプリケーションに対応するバックエンドプラットフォームに必要な適切なアルゴリズムと形式を効果的に統合できるため、大規模モデル圧縮アプリケーションが普及します。

ツールアドレス: https://github.com/ModelTC/llmc
論文アドレス: https://arxiv.org/abs/2405.06001

ニュース

Llama 3.1 405B を 1 枚のカードで扱えるため、大型モデルも簡単にスリム化できます。超圧縮ツールキットはこちら

導入

私の連絡先情報