ニュース

NVIDIA が新しい 80 億パラメータの AI モデルをリリース: 高精度で効率的で、RTX ワークステーションに導入可能

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House は 8 月 23 日、Nvidia が 8 月 21 日にブログ投稿を公開し、高精度と高い計算効率という利点があり、GPU アクセラレーション データで使用できる Mistral-NeMo-Minitron 8B 小型言語 AI モデルをリリースしたと報告しました。センター、クラウド、ワークステーション上でモデルを実行します。

NVIDIA と Mistral AI は先月、オープン ソースの Mistral NeMo 12B モデルをリリースしました。これに基づいて、NVIDIA は、NVIDIA を搭載したワークステーションで実行できる、合計 80 億個のパラメータを備えた小型の Mistral-NeMo-Minitron 8B モデルを再度リリースしました。 RTX グラフィックス カード。

Nvidia は、Mistral NeMo 12B の幅枝刈り (width-pruning) と知識蒸留 (knowledge distillation) による光再トレーニングを通じて Mistral-NeMo-Minitron 8B を取得したと述べており、関連する結果は論文「Compact Language Models via Pruning and Knowledge」で発表されました。蒸留」中。

枝刈りは、精度に最も寄与しないモデルの重みを削除することによってニューラル ネットワークを縮小します。 「蒸留」プロセス中に、チームは小規模なデータセットで枝刈りされたモデルを再トレーニングし、枝刈りプロセスによって低下した精度を大幅に改善しました。

Mistral-NeMo-Minitron 8B は、そのサイズに関して、言語モデルの 9 つの一般的なベンチマークで大差を付けてリードしています。これらのベンチマークは、言語理解、常識的推論、数学的推論、要約、コーディング、本物の答えを生成する能力など、さまざまなタスクをカバーします。 IT Home は、関連するテスト結果を次のように添付します。