ニュース

amd が初の ai 小型言語モデルをリリース: 6,900 億トークン、投機的なデコード速度が 3.88 倍に向上

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

10 月 1 日の kuai technology newsamdは、「amd-135m」という名前の最初の小規模言語モデル(slm)をリリースしました。

ますます大規模化するラージ言語モデル (llm) と比較して、llm は小規模で柔軟性が高く、対象が絞られているため、民間企業や専門企業での導入に非常に適しています。

amd-135 小型モデルは llama ファミリに属しており、次の 2 つのバージョンがあります。

1つはベーシックタイプです。amd-ラマ-135m」とたくさんあります。6,700 億個のトークンが 8 台の instinct mim250 64gb アクセラレータで 6 日間トレーニングされました。

2つ目は拡張された「」です。amd-llama-135m-コード」、特にプログラミングに焦点を当てた追加の章が含まれています。200 億トークン、同じハードウェアで 4 日間トレーニング。

作成と展開のプロセス

と呼ばれる方法を使用します「投機的解読」この方法では、より小さなドラフト モデルを通過する 1 回の順方向パスで複数の候補トークンが生成され、検証または修正のためにそれらのトークンがより大規模でより正確なターゲット モデルに送信されます。

この方法では、パフォーマンスに影響を与えることなく複数のトークンを同時に生成でき、メモリ使用量も削減できますが、データトランザクションが増えるため、消費電力も増加します。

amd はまた、codellama-7b のドラフト モデルとして amd-llama-135m コードを使用し、投機的デコードの有無にかかわらずパフォーマンスをテストしました。

例えば、mi250アクセラレータでは最大約2.8倍、ryzen ai cpuでは最大約3.88倍、ryzen ai npuでは最大約2.8倍の性能向上が可能です。約2.98倍になります。

投機的なデコード

amd-135m 小型モデルのトレーニング コード、データ セット、その他のリソースはオープン ソースであり、apache 2.0 に従っています。

amdによると、そのパフォーマンスは、基本的に他のオープンソースの小型モデルと同等かわずかに上回っています。たとえば、hellaswag、sciq、arc-easy などのタスクは llama-68m および llama-160m を超えていますが、hellaswag、winogrande、sciq、mmlu、arc-easy などのタスクは基本的に gtp2-124mn および opt-125m と同様です。