cerebras が、nvidia の 20 倍高速な世界最速の ai 推論ソリューションを発表

cerebras が、nvidia のソリューションの 20 倍である世界最速の ai 推論ソリューションを発表

2024-08-28

cerebras が、nvidia のソリューションの 20 倍である世界最速の ai 推論ソリューションを発表

2024/8/28 9:51:23 出典：itハウス著者：元陽編集者：元陽

コメント: 2

it house は 8 月 28 日、cerebras systems が本日、cerebras inference の発売を発表したと報じました。関係者によれば、これは世界最速の ai 推論ソリューションです。新しいソリューションは、llama 3.1 8b では 1 秒あたり 1800 トークン、llama 3.1 70b では 1 秒あたり 450 トークンを提供します。これは、microsoft azure などのハイパースケールクラウドで利用できる nvidia gpu ベースの ai 推論ソリューションより 20 倍高速です。

驚異的なパフォーマンスに加えて、この新しい推論ソリューションの価格は一般的な gpu クラウドよりも大幅に低く、100 万トークンあたりわずか 10 セントからであり、ai ワークロードに対して 100 倍優れたパフォーマンスをコストパフォーマンスで提供します。

このプログラムにより、ai アプリケーション開発者は速度やコストを犠牲にすることなく次世代の ai アプリケーションを構築できるようになります。このソリューションは、cerebras cs-3 システムとその wafer scale engine 3 (wse-3) ai プロセッサを使用しており、cs-3 のメモリ帯域幅は nvidia h100 の 7,000 倍であり、生成 ai のメモリ帯域幅の技術的課題を解決します。

it house によると、cerebras inference は次の 3 つのレベルを提供します。

無料利用枠では、ログインしたすべてのユーザーに無料の api アクセスと寛大な使用制限が提供されます。

開発者層は柔軟なサーバーレス展開向けに設計されており、市場の代替品の数分の一のコストでユーザーに api エンドポイントを提供します。llama 3.1 の価格は、80 億モデルと 70 億モデルでそれぞれ 100 万トークンあたり 10 セントです。

エンタープライズ層では、きめ細かく調整されたモデル、カスタマイズされたサービスレベル契約、専用のサポートが提供されます。企業は、cerebras が管理するプライベートクラウドまたは顧客施設を通じて cerebras inference にアクセスできるため、継続的なワークロードに最適です。

cerebras チームは次のように述べています。「記録的なパフォーマンス、業界をリードする価格設定、オープン api アクセスにより、cerebras inference はオープン llm 開発と展開の新しい標準を確立します。高速トレーニングと推論を同時に提供できる唯一のソリューションとして、cerebras opens up ai の全く新しい可能性です。」

ai の分野は急速に進化しており、現在 nvidia が ai 市場を独占していますが、cerebras や groq などの企業の台頭は、業界の力関係が変化する可能性がある兆候です。より高速でコスト効率の高い ai 推論ソリューションへの需要が高まる中、これらの挑戦者は、特に推論の分野で nvidia の優位性を覆そうとしています。

ニュース

cerebras が、nvidia のソリューションの 20 倍である世界最速の ai 推論ソリューションを発表

導入

私の連絡先情報