私の連絡先情報
郵便管理者@information.bz
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
9 月 25 日、2024 baidu cloud intelligence conference で、baidu group 執行副社長兼 baidu intelligent cloud business group 社長の shen dou 氏はクラウド インテリジェンス カンファレンスで、この 1 年は大規模モデルの変革の鍵となったと述べました。技術の変化は 1 年で起こり、大型モデルはクラウド コンピューティングと密接に統合され、新しいタイプのインフラストラクチャになりつつあります。「大型モデルとその関連システムは、わずか数年で急速に新世代のインフラストラクチャになりつつあります。」この変化は前例のないものです。」
大規模モデルのコンピューティング能力について、shen dou 氏は、コンピューティング能力に関しては、多くの人が「wanka クラスター」について聞いたことがあると述べました。簡単に言うと、gpu クラスターには、極度のスケール、極度の高密度、極度の相互接続という 3 つの特徴があります。
そして、これらの「極端さ」はいくつかの深刻な課題をもたらします。 shen dou氏は、1つ目は莫大な建設コストと運用コストであり、wankaクラスタを構築するにはgpuの購入コストだけで数十億元にも上ると紹介した。第 2 に、このような大規模なクラスターでは、運用とメンテナンスの複雑さが大幅に増加します。同氏は、ハードウェアには必ず故障が発生し、規模が大きくなるほど故障の確率が高くなる、と指摘した。 「meta が llama3 をトレーニングしたとき、16,000 枚の gpu カードを使用するクラスターでは平均 3 時間ごとに障害が発生しました。」
shen dou 氏はさらに、これらの障害の大部分は gpu が原因であると述べました。実際、gpu は非常に敏感なハードウェアであり、正午の気象温度の変動も gpu の障害率に影響を及ぼします。これら 2 つの課題により、baidu は、大規模で複雑な gpu クラスターを構築、管理、維持する方法、ハードウェア層の複雑さを保護する方法、大規模モデルの実装プロセス全体にシンプルで使いやすいコンピューティング プラットフォームを提供する方法を再考する必要がありました。 gpu の計算能力を管理し、低コストで計算能力を有効に活用することが容易になります。 「過去 1 年間、お客様のモデル トレーニングのニーズが急増し、必要なクラスター サイズがますます大きくなっていると感じています。同時に、モデル推論コストの継続的な低下に対するみんなの期待もますます高まっています。」これらすべてが gpu に大きな影響を及ぼし、管理の安定性と有効性がより高い要求をもたらしています。」
これに基づいて、baidu intelligent cloud は、baige ai ヘテロジニアス コンピューティング プラットフォームをバージョン 4.0 に完全にアップグレードすると発表しました。これは、大規模モデルの実装プロセス全体におけるコンピューティング能力のニーズに焦点を当て、企業に 4 つの主要な側面を提供します。クラスターの作成、開発実験、モデルトレーニング、モデル推論を「複数、高速、安定、経済的」な ai インフラストラクチャを提供します。
その中で、コンピューティング リソースの不足の問題を解決するために、baige 4.0 は「マルチコア混合トレーニング」機能に重要なアップグレードを行い、wanka スケールのクラスターで 95% のマルチコア混合トレーニング効率を達成し、最高レベルに達しました。ビジネスの上級レベル。クラスター導入プロセスにおいて、アップグレードされた baige はツール レベルで第 2 レベルの導入を実現できるため、wanka クラスター運用の準備時間が数週間から最速で 1 時間に短縮され、導入効率が大幅に向上し、ビジネス立ち上げサイクルが短縮されます。大規模なモデルのトレーニング中に頻繁に障害が発生する問題に対応して、baige 4.0 では障害検出方法と自動フォールト トレランス メカニズムが包括的にアップグレードされており、障害の頻度を効果的に削減し、クラスターの障害処理時間を大幅に短縮することができます。 wanka クラスターの効果的なトレーニング期間。
さらに、baidu intelligent cloud は、qianfan 大型モデル プラットフォームの最新の「レポート カード」も発表しました。qianfan 大型モデル プラットフォームでは、wenxin 大型モデルの 1 日の平均通話量が 7 億回を超え、ユーザーの負担を軽減しています。 - 合計 30,000 の大規模モデルをチューニングし、700,000 を超えるエンタープライズ レベルのアプリケーションを開発。過去1年間で、wenxinの主力大型モデルの価格は90%以上下落した。
毎日の経済ニュース