ニュース

世界初のキロカロリースケールの異種チップ混合トレーニングプラットフォームがリリース!Wuwen Xinqiong: 使いにくい AI コンピューティング能力を世界からなくしましょう

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


賢いもの
著者ZeR0
編集者モーイン

「蛇口をひねる前に、水がどの川から来ているかを知る必要はありません。同様に、将来さまざまな AI アプリケーションを使用するときに、どの基本モデルが呼び出され、どのアクセラレータ カードが使用されるかがわかりません。コンピューティング能力 - これが最高の AI ネイティブ インフラストラクチャです。」

このような AI ネイティブのインフラは、全員で構築する必要があります。 7月4日、2024年世界人工知能会議のAIインフラストラクチャフォーラムで、Wuwen Core Domeの共同創設者兼CEOであるXia Lixue氏は、世界初のキロカロリー規模の異種チップハイブリッドトレーニングプラットフォームであるキロカロリー異種ハイブリッドトレーニングを発表した。クラスタのコンピューティング能力使用率は最大 97.6% に達します。


同時に、Xia Lixue は、Wuwen Core Dome の Infini-AI クラウド プラットフォームに大型モデルの異種キロカード混合トレーニング機能が統合されていると発表しました。これは、シングルタスクのキロカード スケールの異種チップ混合トレーニングを実行できる世界初のプラットフォームです。 、10,000-ka のスケーラビリティを備え、AMD、Huawei Ascend、Tianshu Zhixin、Muxi、Moore Thread、NVIDIA の 6 つの異種チップを含む大規模モデルの混合トレーニングをサポートします。

7月からトライアルトレーニングを申し込むユーザーは、Infini-AI上で700億パラメータ規模の大規模モデルトレーニングをワンクリックで開始できるようになる。

わずか 4 か月前、Wuwenxinqiong の Infini-AI 大型モデル開発およびサービス クラウド プラットフォームは、最初のパブリック ベータ版を発表しました。Zhipu AI、Dark Side of the Moon、Shengshu Technology などの大手モデル会社の顧客は、Infini-AI を安定して使用しています。 20 社を超える AI ネイティブ アプリケーションのスタートアップ企業が、引き続き Infini-AI でさまざまなプリセット モデル API を呼び出し、Wuwen Xinqiong が提供するツール チェーンを使用して独自のビジネス モデルを開発しています。

キロカード規模で異種チップの混合トレーニングを実行できる世界初のプラットフォームの発売は、異種コンピューティングの最適化とクラスター システム設計における Wuwen Core Dome の技術力を反映しているだけでなく、Wu Wen Core Dome の遵守の反映でもあります。 「MxN」中間層エコロジーコンセプトの重要な成果。

Wuwen Xinqiong は、複数の大規模モデル アルゴリズムを複数のチップ上で効率的かつ統合的に展開するために、「MxN」中間層のエコロジカル パターンの構築を主導しました。

Infini-AI プラットフォームは、Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3 シリーズおよび AMD、Huawei Shengteng、Biren、Cambrian、Suiyuan、Haiguang、Tianshu Zhixin、10 種類以上のコンピューティングを含む 30 を超えるモデルをサポートしています。 Muxi、Moore Thread、NVIDIA などのカードは、単一のアルゴリズムとチップ間の 1 対 1 接続をサポートするだけでなく、複数のモデルと複数のチップの自由なマッチングと組み合わせもサポートします。

Xia Lixue 氏によると、今年末までに Wuwen Xinqiong がモデルからチップへの M×N 自動配線を完全に実装する予定です。


1. 万華クラスターは大規模な軍事戦略家にとっての戦場であり、この国は生態系の開放において困難に直面している。

Wuwen Core Dome の共同創設者兼 CEO である Xia Lixue は、コンピューティング パワーが AI 開発の前哨であり基礎であると信じています。 GPT-4 以降に登場したモデルの規模はそれ以上指数関数的に増加しておらず、アルゴリズムをサポートするために必要な計算能力がボトルネックになっているため、これより大規模で計算量の多い大規模システムを実装できる人はいないのが現状です。単一モデルの開発は、減速と停滞の状態で新たな段階に入ります。言い換えれば、次世代に移行するためのモデル機能をサポートする計算能力システムは依然として開発および構築される必要があります。 。

大規模モデルは、スケーリング則の影響下で世界的なコンピューティング能力を競います。 Microsoft と OpenAI が 1,000 億米ドルを超える大規模なコンピューティング能力プロジェクトを構築しているとの報告があります。他の多くの手法と比較して、この単純かつ粗雑なスケール拡張は、モデル インテリジェンスに対して最も実用的な利益をもたらします。 Google、OpenAIはもちろん、国内大手メーカーや大手通信事業者3社もWanka規模の大規模クラスターを構築している。

真に持続可能で大規模で安定したシステムでは、スケーリング則には豊富なテクニックがあまりなく、維持と拡張が容易です。本当に長期間実行する必要があるシステムにとって、スケーラビリティは非常に重要な属性であり、スケーラブルなシステムは優れたシステムです。


IDC のグラフは、将来の AI の推論とトレーニングに対するコンピューティング能力の需要が世界中で急速に発展しており、トレーニングと推論の両方に強力なコンピューティング リソースのサポートが必要であることを示しています。この巨大市場の背後にある国内と国際の生態系は大きく異なります。外国の生態系モデル層とチップ層のパターンは比較的集中しているのに対し、中国のエコシステムは比較的分散化されており、活気に満ちています。モデル層とチップ層の両方がコンピューティングパワー市場の拡大を目指して競争しており、世界を開拓する上で多くの重要な問題に直面しています。生態系。


ワンカ星団は大規模な軍事戦略家たちの戦場です。 Xia Lixue 氏は、現在中国では 100 を超えるキロカード クラスターが建設中または計画されており、そのほとんどが異種コンピューティング能力を備えており、さまざまなチップ サービスを使用し、AI の生産に従事していると述べました。その理由としては、単一のハードウェアプラットフォームへの過度の依存から生じるサプライチェーンリスクの可能性や、クラスター当事者にさまざまな選択肢を提供する国産チップの性能向上が急速に進んでいることなどが挙げられる。

しかし、多数の異種チップが「生態学的サイロ」を形成しており、異なるハードウェア エコシステムは互いに互換性がなく、コンピューティング パワーの使用は非常に複雑なエンジニアリングの課題に直面しています。たとえ多数のコンピューティング パワー クラスターがあったとしても、効果的な統合と利用を実現することは依然として困難です。これは、コンピューティング パワー リソースの無駄であるだけでなく、AI ネイティブ インフラストラクチャを構築する際の重要な理由でもあります。現在の大型モデル業界は「コンピューティングパワー不足」に直面しています。


Wuwen Core Dome は、中国のマルチモデルおよびマルチチップの生態環境に適応できる AI ネイティブ インフラストラクチャを構築し、異種コンピューティング リソースを効率的に統合する便利なコンピューティング プラットフォームと、ソフトウェアとハ​​ードウェアの共同最適化と高速化をサポートするミドルウェアを提供したいと考えています。 、既存の「生態学的サイロ」を打破し、異種チップとクラスターを真に大規模なコンピューティング能力に変換できるようにします。


AI トレーニング推論タスクは、従来のコンピューティングとは大きく異なります。たとえば、1 つのタスクは大きくて爆発的になるため、より AI ネイティブなスケジューリング戦略が採用されないと、システム全体のリソース使用率が非常に低くなるか、さらに低くなります。その結果、顧客のタスクがハングアップして再起動することが多くなり、AI 開発プロセスが遅れてしまいます。

Wuwenxinqiong のソリューションには、スケジューリング機能や PaaS および MaaS プラットフォームを含む、完全なクラウド管理システムが根底にあります。以下はクラウド コラボレーションのコンピューティング パワー ベースに相当し、大規模モデルの開発者や研究者がバッグに持ち込んで、さまざまなコンピューティング パワーをすぐに使用できるようになります。

これに基づいて構築された MaaS サービス プラットフォーム、つまりモデル セット サービス プラットフォームは、柔軟なアプリケーションを備えた多くの大規模なモデル サービスを提供し、まだ AI の学習期間にある一部の企業がいくつかの大規模なアプリケーションを迅速に開発できるように支援します。大型モデル。


2. 異なるチップのクロストレーニングを実現し、大規模なモデル アプリケーションの実装コストを削減します。

一連の生産と研究の進歩の裏で、Wuwen Xinqiong の研究開発チームは、ヘテロジニアス チップ コンピューティングの最適化とクラスター システム設計において多くの実践的な経験と実績を持っています。

最近、Wuwen Xinqiong、清華大学、上海交通大学の共同研究チームは、大規模モデル向けの異種分散ハイブリッド トレーニング システムである HETHUB をリリースしました。 6つの異なるブランドのチップ間のクロスミックストレーニングが実現したのは業界初であり、エンジニアリングの完成度は高い。 Xia Lixue 氏によると、このテクノロジーを設計する本来の目的は、より多くの異種コンピューティング能力を統合することで、大型モデルの技術能力の上限を押し広げ続けることであり、同時に、異種チップのエコシステムを開放することで、コストを削減し続けることです。大規模なモデル アプリケーションの実装コスト。


同氏は、システムの構築で直面した 2 つの主な課題は、コミュニケーションと分散トレーニングであると述べました。異なるハードウェア アーキテクチャに異なる通信ライブラリを使用することは、2 人がまったく異なる言語を使用して大規模なプロジェクトを完了することと同じであり、異種カードでは、設計コンセプトの違いや異なるタスクへの適応により多くのパフォーマンスの違いが生じ、その結果、さまざまな違いが生じます。カードの種類が異なると効率が異なるため、大規模な分散トレーニングが非効率になる可能性があります。

したがって、そのチームは次のような多くの作業を行ってきました。


1. 通信に関しては、さまざまな種類のチップの効率的な通信を実現し、多くの種類のハードウェアと互換性を持たせるための汎用集合通信ライブラリを確立します。

2. 異なるハードウェア効率の問題を解決し、独自の状況に応じて最適なタスクを割り当てるために、パイプラインの並列処理に基づいた不均一な分割スキームを提案します。

3. 独自に開発された混合トレーニング予測ツールは、トレーニングの開始時に各チップの値を事前に予測できるため、トレーニング タスク全体を完了し、さまざまなカードで最適なソリューションを形成するための最適な分割戦略を見つけることができます。

実際の混合トレーニング効果から判断すると、Wuwen Xinqiong は 70% 以上に達する可能性のある多くの組み合わせを実行し、6 つの異なるチップの組み合わせでの混合トレーニングは 97.6% に達する可能性があります。 。


以前、Wuwen Xinqiong は M×N 推論を達成しましたが、今回は M×N トレーニングを達成しました。これは非常に大きな進歩です。

このような機能は、既存の Infini-AI プラットフォームに統合されています。このプラットフォームには、混合トレーニング機能を追加した後、ユーザーがプラットフォーム上でアプリケーションとサービスを効率的に展開できる機能があり、単一ブランドのトレーニングのボトルネックを解消することができます。キロカロリーの異種混合トレーニングをサポートする世界のプラットフォーム。

Infini-AI の上位層は、テンソル並列処理、データ並列処理、通信オーバーラップなどのさまざまなトレーニング戦略をサポートしており、効率的なトレーニングを実現し、700 億トークンを超える大規模なモデルのトレーニングや、大規模なトークンのワンクリック混合トレーニングをサポートできます。 -スケールモデル。このプラットフォームを使用すると、開発者は、基礎となるコンピューティング能力の違いを考慮するために、より多くの時間を費やす必要がなく、さまざまなチップで構成されるハイブリッド クラスター上で独自の大規模モデルを迅速にカスタマイズし、独自のビジネスを迅速に実装できます。

3. 効率的なスケジューリング + 効率的なフォールト トレランスにより、大規模なコンピューティング パワー クラスターでのタスクの安定した完了を保証します。

大規模なコンピューティング能力クラスターを構築した後、直面する中心的なタスクの 1 つは、それをどのように使用するかです。これには効率的なスケジュールの問題が伴います。効率的なコンピューティング能力スケジューリング システムにより、統合された異種リソースをすべてのユーザーがより効率的に利用できるようになります。

Wuwen Core Dome は、コンピューティング能力の効率的なスケジューリング システムにおいて大きな進歩を遂げ、複数の異種クラスターの統合管理により、Wuwen Core Dome を通じて 10 種類以上のチップをサポートし、10,000 を超えるカードレベルのコンピューティング能力システムを構築できます。ハイブリッド シリーズ スケジューリング戦略設計により、タスク スケジューリングの平均遅延がミリ秒レベルになり、システム全体のクラスター リソース使用率が 90% 以上に維持されます。 AI コンテナー全体のベースを強化することで、Wuwen Xinqiong はマルチテナント シナリオでクラスター全体の SLO を 99.95% に向上させることができ、拡張性が非常に高くなります。

スケジュール設定に加えて、モデルのトレーニングを行う場合、トレーニングを連続して再開することはできません。 Wuwen Core Qiong は、大規模モデル用のフォールト トレラント ランタイム システム、ハイブリッド インジケーター異常予測システム、チェックポイントの非同期読み書きシステムなど、効率的なフォールト トレラント トレーニング システムを開発しました。


フォールト トレランスの部分により、大規模モデルの有効トレーニング時間が 30% 増加し、大規模モデルの異常検出の成功率が 70% に向上し、ほとんどのエラーを事前に発見して回避できるようになり、チェックポイントの読み取りと書き込みの効率が向上しました。が 20 倍に増加し、大型モデルの異常な端末の時間が 5 分未満に短縮され、大規模な計算能力クラスターでのタスクの安定した完了が保証されます。

開発者がクラスターをより効果的に使用できるようにするために、このプラットフォームには、Wuwenxinqiong の大規模モデル サービス システムの最適化技術機能が統合されており、同時実行性が高く、複数のユーザーが同時にリクエストを送信する場合、リクエストのスケジューリングを通じて、プロンプト ワード キャッシュなどのテクノロジーを利用できます。タスクがより適切にディスパッチされ、計算結果が返されるようにすることで、スループット レートが 30 倍以上向上し、アプリケーションの実行がますますスムーズになります。


結論: 使いにくい AI コンピューティング能力を世界からなくしましょう

「技術の上限を引き上げることと、技術の実装と普及の間に矛盾はありません。それは、この技術をどのように扱うかによって決まります。今日、大型モデルのコストを1/10,000に下げるという話は単なる議論に過ぎないと考えています。」 30年前に全家庭に電化する話をしたようなものだ。

優れたインフラストラクチャはまさに「魔法」であり、限界コストが限界値まで下がると、より多くの人が新しいテクノロジーを採用できるようになります。


現在、大規模モデル産業の発展は大規模な産業実装の段階に入っており、アプリケーションシナリオの隆盛により、大規模モデルのトレーニングの必要性がますます高まっています。大規模モデルの時代における AI ネイティブ インフラストラクチャの構築は、AI 開発者により汎用性が高く、効率的で便利な研究開発環境を提供するだけでなく、コンピューティング リソースの効果的な統合を達成し、AI の持続可能な開発をサポートするための重要な基礎となります。業界。

AI 開発には、複数の異種チップを均一に統合できる基盤となるシステム機能と、異種のコンピューティング能力と複数のアルゴリズムの間の使いやすさを実装し、ユーザーが統一されたプログラミング フレームワークを通じて異なるコンピューティング能力を同時にスケジュールできるようにする中間層の両方が必要です。将来の拡張を容易にするために、既存のユーザーのプログラミング習慣と互換性のあるインターフェイスがインストールされます。

Wuwen Core は、マルチモデルとマルチチップに真に適応できる AI ネイティブ インフラストラクチャの構築に取り組んでおり、世界中に使いにくい AI コンピューティング パワーが存在しないようにするだけでなく、効果的な接続を実現したいと考えています。 「M×N」の活用と統合だけでなく、最終的な目標も、一見休眠状態にあるコンピューティング リソースを大きなコンピューティング能力に変え、大規模モデルのエコシステムの完全性を向上させ、大規模モデルの実装コストを大幅に削減し、さまざまな業界における大型モデルのアプリケーション革新。