ニュース

中国計算力会議での対話|学者の劉雲潔氏:国内の計算力はgpuクラスターを通じてその欠点を補わなければならない

2024-09-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ai(人工知能)の時代は、コンピューティングパワーの時代でもあります。国内外のテクノロジー企業や通信事業者は、1万枚、あるいはそれ以上のカードを「積み上げ」てきたが、環境への適合性や異種コンピューティングなどの問題も、業界が登らなければならない山となっている。
9月28日、2024年中国コンピューティングパワーカンファレンスの開会式で、中国工程院の院士、liu yunjie氏は北京ニュースシェルファイナンスやその他のメディアとのインタビューで、国内のエンドポイントgpuは依然として競争できないだろうと語った。短期間で海外との交流。この欠点を補うために考えられるのは、「全体の計算能力をトレーニング」する計算パワーネットワークを構築し、gpuクラスターの効果を最大限に発揮することだ。
さらに同氏は、コンピューティングパワーネットワークの構築においてどのタイプの企業がより有利であるかを単純に判断することはできず、主に技術的な評価を通じて判断する必要があると指摘した。 「それは、自社のテクノロジーが利用、開発できるかどうか、また、イノベーションと進むべき道がニーズを満たしているかどうかにかかっています。」 コンピューティング電力コストの問題については、「新しいテクノロジーで解決しなければならない」とやはり強調した。
現在、liu yunjie 氏が研究した決定論的ネットワーク技術により、同氏が他の機関と共同で立ち上げたコンピューティング ネットワーク スケジューリング プロジェクトにより、複数のオフサイト トレーニングを実現し、単一トレーニングの 80% の効率を達成できます。ポイントトレーニング。
liu yunjie、中国工程院の学者。写真提供:インタビュー対象者。
データの循環とコンピューティング能力の使用率の問題を解決するには、業界の大規模なモデル トラックを利用することをお勧めします。
「中国は大規模産業モデルの道を歩まなければならない」とliu yunjie氏は基調講演で強調した。国内の汎用大型モデルは短期的には米国に大きく遅れをとり、追いつくのは難しいと同氏はみている。
同氏は、国内のモデル企業が業界データをうまくトレーニングし、一般的な大型モデルに基づいて業界の大規模モデルを作成できれば、「間違いなく中国の道をたどることができる」と提案した。同氏は「中国の業界データが最も完全かつ包括的である」と信じているため、この技術的方向性について楽観的だ。
同時に、大規模な産業モデルの開発には政府、企業、資本の共同努力が必要だと述べた。同氏はシェル・ファイナンスの記者に対し、現時点では国内データの共有と流通をまだ強化する必要があり、それが研修業界の大きなモデルに影響を与えており、どのような種類のトラックが採用されるのか「誰もがまだ模索中」だと語った。より有望です。
2024 年の中国計算能力会議で公開されたデータによると、国の計算能力の合計規模は 246 eflops に達します。 liu yunjie 氏の観察によると、国内のコンピューティング能力は一定の規模に達していますが、その利用率はあまり理想的ではありません。
「コンピューティングパワーが実体経済に貢献したいのであれば、複数の関係者が同意する必要がある。」 liu yunjie 氏は、まず第一に、コンピューティングパワーとネットワークプロバイダーが「(なぜなら)これらのサービスを通じて利益を得ているから」良い仕事をしなければならないと信じている。さらに、政府は「(政府が)問題を解決したから」と良いことを言うべきだ。最後に、企業は「(なぜなら)企業はコンピューティングパワーとインターネットを利用することで自社の効率を向上させてきた」とうまく言わなければなりません。
同氏は、「一党合意」の効果は持続しない、つまり業界がコンピューティングパワーのエコシステムを確立していないことを意味すると強調した。 「環境問題を解決しなければ、それ(コンピューティング能力)を利用できなくなります。」
決定論的ネットワークは、将来のコンピューティング電力ネットワークの基本技術の 1 つであり、コストを 60% ~ 70% 節約します。
「大規模なモデルのトレーニングでは、データのロスレス伝送が必要であり、パケット損失、ジッター、遅延などのネットワーク指標に対する要件が課せられます」と liu yunjie 氏は述べています。国際データ規格を例に挙げ、パケットロス率が1000分の5に達すると伝送効率が50%低下すると説明した。
さらに、これはデータ送信に 100g 帯域幅全体を使用するようなもので、有用なのは 50g 帯域幅だけであると説明しました。 「それが 1% に低下すると、その効率はほぼ 0 に等しくなり、訓練や推論が不可能になります。」
ネットワークでパケット損失を回避するには、rdma (リモート ダイレクト メモリ アクセス) プロトコルが必要です。このテクノロジーにより、コンピュータはリモート コンピュータのメモリに直接アクセスし、cpu を頻繁に介さずにメモリ レベルでデータを送信し、データ送信プロセス中の送信側と受信側の処理遅延とリソース消費を削減できます。
大規模モデルのトレーニングと推論のデータ送信標準を満たすにはどうすればよいでしょうか? liu yunjie 氏は、決定論的ネットワーク技術が比較的要件を満たしていると考えており、これが「将来のコンピューティング パワー ネットワークの基礎技術」であると判断しています。 liu yunjie 氏は、2022 年にチームを率いて 35 都市で決定論的ネットワークを開設し、その都市数は現在 39 に増加しました。エンドツーエンドの遅延とジッターは 50 マイクロ秒未満で、パケット損失ゼロを達成できると明らかにしました。 。
liu yunjie 氏は、決定論的ネットワーク技術の開発過程において、最も重要な技術的ブレークスルーは光電統合であり、これにより帯域幅利用率、送電網コスト、エネルギー消費量にブレークスルーがもたらされると考えています。
コストの面では、某自動運転会社を例に挙げ、全国4か所の20台の車両が毎日生成する自動運転データは、まず上海に送り返され、その後貴陽に送られて訓練されるが、そのためには約1時間かかると説明した。 2 つの 10g 回線と 1 つの 1g 回線の費用は年間約 1,000 万元です。
余裕がない場合はどうすればよいですか?データの収集にハードドライブの使用に切り替え、2 つの都市間でデータを転送するには、データ損失やハードドライブの損傷などを考慮すると、年間約 190 万元の費用がかかります。また、決定論的なネットワークを利用してスライスを通じてサービスを提供する場合、「年間12万元で十分だ」という。
liu yunjie 氏は、このレベルのコスト削減はネットワーク共有によって達成されると強調しました。同氏が基調講演で示したデータによると、テストネットワーク上で3カ月以上稼働し、パラメータ効率が95%以上に達し、コストが60~70%削減されたことが示された。
gpuクラスターの効果を最大限に発揮し、国内の計算能力の不足を補う
将来、計算力ネットワークは国内の計算力が海外の計算力を上回る方向になるのでしょうか? liu yunjie氏は、より正確な理解は「欠点を補う」ことだと述べた。彼は、短期間のうちに、当社のエンドポイント gpu は依然として外国と競争できなくなるだろうと考えています。 「一つの面ではかなわないかもしれないが、グループの力を使えば勝てる」とさらに、gpuクラスターの効果を発揮するには「育成するためのネットワークを構築する必要がある」と強調した。全体のコンピューティング能力です。」
同氏は、大規模なモデルは共同トレーニングと分散トレーニングの道を採用できると考えており、「10万枚のカードを一か所でトレーニングすると、その能力は過大になるだろう」と、彼のチームが中国科学院と共同でプログラムを立ち上げたことを明らかにした。国家スーパーコンピューティング無錫センターおよびその他の機関による国家コンピューティング電力ネットワークスケジューリングプロジェクトは、キューの問題を分単位で解決する効果を達成でき、複数のオフサイトトレーニングは単一ポイントトレーニングの80%の効率を達成できます。 「基本的には分散訓練と連携訓練が可能です。」
liu yunjie 氏は、コンピューティング ハードウェアとソフトウェアの開発関係を調整する方法について話し、ソフトウェアとハ​​ードウェアを組み合わせて統合して開発する必要があると提案しました。
ハードウェアの生産には地球物理資源が消費されると同氏は述べた。 「(毎回)少しずつ消費するので、リソースは少しずつ減っていきます。」 ソフトウェアは比較的柔軟で、変更が可能で、物理的なリソースの消費も少なくなります 「これは非常に重要な社会開発の概念です。」さらに、liu yunjie 氏は、ソフトウェア開発にはある程度の人的リソースが消費されますが、ai の適用後は開発効率が加速されたと考えています。そして、ソフトウェアで代替できる部分は可能な限り開発すべきだと提案した。
「しかし、ソフトウェアは万能ではなく、コンピューティング能力が要求するハードウェアの条件を満たさなければなりません。ソフトウェアが耐えられない部分はハードウェアと連携して開発する必要があると彼は考えています。」
共有コンピューティング パワー ネットワーク エコシステムを構築するにはどうすればよいでしょうか? liu yunjie氏は、政府の関連部門が調整・管理し、企業と科学研究機関が緊密に協力すべきだと提案した。 「これは全体的なプロジェクトですが、現在は全員が独自に取り組んでいます。」
北京ニュースシェルファイナンス記者魏英子
編集者 リン・ジー
校正:liu jun
レポート/フィードバック