CPU と GPU 間の相互接続は 1 メートルから 100 メートルにまで上昇しました。インテル: 光を信じますか?

2024-07-27

ジン・レイはアオフェイ寺院の出身です
パブリックアカウント QbitAI

インテルの場合"ライト"、大型モデル時代のやっかいなコンピューティング能力の問題を突破する——

業界初の完全統合型を発売OC(光コンピューティング相互接続) チップ。

△出典：インテル

大規模な AI モデルがスケーリング則に従う場合、より良い結果を達成するには、モデルの規模またはデータの規模がより大きな傾向に向かって発展していることを知っておく必要があります。

これにより、大規模な AI モデルでは、中間 I/O 通信を含むコンピューティングとストレージ全体に対して、コンピューティング能力レベルでより高い要件が要求されるようになります。

今回のインテルの躍進はまさにI/O通信：

CPUとGPUでは、データ伝送には電気 I/O の代わりに光 I/O を使用します。

用途は何ですか?

一言で言えば、データ伝送距離がはるかに長い，量が多いです，消費電力が低い——「体格」は大型AIモデルに適しています。

△出典：インテル

では、なぜインテルは「光」を使うのでしょうか?具体的にはどのように実装されているのでしょうか？

「光」を使って馬車からトラックへ

従来の電気 I/O (銅線接続) 方式には、高帯域幅密度や低消費電力のサポートなどの利点は確かにありますが、致命的な問題は次のとおりです。伝送距離が比較的短い（1メートル未満）。

ラックに設置する場合には問題ありませんが、大規模な AI モデルの計算能力はサーバークラスターレベルになることがよくあります。

広い面積を占めるだけでなく、N 個のラックにまたがる必要があり、ケーブルの長さは数十メートル、場合によっては数百メートルになるため、ラックに供給される電力をすべて消費してしまいます。コンピューティングおよびメモリチップの読み取りおよび書き込み操作を実行するのに十分な電力がないことを意味します。

その上、預金比率一方で、大規模モデルの「大きい」特性により、1 回の読み込みと数百回の計算の元の比率が 1:1 に近くなりました。

△出典：インテル

これには、消費電力を削減してサイズを縮小しながら、コンピューティング能力とストレージ密度を向上させ、それによって限られたスペースにより多くのコンピューティングとストレージを配置できる新しい方法が必要です。

光 I/O を使用すると、この問題は解決されます。

最大 100 メートルの光ファイバー上で一方向に 64 の 32Gbps チャネルをサポートできます。

画像のメタファーは、キャリッジ(容量と距離に制限があります)車とトラック商品を配達するため（大量かつ長距離）。

それだけでなく、比較的短い距離でより高密度でより柔軟なデータ伝送作業を完了する場合でも、OCI はオートバイ、より速く、より柔軟に。

この OCI メソッドは単なる理論的なものではないことに注意してください。

Intelによると、同社は実証済みのシリコンフォトニクス技術を利用して、オンチップレーザー、光増幅器、電子集積回路を含むシリコンフォトニクス集積回路（PIC）を統合したという。

また、独自の CPU とともにパッケージ化された OCI チップが、次世代 CPU、GPU、IPU などの SOC (システムオンチップ) と統合できることも以前に実証しました。

まだ完成していないが、インテルは 800 万個以上のシリコンフォトニック集積回路を出荷しており、そのうち 3,200 万個以上のレーザーが現在使用されています。

△出典：インテル

そこで次の質問は次のとおりです。

Intel の OCI はどのように「洗練」されているのでしょうか?

インテルリサーチ担当副社長兼インテルチャイナリサーチディレクターソン・ジ強コミュニケーションの過程で、彼はこの問題について徹底的な分析と解釈を行いました。

△インテル研究所副所長兼インテル中国研究所所長、宋吉強氏

シリコンフォトニクステクノロジーは、20 世紀の最も重要な 2 つの発明、シリコン集積回路と半導体レーザーを組み合わせたものです。

インテルの大量シリコン製造の効率を活用しながら、従来の電子機器よりも長距離でのより高速なデータ転送速度をサポートします。

今回インテルが発表したシリコンフォトニクス統合技術、OCIチップは光電子共パッケージングのレベルに達した。

この光電子共同パッケージは、シリコン光集積回路 (PIC) と電子集積回路 (EIC) を基板上に配置して、統合接続コンポーネントとして機能する OCI チップを形成します。

これは、CPU を含む xPU と将来の GPU を OCI チップでパッケージ化できることを意味します。

OCI コアは、データセンター CPU からのすべての電気 I/O 信号を光に変換し、光ファイバーを介して 2 つのデータセンターのノードまたはシステム間で相互に伝送します。

現在の双方向データ伝送速度は 4Tbps に達し、その上位層伝送プロトコルは PCIe 5.0 と互換性があり、一方向に 64 個の 32Gbps チャネルをサポートしています。これは現在のデータセンターでは十分です。

8 ペアの光ファイバーを使用し、消費電力は 1 ビットあたりわずか 5 ピコジュール (pJ)、つまり 10 ～ 12 ジュールであり、プラグ可能光トランシーバーモジュールの消費電力 (後者は 1 ビットあたり 15 ピコジュール) の 3 分の 1 です。）。

△出典：インテル

光伝送チャネルには実際には 8 つの異なる帯域があり、各帯域の周波数間隔は 200 GHz で、合計 1.6THz のスペクトル間隔を伝送に占有します。

光は可視光から不可視光まであり、実はテラヘルツをはじめとして非常にスペクトル幅が広く、光通信に近いものです。

では、OCIコア粒子は今後どのような分野で活用されるのでしょうか？

これに関して、宋継強氏は次のように述べた。

1 つは、それを使用して通信を実現できることです。また、CPU や GPU などのコンピューティングチップとパッケージ化することもできます。コンピューティングと通信は非常に緊密にパッケージ化されています。
シリコンフォトニクスの統合と高度なパッケージング技術を通じて、インテルはより高密度の I/O チップを実現するためのさまざまなテクノロジーを備えており、それらを他の xPU と組み合わせて、将来的にはチップに基づいたさまざまなタイプのコンピューティングを形成します。そして相互接続チップには非常に優れた応用の見通しがあるでしょう。

OCI I/O インターフェイスチップのパフォーマンス進化ロードマップから判断すると、現在、主に次の 3 つの指標の反復的かつ着実な改善に依存して、32Tbps の伝送速度の技術的解決策に到達できます。

光ファイバーには 8 つの安定した帯域があります
各バンドの光データ伝送速度は32Gbps
相互に影響を与えることなく、8対の光ファイバーを同時に引っ張ることができます

これら 3 つの指標を掛け合わせると、現在のデータ伝送速度は片方向で 2Tbps、両方向で 4Tbps になります。将来的には、さらなる進化を続け、帯域幅機能を徐々に向上させることができます。

△出典：インテル

最後に、Song Jiqiang 氏は、シリコンフォトニクス統合テクノロジにおけるインテルの差別化についても説明しました。

その主な理由は、高周波レーザーエミッターをウェハー上に構築し、シリコン光増幅器を統合するという 2 つの比較的中核的な技術であり、どちらもウェハーレベルで製造されるためです。
次に、このオンチップレーザーの利点は、通常の光ファイバーを使用して伝送できるため、このような高集積レーザーを量産することができます。
安定性に関しては、ほぼエラーが発生するまでに100億時間かかる。

では、インテルピックの「光」についてどう思いますか？ディスカッションのためにコメント領域にメッセージを残していただければ幸いです。

参考リンク:
[1]https://mp.weixin.qq.com/s/ozx_ficqlxjEPKa5AlBdfA
[2]https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Shows-OCI-Optical-IO-Chiplet-Co-packaged-with-CPU-at/post/1582541
[3]https://www.youtube.com/watch?v=Fml3yuPR2AU

ニュース