ニュース

自然: 世界最速のスーパーコンピューティングの日を探る

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  新しい知恵のレポート

編集者:喬楊
【新しい知恵の紹介】テネシー州東部の山中にあるフロンティアと呼ばれる記録破りのスーパーコンピューターは、原子から銀河まであらゆるものを研究する前例のない機会を科学者に与えています。

スーパーコンピューティングの建設は本格化しており、主権aiとテクノロジー大手の両方が絶えずnvidiaに輸血を提供し、データセンターを建設しています。

これに先立ち、2023 年 12 月の時点で世界最速のスーパーコンピューターは、米国テネシー州オークリッジにある olcf-5 としても知られるフロンティアです。

frontier には amd cpu と gpu が搭載されており、50,000 個のプロセッサ (38,000 個の gpu を含む) を備え、1.102 エクサ flops、つまり 1 秒あたり 1.102 エクサ flops (1018) 浮動小数点演算。

この速度は、同時に動作する 100,000 台のラップトップよりもさらに速く、2022 年にデビューしたとき、frontier は初めてエクサスケール コンピューティング速度の記録破りの閾値を突破しました。

フロンティア スーパーコンピューターはバスケットボール コート 2 面より広いエリアをカバーします

このように優れた速度とスケールを追求する理由は、さまざまな分野の最先端の科学研究におけるシミュレーション計算のニーズに応えるためです。

frontier は、大規模なパターンと、小さな雲滴が気候温暖化の速度にどのような影響を与えるかなどの小規模な詳細の両方をキャプチャするシミュレーションの作成に非常に優れています。

現在、世界中の研究者が frontier にログインして、亜原子粒子から銀河まであらゆるものの最先端モデルを作成しています。これには、創薬や開発のためのタンパク質のシミュレーション、航空機エンジンを改善するための乱流のシミュレーション、google や google と競合するオープンソース llm のトレーニングなどが含まれます。オープンai。

しかし、今年4月のある日、フロンティアの運営に予期せぬ事態が起きた。

フロンティア社があるテネシー州オークリッジ国立研究所の科学責任者ブロンソン・メッサー氏は、世界中の科学者の要求に応えるため、フロンティア社の電力消費量は急激に増加し、ピーク時には約27メガワットに達しており、十分な電力消費を実現していると述べた。約10,000世帯に電力を供給します。

これは、スーパーコンピューターの冷却システムにも課題をもたらします。メッサー氏の言葉を借りると、「マシンは火傷した犬のように動作している」のです。

2023 年の統計によると、frontier には 18 か国に合計 1,744 人のユーザーがおり、提供された計算とデータは少なくとも 500 の公開論文を裏付けています。

フロンティアの「頭脳」の内部を探る

フロンティアが置かれているコンピューター室は私たちが想像していた光景と同様、倉庫のような雰囲気で、稼働中に発生する電子ハム音が安定していて穏やかです。

コンピューター室には 74 個のラックがあり、各ノードには 4 つの gpu と 1 つの cpu が含まれています。これほど高速な計算速度の理由は、膨大な数の gpu によるものです。

研究所所長の messer 氏は、「これらの gpu は非常に高速ですが、非常に愚かでもあります。同じことを何度も繰り返すことができます。」と述べています。

複数の操作を同時に処理できるこの機能は、スーパーコンピューターで高速に作業する場合に非常に役立ちますが、それ以外には特に便利なものはありません。

この「極端な愚かさ」の背後には、さまざまな分野の科学者がカスタマイズされたコードを通じて gpu を実行できる一種の多様性があります。

フロンティアは昼夜を問わず稼働しており、運用と保守を担当するエンジニアリングチームもいます。

このスーパーコンピューターの構築を担当するエンジニアのチームはヒューレット・パッカード社のもので、技術者の一人であるコーリー・エドモンズ氏は、フロンティアを継続的に監視して故障の兆候がないかどうかを判断するエンジニアリングチームを抱えていると述べた。

たとえば、夜勤スタッフの 1 人である conner cunningham は、午後 7 時から午前 7 時まで勤務し、10 台以上のモニターを使用してネットワークと建物のセキュリティに注意を払い、地域の天候を監視する責任があります。フロンティアの通常動作。

実際、ほとんどの夜は「クリスマスイブ」であり、カニンガムは通常、数回の検査を行うだけで済み、残りの時間はワークステーションで勉強することができます。

「この仕事は消防士に似ています。何かが起こったら、誰かがそれを監視するために勤務する必要があります。」

ビッグサイエンスに力を与える

フロンティアは昼夜を問わず稼働していますが、研究者が利用機会を申請するのは簡単ではありません。

科学ディレクターのメッサー氏と他の 3 人の同僚は、使用提案の評価と承認を担当しており、昨年は合計 131 件のプロジェクトを承認し、合格率は約 1/4 でした。

承認されるためには、申請者はプロジェクトがスーパーコンピューティング システム全体を利用することを示す必要があります。スーパーコンピューティング システムは通常、さまざまな時間的および空間的スケールのモデル化に使用されます。

frontier では年間合計約 6,500 万ノード時間の利用が可能で、研究者が得た最も一般的な割り当ては 500,000 ノード時間で、これはシステム全体の 3 日間の連続稼働に相当します。

メッサー氏によると、研究者らは他のデータセンターよりもフロンティアで約10倍のコンピューティングリソースを入手できるという。

frontier には 50,000 個を超えるプロセッサが搭載されており、水冷式です

コンピューティング速度の高速化とコンピューティング リソースの増加により、研究者はより野心的な「ビッグ サイエンス」を行うことができます。

たとえば、溶液中のタンパク質や核酸が細胞の他の部分とどのように相互作用するかなど、生物学的プロセスを原子レベルの精度で正確にシミュレートします。

今年の5月、一部の学者はフロンティアを使用して、1550億個以上の水分子を含む立方体状の水滴をシミュレーションしました。これは人間の髪の毛の幅の約10分の1であり、原子レベルのシミュレーションとしては最大規模です。歴史。

短期的には、研究者らは細胞小器官をシミュレーションして研究室に情報を提供したいと考えており、また、これらの高解像度シミュレーションとx線自由電子レーザーによる超高速イメージングを組み合わせて発見を加速したいと考えている。

これらの研究は、原子から始めて細胞全体をモデル化するという、将来のより大きな目標への道を開きます。

frontier を使用すると、気候モデルもより正確になります。

昨年、気候科学者のマット・ノーマン氏と他の研究者は、frontier を使用して 3.25 キロメートルの解像度で地球規模の気候モデルを実行しました。このモデルには、より細かい解像度での複雑な雲の動きも組み込まれていました。

数十年にわたる予測モデルを作成するには、frontier のコンピューティング能力が必要であり、そのためにはシステム全体のコンピューティング能力が必要です。

モデルが天気や気候の予測に適しているためには、少なくとも 1 年間は毎日シミュレーションを実行する必要があります。

frontier は 1 日あたり 1.26 年をシミュレーションできます。これにより、研究者は以前よりも正確な 50 年間の予測を作成できます。

別のコンピューターで実行すると、同じ解像度を達成し、クラウドの影響を考慮すると、計算速度が大幅に遅くなります。

より大きな宇宙スケールでは、フロンティアはより高い解像度をもたらすこともできます。

ピッツバーグ大学の天体物理学者エヴァン・シュナイダー氏もフロンティアを利用して、天の川サイズの銀河が老化に伴ってどのように進化するかを研究している。

彼らが作成した銀河モデルは 4 桁の大きさに及び、最大サイズは約 100,000 光年です。 frontier が開発される以前は、同様の解像度でシミュレーションされた最大の構造は、質量が約 50 分の 1 の矮小銀河でした。

aiにとってフロンティアが意味するもの

かつて世界ナンバーワンだったフロンティアの地位は、このスーパーコンピューターが業界に独占されるのではなく、公共部門に属する数少ない機器の 1 つであるため、さらにユニークです。

ai分野の研究には膨大な計算能力が必要となることが多いため、学術界の成果と産業界の成果の間には大きな隔たりがあります。

一部の学者の統計によると、2021 年には最大の ai モデルの 96% が業界から提供されることになります。平均して、産業モデルは学術モデルよりも 30 倍近く大きくなります。

その違いは投資額にも表れます。米国の非国防公的機関は2021年にai研究支援に15億ドルを提供した。同年、世界の産業支出は 3,400 億米ドルを超えました。

gpt-4 や gemini ultra などの商用 llm がリリースされて以来、この 2 つの間の以前の格差はさらに拡大し、この投資格差により産業界と学術界で利用可能なコンピューティング リソースの明らかな非対称性が生じています。

業界におけるモデル開発は営利を目的としているため、基礎研究、低所得層のニーズ、モデルのリスク評価、モデルのバイアスの修正など、技術開発で直面しなければならない多くの重要な問題が無視されることがよくあります。

学術界がこれらの責任を担うには、業界の規模に匹敵するコンピューティング能力が必要であり、ここでフロンティアの出番となります。

最も典型的な例は、テクノロジー企業によって訓練された llm はさまざまな程度の独自性を保持していることが多いですが、研究者は開発したモデルを誰でも使用できるように無料で公開していることがよくあります。

これは大学の研究者が企業と競争するのに役立つだろう、とメリーランド大学カレッジパーク校のコンピュータ科学者であるアビナブ・バテレ氏は、「学界の人々が同様のサイズのモデルを訓練する唯一の方法は、フロンティアのようなリソースにアクセスすることだ」と述べた。

bhatele 氏は、frontier のような施設が ai の分野でこの重要な役割を果たし、より多くの人が技術開発に参加し、結果を共有できるようになると考えています。

ただし、国家、テクノロジー企業、非営利団体間のコンピューティングパワーインフラストラクチャをめぐる競争は今も続いており、フロンティアのような強力な企業であっても最終的には没落することは注目に値します。

オークリッジ研究所はすでに、計算速度を 3 ~ 5 倍向上させる discovery と呼ばれる frontier の後継を計画しています。

参考までに、frontier は、2014 年の最速のスーパーコンピューターである tianhe-2a よりも 35 倍高速であり、2004 年の最速のスーパーコンピューターである earth simulator よりも 33,000 倍高速です。

研究者は依然として高速化を切望していますが、エンジニアは継続的な課題に直面しています。その課題の 1 つはエネルギーです。

frontier のエネルギー効率は、summit のエネルギー効率の 4 倍以上であり、これは主に異なる冷却ソリューションによるものです。

冷水を使用するサミットとは異なり、フロンティアは冷却に室温の水を使用します。 frontier の総エネルギー消費量の約 3% ~ 4% が冷却に使用されているのに対し、summit の場合は 10% です。

冷水を使用するsummitとは異なります。 frontier の総エネルギー消費量の約 3 ~ 4% が冷却に使用されているのに対し、summit の場合は 10% です。

エネルギー効率は、長年にわたり、より高度なスーパーコンピューターを構築する際の主要なボトルネックとなっており、当面はその状態が続くと予想されます。

同研究所所長のメッサー氏は、「2012年にエクサスケールのスーパーコンピューターを構築できたかもしれないが、電力供給コストが高すぎて、1桁か2桁多くの電力が必要だった」と述べた。