ニュース

挑戦に直面しますか? メタトレーニング Llama3 が失敗する

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House は 7 月 28 日、Meta が発表した調査報告書で、4,050 億パラメータ モデル Llama 3 のトレーニングに使用された 16,384 個の NVIDIA H100 グラフィックス カード クラスタで、54 日間に 419 回、平均して 3 時間に 1 回の予期せぬ障害が発生したと報告しました。そのうちの半分以上の障害は、グラフィックス カードまたはその高帯域幅メモリ (HBM3) が原因で発生します。


システムの規模が大きく、タスクの高度な同期が行われているため、1 つのグラフィックス カードに障害が発生すると、トレーニング タスク全体が中断され、再起動が必要になる場合があります。これにもかかわらず、メタチームは依然として有効トレーニング時間の 90% 以上を維持しました。

IT House は、54 日間の事前トレーニング中に合計 466 回の業務中断が発生したことに気づきました。そのうち 47 回は計画された中断で、419 回は予期せぬ中断でした。計画的な停止は自動メンテナンスによるものですが、計画外の停止は主にハードウェアの問題によるものです。GPU の問題は障害の主な原因であり、計画外の停止の 58.7% を占めています。 。人による大幅な介入が必要なインシデントは 3 件のみで、残りは自動化によって管理されました。


419 件の予期しない割り込みのうち、148 件 (30.1%) はさまざまな GPU 障害 (NVLink 障害を含む) が原因であり、72 件 (17.2%) は GPU の HBM3 メモリ障害が原因でした。興味深いことに、54 日間で障害が発生した CPU は 2 つだけでした。 計画外停止の 41.3% は、ソフトウェア エラー、ネットワーク ケーブル、ネットワーク アダプターなどのさまざまな要因によって発生します。

効率を向上させるために、Meta チームは一連のツールと最適化戦略を開発しました。これには、ミッションの起動時間とチェックポイント時間の短縮、PyTorch の NCCL フライト レコーダーを使用したパフォーマンスの問題の診断、遅れているグラフィックス カードの特定などが含まれます。さらに、Meta は、日中の温度変動による GPU パフォーマンスへのわずかな影響や、多数の GPU の同時動作によって引き起こされるデータセンターの電力網への大きな圧力など、環境要因の影響にも注目しました。

ただし、人工知能モデルのパラメータの数は増加し続けるため、必要なコンピューティング リソースも拡大します。 xAI 計画の 100,000 個の H100 グラフィックス カード クラスターを例にとると、故障率が指数関数的に増加し、将来の AI トレーニングに大きな課題をもたらす可能性があります。