挑戦に直面しますか？メタトレーニング Llama3 が失敗に遭遇

挑戦に直面しますか？メタトレーニング Llama3 が失敗する

2024-07-29

IT House は 7 月 28 日、Meta が発表した調査報告書で、4,050 億パラメータモデル Llama 3 のトレーニングに使用された 16,384 個の NVIDIA H100 グラフィックスカードクラスタで、54 日間に 419 回、平均して 3 時間に 1 回の予期せぬ障害が発生したと報告しました。そのうちの半分以上の障害は、グラフィックスカードまたはその高帯域幅メモリ (HBM3) が原因で発生します。

システムの規模が大きく、タスクの高度な同期が行われているため、1 つのグラフィックスカードに障害が発生すると、トレーニングタスク全体が中断され、再起動が必要になる場合があります。これにもかかわらず、メタチームは依然として有効トレーニング時間の 90% 以上を維持しました。

IT House は、54 日間の事前トレーニング中に合計 466 回の業務中断が発生したことに気づきました。そのうち 47 回は計画された中断で、419 回は予期せぬ中断でした。計画的な停止は自動メンテナンスによるものですが、計画外の停止は主にハードウェアの問題によるものです。GPU の問題は障害の主な原因であり、計画外の停止の 58.7% を占めています。 。人による大幅な介入が必要なインシデントは 3 件のみで、残りは自動化によって管理されました。

419 件の予期しない割り込みのうち、148 件 (30.1%) はさまざまな GPU 障害 (NVLink 障害を含む) が原因であり、72 件 (17.2%) は GPU の HBM3 メモリ障害が原因でした。興味深いことに、54 日間で障害が発生した CPU は 2 つだけでした。計画外停止の 41.3% は、ソフトウェアエラー、ネットワークケーブル、ネットワークアダプターなどのさまざまな要因によって発生します。

効率を向上させるために、Meta チームは一連のツールと最適化戦略を開発しました。これには、ミッションの起動時間とチェックポイント時間の短縮、PyTorch の NCCL フライトレコーダーを使用したパフォーマンスの問題の診断、遅れているグラフィックスカードの特定などが含まれます。さらに、Meta は、日中の温度変動による GPU パフォーマンスへのわずかな影響や、多数の GPU の同時動作によって引き起こされるデータセンターの電力網への大きな圧力など、環境要因の影響にも注目しました。

ただし、人工知能モデルのパラメータの数は増加し続けるため、必要なコンピューティングリソースも拡大します。 xAI 計画の 100,000 個の H100 グラフィックスカードクラスターを例にとると、故障率が指数関数的に増加し、将来の AI トレーニングに大きな課題をもたらす可能性があります。

ニュース

挑戦に直面しますか？メタトレーニング Llama3 が失敗する

導入

私の連絡先情報

ニュース

挑戦に直面しますか？ メタトレーニング Llama3 が失敗する

導入

私の連絡先情報

挑戦に直面しますか？メタトレーニング Llama3 が失敗する