berita

menghadapi tantangan tersebut? Pelatihan meta Llama3 menemui kegagalan

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House melaporkan pada tanggal 28 Juli bahwa laporan penelitian yang dirilis oleh Meta menunjukkan bahwa 16.384 cluster kartu grafis NVIDIA H100 yang digunakan untuk melatih model parameter 405 miliar Llama 3 mengalami 419 kegagalan tak terduga dalam 54 hari, rata-rata setiap tiga jam satu kali. Diantaranya, lebih dari separuh kegagalan disebabkan oleh kartu grafis atau memori bandwidth tinggi (HBM3).


Karena skala sistem yang besar dan tingginya tingkat sinkronisasi tugas, kegagalan satu kartu grafis dapat menyebabkan seluruh tugas pelatihan terganggu dan perlu dimulai ulang. meskipun ini,Tim Meta masih mempertahankan lebih dari 90% waktu pelatihan efektif.

IT House mencatat bahwa selama 54 hari pra pelatihan, terjadi total 466 gangguan pekerjaan, dimana 47 diantaranya merupakan gangguan terencana dan 419 merupakan gangguan yang tidak terduga. Pemadaman terencana disebabkan oleh pemeliharaan otomatis, sedangkan pemadaman tidak terencana terutama disebabkan oleh masalah perangkat keras.Masalah GPU adalah penyebab utama kegagalan, yang menyebabkan 58,7% pemadaman tidak terencana . Hanya tiga dari insiden tersebut yang memerlukan intervensi manusia secara signifikan, dan sisanya dikelola oleh otomatisasi.


Dari 419 interupsi tak terduga, 148 (30,1%) disebabkan oleh berbagai kegagalan GPU (termasuk kegagalan NVLink), sedangkan 72 (17,2%) disebabkan oleh kegagalan memori HBM3 pada GPU. Menariknya, hanya dua CPU yang gagal dalam 54 hari. 41,3% pemadaman tidak terencana disebabkan oleh berbagai faktor, termasuk kesalahan perangkat lunak, kabel jaringan, dan adaptor jaringan.

Untuk meningkatkan efisiensi, tim Meta telah mengembangkan serangkaian alat dan strategi pengoptimalan, termasuk mempersingkat waktu permulaan misi dan pos pemeriksaan, menggunakan perekam penerbangan NCCL PyTorch untuk mendiagnosis masalah kinerja, mengidentifikasi kartu grafis yang tertinggal, dll. Selain itu, Meta juga memperhatikan dampak faktor lingkungan, seperti sedikit dampak fluktuasi suhu tengah hari terhadap kinerja GPU, dan tekanan besar pada jaringan listrik pusat data yang disebabkan oleh pengoperasian sejumlah besar GPU secara bersamaan.

Namun, seiring dengan bertambahnya jumlah parameter model kecerdasan buatan, sumber daya komputasi yang dibutuhkan juga bertambah. Mengambil 100.000 cluster kartu grafis H100 dalam paket xAI sebagai contoh, tingkat kegagalan dapat meningkat secara eksponensial, sehingga menimbulkan tantangan yang lebih besar bagi pelatihan AI di masa depan.