Νέα

αντιμετωπίσει την πρόκληση; Η Meta training Llama3 αντιμετωπίζει αποτυχία

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το IT House ανέφερε στις 28 Ιουλίου ότι μια έρευνα που κυκλοφόρησε από τη Meta έδειξε ότι τα 16.384 συμπλέγματα καρτών γραφικών NVIDIA H100 που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου Llama 3 των 405 δισεκατομμυρίων παραμέτρων παρουσίασαν 419 απροσδόκητες βλάβες σε 54 ημέρες, κατά μέσο όρο κάθε τρεις ώρες. Μεταξύ αυτών, περισσότερες από τις μισές αποτυχίες προκαλούνται από την κάρτα γραφικών ή τη μνήμη υψηλού εύρους ζώνης (HBM3).


Λόγω της μεγάλης κλίμακας του συστήματος και του υψηλού βαθμού συγχρονισμού των εργασιών, μια μεμονωμένη αστοχία κάρτας γραφικών μπορεί να προκαλέσει διακοπή ολόκληρης της εκπαιδευτικής εργασίας και ανάγκη επανεκκίνησης. Παρόλα αυτά,Η ομάδα Meta διατηρούσε ακόμα περισσότερο από το 90% του αποτελεσματικού χρόνου προπόνησης.

Η IT House παρατήρησε ότι κατά τη διάρκεια της προεκπαίδευσης 54 ημερών, σημειώθηκαν συνολικά 466 διακοπές εργασίας, εκ των οποίων οι 47 ήταν προγραμματισμένες διακοπές και οι 419 ήταν απροσδόκητες διακοπές. Οι προγραμματισμένες διακοπές οφείλονται σε αυτοματοποιημένη συντήρηση, ενώ οι μη προγραμματισμένες διακοπές οφείλονται κυρίως σε προβλήματα υλικού.Τα προβλήματα GPU είναι η κύρια αιτία βλαβών, καθώς αντιπροσωπεύουν το 58,7% των απρογραμμάτιστων διακοπών . Μόνο τρία από τα περιστατικά χρειάστηκαν σημαντική ανθρώπινη παρέμβαση, με τα υπόλοιπα να διαχειρίζονται με αυτοματισμό.


Από τις 419 απροσδόκητες διακοπές, οι 148 (30,1%) προκλήθηκαν από διάφορες βλάβες της GPU (συμπεριλαμβανομένων των αστοχιών NVLink), ενώ οι 72 (17,2%) προκλήθηκαν από βλάβες στη μνήμη HBM3 της GPU. Είναι ενδιαφέρον ότι μόνο δύο CPU απέτυχαν σε 54 ημέρες. Το 41,3% των απρογραμμάτιστων διακοπών προκαλούνται από διάφορους παράγοντες, όπως σφάλματα λογισμικού, καλώδια δικτύου και προσαρμογείς δικτύου.

Για να βελτιώσει την αποτελεσματικότητα, η ομάδα Meta έχει αναπτύξει μια σειρά εργαλείων και στρατηγικών βελτιστοποίησης, συμπεριλαμβανομένης της μείωσης των χρόνων εκκίνησης και των σημείων ελέγχου της αποστολής, χρησιμοποιώντας το καταγραφικό πτήσης NCCL της PyTorch για τη διάγνωση προβλημάτων απόδοσης, τον εντοπισμό καθυστερημένων καρτών γραφικών κ.λπ. Επιπλέον, η Meta έδωσε επίσης προσοχή στον αντίκτυπο των περιβαλλοντικών παραγόντων, όπως ο ελαφρύς αντίκτυπος των μεσημεριανών διακυμάνσεων της θερμοκρασίας στην απόδοση της GPU και η τεράστια πίεση στο ηλεκτρικό δίκτυο του κέντρου δεδομένων που προκαλείται από την ταυτόχρονη λειτουργία μεγάλου αριθμού GPU.

Ωστόσο, καθώς ο αριθμός των παραμέτρων των μοντέλων τεχνητής νοημοσύνης συνεχίζει να αυξάνεται, επεκτείνονται και οι απαιτούμενοι υπολογιστικοί πόροι. Λαμβάνοντας ως παράδειγμα το σύμπλεγμα καρτών γραφικών 100.000 H100 στο σχέδιο xAI, το ποσοστό αποτυχίας μπορεί να αυξηθεί εκθετικά, θέτοντας μεγαλύτερες προκλήσεις στη μελλοντική εκπαίδευση τεχνητής νοημοσύνης.