η κίνηση εκπαίδευσης llm είναι 10.000 φορές λιγότερη! νέος κατανεμημένος βελτιστοποιητής, που ενσωματώνει την παγκόσμια υπολογιστική ισχύ για την εκπαίδευση ισχυρών ai

η κίνηση εκπαίδευσης llm είναι 10.000 φορές λιγότερη! ένας νέος κατανεμημένος βελτιστοποιητής, που ενσωματώνει την παγκόσμια υπολογιστική ισχύ για την εκπαίδευση ισχυρής τεχνητής νοημοσύνης

2024-09-10

νέα έκθεση σοφίας

επιμέλεια: alan

[εισαγωγή στη νέα σοφία]πρόσφατα, η nous research ανακοίνωσε μια σημαντική ανακάλυψη χρησιμοποιώντας έναν κατανεμημένο βελτιστοποιητή ανεξάρτητα από την αρχιτεκτονική και το δίκτυο, οι ερευνητές μείωσαν με επιτυχία τον όγκο επικοινωνίας μεταξύ των gpu κατά την εκπαίδευση του llm κατά 1.000 έως 10.000 φορές.

τι θα γινόταν αν όλη η υπολογιστική ισχύς στον κόσμο μπορούσε να χρησιμοποιηθεί για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης;

πρόσφατα, η nous research, η οποία προσέλκυσε ευρεία προσοχή με την κυκλοφορία του ανοιχτού κώδικα hermes 3 (βασισμένο στο llama 3.1), ανακοίνωσε για άλλη μια φορά μια σημαντική ανακάλυψη - distro (διανεμημένη εκπαίδευση διαδικτύου).

χρησιμοποιώντας έναν κατανεμημένο βελτιστοποιητή ανεξάρτητο από την αρχιτεκτονική και το δίκτυο, οι ερευνητές μείωσαν με επιτυχία την επικοινωνία μεταξύ gpu κατά 1.000 έως 10.000 φορές κατά την εκπαίδευση llm!

με τέτοιες υπερβολικές βελτιώσεις, το σημαντικό κόστος και το σημείο συμφόρησης της εκπαίδευσης μεγάλων μοντέλων - εύρος ζώνης, δεν είναι πλέον πρόβλημα.

χρησιμοποιώντας τη μέθοδο του distro, μπορείτε να διανείμετε το φόρτο εκπαίδευσης στο διαδίκτυο και ολόκληρος ο διαδικτυακός κόσμος γίνεται ένα τεράστιο ετερογενές σύμπλεγμα διακομιστών τεχνητής νοημοσύνης.

——οποιαδήποτε συσκευή με σχετική υπολογιστική ισχύ μπορεί να συμμετάσχει στη διαδικασία εκπαίδευσης.

τα πειράματα έχουν αποδείξει ότι η μέθοδος σε αυτό το άρθρο βασικά δεν προκαλεί μείωση στην απόδοση του μοντέλου. ταυτόχρονα, το distro-adamw είναι ισοδύναμο με το τυπικό adamw+all-reduce όσον αφορά την ταχύτητα σύγκλισης.

διανεμημένη εκπαίδευση στο διαδίκτυο

σε γενικές γραμμές, η εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας περιλαμβάνει σημαντικά έξοδα επικοινωνίας.

για παράδειγμα, όταν γίνεται ο παραλληλισμός δεδομένων, υπολογίζονται διαφορετικά δεδομένα εκπαίδευσης προς τα εμπρός και προς τα πίσω σε διαφορετικό υλικό (κάρτες γραφικών, κ.λπ.). στη συνέχεια, οι διαβαθμίσεις που υπολογίζονται από την ίδια παρτίδα δεδομένων πρέπει να συγχρονιστούν μεταξύ των καρτών γραφικών. επόμενο βήμα.

εάν το μοντέλο είναι παράλληλο, τα ενδιάμεσα δεδομένα πρέπει να συνδυάζονται ή να συσσωρεύονται μέσω του all-reduce.

εάν αυτά τα γενικά έξοδα επικοινωνίας δεδομένων δεν μπορούν να επικαλυφθούν, θα αποτελέσουν εμπόδιο στην εκπαίδευση μοντέλων.

όπως συμβαίνει, η μνήμη βίντεο και το εύρος ζώνης του laohuang είναι πολύ ακριβά, ενώ ακόμη και το υλικό που απαιτείται κατά τη ρύθμιση πολλών καρτών είναι επίσης πολύ ακριβό.

για να λύσουν αυτό το πρόβλημα, οι ερευνητές ανέπτυξαν το distro, το οποίο μειώνει τις απαιτήσεις επικοινωνίας μεταξύ gpu κατά τέσσερις έως πέντε τάξεις μεγέθους χωρίς να βασίζεται σε αποσβεσμένη ανάλυση, επιτρέποντας την εκπαίδευση σε χαμηλή καθυστέρηση μεγάλων νευρωνικών δικτύων σε αργά δίκτυα.

το distro είναι γενικό, κλιμακούμενο και συγχρονισμένο με το ρολόι (παρόμοιο με το sgd, το adam κ.λπ., κάθε βήμα εκπαίδευσης χρησιμοποιεί τις ίδιες αριθμητικές πράξεις και διαρκεί τον ίδιο χρόνο).

επιπλέον, σε σύγκριση με προηγούμενα ad-hoc βελτιστοποιητές χαμηλής επικοινωνίας, το distro δεν είναι ευαίσθητο στην τοπολογία των τηλεπικοινωνιακών δικτύων και στην αρχιτεκτονική νευρωνικών δικτύων και μπορεί να υποστηρίξει εγγενώς την παράλληλη εκπαίδευση κατανεμημένων δεδομένων (ddp) με ελάχιστη επιβάρυνση.

προεκπαίδευση llm

οι ερευνητές χρησιμοποίησαν το nanotron ως το πλαίσιο προεκπαίδευσης και έτρεχαν μόνο βάσει της στρατηγικής ddp (κάθε gpu φορτώνει ολόκληρο το μοντέλο σε vram).

το llm επιλέγει llama 2 μεγέθους 1,2b οι υπερπαράμετροι που χρησιμοποιούνται στο μοντέλο και στην εκπαίδευση είναι οι εξής:

τα δεδομένα εκπαίδευσης χρησιμοποιούν το σύνολο δεδομένων dolma v1.7 και το 10% αντιπροσωπευτικά δείγματα (τα πρώτα 105 b διακριτικά) επιλέγονται τυχαία.

ο βελτιστοποιητής χρησιμοποιεί adamw, β1=0,9, β2=0,95, ο μέγιστος ρυθμός εκμάθησης είναι 4×10e-4, χρησιμοποιείται το σχήμα διάσπασης συνημιτόνου και η μείωση βάρους ορίζεται στο 0,1.

ως ένα άλλο σύνολο πειραμάτων για σύγκριση, το adamw αντικαταστάθηκε με το distro-adamw χωρίς αλλαγή των υπερπαραμέτρων και απενεργοποίηση της λειτουργίας all-reduce στο nanotron.

σε αντίθεση με προηγούμενες κατανεμημένες μεθόδους εκπαίδευσης, το distro δεν συγχρονίζει την κατάσταση του βελτιστοποιητή (μπορεί να είναι ακόμη και χωρίς κατάσταση).

το παρακάτω σχήμα είναι η καμπύλη απώλειας προπόνησης δύο ομάδων πειραμάτων, χρησιμοποιώντας δεδομένα 105b για 25.000 βήματα. μπορεί να φανεί ότι η ικανότητα σύγκλισης του distro είναι η ίδια με αυτή του all-reduce.

είναι σημαντικό ότι το distro μείωσε άμεσα τον όγκο επικοινωνίας από 74,4 gb σε 86,8 mb χωρίς να επηρεάσει το αποτέλεσμα προπόνησης! αυτό ισοδυναμεί με 857 φορές μείωση της πίεσης του εύρους ζώνης.

ο συγγραφέας δήλωσε επίσης ότι αυτές οι 857 φορές είναι μόνο μια αρχική δοκιμή και δεν θα είναι πρόβλημα να προσαρμόσετε τις υπερπαραμέτρους αργότερα και να τις μειώσετε κατά 1000 φορές σε 3000 φορές.

εάν είναι μετά την προπόνηση και βελτιστοποίηση, μπορεί να επιτύχει έως και 10.000 φορές βελτιστοποίηση επικοινωνίας χωρίς να επηρεάζει βασικά το αποτέλεσμα της προπόνησης.

τέλος, για να επαληθεύσει το αποτέλεσμα εκπαίδευσης, ο συγγραφέας πραγματοποίησε τη δοκιμή αναφοράς μηδενικής βολής gpt4all στο εκπαιδευμένο μοντέλο και το συνέκρινε με το tinyllama (σημείο ελέγχου) που εκπαιδεύτηκε στον ίδιο αριθμό μάρκες.

τα αποτελέσματα φαίνονται στον παραπάνω πίνακα η αρχιτεκτονική και η διαδικασία εκπαίδευσης του tinyllama είναι πολύ παρόμοια με τα πειράματα σε αυτό το άρθρο και μπορούν να χρησιμοποιηθούν ως μέτρο για τον έλεγχο της λογικής των αποτελεσμάτων.

μελλοντικές εφαρμογές

ροή δεδομένων

στο σενάριο αυτού του πειράματος, 32 κόμβοι χρησιμοποιούν την απλούστερη all-reduce (πλήρης σύνδεση) και κάθε κόμβος εκπέμπει κατά μέσο όρο 86,8mb (2,8mb×31) και λαμβάνει τον ίδιο όγκο δεδομένων.

εάν χρησιμοποιείται ένας αποκλειστικός διακομιστής για τη συγκέντρωση δεδομένων, κάθε κόμβος χρειάζεται μόνο να ανεβάσει 2,8 mb δεδομένων (τα δεδομένα που λαμβάνονται παραμένουν αμετάβλητα) και ο όγκος επικοινωνίας μειώνεται περαιτέρω.

επιπλέον, η ασυμμετρία είναι πλεονεκτική επειδή το εύρος ζώνης των περισσότερων καταναλωτικών διαδικτύου είναι πολύ παραμορφωμένο προς υψηλότερες ταχύτητες λήψης.

υποθέτοντας ότι η σταθερή ταχύτητα του δικτύου είναι 100 mbps λήψης και 10 mbps μεταφόρτωσης, η καθυστέρηση στη χειρότερη περίπτωση είναι μόνο 6,94 δευτερόλεπτα για τη λήψη και 2,24 δευτερόλεπτα για τη μεταφόρτωση, η καθυστέρηση για κάθε βήμα είναι 6,94 δευτερόλεπτα.

ps: η παραπάνω μετάδοση δεδομένων είναι εξ ολοκλήρου πρωτότυπη διάνυσμα και μπορεί να είναι πιο γρήγορη εάν χρησιμοποιηθεί τεχνολογία συμπίεσης.

εύρος ζώνης

οι συγγραφείς δήλωσαν ότι τα τρέχοντα πειράματα και η έρευνα είναι σχετικά περιορισμένα και είναι αδύνατο να συμπεράνουμε εάν ο ρυθμός μείωσης του εύρους ζώνης θα αυξηθεί, θα μειωθεί ή θα παραμείνει ο ίδιος καθώς το μοντέλο γίνεται μεγαλύτερο.

ωστόσο, το τρέχον 1.2b φαίνεται να είναι το ελάχιστο μέγεθος στο οποίο το distro μπορεί να λειτουργήσει καλά (όσο μικρό κι αν είναι, δεν θα συγκλίνει), επομένως μπορεί να υποτεθεί ότι καθώς αυξάνεται το μέγεθος του μοντέλου, σχετικά λιγότερη και λιγότερη επικοινωνία θα απαιτείται.

ωστόσο, είναι επίσης πιθανό ότι ο όγκος της επικοινωνίας δεν σχετίζεται με το μέγεθος του μοντέλου.

εάν το τελευταίο σενάριο ισχύει, τότε το παράδειγμα του μελλοντικού σχεδιασμού και κατασκευής gpu θα αλλάξει (μεγαλύτερη vram και μικρότερο εύρος ζώνης).

τυχαίνει να προτιμάμε επίσης φόρτους εργασίας με ένταση υπολογιστών (σε αντίθεση με την ένταση i/o), καθώς το εύρος ζώνης είναι πολύ πιο ακριβό από τον υπολογισμό στις μέρες μας.

ομοσπονδιακή μάθηση

εκτός από την εκπαίδευση llm, σε τι άλλο μπορεί να χρησιμοποιηθεί το distro;

η κατανεμημένη εκπαίδευση στο διαδίκτυο κάνει τους ανθρώπους να σκεφτούν αμέσως την ομοσπονδιακή μάθηση.

ενώ επιτρέπεται η μοντελοποιημένη συλλογική εκπαίδευση, η διατήρηση του απορρήτου και η αποκέντρωση των δεδομένων κάθε συμμετέχοντα γίνεται όλο και πιο σημαντική τώρα που το llm ελέγχεται από μεγάλες εταιρείες.

μέχρι τώρα, η ομοσπονδιακή μάθηση δεν είχε αποτελεσματικές μεθόδους για την εκπαίδευση μεγάλων μοντέλων σε περιορισμένο εύρος ζώνης διαδικτύου.

το distro δεν έχει απαιτήσεις σχετικά με τον τρόπο επεξεργασίας δεδομένων ή διανομής δεδομένων σε μεμονωμένους κόμβους gpu και μπορεί να είναι ανιθαγενής (παρόμοιο με τον ομοσπονδιακό μέσο όρο), επομένως είναι κατάλληλο για το μέλλον της ομοσπονδιακής μάθησης.

εικονικό ετερογενές σύμπλεγμα gpu

επιπλέον, το distro μπορεί να δημιουργήσει ένα πλήρως αποκεντρωμένο και χωρίς άδεια δίκτυο για συνεργασία και κοινή χρήση πόρων.

τα πειράματα δείχνουν ότι το distro είναι σημαντικά ανθεκτικό σε έναν μικρό αριθμό κόμβων που υποβαθμίζονται ή απορρίπτονται κατά τη διάρκεια της εκπαίδευσης και μπορεί εύκολα να προσαρμοστεί στην προσθήκη νέων κόμβων.

με την ευλογία αυτής της δυνατότητας, αφενός, μπορεί να διασφαλίσει την ασφάλεια ολόκληρου του συστήματος και να μειώσει τον κίνδυνο μη αξιόπιστων κόμβων που χρησιμοποιούν αντίθετες επιθέσεις για να διαταράξουν τις λειτουργίες.

από την άλλη πλευρά, τα ιδρύματα και τα άτομα μπορούν επίσης να ενθαρρυνθούν να συνεισφέρουν ευέλικτα τους δικούς τους υπολογιστικούς πόρους και να απελευθερώσουν πιθανή υπολογιστική ισχύ.

ακόμη και μερικές παλιές κάρτες με ανεπαρκή μνήμη ή υπολογιστική ισχύ μπορούν να ενωθούν για να κερδίσουν επιπλέον χρήματα, χρησιμοποιώντας στρατηγικές όπως το fsdp και το swarm parallelism για να δουλέψουν με το distro.

ενέργεια

περαιτέρω μεγάλης κλίμακας εφαρμογή του distro μπορεί να μειώσει την κατανάλωση ενέργειας, το κόστος των υποδομών και τα ζητήματα που σχετίζονται με τη χρήση γης που προκαλούνται από την κατασκευή μεγάλων κέντρων δεδομένων.

το έργο llama 3.1 απαιτούσε την κατασκευή δύο μεγάλων μονολιθικών υπερσυστάδων, που το καθένα περιείχε 24.000 gpu h100, και η διαδικασία εκπαίδευσης από μόνη της παρήγαγε το ισοδύναμο των 11.000 τόνων εκπομπών co2.

στο σημερινό llm, εκτός από την αύξηση του μεγέθους των παραμέτρων του μοντέλου, αυξάνεται επίσης ο όγκος των δεδομένων εκπαίδευσης, με αποτέλεσμα τα κέντρα δεδομένων που σχετίζονται με την τεχνητή νοημοσύνη να φτάσουν στα όρια των σύγχρονων δικτύων ισχύος.

το distro μπορεί να χρησιμοποιηθεί για την προσαρμοστική εξισορρόπηση πολλαπλών μικρών αρθρωτών κέντρων δεδομένων χρησιμοποιώντας πλεονάζουσα χωρητικότητα, αξιοποιώντας την υπάρχουσα υποδομή μέσω τεχνολογίας εκπαίδευσης δυναμικής εξισορρόπησης για τη μείωση των αρνητικών επιπτώσεων της εκπαίδευσης στο περιβάλλον.

προς το παρόν, η θεωρία πίσω από το distro χρειάζεται ακόμη περαιτέρω διερεύνηση, και πιο αυστηρές και λεπτομερείς ακαδημαϊκές εργασίες και πλήρεις κώδικες θα κυκλοφορήσουν στο μέλλον.

νέα

νέα έκθεση σοφίας

προεκπαίδευση llm

εισαγωγή

τα στοιχεία επικοινωνίας μου