Η Nvidia παίζει με το κλάδεμα και την απόσταξη: μειώνοντας στο μισό τις παραμέτρους του Llama 3.1 8B και επιτυγχάνοντας καλύτερη απόδοση με το ίδιο size

Η Nvidia παίζει με το κλάδεμα και την απόσταξη: κόβοντας τις παραμέτρους Llama 3.1 8B στη μέση για καλύτερη απόδοση με το ίδιο μέγεθος

2024-08-16

Αναφορά Machine Heart

Συντάκτες: Du Wei, Chen Chen, Zenan

Η άνοδος των μικρών μοντέλων.

Τον περασμένο μήνα, η Meta κυκλοφόρησε τη σειρά μοντέλων Llama 3.1, η οποία περιλαμβάνει το μεγαλύτερο μοντέλο 405B της Meta μέχρι σήμερα, καθώς και δύο μικρότερα μοντέλα με 70 δισεκατομμύρια και 8 δισεκατομμύρια παραμέτρους αντίστοιχα.

Το Llama 3.1 θεωρείται ότι εισάγει μια νέα εποχή ανοιχτού κώδικα. Ωστόσο, αν και τα μοντέλα νέας γενιάς είναι ισχυρά σε απόδοση, εξακολουθούν να απαιτούν μεγάλο όγκο υπολογιστικών πόρων όταν αναπτύσσονται.

Ως εκ τούτου, μια άλλη τάση έχει εμφανιστεί στον κλάδο, η οποία είναι η ανάπτυξη μοντέλων μικρών γλωσσών (SLM) που αποδίδουν αρκετά καλά σε πολλές γλωσσικές εργασίες και είναι επίσης πολύ φθηνά στην ανάπτυξη.

Πρόσφατα, η έρευνα της NVIDIA έδειξε ότι το δομημένο κλάδεμα βάρους σε συνδυασμό με την απόσταξη γνώσης μπορεί σταδιακά να αποκτήσει μικρότερα μοντέλα γλώσσας από ένα αρχικά μεγαλύτερο μοντέλο.

Ο Yann LeCun, νικητής του βραβείου Turing και επικεφαλής επιστήμονας τεχνητής νοημοσύνης της Meta, άρεσε επίσης και αναδημοσίευσε τη μελέτη.

Μετά το κλάδεμα και την απόσταξη, η ερευνητική ομάδα της NVIDIA βελτίωσε το Llama 3.1 8B σε Llama-3.1-Minitron 4B και το έκανε ανοιχτού κώδικα. Αυτή είναι η πρώτη δουλειά της NVIDIA στη σειρά ανοιχτού κώδικα Llama 3.1.

Το Llama-3.1-Minitron 4B ξεπερνά τα υπερσύγχρονα μοντέλα ανοιχτού κώδικα παρόμοιου μεγέθους, συμπεριλαμβανομένων των Minitron 4B, Phi-2 2.7B, Gemma2 2.6B και Qwen2-1.5B.

Το έγγραφο που σχετίζεται με αυτήν την έρευνα κυκλοφόρησε ήδη τον περασμένο μήνα.

Σύνδεσμος χαρτιού: https://www.arxiv.org/pdf/2407.14679
Τίτλος εργασίας: Compact Language Models via Pruning and Knowledge Distillation

κλάδεμα και απόσταξη

Το κλάδεμα κάνει το μοντέλο μικρότερο και πιο αδύνατο και μπορεί να επιτευχθεί αφαιρώντας στρώματα (κλάδεμα βάθους) ή αφαιρώντας νευρώνες και κεφαλές προσοχής και ενσωματώνοντας κανάλια (κλάδεμα πλάτους). Το κλάδεμα συνήθως συνοδεύεται από κάποιο βαθμό επανεκπαίδευσης για την αποκατάσταση της ακρίβειας.

Η απόσταξη μοντέλων είναι μια τεχνική για τη μεταφορά γνώσης από ένα μεγάλο, πολύπλοκο μοντέλο (συχνά αποκαλούμενο μοντέλο δασκάλου) σε ένα μικρότερο, απλούστερο μοντέλο μαθητή. Ο στόχος είναι να δημιουργηθεί ένα πιο αποτελεσματικό μοντέλο που να διατηρεί μεγάλο μέρος της προγνωστικής ισχύος του αρχικού μεγαλύτερου μοντέλου ενώ λειτουργεί πιο γρήγορα και καταναλώνει λιγότερους πόρους.

Υπάρχουν δύο κύριες μέθοδοι απόσταξης: η λεπτομέρεια SDG και η κλασική απόσταξη γνώσης. Αυτό το άρθρο εστιάζει στις κλασικές μεθόδους απόσταξης γνώσης.

Η NVIDIA κατασκευάζει μεγάλα μοντέλα συνδυάζοντας το κλάδεμα με την κλασική απόσταξη γνώσης Το παρακάτω σχήμα δείχνει τη διαδικασία κλαδέματος και απόσταξης ενός μόνο μοντέλου (πάνω) και την αλυσίδα κλαδέματος και απόσταξης μοντέλων (κάτω). Η συγκεκριμένη διαδικασία έχει ως εξής:

1. Η NVIDIA ξεκινά με ένα μοντέλο 15Β, αξιολογεί τη σημασία κάθε στοιχείου (επίπεδα, νευρώνες, κεφαλές και ενσωματωμένα κανάλια), στη συνέχεια ταξινομεί και κλαδεύει το μοντέλο στο μέγεθος-στόχο: μοντέλο 8Β.

2. Στη συνέχεια χρησιμοποιήστε μοντέλο απόσταξης για ελαφριά επανεκπαίδευση, με το αρχικό μοντέλο ως δάσκαλο και το κλαδευμένο μοντέλο ως μαθητή.

3. Μετά την προπόνηση, χρησιμοποιήστε το μικρό μοντέλο (8B) ως σημείο εκκίνησης, κλαδέψτε το και αποστάξτε το σε ένα μικρότερο μοντέλο 4Β.

Η διαδικασία κλαδέματος και απόσταξης από το μοντέλο 15Β.

Ένα πράγμα που πρέπει να σημειώσετε είναι ότι πριν κλαδέψετε το μοντέλο, πρέπει να καταλάβετε ποια μέρη του μοντέλου είναι σημαντικά. Η NVIDIA προτείνει μια στρατηγική αξιολόγησης καθαρής σημασίας βασισμένη στην ενεργοποίηση που υπολογίζει ταυτόχρονα πληροφορίες σε όλες τις σχετικές διαστάσεις (βάθος, νευρώνας, κεφαλή και ενσωμάτωση καναλιών), χρησιμοποιώντας ένα μικρό σύνολο δεδομένων βαθμονόμησης 1024 δειγμάτων και απαιτείται μόνο διάδοση προς τα εμπρός. Αυτή η προσέγγιση είναι απλούστερη και πιο οικονομική από τις στρατηγικές που βασίζονται σε πληροφορίες gradient και απαιτούν backpropagation.

Κατά το κλάδεμα, εναλλάσσετε επαναλαμβανόμενα το κλάδεμα και την εκτίμηση της σημασίας για έναν δεδομένο άξονα ή συνδυασμό αξόνων. Εμπειρικές μελέτες δείχνουν ότι η χρήση μιας ενιαίας εκτίμησης σημασίας είναι επαρκής και ότι οι επαναληπτικές εκτιμήσεις δεν αποφέρουν πρόσθετα οφέλη.

Επανεκπαίδευση με απόσταξη κλασικής γνώσης

Το σχήμα 2 παρακάτω δείχνει τη διαδικασία απόσταξης, κατά την οποία το μοντέλο μαθητή N-layer (το κλαδευμένο μοντέλο) αποστάζεται από το μοντέλο δασκάλου M-layer (το αρχικό μη κλαδευμένο μοντέλο). Το μοντέλο μαθητή μαθαίνεται ελαχιστοποιώντας τον συνδυασμό ενσωμάτωσης απώλειας εξόδου, απώλειας logit και απώλειας ειδικής για τον κωδικοποιητή μετασχηματιστή που αντιστοιχίζεται στο μπλοκ μαθητή S και στο μπλοκ δασκάλου T.

Εικόνα 2: Απώλεια εκπαίδευσης κατά την απόσταξη.

Βέλτιστες πρακτικές κλαδέματος και απόσταξης

Βασισμένη σε εκτεταμένη έρευνα κατάλυσης για το κλάδεμα και την απόσταξη γνώσης σε μοντέλα συμπαγών γλωσσών, η NVIDIA συνοψίζει τα μαθησιακά της αποτελέσματα στις ακόλουθες βέλτιστες πρακτικές δομημένης συμπίεσης.

Το ένα αλλάζει μέγεθος.

Για να εκπαιδεύσετε ένα σύνολο LLM, το μεγαλύτερο εκπαιδεύεται πρώτα και στη συνέχεια κλαδεύεται και αποστάζεται επαναληπτικά για να ληφθούν μικρότερα LLM.
Εάν χρησιμοποιείται μια στρατηγική εκπαίδευσης πολλών σταδίων για την εκπαίδευση του μεγαλύτερου μοντέλου, είναι καλύτερο να κλαδέψετε και να επανεκπαιδεύσετε το μοντέλο που αποκτήθηκε στο τελευταίο στάδιο της εκπαίδευσης.
Κλαδέψτε το διαθέσιμο μοντέλο πηγής που βρίσκεται πιο κοντά στο μέγεθος στόχου.

Το δεύτερο είναι το κλάδεμα.

Δώστε προτεραιότητα στο κλάδεμα πλάτους σε σχέση με το κλάδεμα βάθους, το οποίο λειτουργεί καλά για μοντέλα κάτω από το μέγεθος παραμέτρων 15 Β.
Χρησιμοποιήστε εκτίμηση σπουδαιότητας μίας βολής, καθώς δεν υπάρχει κανένα όφελος από την επαναληπτική εκτίμηση σημασίας.

Το τρίτο είναι η επανεκπαίδευση.

Επανεκπαίδευση χρησιμοποιώντας μόνο απώλεια απόσταξης αντί για τακτική προπόνηση.
Όταν το βάθος μειώνεται σημαντικά, χρησιμοποιήστε logit, ενδιάμεσες καταστάσεις και ενσωματωμένη απόσταξη.
Όταν το βάθος δεν μειώνεται σημαντικά, χρησιμοποιείται απόσταξη μόνο logit.

Llama-3.1-Minitron: Εφαρμογή βέλτιστων πρακτικών στην πράξη

Η Meta κυκλοφόρησε πρόσφατα την ισχυρή οικογένεια μοντέλων ανοιχτού κώδικα Llama 3.1 που ανταγωνίζονται μοντέλα κλειστού κώδικα σε πολλά σημεία αναφοράς. Οι παράμετροι του Llama 3.1 κυμαίνονται από ένα τεράστιο 405B έως 70B και 8B.

Με την εμπειρία της απόσταξης Nemotron, η NVIDIA ξεκίνησε να αποστάξει το μοντέλο Llama 3.1 8B σε ένα μικρότερο και πιο αποτελεσματικό μοντέλο 4B, λαμβάνοντας τα ακόλουθα μέτρα:

Καθηγητής τελειοποίηση
Κλάδεμα μόνο σε βάθος
Κλάδεμα μόνο πλάτους
Σημείο αναφοράς ακρίβειας
Σημείο αναφοράς απόδοσης

Καθηγητής τελειοποίηση

Προκειμένου να διορθωθεί η μεροληψία διανομής του αρχικού συνόλου δεδομένων στο οποίο βασίστηκε η εκπαίδευση του μοντέλου, η NVIDIA πρώτα συντόνισε το μη κλαδευμένο μοντέλο 8Β στο σύνολο δεδομένων της (94B διακριτικά). Τα πειράματα δείχνουν ότι εάν η μεροληψία κατανομής δεν διορθωθεί, το μοντέλο δασκάλου παρέχει μη βέλτιστη καθοδήγηση για το σύνολο δεδομένων κατά την απόσταξη.

Κλάδεμα μόνο σε βάθος

Για να μειώσει από 8Β σε 4Β, η NVIDIA κλάδεψε 16 επίπεδα (50%). Αρχικά αξιολογούν τη σημασία κάθε επιπέδου ή ομάδας διαδοχικών υποστρωμάτων αφαιρώντας τα από το μοντέλο και παρατηρούν αύξηση της απώλειας LM ή μείωση της ακρίβειας σε εργασίες κατάντη.

Το σχήμα 5 παρακάτω δείχνει τις τιμές απώλειας LM στο σετ επικύρωσης μετά την αφαίρεση 1, 2, 8 ή 16 στρώσεων. Για παράδειγμα, η κόκκινη γραφική παράσταση του στρώματος 16 υποδεικνύει ότι η απώλεια LM συμβαίνει εάν διαγραφούν τα πρώτα 16 επίπεδα. Το στρώμα 17 σημαίνει ότι εάν το πρώτο στρώμα διατηρηθεί και τα στρώματα 2 έως 17 διαγραφούν, εμφανίζεται επίσης απώλεια LM. Η Nvidia παρατηρεί: Τα επίπεδα έναρξης και λήξης είναι τα πιο σημαντικά.

Εικόνα 5: Η σημασία του κλαδέματος μόνο σε βάθος των μεσαίων στρωμάτων.

Ωστόσο, η NVIDIA παρατηρεί ότι αυτή η απώλεια LM δεν σχετίζεται απαραίτητα άμεσα με την απόδοση κατάντη.

Το σχήμα 6 παρακάτω δείχνει την ακρίβεια Winogrande για κάθε κλαδευμένο μοντέλο. 0,5). Η Nvidia υιοθέτησε αυτό το insight και αφαίρεσε τα επίπεδα 16 έως 31.

Εικόνα 6: Ακρίβεια στην εργασία Winogrande όταν αφαιρούνται 16 επίπεδα.

Κλάδεμα μόνο πλάτους

Η NVIDIA κλαδεύει τις ενδιάμεσες διαστάσεις ενσωμάτωσης (κρυφές) και MLP κατά μήκος του άξονα πλάτους για να συμπιέσει το Llama 3.1 8B. Συγκεκριμένα, χρησιμοποιούν την προηγουμένως περιγραφείσα στρατηγική που βασίζεται στην ενεργοποίηση για να υπολογίσουν τους βαθμούς σπουδαιότητας για κάθε κεφαλή προσοχής, κανάλι ενσωμάτωσης και κρυφή διάσταση MLP.

Αφού εκτίμησε τη σημασία, η NVIDIA επέλεξε

Κλαδέψτε την ενδιάμεση διάσταση MLP από το 14336 στο 9216.
Κλαδέψτε κρυφό μέγεθος από 4096 έως 3072.
Επανεκπαιδεύστε τον αριθμό της κεφαλής της προσοχής και τον αριθμό των στρωμάτων.

Αξίζει να σημειωθεί ότι μετά το κλάδεμα ενός δείγματος, η απώλεια πλάτους LM είναι μεγαλύτερη από αυτή του κλαδέματος βάθους. Ωστόσο, μετά από μια σύντομη περίοδο επανεκπαίδευσης, η τάση αντιστράφηκε.

Σημείο αναφοράς ακρίβειας

Η NVIDIA αποστάζει το μοντέλο χρησιμοποιώντας τις ακόλουθες παραμέτρους

Μέγιστος ρυθμός μάθησης = 1e-4
Ελάχιστο ποσοστό μάθησης = 1e-5
Γραμμική προθέρμανση 40 βημάτων
σχήμα διάσπασης συνημιτόνου
Παγκόσμιο μέγεθος παρτίδας = 1152

Ο Πίνακας 1 παρακάτω δείχνει τη σύγκριση απόδοσης των παραλλαγών του μοντέλου Llama-3.1-Minitron 4B (κλάδεμα πλάτους και κλάδεμα βάθους) με το αρχικό μοντέλο Llama 3.1 8B και άλλα μοντέλα παρόμοιου μεγέθους σε σημεία αναφοράς σε πολλούς τομείς. Συνολικά, η NVIDIA επιβεβαίωσε για άλλη μια φορά την αποτελεσματικότητα μιας ευρείας στρατηγικής κλαδέματος σε σύγκριση με το βαθύ κλάδεμα που ακολουθεί τις βέλτιστες πρακτικές.

Πίνακας 1: Σύγκριση ακρίβειας του βασικού μοντέλου Minitron 4B σε σύγκριση με βασικά μοντέλα παρόμοιου μεγέθους.

Προκειμένου να επαληθεύσει εάν το αποσταγμένο μοντέλο μπορεί να γίνει ένα ισχυρό μοντέλο εντολών, η NVIDIA χρησιμοποίησε το NeMo-Aligner για να τελειοποιήσει το μοντέλο Llama-3.1-Minitron 4B.

Χρησιμοποίησαν δεδομένα εκπαίδευσης Nemotron-4 340B και πραγματοποίησαν αξιολόγηση σε IFEval, MT-Bench, ChatRAG-Bench και Berkeley Function Calling Leaderboard (BFCL) για να δοκιμάσουν τις δυνατότητες παρακολούθησης εντολών, ρόλων, RAG και κλήσης λειτουργιών. Τέλος, επιβεβαιώθηκε ότι το μοντέλο Llama-3.1-Minitron 4B μπορεί να γίνει ένα αξιόπιστο μοντέλο οδηγιών και η απόδοσή του είναι καλύτερη από άλλα βασικά SLM.

Πίνακας 2: Σύγκριση ακρίβειας ευθυγραμμισμένων βασικών μοντέλων Minitron 4B με ευθυγραμμισμένα μοντέλα παρόμοιου μεγέθους.

Σημείο αναφοράς απόδοσης

Η NVIDIA βελτιστοποίησε τα μοντέλα Llama 3.1 8B και Llama-3.1-Minitron 4B χρησιμοποιώντας το NVIDIA TensorRT-LLM, μια εργαλειοθήκη ανοιχτού κώδικα για τη βελτιστοποίηση των συμπερασμάτων LLM.

Τα επόμενα δύο σχήματα δείχνουν τα αιτήματα διεκπεραίωσης ανά δευτερόλεπτο σε ακρίβεια FP8 και FP16 για διαφορετικά μοντέλα σε διαφορετικές περιπτώσεις χρήσης, εκφρασμένα ως συνδυασμός μήκους ακολουθίας εισόδου/μήκους ακολουθίας εξόδου (ISL/OSL) με μέγεθος παρτίδας 32 για το μοντέλο 8Β και το μοντέλο 4Β Το μέγεθος παρτίδας είναι ένας συνδυασμός μήκους ακολουθίας/μήκους ακολουθίας εξόδου (ISL/OSL) 64, χάρη στα μικρότερα βάρη που επιτρέπουν μεγαλύτερο μέγεθος παρτίδας σε μια GPU NVIDIA H100 80 GB.

Η παραλλαγή Llama-3.1-Minitron-4B-Depth-Base είναι η ταχύτερη, με μέση απόδοση περίπου 2,7 φορές αυτή του Llama 3.1 8B, ενώ η παραλλαγή Llama-3.1-Minitron-4B-Width-Base έχει μέση απόδοση ίση με περίπου Llama 3.1 1.8x 8B. Η ανάπτυξη στο FP8 βελτιώνει επίσης την απόδοση αυτών των τριών μοντέλων κατά περίπου 1,3 φορές σε σύγκριση με το BF16.

Εικόνα 8: Συνδυασμός: Llama 3.1 8B σε BS=32, Llama-3.1-Minitron 4B μοντέλο σε BS=64 1x H100 80GB.

εν κατακλείδι

Το κλάδεμα και η κλασική διύλιση γνώσης είναι μια πολύ οικονομική μέθοδος για τη σταδιακή απόκτηση LLM μικρότερων μεγεθών, επιτυγχάνοντας μεγαλύτερη ακρίβεια από την εκπαίδευση από την αρχή σε όλους τους τομείς. Αυτή είναι μια πιο αποτελεσματική και αποδοτική ως προς τα δεδομένα προσέγγιση από τη λεπτομερή ρύθμιση σε συνθετικά δεδομένα ή την προεκπαίδευση από την αρχή.

Το Llama-3.1-Minitron 4B είναι η πρώτη προσπάθεια της NVIDIA να χρησιμοποιήσει την πιο προηγμένη σειρά ανοιχτού κώδικα Llama 3.1. Για να χρησιμοποιήσετε τη βελτίωση του SDG του Llama-3.1 με το NVIDIA NeMo, ανατρέξτε στην ενότητα /sdg-law-title-generation στο GitHub.

Για περισσότερες πληροφορίες, ανατρέξτε στους ακόλουθους πόρους:

https://arxiv.org/abs/2407.14679
https://github.com/NVlabs/Minitron
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

νέα

Η Nvidia παίζει με το κλάδεμα και την απόσταξη: κόβοντας τις παραμέτρους Llama 3.1 8B στη μέση για καλύτερη απόδοση με το ίδιο μέγεθος

Εισαγωγή

Τα στοιχεία επικοινωνίας μου