Ενεργοποιούνται μόνο 3,8Β παράμετροι και η απόδοση είναι συγκρίσιμη με το ίδιο μοντέλο 7Β! Η τελειοποίηση της εκπαίδευσης μπορεί να χρησιμοποιηθεί από το Microsoft

Ενεργοποιούνται μόνο 3,8Β παράμετροι και η απόδοση είναι συγκρίσιμη με το ίδιο μοντέλο 7Β!Η μικρορύθμιση της εκπαίδευσης μπορεί να χρησιμοποιηθεί από τη Microsoft

2024-07-18

Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Μόνο το 60% των παραμέτρων χρειάζεται να ενεργοποιηθεί, μπορεί να επιτύχει απόδοση συγκρίσιμη με το πλήρως ενεργοποιημένο πυκνό μοντέλο.

Μια νέα μελέτη από τη Microsoft Research Asia εφαρμόζει το μοντέλοΕντελώς αραιή ενεργοποίηση, μειώνοντας σημαντικά το κόστος συλλογιστικής.

Και έχει ένα ευρύ φάσμα εφαρμογών, είτε πρόκειται για εκπαίδευση από το μηδέν, για συνεχή εκπαίδευση ή για τελειοποίηση, μπορεί να προσφέρει αποτελεσματική υποστήριξη.

Η μέθοδος ονομάζεταιQ-Sparse, επιτυγχάνει την αραιότητα του μοντέλου σε επίπεδο νευρώνων και είναι πιο κοκκώδης από άλλες μεθόδους Υπό το ίδιο γενικό κόστος, τόσο η απόδοση όσο και ο ρυθμός αραιότητας είναι καλύτερες.

Στο όνομα, το Q αναφέρεται στο Quantization, που σημαίνει ότι εκτός από τα συνηθισμένα μοντέλα, επίσηςΣυμβατό με τεχνικές ποσοτικοποίησης, κατάλληλο για μοντέλα διαφόρων μεθόδων ποσοτικοποίησης.

Ο συγγραφέας δήλωσε περαιτέρω ότι εάν το Q-Sparse συνδυαστεί με την τεχνολογία ποσοτικοποίησης μοντέλων, μπορεί να επιτευχθεί μεγαλύτερη μείωση του κόστους και βελτίωση της απόδοσης.

Επιπλέον, ενώ μελετούσε το Q-Sparse, η ομάδα διεξήγαγε επίσης μια εις βάθος εξερεύνηση της σχέσης μεταξύ του μεγέθους της παραμέτρου, του ρυθμού αραιότητας και της απόδοσης του μοντέλου και ανακάλυψε«Νόμος κλιμάκωσης» για βελτιστοποίηση συμπερασμάτων μοντέλων。

Μερικοί χρήστες του Διαδικτύου πιστεύουν ότι αυτή η τεχνολογία είναι πράγματι καλή και καλύτερη από τη ReLU.

Άλλοι ενεργοποίησαν τη λειτουργία ευχών, λέγοντας ότι θα ήταν υπέροχο εάν το ROCm (της AMD) μπορούσε να υποστηρίξει αυτήν την τεχνολογία πιο γρήγορα από τη Nvidia.

Εφαρμογή αραιοποίησης χρησιμοποιώντας τη λειτουργία Top-K

Η βασική λειτουργία που εκτελείται από την Q-Sparse είναιΕφαρμόστε τη συνάρτηση αραιοποίησης Top-K στον τανυστή εισόδου。

Συγκεκριμένα, η αρχιτεκτονική του Transformer χρησιμοποιεί nn. Γραμμικά γραμμικά επίπεδα (πολλαπλασιασμός μήτρας) για προβολή τόσο στο επίπεδο προσοχής όσο και στο επίπεδο τροφοδοσίας, το οποίο μπορεί να εκφραστεί ως Y=X·W^T. (όπου X είναι ο τανυστής εισόδου, το W αντιπροσωπεύει το βάρος του και το Y είναι ο τανυστής εξόδου)

Στο Q-Sparse, για έναν τανυστή ενεργοποίησης εισόδου X, πρώτα υπολογίζεται και ταξινομείται η απόλυτη τιμή του |X|.Βρείτε τα στοιχεία Κ με τη μεγαλύτερη απόλυτη τιμή μεταξύ τους。

K εδώ είναι μια προκαθορισμένη υπερπαράμετρος που καθορίζει τον βαθμό αραιότητας.

Το Q-Sparse θα δημιουργήσει έναν δυαδικό τανυστή μάσκας M με το ίδιο σχήμα με το X. Για τις θέσεις που αντιστοιχούν στα στοιχεία K με τις μεγαλύτερες απόλυτες τιμές σε μια σειρά είναι 0.

Στη συνέχεια, εκτελέστε τη λειτουργία γινομένου Hadamard (πολλαπλασιασμός βάσει στοιχείων) στον τανυστή εισόδου X και στον τανυστή μάσκας M για να λάβετε τον αραιό τανυστή.X_αραιό。

Κατά τη διαδικασία διάδοσης προς τα εμπρός, ο αραιός τανυστής X_sparse θα αντικαταστήσει τον αρχικό τανυστή εισόδου X για να συμμετάσχει σε επόμενους υπολογισμούς (όπως ο πολλαπλασιασμός πίνακα).

Δεδομένου ότι τα περισσότερα στοιχεία στο X_sparse έχουν μηδενιστεί, ο όγκος των απαιτήσεων υπολογισμού και εύρους ζώνης μνήμης μπορεί να μειωθεί σημαντικά.

Κατά την οπίσθια διάδοση, το Q-Sparse χρησιμοποιείεκτιμητής διέλευσης(Straight-Through Estimator, STE) για τον υπολογισμό της διαβάθμισης της συνάρτησης Top-K.

Στις παραδοσιακές μεθόδους εκπαίδευσης, είναι συνήθως απαραίτητος ο υπολογισμός της κλίσης της συνάρτησης απώλειας στις παραμέτρους του δικτύου και η χρήση της μεθόδου gradient descent για την ενημέρωση των παραμέτρων για την ελαχιστοποίηση της απώλειας.

Ωστόσο, όταν υπάρχουν κάποιες μη διαφοροποιήσιμες πράξεις, όπως η κβαντοποίηση και το Top-K στο δίκτυο, ο υπολογισμός της διαβάθμισης θα αντιμετωπίσει προβλήματα, επειδή η κλίση εξόδου αυτών των πράξεων προς την είσοδο είναι 0 στα περισσότερα σημεία, με αποτέλεσμα την αδυναμία για να διαδοθεί αποτελεσματικά η κλίση.

Το STE αποφεύγει το πρόβλημα της κλίσης εξαφάνισης περνώντας απευθείας τη διαβάθμιση στον τανυστή πριν από την αραίωση.

Στη γενική οπίσθια διάδοση, η κλίση της συνάρτησης απώλειας L προς x είναι ∂L/∂x=∂L/∂y⋅∂y/∂x, αλλά δεν μπορεί να υπολογιστεί άμεσα επειδή δεν είναι διαφοροποιήσιμη.

Η λύση του STE είναι να υπολογίσει μόνο τη διαβάθμιση της συνάρτησης απώλειας στον αραιό τανυστή y και στη συνέχεια να την αντιγράψει απευθείας στον αρχικό τανυστή x, δηλαδή να χρησιμοποιήσει απευθείας το ∂L/∂y ως εκτίμηση του ∂L/∂x.

△Σύγκριση κλίσης με/χωρίς STE

Για το επίπεδο προώθησης, το Q-Sparse χρησιμοποιείΤετράγωνη λειτουργία ReLUΑντί για τη συμβατική λειτουργία ενεργοποίησης ReLU, η λειτουργία τετραγώνου μπορεί να βελτιώσει περαιτέρω την αραιότητα της ενεργοποίησης (⊙ αντιπροσωπεύει το προϊόν Hadamard).

Επιπλέον, για να προσαρμοστεί στο μοντέλο κβαντοποίησης, το Q-Sparse θα κβαντίσει πρώτα τον τανυστή εισόδου πριν εφαρμόσει την αραιότητα Top-K για να διασφαλίσει ότι η λειτουργία αραιότητας είναι συμβατή με την αναπαράσταση κβαντοποίησης.

Μεταξύ αυτών, το ε είναι μια μικρή σταθερά που χρησιμοποιείται για να αποφευχθεί το μηδέν του παρονομαστή.

Συγκεκριμένα, για κβαντισμένα βάρη 1 bit, το Q-Sparse χρησιμοποιεί την ακόλουθη συνάρτηση κβαντισμού, όπου α είναι η μέση απόλυτη τιμή του τανυστή βάρους W.

Οι παράμετροι ενεργοποίησης 60% επιτυγχάνουν το ίδιο αποτέλεσμα

Συγκριτικά πειράματα δείχνουν ότι το Q-Sparse είναι σημαντικά καλύτερο από την προηγούμενη μέθοδο ReLU όσον αφορά το ποσοστό αραιότητας και την απόδοση του μοντέλου.

Όσον αφορά τα συγκεκριμένα αποτελέσματα του Q-Sparse, ο συγγραφέας αξιολόγησε την απόδοσή του σε τρεις εργασίες: προπόνηση με γρατσουνιές, συνεχής προπόνηση και τελειοποίηση.

Τρένο από την αρχήΤο μοντέλο που χρησιμοποιήθηκε στο πείραμα είναι το Llama. Τα αποτελέσματα δείχνουν ότι στα μοντέλα 700M και 7B, το Q-Sparse χρησιμοποιώντας το 70% top-K (δηλαδή το 40% του συνολικού ποσοστού αραιότητας) μπορεί να επιτύχει απώλεια προπόνησης συγκρίσιμη με την πυκνή. γραμμή βάσης.

συνεχίσει την προπόνησηΟ σκοπός είναι να αραιωθεί το πυκνό μοντέλο και το πειραματικό αντικείμενο εδώ είναι το Mistral-7B.

Ως αποτέλεσμα, όταν οι παράμετροι ενεργοποίησης ήταν 2,9B και 3,8B, οι βαθμολογίες του μοντέλου σε ARC, MMLU και άλλα σύνολα δεδομένων δεν μειώθηκαν σημαντικά.

υπάρχειτελειοποίησηΣτο πείραμα, τόσο για τα μοντέλα Qwen-7B όσο και για τα μοντέλα Mistral-7B, το Q-Sparse έδειξε παρόμοια αποτελέσματα με τη συνεχή εκπαίδευση, χρησιμοποιώντας περίπου το 60% των παραμέτρων ενεργοποίησης για να επιτύχει απόδοση πολύ κοντά στο πυκνό μοντέλο.

Αυτά τα αποτελέσματα σημαίνουν ότι, με την ίδια απόδοση, σε σύγκριση με τα πυκνά μοντέλα,Τα αραιά μοντέλα ενεργοποίησης μπορούν να μειώσουν σημαντικά τις παραμέτρους ενεργοποίησης κατά την εξαγωγή συμπερασμάτων, μειώνοντας έτσι τον αριθμό των FLOPS που καταναλώνονται.

Για το ποσοτικό μοντέλο, η ομάδα εφάρμοσε το Q-Sparse στο μοντέλο BitNet b1.58 που αναπτύχθηκε μόνος του και πραγματοποίησε εκπαίδευση και αξιολόγηση σε πολλαπλά σύνολα δεδομένων.

Μπορεί να φανεί ότι και στις δύο κλίμακες 700M και 7B, η ταχύτητα σύγκλισης και η τιμή συνάρτησης τελικής απώλειας του κβαντισμένου μοντέλου που χρησιμοποιεί Q-Sparse είναι συγκρίσιμες με το κβαντισμένο μοντέλο χωρίς Q-Sparse (BitNet b1.58).

Αυτό δείχνει ότι το Q-SparseΜπορεί να ενσωματωθεί απρόσκοπτα σε ποσοτικά μοντέλα, χωρίς να επηρεάζεται σημαντικά η εκπαίδευση και η σύγκλιση του μοντέλου.

Σύμφωνα με αυτό, ο συγγραφέας πιστεύει ότι ο συνδυασμός Q-Sparse με την τεχνολογία κβαντοποίησης μπορεί να βελτιώσει περαιτέρω την αποτελεσματικότητα των μεγάλων γλωσσικών μοντέλων στο στάδιο συμπερασμάτων.

Ανακαλύψτε τον νέο «Νόμο κλιμάκωσης» για βελτιστοποίηση συμπερασμάτων

Εκτός από την αξιολόγηση της απόδοσης αυτών των μοντέλων κατά τη χρήση της αραιής ενεργοποίησης, ο συγγραφέας διερεύνησε επίσης τη σχέση μεταξύ της απόδοσης του μοντέλου, της κλίμακας και του ρυθμού αραιότητας και έκανε μερικές νέες ανακαλύψεις.

Νόμος κλιμάκωσης απόδοσης μοντέλων αραιής ενεργοποίησης: Ο συγγραφέας διαπίστωσε ότι, παρόμοια με τα πυκνά μοντέλα, η απόδοση των μοντέλων αραιής ενεργοποίησης ακολουθεί επίσης μια σχέση κλιμάκωσης νόμου ισχύος.

Συγκεκριμένα, δεδομένου του ρυθμού αραιότητας S, η τιμή της συνάρτησης απώλειας L(N,S) του μοντέλου όταν συγκλίνει μπορεί να προσεγγιστεί με τον ακόλουθο τύπο:

Μεταξύ αυτών, το N είναι ο αριθμός των παραμέτρων του μοντέλου E είναι μια σταθερά που αντιπροσωπεύει την απώλεια του μοντέλου στο άπειρο.

Αυτός ο νόμος κλιμάκωσης δείχνει ότι,αραιωμένοςαραιόςΗ απόδοση των μοντέλων ενεργοποίησης βελτιώνεται καθώς αυξάνεται το μέγεθος του μοντέλου, αλλά ο ρυθμός βελτίωσης σταδιακά επιβραδύνεται。

Ταυτόχρονα, ο συγγραφέας διαπίστωσε ότι η απόδοση του μοντέλου θα επηρεαστεί επίσης από το ποσοστό αραιότητας.

Όπως αναφέρθηκε στην ενότητα σχετικά με τη σχέση μεταξύ κλίμακας παραμέτρων και απόδοσης, το A(S) είναι ένας παράγοντας κλιμάκωσης που σχετίζεται με τον ρυθμό αραιότητας S, ο οποίος μπορεί να προσεγγιστεί με τον ακόλουθο τύπο:

όπου τα B και C είναι σταθερές και το β είναι μια παράμετρος που ελέγχει τον εκθετικό ρυθμό αποσύνθεσης.

Αυτός ο τύπος δείχνει ότι όταν ο ρυθμός αραιότητας S αυξάνεται (το μοντέλο γίνεται πιο αραιό), σημαίνειΤα υψηλότερα ποσοστά αραιότητας οδηγούν σε υποβάθμιση της απόδοσης, ο ρυθμός μείωσης είναι εκθετικός.

Με βάση τα παραπάνω ευρήματα, ο συγγραφέας εξήγαγε ένα βέλτιστο ποσοστό αραιότητας S* για συμπέρασμα, το οποίο μπορεί να ελαχιστοποιήσει την τιμή της συνάρτησης απώλειας μοντέλου όταν ο προϋπολογισμός (πράξεις κινητής υποδιαστολής κατά την εξαγωγή συμπερασμάτων) είναι σταθερός.

Για το μοντέλο πλήρους ακρίβειας (FP32), το βέλτιστο ποσοστό αραιότητας είναι περίπου 45,58%, ενώ το βέλτιστο ποσοστό αραιότητας για το μοντέλο χαμηλής ακρίβειας (όπως 1,58 bit) είναι υψηλότερο, περίπου 61,25%.

Οι συγγραφείς παρατήρησαν ότι καθώς αυξάνεται το μέγεθος του μοντέλου, το χάσμα απόδοσης μεταξύ μοντέλων αραιής ενεργοποίησης και πυκνών μοντέλων μειώνεται σταδιακά.

Αυτό μπορεί να εξηγηθεί από τον νόμο κλιμάκωσης: όταν το μέγεθος μοντέλου N τείνει στο άπειρο, η τιμή της συνάρτησης απώλειας του μοντέλου αραιής ενεργοποίησης τείνει στο L(∞,S)=E, ενώ η τιμή της συνάρτησης απώλειας του πυκνού μοντέλου τείνει στο L (∞,0 )=Ε.

Αυτό σημαίνει ότι σε εξαιρετικά μεγάλες κλίμακες, είναι δυνατόν τα μοντέλα αραιής ενεργοποίησης να επιτύχουν συγκρίσιμη απόδοση με τα πυκνά μοντέλα, παρέχοντας μια χρήσιμη αναφορά για το σχεδιασμό και την εκπαίδευση μοντέλων αραιής ενεργοποίησης μεγάλης κλίμακας.

Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.10969

Νέα

Ενεργοποιούνται μόνο 3,8Β παράμετροι και η απόδοση είναι συγκρίσιμη με το ίδιο μοντέλο 7Β!Η μικρορύθμιση της εκπαίδευσης μπορεί να χρησιμοποιηθεί από τη Microsoft

Εφαρμογή αραιοποίησης χρησιμοποιώντας τη λειτουργία Top-K

Οι παράμετροι ενεργοποίησης 60% επιτυγχάνουν το ίδιο αποτέλεσμα

Ανακαλύψτε τον νέο «Νόμο κλιμάκωσης» για βελτιστοποίηση συμπερασμάτων

Εισαγωγή

τα στοιχεία επικοινωνίας μου