Μία κάρτα χειρίζεται το Llama 3.1 405B, επιτρέποντας στα μεγάλα μοντέλα να αδυνατίζουν εύκολα! Το Super Compression Toolkit είναι here

Μία κάρτα χειρίζεται το Llama 3.1 405B, επιτρέποντας στα μεγάλα μοντέλα να αδυνατίζουν εύκολα!Η εργαλειοθήκη σούπερ συμπίεσης είναι εδώ

2024-08-02

Συνεισφορά από την ομάδα της αλυσίδας εργαλείων μοντέλου
Qubits | Δημόσιος λογαριασμός QbitAI

Μία κάρτα χειρίζεται το Llama 3.1 (405B), το τελευταίο εργαλείο συμπίεσης μεγάλου μοντέλου είναι εδώ!

Πρόσφατα, το Llama-3.1 έφτασε στην κορυφή του ανοιχτού κώδικα, αλλά το πιο ισχυρό μοντέλο έκδοσης 405B απαιτεί περισσότερα από 900 GB μνήμης, θέτοντας μια πιο απαιτητική πρόκληση για τους πόρους.

Εργαλεία συμπίεσης μεγάλων μοντέλων και δείκτες αναφοράς που κυκλοφόρησαν από κοινού από το Πανεπιστήμιο Beihang, το SenseTime, το Nanyang Polytechnic και άλλες ομάδεςLLMC, μπορεί να λύσει αυτό το πρόβλημα πολύ καλά.

Επιτρέπει σε ένα 80G A100 να ολοκληρώσει τη βαθμονόμηση και την αξιολόγηση του Llama 3.1 405B, επιτυγχάνοντας έτσι ποσοτικοποίηση εξαιρετικά χαμηλού κόστους.

Υποστηρίζει πολλαπλούς αλγόριθμους συμπίεσης, μοντέλα και backends συμπερασμάτων και έχει ισχυρή επεκτασιμότητα και δυνατότητες ολοκληρωμένης αξιολόγησης.

Προς το παρόν, η ερευνητική ομάδα έχει τοποθετήσει τη μέθοδο χρήσης στην αρχική σελίδα του GitHub, την οποία μπορείτε να λάβετε κάνοντας κλικ στον σύνδεσμο στο τέλος του άρθρου.

Το Llama3.1 είναι μεγαλύτερο και πιο δύσκολο να συμπιεστεί

Η κβαντοποίηση χαμηλών bit είναι μία από τις κοινές τεχνικές για την επίλυση προβλημάτων περιορισμένων πόρων. Για το σκοπό αυτό, οι σχετικοί ερευνητές χρησιμοποίησαν το LLMC για να εκτελέσουν κβαντισμένη συμπίεση στο Llama 3.1.

Τα αποτελέσματα φαίνονται στον Πίνακα 1. Ορισμένοι αλγόριθμοι στο LLMC, όπως ο QuaRot και ο AWQ, μπορούν να διατηρήσουν αποτελεσματικά την ακρίβεια κβαντισμού σε μοντέλα με παραμέτρους 70B και 405B. Ο απλούστερος αλγόριθμος «στρογγυλοποίησης» (Naive) δείχνει σημαντική απώλεια ακρίβειας σε αυτά τα μοντέλα μεγάλης κλίμακας, ειδικά όταν οι ενεργοποιήσεις είναι κβαντισμένες.

Η ερευνητική ομάδα διαπίστωσε ότι η μείωση της ακρίβειας ποσοτικοποίησης του μοντέλου της σειράς Llama 3.1 προέρχεται από την παρουσία ορισμένων ακραίων ή ακραίων σημείων στον τανυστή ενεργοποίησής του που είναι πιο σημαντικά από άλλα μοντέλα. Καθώς το μέγεθος του μοντέλου Llama 3.1 αυξάνεται, το φαινόμενο αυτών των ακραίων τιμών γίνεται πιο σοβαρό. Οι ακραίες τιμές αναφέρονται σε σημεία στα δεδομένα όπου ορισμένες τιμές διαφέρουν σημαντικά από άλλες τιμές και αποτελούν έναν από τους βασικούς παράγοντες που επηρεάζουν την ακρίβεια ποσοτικοποίησης.

Με τη βοήθεια των εργαλείων LLMC, η ερευνητική ομάδα οπτικοποίησε τους τανυστές ενεργοποίησης εισόδου των 4 επιπέδων (q_proj, o_proj, gate_proj, down_proj) του πρώτου μπλοκ του μοντέλου της σειράς Llama 3.1 (8B, 70B, 405B) (όπως φαίνεται στο σχήμα 1-3). Το κάτω μέρος κάθε υποσχήματος δείχνει τον μέσο όρο και την τυπική απόκλιση των τιμών Kurtosis όλων των διακριτικών στην τιμή ενεργοποίησης αυτού του επιπέδου.

Από το Σχήμα 1-3 φαίνεται ότι στη σειρά μοντέλων Llama 3.1, υπάρχουν ακραία σημεία σε ορισμένα κανάλια του τανυστή ενεργοποίησης και αυτό το φαινόμενο είναι πιο εμφανές σε μεγαλύτερα μοντέλα.

Επομένως, μπορεί εύλογα να συναχθεί ότι:Αν και το μοντέλο Llama 3.1 405B έχει γίνει ισχυρότερο, έχει γίνει επίσης πιο «μη φυσιολογικό» και πιο δύσκολο να ποσοτικοποιηθεί.。

Το εργαλείο LLMC υποστηρίζει μια σειρά αλγορίθμων κβαντοποίησης για την καταστολή των ακραίων τιμών σε μεγάλα μοντέλα, συμπεριλαμβανομένων των AWQ, SmoothQuant, OS+, QuaRot κ.λπ. Όπως φαίνεται από τον Πίνακα 1, αυτές οι μέθοδοι βελτιώνουν σημαντικά την ακρίβεια κβαντοποίησης του Llama 3.1 καταστέλλοντας αποτελεσματικά τις ακραίες τιμές. Για παράδειγμα, στην κβαντοποίηση του μοντέλου 405B W8A8, τα SmoothQuant, OS+ και QuaRot μπορούν να επιτύχουν σχεδόν την ίδια ακρίβεια με το μοντέλο κινητής υποδιαστολής.

LLMC: One-Stop Large Model Slimming Toolkit

△ Διάγραμμα πλαισίου LLMC

Υποστηρίζει πολλαπλούς αλγόριθμους . Το LLMC υποστηρίζει πολλαπλούς αλγόριθμους συμπίεσης, συμπεριλαμβανομένων 16 διαφορετικών μεθόδων κβαντισμού, που καλύπτουν κβαντισμό μόνο με βάρος, ενεργοποιημένο με βάρος και κβαντισμό μεικτής ακρίβειας. Αυτή η ποικιλομορφία επιτρέπει μια δίκαιη σύγκριση και σε βάθος ανάλυση διαφορετικών προσεγγίσεων. Φυσικά, εκτός από την κβαντοποίηση, αυτή τη στιγμή υποστηρίζονται διάφοροι τύποι αραιών και σχετικών αλγορίθμων.

△Ταξινόμηση ορισμένων αλγορίθμων συμπίεσης φιλικών προς το υλικό που υποστηρίζονται επί του παρόντος από το LLMC

Ευθυγράμμιση υψηλής ακρίβειας . Η ομάδα LLMC διεξήγαγε αρκετά πειράματα ευθυγράμμισης συγκρίνοντας αρκετούς καθιερωμένους αλγόριθμους κβαντοποίησης (LLMC έναντι αρχικού χαρτιού/κώδικα).

Οι πειραματικές ρυθμίσεις είναι ίδιες με αυτές του αρχικού χαρτιού ή με τις προεπιλεγμένες ρυθμίσεις του ανοιχτού κώδικα του (εμφανίζονται στον Πίνακα 3).

Τα αποτελέσματα αυτών των πειραμάτων συνοψίζονται στους Πίνακες 4-6. Τα αποτελέσματα στον πίνακα δείχνουν ότι το εργαλείο LLMC είναι σχεδόν συνεπές στην απόδοση με τους αρχικούς αλγόριθμους κβαντοποίησης που αναφέρονται στη βιβλιογραφία. Μέσω αυτών των πειραμάτων, αποδεικνύουμε ότι το LLMC δεν είναι μόνο αποτελεσματικό αλλά και αξιόπιστο στην αναπαραγωγή των αποτελεσμάτων των υπαρχουσών μεθόδων ποσοτικοποίησης. Αυτό διασφαλίζει ότι η συμβολή του εργαλείου στην ποσοτική έρευνα LLM είναι αξιόπιστη και πολύτιμη.

Ποσοτικοποιήστε με εξαιρετικά χαμηλό κόστος . Η εργαλειοθήκη LLMC έχει σχεδιαστεί για να είναι αποδοτική από πλευράς πόρων και ικανή να εκτελεί μεγάλα μοντέλα με ελάχιστες απαιτήσεις υλικού. Χάρη στον μηχανισμό λειτουργίας ενός επιπέδου ενός μπλοκ, χρειάζεται μόνο ένα 80G A100 για να ολοκληρωθεί η βαθμονόμηση και η αξιολόγηση του Llama 3.1 405B, επιτυγχάνοντας έτσι ποσοτικοποίηση εξαιρετικά χαμηλού κόστους.

Συμβατότητα πολλαπλών backend . Το LLMC υποστηρίζει μια ποικιλία ρυθμίσεων κβαντισμού και μορφών μοντέλων και είναι συμβατό με πολλαπλά backend και πλατφόρμες υλικού, όπως LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM και llama.cpp, καθιστώντας το εξαιρετικά ευέλικτο.

Υψηλή επεκτασιμότητα . Το κιτ εργαλείων είναι εξαιρετικά αρθρωτό και επεκτάσιμο, ικανό να προσαρμόζεται εύκολα από κβαντισμό ακέραιων αριθμών σε κβαντισμό κινητής υποδιαστολής, από πυκνά μοντέλα σε μοντέλα ειδών ειδικών (MoE), από μοντέλα LLM σε μοντέλα οπτικής γλώσσας (VLM) και από κβαντισμό σε αραιοποίηση. Αυτός ο αρθρωτός σχεδιασμός διασφαλίζει ότι οι χρήστες μπορούν να επεκτείνουν και να προσαρμόσουν την εργαλειοθήκη για να ταιριάζει στις ανάγκες τους.

αξιολόγηση της διαφορετικότητας . Το LLMC είναι σε θέση να αξιολογεί εκτενώς τα μοντέλα συμπίεσης, παρέχοντας λεπτομερείς δείκτες απόδοσης και ανάλυση, όπως η αμηχανία (PPL), η ανάλυση οπτικοποίησης δεδομένων, η κύρτωση (Kurtosis), το σφάλμα και η ακραία κατανομή. Αυτή η δυνατότητα ολοκληρωμένης αξιολόγησης διασφαλίζει ότι οι χρήστες μπορούν να λαμβάνουν τεκμηριωμένες αποφάσεις σχετικά με την καλύτερη στρατηγική συμπίεσης για τα μοντέλα τους.

Η ομάδα LLMC κυκλοφόρησε το LLMC, ένα πολυλειτουργικό κιτ εργαλείων συμπίεσης μεγάλων μοντέλων, το οποίο υποστηρίζει πολλαπλούς αλγόριθμους συμπίεσης, μοντέλα και backends συμπερασμάτων και διαθέτει ισχυρή επεκτασιμότητα και δυνατότητες ολοκληρωμένης αξιολόγησης.

Αυτή η εργαλειοθήκη επιτρέπει στους χρήστες να συμπιέζουν LLM 100 δισεκατομμυρίων παραμέτρων χρησιμοποιώντας μόνο μία GPU, γεγονός που διευκολύνει σημαντικά την εφαρμογή της κβαντοποίησης LLM. Εξοπλισμένοι με αυτήν την ισχυρή εργαλειοθήκη, οι μελλοντικοί μεγάλοι ερευνητές μοντέλων καθώς και οι απλοί χρήστες μπορούν να ενσωματώσουν αποτελεσματικά κατάλληλους αλγόριθμους και μορφές που απαιτούνται από τις αντίστοιχες πλατφόρμες back-end για τις εφαρμογές τους, διαδίδοντας έτσι μεγάλες εφαρμογές συμπίεσης μοντέλων.

Διεύθυνση εργαλείου: https://github.com/ModelTC/llmc
Διεύθυνση χαρτιού: https://arxiv.org/abs/2405.06001

Νέα

Μία κάρτα χειρίζεται το Llama 3.1 405B, επιτρέποντας στα μεγάλα μοντέλα να αδυνατίζουν εύκολα!Η εργαλειοθήκη σούπερ συμπίεσης είναι εδώ

Εισαγωγή

τα στοιχεία επικοινωνίας μου