70 φορές απόλυτη συμπίεση! Ανεξάρτητα από το πόσα σημεία ελέγχου έχετε σε ένα μεγάλο μοντέλο, δεν θα φοβάστε

70 φορές απόλυτη συμπίεση!Ανεξάρτητα από το πόσα σημεία ελέγχου έχετε σε ένα μεγάλο μοντέλο, δεν θα φοβάστε.

2024-08-05

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτής της εργασίας είναι όλοι από το εργαστήριο Noah της Huawei. Ο πρώτος συγγραφέας είναι ο Li Wenshuo και οι αντίστοιχοι συγγραφείς είναι ο Wang Yunhe και ο Chen Xinghao. Τα τελευταία χρόνια, σχετικές ομάδες έχουν δημοσιεύσει μια σειρά από αντιπροσωπευτικές εργασίες σε κορυφαία συνέδρια όπως ICML, CVPR, NeurIPS, ICCV και ECCV. Έχουν παράγει πλούσια αποτελέσματα σε τομείς όπως αποτελεσματικά μεγάλα γλωσσικά μοντέλα και οπτικά μοντέλα, και έχουν συνεργαστεί γνωστά πανεπιστήμια και ιδρύματα επιστημονικής έρευνας Η θεσμική συνεργασία είναι εκτεταμένη.

Ως ο άξιος «βασιλιάς της επισκεψιμότητας» στον τρέχοντα κλάδο της τεχνητής νοημοσύνης και στην ακαδημαϊκή κοινότητα, τα μεγάλα μοντέλα έχουν προσελκύσει μεγάλο αριθμό μελετητών και εταιρειών για να επενδύσουν πόρους στην έρευνα και την εκπαίδευση. Καθώς η κλίμακα μεγαλώνει, τα ζητήματα συστημάτων και μηχανικής έχουν γίνει αναπόφευκτα προβλήματα στην εκπαίδευση μεγάλων μοντέλων. Για παράδειγμα, κατά τη διάρκεια της εκπαίδευσης 54 ημερών του Llama3.1, το σύστημα συνετρίβη 466 φορές, κατά μέσο όρο μία φορά κάθε 2,78 ώρες!

Στη συνέχεια, είναι απαραίτητοι τακτικά σημεία ελέγχου αποθήκευσης. Αλλά η αποθήκευση σημείων ελέγχου είναι επίσης ένα μεγάλο έργο από μόνο του.

Η Meta έχει καταβάλει πολλές προσπάθειες για να επιταχύνει τους χρόνους των σημείων ελέγχου αποθήκευσης και να αυξήσει τη συχνότητα αποθήκευσης για την αντιμετώπιση συχνών βλαβών του συστήματος. Αλλά η συχνή αποθήκευση σημαίνει επίσης μεγάλο κόστος αποθήκευσης.

Η μέθοδος ExCP της Huawei Noah δημιουργήθηκε για να αντιμετωπίσει το τεράστιο κόστος που προκαλείται από την αποθήκευση, πρότεινε τεχνολογία ακραίων σημείων ελέγχου συμπίεσης, η οποία μπορεί να συμπιέσει χωρίς απώλειες το μοντέλο 70 φορές, μειώνοντας σημαντικά την επιβάρυνση αποθήκευσης.

Ο κώδικας είναι πλέον ανοιχτός κώδικας και κυκλοφόρησε στο πλαίσιο του Apache 2.0 Ορισμένοι συνεργάτες στο θέμα έχουν αναπαράγει με επιτυχία τα αποτελέσματα.

Διεύθυνση άρθρου: https://arxiv.org/abs/2406.11257
Διεύθυνση αποθήκης: https://github.com/Gaffey/ExCP

Η μέθοδος είναι επίσης πολύ καινοτόμος. Δύο σημαντικές έννοιες αναφέρονται στο άρθρο και τα βάρη συνδυάζονται για συμπίεση για να επιτευχθεί ένας συνολικός υψηλός ρυθμός συμπίεσης.

συγκεκριμένη μέθοδο

1. Υπολείμματα σημείων ελέγχου

Κατά τη διάρκεια της διαδικασίας εκπαίδευσης, οι τρέχουσες παράμετροι μπορούν να θεωρηθούν ως το βάρος που είναι αποθηκευμένο στο προηγούμενο σημείο ελέγχου συν το άθροισμα των ενημερώσεων κλίσης σε διαδοχικές επαναλήψεις αναλογία μπορεί να ληφθεί. Αντίθετα, η ορμή που είναι αποθηκευμένη στον βελτιστοποιητή είναι ο ολισθαίνοντας μέσος όρος της πρώτης και της δεύτερης ροπής της κλίσης. Δεν υπάρχει μεγάλη συσχέτιση με το περιεχόμενο που είναι αποθηκευμένο στο τελευταίο σημείο ελέγχου, επομένως ο βελτιστοποιητής συμπιέζει απευθείας τη δική του τιμή και όχι την υπολειπόμενη.Το τελικό σημείο ελέγχου που θα συμπιεστεί εκφράζεται ως

2. Weight-Optimizer Momentum Joint Compression

Η υπάρχουσα εργασία που σχετίζεται με τη συμπίεση του μοντέλου επικεντρώνεται γενικά μόνο στην απόδοση συμπερασμάτων του μοντέλου ή στο μέγεθος του τελικού σημείου ελέγχου αποθήκευσης του μοντέλου, αλλά δεν δίνει προσοχή στον αποθηκευτικό χώρο του μοντέλου κατά τη διάρκεια ολόκληρης της εκπαιδευτικής διαδικασίας. Επομένως, η υπάρχουσα εργασία συμπιέζει μόνο τα βάρη, αγνοώντας ότι οι κοινοί βελτιστοποιητές όπως ο Adam αποθηκεύουν στην πραγματικότητα ορμή που είναι διπλάσια από τον αριθμό των βαρών. Από τη μία πλευρά, αυτή η εργασία συμπιέζει τα δύο μαζί, βελτιώνοντας σημαντικά τη συνολική αναλογία συμπίεσης, από την άλλη πλευρά, χρησιμοποιεί επίσης τη συσχέτιση μεταξύ βαρών και ορμής βελτιστοποίησης για να βελτιώσει περαιτέρω το λόγο συμπίεσης του άλλου.

Κλάδεμα βάρους: Δεδομένου ότι το βάρος του κλαδέματος είναι η υπολειμματική τιμή, η ροπή δεύτερης τάξης της ορμής του βελτιστοποιητή μπορεί να αντιπροσωπεύει χονδρικά το πλάτος αλλαγής της υπολειπόμενης τιμής βάρους στην προηγούμενη χρονική περίοδο, επομένως η ροπή δεύτερης τάξης της ορμής του βελτιστοποιητή μπορεί να χρησιμοποιηθεί ως δείκτης Προσδιορίστε την αναλογία κλαδέματος διαφορετικών στρωμάτων.Η στρατηγική κλαδέματος φαίνεται στον παρακάτω τύπο

Στον τύπο, το W και αντιπροσωπεύουν το βάρος και τη δεύτερη ροπή αντίστοιχα.

Κλάδεμα ορμής βελτιστοποίησης: Για το κλάδεμα ορμής, μπορείτε να χρησιμοποιήσετε τη ροπή πρώτης τάξης ως δείκτη για να εκτελέσετε το κλάδεμα. Υπάρχει μια σύντομη απόδειξη σύγκλισης στο χαρτί.Ταυτόχρονα, εάν το βάρος μιας θέσης έχει κλαδευτεί, η ορμή του βελτιστοποιητή της αντίστοιχης θέσης θα πρέπει επίσης να υποβληθεί σε επεξεργασία ταυτόχρονα, επομένως η στρατηγική κλαδέματος είναι όπως φαίνεται στον παρακάτω τύπο

Στον τύπο, αντιπροσωπεύει τη στιγμή πρώτης τάξης.

3. Συνολική διαδικασία συμπίεσης

Η συνολική διαδικασία συμπίεσης παρουσιάζεται στον Αλγόριθμο 1. Τα βήματα υπολογισμού υπολειπόμενου βάρους/συμπίεσης άρθρωσης/μη ομοιόμορφης κβαντοποίησης/συμπίεσης κωδικοποίησης εκτελούνται με τη σειρά για να ληφθεί το τελικό αποτέλεσμα συμπίεσης.

Η διαδικασία ανάκτησης του πλήρους αρχείου του σημείου ελέγχου είναι όπως φαίνεται στον Αλγόριθμο 2. Μετά την αποσυμπίεση, το αποτέλεσμα κινητής υποδιαστολής ανακτάται πρώτα από το βιβλίο κωδίκων και ο δείκτης αποθηκεύεται μετά από ανομοιόμορφη κβαντοποίηση και, στη συνέχεια, συγκρίνεται με το βασικό βάρος (ο προηγούμενος έλεγχος Το αρχικό βάρος του σημείου ή το ανακτηθέν βάρος ανακατασκευής) προστίθενται για να ληφθεί το πλήρες αρχείο του σημείου ελέγχου. Η διαδικασία επαναφοράς των αρχείων σημείων ελέγχου σε ολόκληρη τη διαδικασία εκπαίδευσης είναι όπως φαίνεται στον Αλγόριθμο 3. Μετά την ολοκλήρωση της εκπαίδευσης, αποθηκεύονται μόνο οι τυχαίοι σπόροι των βαρών αρχικοποίησης και τα αποτελέσματα συμπίεσης που είναι αποθηκευμένα σε κάθε σημείο ελέγχου και, στη συνέχεια, τα σημεία ελέγχου αποκαθίστανται στο ακολουθία για την απόκτηση του πλήρους Μια ακολουθία σημείων ελέγχου από τα οποία μπορούν να επιλεγούν ένα ή περισσότερα σημεία ελέγχου για να συνεχιστεί η εκπαίδευση/δοκιμή κ.λπ.

Πειραματικά αποτελέσματα

Το άρθρο όχι μόνο αξιολογεί μεγάλα μοντέλα γλώσσας, αλλά αυτή η μέθοδος μπορεί επίσης να επιτύχει καλά αποτελέσματα σε μεγαλύτερα οπτικά μοντέλα όπως το ViT-L32.

Μπορεί επίσης να φανεί από το πείραμα κατάλυσης ότι η χρήση της μεθόδου υπολειμματικού κλαδέματος μειώνει σημαντικά την απώλεια που προκαλείται από το κλάδεμα.

Το άρθρο παρέχει επίσης παραδείγματα ερωτήσεων και απαντήσεων για μεγάλα γλωσσικά μοντέλα πριν και μετά τη συμπίεση. Μπορεί να φανεί ότι η ίδια η συμπίεση δεν βλάπτει την ικανότητα ερώτησης και απάντησης του μοντέλου.

Νέα

70 φορές απόλυτη συμπίεση!Ανεξάρτητα από το πόσα σημεία ελέγχου έχετε σε ένα μεγάλο μοντέλο, δεν θα φοβάστε.

Εισαγωγή

τα στοιχεία επικοινωνίας μου