Νέα

Προκαλώντας τον νόμο κλιμάκωσης, η Meta κυκλοφορεί το MobileLLM, ένα μικρό μοντέλο 350 εκατομμυρίων στην πλευρά του κινητού, με απόδοση συγκρίσιμη με το 7B LLaMA-v

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Qiao Yang

[Εισαγωγή στη Νέα Σοφία] Το Scaling Law δεν έχει τελειώσει ακόμα, και τα «μικρά μοντέλα» έχουν γίνει σταδιακά μια τάση που φθάνουν οι τεχνολογικοί γίγαντες. Η σειρά MobileLLM που κυκλοφόρησε πρόσφατα από τη Meta έχει μειωθεί σε κλίμακα σε λιγότερο από 1B. Οι δύο εκδόσεις έχουν μόνο 125M και 350M παραμέτρους αντίστοιχα, αλλά έχουν επιτύχει καλύτερες επιδόσεις από τα μοντέλα μεγαλύτερης κλίμακας.

Από τις συνεντεύξεις τύπου πολλών τεχνολογικών κολοσσών τον Μάιο και τον Ιούνιο, μπορούμε ήδη να αισθανόμαστε αόριστα μια σημαντική τάση ανάπτυξης της AI: από κέντρα δεδομένων cloud έως μεμονωμένους χρήστες, από μεγάλους διακομιστές έως φορητούς υπολογιστές και φορητές συσκευές.

Η τήρηση του νόμου κλιμάκωσης δεν είναι πλέον ο μόνος τρόπος και η ιστορία των μοντέλων που «παίρνουν μικρά για να κερδίσουν μεγάλα» συνεχίζει να ξετυλίγεται.

Πρώτα το ενημέρωσε η Microsoft και μετά το χρησιμοποίησε η Google.

Όσον αφορά το υλικό, έχουμε δει λειτουργίες AI να ενσωματώνονται βαθμιαία στα ηλεκτρονικά προϊόντα.

Για παράδειγμα, η περίφημη λειτουργία Ανάκλησης της Microsoft είναι ένα σημαντικό μέρος της Apple έχει επίσης κυκλοφορήσει εφαρμογές κάτω από την ομπρέλα Apple Intelligence, προσπαθώντας να ενσωματωθεί απρόσκοπτα με το iOS.

Στις μέρες μας, οι παράμετροι του LLM φτάνουν συχνά τα δεκάδες δισεκατομμύρια Οι παράμετροι του Apple 3B είναι ήδη πολύ μικρές, αλλά εξακολουθεί να υπάρχει ένα υψηλό όριο για κινητές συσκευές όπως τα κινητά τηλέφωνα.

Όχι μόνο χρησιμοποιεί ένα μοντέλο συμπίεσης μεικτής ακρίβειας 2 bit και 4 bit (μέσος όρος 3,5 bit ανά βάρος), αλλά απαιτεί επίσης τουλάχιστον μνήμη 8G και ένα τσιπ M1 για να λειτουργήσει.

Μια εργασία που δημοσιεύθηκε πρόσφατα από τη Meta δείχνει ότι ο αριθμός των παραμέτρων μπορεί να συρρικνωθεί περαιτέρω.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2402.14905

Ο LeCun έγραψε επίσης προσωπικά tweet για να υποστηρίξει αυτήν την έρευνα, επαινώντας μια σειρά λειτουργιών που βελτίωσαν τον αριθμό των παραμέτρων.


Αυτό το έγγραφο έχει γίνει αποδεκτό από το ICML 2024 και ο κώδικας εκπαίδευσης μοντέλου είναι ανοιχτός κώδικας στο GitHub.


Διεύθυνση GitHub: https://github.com/facebookresearch/MobileLLM

Εισαγωγή

Ας κάνουμε πρώτα μια υπόθεση εάν το GPT-4 (με περίπου 1 τρισεκατομμύριο παραμέτρους) έχει αναπτυχθεί στη ζωή με ταχύτητα συμπερασμάτων 50 tokens/s, τι είδους υλικό χρειάζεστε;

Η απάντηση είναι 100 εκατομμύρια H100 GPU. Πόσο μάλλον για φορητές συσκευές, δεν μπορούν να τοποθετηθούν στο σπίτι.

Τι γίνεται λοιπόν αν χαμηλώσουμε το πρότυπο και χρησιμοποιήσουμε ένα μοντέλο όπως το LLaMA-v2 7B, σε συνδυασμό με κβαντισμό 8-bit;

Ένας απλός υπολογισμός δείχνει ότι η απλή αποθήκευση των παραμέτρων του μοντέλου απαιτεί περίπου 7 GB, αλλά δεν είναι αποθηκευτικός χώρος, αλλά πολύτιμος χώρος λειτουργικής μνήμης (DRAM).


Επιπλέον, η DRAM δεν μπορεί να καταληφθεί πλήρως από το μοντέλο AI Λαμβάνοντας υπόψη τη λειτουργία του λειτουργικού συστήματος και άλλων εφαρμογών, η αναλογία μνήμης LLM δεν μπορεί να υπερβαίνει το 10%.

Σύμφωνα με τα στατιστικά στοιχεία στο Σχήμα 2, οι φορητές συσκευές που κυκλοφόρησαν πρόσφατα από διάφορες μάρκες είναι γενικά εξοπλισμένες με 6 έως 12 GB μνήμης DRAM. Αυτό σημαίνει ότι εάν θέλετε να το αναπτύξετε με επιτυχία σε ένα κινητό τηλέφωνο, ο αριθμός των παραμέτρων του μοντέλου θα πρέπει να μειωθεί σε <1B.

Όχι μόνο η αποθήκευση, αλλά και η κατανάλωση ενέργειας είναι μεγάλο πρόβλημα. Η κατανάλωση ενέργειας του μοντέλου 7B είναι περίπου 0,7 J/token και ένα πλήρως φορτισμένο iPhone έχει περίπου 50 kJ για σπατάλη. Υπολογιζόμενο, εάν η ταχύτητα παραγωγής είναι 10 μάρκες/δευτερόλεπτα, η πλήρης φόρτιση του κινητού σας τηλεφώνου θα σας επιτρέψει να μιλήσετε με το μοντέλο μόνο για 2 ώρες.

Με βάση τα παραπάνω, είναι μια πιο ιδανική επιλογή να εγκαταστήσετε ένα μοντέλο <1B στο κινητό τερματικό. Επομένως, το μέγεθος της παραμέτρου του MobileLLM είναι 125M/350M, το οποίο είναι μια τάξη μεγέθους μικρότερη από το μοντέλο 3B της Apple μπορούμε να πούμε ότι είναι το «μίνι ανάμεσα στα μίνι».

Αλλά μην περιορίζεστε από τον νόμο κλιμάκωσης. Οι μικρές παράμετροι δεν σημαίνουν αδύναμες δυνατότητες.


Το MobileLLM όχι μόνο επιτυγχάνει απόδοση SOTA σε μοντέλα ίδιου μεγέθους, αλλά προτείνει επίσης ότι το βάθος της αρχιτεκτονικής είναι πιο σημαντικό από το πλάτος. Ένα "βαθύ και στενό" "λεπτό" μικρό μοντέλο μπορεί επίσης να μάθει αφηρημένες έννοιες.

Αρχιτεκτονική και Μέθοδοι

Με μόνο παραμέτρους 125M/350M, ο τρόπος βελτιστοποίησης της αρχιτεκτονικής σχεδίασης εντός περιορισμένου εύρους έχει γίνει σημαντικό ζήτημα.

Για το LLM <1B, ο συγγραφέας έχει εξερευνήσει 4 αποτελεσματικές τεχνικές σχεδιασμού αρχιτεκτονικής.

1) Χρησιμοποιήστε το δίκτυο προώθησης SwiGLU

2) Κάντε το συνολικό σχήμα του δικτύου «μακρόστενο», δηλαδή βαθύ και στενό

3) Χρησιμοποιήστε ξανά τη μέθοδο κοινής χρήσης ενσωμάτωσης

4) Χρησιμοποιήστε μηχανισμό προσοχής ομαδοποιημένων ερωτημάτων (προσοχή ομαδικού ερωτήματος)


Σε αυτή τη βάση, ο συγγραφέας πρότεινε επίσης μια μέθοδο κοινής χρήσης στρώσης κατά μπλοκ, η οποία μπορεί να βελτιώσει περαιτέρω την ακρίβεια του μοντέλου χωρίς να εισάγει επιπλέον επιβάρυνση μνήμης, αλλά με κόστος αύξησης της καθυστέρησης συμπερασμάτων της διαδικασίας αποκωδικοποίησης.

Αυτό το μοντέλο με πρόσθετο μηχανισμό κοινής χρήσης επιπέδων ονομάζεται MobileLLM-LS.

Refute Scaling Law: Ο αρχιτεκτονικός σχεδιασμός μικρών μοντέλων είναι πολύ σημαντικός

Το έγγραφο που προτείνει τον νόμο κλιμάκωσης το 2020 πιστεύει ότι η ποσότητα των δεδομένων εκπαίδευσης, ο αριθμός των παραμέτρων και ο αριθμός των επαναλήψεων εκπαίδευσης είναι οι βασικοί παράγοντες που καθορίζουν την απόδοση και ο αντίκτυπος της αρχιτεκτονικής του μοντέλου μπορεί σχεδόν να αγνοηθεί.

Ωστόσο, ο συγγραφέας αυτής της εργασίας πρότεινε μέσω συγκριτικών πειραμάτων ότι αυτός ο νόμος δεν ισχύει για μικρά μοντέλα.

Όταν οι παράμετροι του μοντέλου είναι σταθερές στα 125M ή 350M, το "στενό" μοντέλο με 30 έως 42 στρώσεις έχει σημαντικά καλύτερη απόδοση από το μοντέλο "κοντό και χοντρό" με περίπου 12 επίπεδα (Εικόνα 4), με κοινή λογική συλλογιστική, ερώτηση και απάντηση , κατανόηση ανάγνωσης, κ.λπ. 8 Υπάρχουν παρόμοιες τάσεις σε όλα τα σημεία αναφοράς.


Αυτή είναι στην πραγματικότητα μια πολύ ενδιαφέρουσα ανακάλυψη, γιατί στο παρελθόν, όταν σχεδίαζαν αρχιτεκτονικές για μικρά μοντέλα της τάξης των 125M, γενικά δεν στοίβαζαν περισσότερα από 12 επίπεδα.

Γιατί να επιστρέψετε στην "κοινή χρήση κώδικα"

Η μέθοδος "ενσωμάτωσης κοινής χρήσης" προτάθηκε για πρώτη φορά από μικρά μοντέλα όπως το OPT, επειδή οι παράμετροι του επιπέδου κωδικοποίησης στο μικρό μοντέλο αντιπροσωπεύουν ένα σημαντικό ποσοστό.

Για παράδειγμα, το μοντέλο 125M χρησιμοποιεί κωδικοποίηση με μήκος περιβάλλοντος 32k και διάσταση 512. Τα επίπεδα κωδικοποίησης εισόδου και εξόδου περιέχουν 16M παραμέτρων, που αντιπροσωπεύουν το 20%.

Συγκριτικά, ο αριθμός των παραμέτρων του επιπέδου κωδικοποίησης μεγάλων μοντέλων είναι αμελητέος. Για παράδειγμα, στο LLaMA-7B, το ποσοστό αυτό μειώθηκε στο 3,7%, και στο LLaMA-70B, ήταν ακόμη και μόνο 0,7%. Επομένως, η κοινή κωδικοποίηση είναι απαραίτητη για το LLM.

Η απαρχαιωμένη χρήση της κοινής χρήσης κώδικα στην εποχή των μεγάλων μοντέλων δεν σημαίνει ότι αυτή η τεχνολογία δεν είναι πλέον κατάλληλη για μικρά μοντέλα. Μπορεί να κάνει την αρχιτεκτονική του μοντέλου πιο συμπαγή και αποτελεσματική.

Όπως φαίνεται στον Πίνακα 1, μετά την κοινή χρήση κώδικα, το μοντέλο εξακολουθεί να διατηρεί την αρχική του απόδοση συνολικά, ενώ μειώνει τον συνολικό αριθμό των παραμέτρων κατά 16M, και μάλιστα βελτιώνεται σε ορισμένα σημεία αναφοράς.


μηχανισμός κοινής χρήσης στρώματος

Όπως αναφέρθηκε προηγουμένως, τα πειραματικά αποτελέσματα της εργασίας διαπίστωσαν ότι το να κάνεις μικρά μοντέλα «λεπτά» είναι ευεργετικό για τη βελτίωση της απόδοσης. Έτσι ο συγγραφέας σκέφτηκε: Εάν εισαχθεί ένας μηχανισμός κοινής χρήσης επιπέδων, δεν θα ισοδυναμούσε με την αύξηση του βάθους του μοντέλου διατηρώντας τον συνολικό αριθμό των παραμέτρων αμετάβλητο.

Τα πειράματα έχουν αποδείξει ότι αυτή η μέθοδος μπορεί πράγματι να βελτιώσει την απόδοση, και η εργασία συνέκρινε επίσης διαφορετικές μεθόδους κοινής χρήσης επιπέδων (Σχήμα 6, στο τέλος, μετά τη στάθμιση της μνήμης της συσκευής, της απόδοσης και της καθυστέρησης συμπερασμάτων, της άμεσης κοινής χρήσης κατά μπλοκ (άμεση κοινή χρήση κατά μπλοκ). , Εικόνα 6β).


Πείραμα αξιολόγησης

Ο συγγραφέας κατασκεύασε μοντέλα MobileLLM/MobileLLM-LS με παραμέτρους 125M και 350M και τα εκπαίδευσε σε ένα σύνολο δεδομένων 1Τ.

Το προεκπαιδευμένο μοντέλο δοκιμάζεται σε πολλαπλά σύνολα δεδομένων με μηδενικά δείγματα, συμπεριλαμβανομένων σημείων αναφοράς που χρησιμοποιούνται συνήθως όπως ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA και RACE.

Ο Πίνακας 3 δείχνει τα αποτελέσματα αξιολόγησης μηδενικού δείγματος συλλογισμού κοινής λογικής Η σειρά MobileLLM έχει ουσιαστικά επιτύχει ολοκληρωμένη SOTA, όχι μόνο ξεπερνά τα προηγούμενα κλασικά μοντέλα όπως το OPT και το BLOOM, αλλά και καλύτερα από το GPT-neo, Galactica. RWKV και άλλες παράμετροι Μεγαλύτερο μοντέλο.


Όσον αφορά την απάντηση σε ερωτήσεις και την κατανόηση ανάγνωσης, το MobileLLM εξακολουθεί να έχει καλή απόδοση (Πίνακας 4). Σε σύγκριση με άλλα μοντέλα, τα 125M και 325M MobileLLM έχουν βελτίωση >6,4 πόντους και περίπου 10 πόντους στο TQA αντίστοιχα.

Καθοδικές εργασίες

Εκτός από την εκτέλεση βαθμολογιών σε δοκιμές αναφοράς, η εργασία λαμβάνει επίσης υπόψη τις διάφορες απαιτήσεις για το μοντέλο κατά την ανάπτυξη σεναρίων εφαρμογών και διενεργεί αντίστοιχες αξιολογήσεις.

Το AlpacaEval και το MT-Bench αντίστοιχα δοκιμάζουν την απόδοση του μοντέλου σε εργασίες συνομιλίας ενός γύρου και πολλών γύρου Σε σύγκριση με τα άλλα τρία βασικά μοντέλα, το MobileLLM εξακολουθεί να έχει την καλύτερη απόδοση και μπορεί να χρησιμοποιήσει ακόμη και 350 εκατομμύρια παραμέτρους για να ξεπεράσει την απόδοση άλλων. παράμετρος > 1Β μοντέλα .


Εκτός από τον διάλογο, στο σενάριο κλήσης API, η βαθμολογία EM του MobileLLM μπορεί να ταιριάζει με αυτή του LLaMA-v2 με παραμέτρους 7B.


Επιπλέον, το MobileLLM είναι επίσης πολύ συμβατό με την κβαντοποίηση (PTQ). Μετά την ποσοτικοποίηση W8A8, η απόδοση του μοντέλου μειώθηκε κατά λιγότερο από 0,5 βαθμούς και εξακολουθεί να είναι συμβατό με τον μηχανισμό κοινής χρήσης επιπέδων, ώστε να μπορεί να προσαρμοστεί στην ανάπτυξη υπό πιο αυστηρές συνθήκες υλικού.


Σχετικά με τον Συγγραφέα

Ο αντίστοιχος συγγραφέας αυτού του άρθρου, ο Zechun Liu, είναι ερευνητής στο Meta Reality Labs. Αποφοίτησε από το Πανεπιστήμιο Fudan με πτυχίο και διδακτορικό από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Χονγκ Κονγκ.


Τα ερευνητικά ενδιαφέροντα του Zechun είναι η εφαρμογή της βαθιάς μάθησης σε σενάρια πραγματικής ζωής, όπως οι περιορισμοί των ανεπαρκών πόρων, η αντιστάθμιση μεταξύ υπολογιστικών πόρων και ακρίβειας, κ.λπ., με έμφαση στη δυαδοποίηση και κβαντοποίηση δικτύου, το κλάδεμα καναλιών δικτύου, την αρχιτεκτονική σχεδιασμός και απόσταξη γνώσεων κ.λπ.

Βιβλιογραφικές αναφορές:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905