Νέα

Αλγόριθμοι, συστήματα και εφαρμογές, μια ολοκληρωμένη κατανόηση των υβριδικών ειδικών (MoE) από τρεις οπτικές γωνίες

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Αναφορά Μηχανικής Καρδιάς

Επιμέλεια: Panda W

Το LLM είναι πολύ ισχυρό και για να επιτευχθεί βιώσιμη επέκταση του LLM, είναι απαραίτητο να βρεθούν και να εφαρμοστούν μέθοδοι που μπορούν να βελτιώσουν την αποτελεσματικότητά του. Το Hybrid Expert (MoE) είναι ένα σημαντικό μέλος αυτού του τύπου μεθόδου.

Πρόσφατα, η νέα γενιά μεγάλων μοντέλων που προτείνονται από διάφορες εταιρείες τεχνολογίας χρησιμοποιούν πάντα τη μέθοδο Mixture of Experts (MoE).

Η έννοια των υβριδικών εμπειρογνωμόνων γεννήθηκε για πρώτη φορά στην εργασία "Προσαρμοστικά μείγματα τοπικών ειδικών" το 1991, και έχει διερευνηθεί και αναπτυχθεί εκτενώς για περισσότερα από 30 χρόνια. Τα τελευταία χρόνια, με την εμφάνιση και την ανάπτυξη της αραιής πύλης MoE, ειδικά όταν συνδυάζεται με γλωσσικά μοντέλα μεγάλης κλίμακας που βασίζονται στο Transformer, αυτή η τεχνολογία με ιστορία άνω των 30 ετών έχει αποκτήσει νέα ζωτικότητα.

Το πλαίσιο του MoE βασίζεται σε μια απλή αλλά ισχυρή ιδέα: διαφορετικά μέρη του μοντέλου (που ονομάζονται ειδικοί) επικεντρώνονται σε διαφορετικές εργασίες ή διαφορετικές πτυχές των δεδομένων.

Κατά τη χρήση αυτού του παραδείγματος, μόνο οι σχετικοί εμπειρογνώμονες (Εμπειρογνώμονες) θα συμμετέχουν στην επεξεργασία μιας εισροής, έτσι ώστε το υπολογιστικό κόστος να μπορεί να ελεγχθεί, ενώ θα εξακολουθεί να επωφελείται από μεγάλο όγκο εμπειρογνωμοσύνης. Επομένως, το MoE μπορεί να βελτιώσει τις δυνατότητες μεγάλων γλωσσικών μοντέλων χωρίς να αυξήσει σημαντικά τις υπολογιστικές απαιτήσεις.

Όπως φαίνεται στο Σχήμα 1, η έρευνα που σχετίζεται με το Υπουργείο Υγείας έχει αυξηθεί έντονα, ειδικά μετά την εμφάνιση του Mixtral-8x7B και διαφόρων LLM βιομηχανικού επιπέδου όπως οι Grok-1, DBRX, Arctic και DeepSeek-V2 το 2024.



Αυτή η εικόνα προέρχεται από μια έκθεση ανασκόπησης του Υπουργείου Υγείας που κυκλοφόρησε πρόσφατα από μια ερευνητική ομάδα από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Χονγκ Κονγκ (Guangzhou). και εφαρμογές.



Τίτλος εργασίας: A Survey on Mixture of Experts

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.06204

Το Heart of the Machine έχει συντάξει το κύριο περιεχόμενο αυτής της αναφοράς ανασκόπησης για να βοηθήσει τους αναγνώστες να κατανοήσουν την τρέχουσα επισκόπηση ανάπτυξης του MoE Για περισσότερες λεπτομέρειες, διαβάστε το πρωτότυπο έγγραφο. Επιπλέον, έχουμε συγκεντρώσει επίσης ορισμένες αναφορές που σχετίζονται με το MoE στο τέλος του άρθρου.

Ανάμειξη γνώσεων ειδικού υποβάθρου

Σε ένα μοντέλο μεγάλης γλώσσας που βασίζεται σε μετασχηματιστή (LLM), η σύνθεση κάθε επιπέδου μικτού ειδικού (MoE) είναι συνήθως ένα "δίκτυο ειδικών" {_1, ... , _} σε συνδυασμό με ένα "δίκτυο πύλης" G.

Αυτό το κλειστό δίκτυο έχει συνήθως τη μορφή ενός γραμμικού δικτύου που χρησιμοποιεί μια συνάρτηση ενεργοποίησης softmax, ο ρόλος της οποίας είναι να καθοδηγήσει την είσοδο στο κατάλληλο δίκτυο ειδικών. Το επίπεδο MoE τοποθετείται στη μονάδα Transformer και η λειτουργία του είναι να επιλέγει το δίκτυο προώθησης (FFN), που συνήθως βρίσκεται μετά το υπο-στρώμα αυτοπροσοχής (SA). Αυτή η τοποθέτηση είναι κρίσιμη γιατί καθώς το μοντέλο μεγαλώνει, οι υπολογιστικές απαιτήσεις του FFN αυξάνονται. Για παράδειγμα, στο μοντέλο PaLM με 540 δισεκατομμύρια παραμέτρους, το 90% των παραμέτρων βρίσκονται στο στρώμα FFN του.

Για να το θέσουμε σε μαθηματική μορφή: κάθε δίκτυο ειδικών_ (συνήθως ένα γραμμικό - ReLU - γραμμικό δίκτυο) παραμετροποιείται από το W_, το οποίο λαμβάνει την ίδια είσοδο x και δημιουργεί μια έξοδο_ (x; W_). Ταυτόχρονα, ένα κλειστό δίκτυο G με παραμέτρους Θ (συνήθως αποτελούμενο από ένα γραμμικό δίκτυο-ReLU-γραμμικό-softmax) λαμβάνει την έξοδο G (x; Θ). Σύμφωνα με τη μέθοδο σχεδιασμού της συνάρτησης πύλης, το στρώμα MoE μπορεί να χωριστεί χονδρικά στις ακόλουθες δύο κατηγορίες.



Πυκνή ΜΟΕ

Το πυκνό μικτό επίπεδο ειδικών ενεργοποιεί όλα τα δίκτυα ειδικών {_1, ... , _} κατά τη διάρκεια κάθε επανάληψης. Οι πρώτες μελέτες του Υπουργείου Υγείας υιοθέτησαν γενικά αυτή τη στρατηγική. Τον τελευταίο καιρό, ορισμένες έρευνες έχουν χρησιμοποιήσει πυκνά MoE, όπως EvoMoE, MoLE, LoRAMoE και DS-MoE. Το σχήμα 2α δείχνει τη δομή του πυκνού στρώματος MoE. Επομένως, η έξοδος του πυκνού στρώματος MoE μπορεί να εκφραστεί ως:



Μεταξύ αυτών, (x; Θ) είναι η τιμή πύλης πριν από τη λειτουργία softmax.

Αραιό ​​ΜΟΕ

Αν και η ακρίβεια πρόβλεψης των ειδικών σε πυκνά υβριδικά είναι γενικά υψηλότερη, το υπολογιστικό τους φορτίο είναι επίσης πολύ υψηλό.

Για την επίλυση αυτού του προβλήματος, η εργασία των Shazeer et al. "Εξωφρενικά μεγάλα νευρωνικά δίκτυα: Το στρώμα με αραιά πύλη mix-of-experts" εισάγει ένα στρώμα με αραιά πύλη MoE, το οποίο ενεργοποιεί μόνο επιλεγμένα σε κάθε υποσύνολο εμπειρογνωμόνων. Αυτή η στρατηγική επιτυγχάνει τη σπανιότητα υπολογίζοντας το σταθμισμένο άθροισμα των αποτελεσμάτων των κορυφαίων ειδικών αντί να συγκεντρώνει τα αποτελέσματα όλων των ειδικών. Το σχήμα 2β δείχνει τη δομή αυτού του αραιού στρώματος MoE.

Σύμφωνα με το πλαίσιο που προτείνεται στην παραπάνω εργασία, η Εξίσωση 2.2 μπορεί να τροποποιηθεί ώστε να αντικατοπτρίζει τον αραιό μηχανισμό πύλης:



Ακολουθεί μια εξήγηση: Η συνάρτηση TopK (・, ) διατηρεί μόνο τα πρώτα k στοιχεία της αρχικής τιμής του διανύσματος, ενώ ορίζει τα άλλα στοιχεία σε −∞. Αυτό ακολουθείται από μια πράξη softmax όπου όλοι οι όροι −∞ γίνονται περίπου μηδέν. Η υπερπαράμετρος k θα πρέπει να επιλεγεί σύμφωνα με τη συγκεκριμένη εφαρμογή Οι συνήθεις επιλογές είναι = 1 ή = 2. Η προσθήκη του όρου θόρυβος R_noise είναι μια κοινή στρατηγική για την εκπαίδευση στρωμάτων MoE με αραιά περιφραγμένη περιοχή, η οποία μπορεί να προωθήσει την εξερεύνηση μεταξύ των ειδικών και να βελτιώσει τη σταθερότητα της εκπαίδευσης στο MoE.

Αν και η αραιή πύλη G (x; Θ) μπορεί να επεκτείνει σημαντικά τον χώρο παραμέτρων του μοντέλου χωρίς να αυξήσει το αντίστοιχο υπολογιστικό κόστος, μπορεί επίσης να οδηγήσει σε προβλήματα εξισορρόπησης φορτίου. Το πρόβλημα εξισορρόπησης φορτίου αναφέρεται στην ανομοιόμορφη κατανομή του φορτίου μεταξύ των ειδικών - ορισμένοι ειδικοί χρησιμοποιούνται συχνά, ενώ άλλοι χρησιμοποιούνται σπάνια ή καθόλου.

Για να λυθεί αυτό το πρόβλημα, κάθε επίπεδο MoE πρέπει να ενσωματώσει μια βοηθητική συνάρτηση απώλειας, ο ρόλος της οποίας είναι να παροτρύνει κάθε παρτίδα διακριτικών να κατανέμεται ομοιόμορφα σε διάφορους ειδικούς. Από την περιγραφή της μαθηματικής φόρμας, ορίστε πρώτα μια παρτίδα ερωτήματος B = {x_1, x_2, ..., x_} που περιέχει T διακριτικά και N ειδικούς. Τότε η βοηθητική απώλεια εξισορρόπησης φορτίου ορίζεται ως:



Όπου D_i είναι η αναλογία των διακριτικών που έχουν εκχωρηθεί στον ειδικό i, και P_i είναι η αναλογία των πιθανοτήτων πύλης που έχει εκχωρηθεί στον ειδικό i. Προκειμένου να διασφαλιστεί ότι η παρτίδα κατανέμεται ομοιόμορφα μεταξύ N ειδικών, η συνάρτηση απώλειας εξισορρόπησης φορτίου L_{load-balancing} θα πρέπει να ελαχιστοποιηθεί. Όταν σε κάθε ειδικό έχει εκχωρηθεί ο ίδιος αριθμός διακριτικών D_ = 1/ και η ίδια πιθανότητα πύλης P_ = 1/, επιτυγχάνεται η βέλτιστη συνθήκη:



Σε αυτό το σημείο, το φορτίο κάθε ειδικού είναι ισορροπημένο.

Στη συνέχεια, εκτός εάν αναφέρεται ρητά διαφορετικά, ο όρος "MoE" αναφέρεται αποκλειστικά στο "αραιό Υπουργείο Εξωτερικών".

Ταξινόμηση Μικτών Εμπειρογνωμόνων

Για να βοηθήσει τους ερευνητές να βρουν στόχους στον μεγάλο αριθμό μελετών LLM που χρησιμοποιούν MoE, η ομάδα ανέπτυξε μια μέθοδο ταξινόμησης για να ταξινομήσει αυτά τα μοντέλα σύμφωνα με τρεις πτυχές: σχεδιασμός αλγορίθμου, σχεδιασμός συστήματος και εφαρμογή.

Το Σχήμα 3 δείχνει αυτή την ταξινόμηση και ορισμένα αντιπροσωπευτικά ερευνητικά αποτελέσματα.



Τα παρακάτω θα παρέχουν μια ολοκληρωμένη και σε βάθος εισαγωγή σε κάθε κατηγορία.

Σχεδιασμός αλγορίθμων από ειδικούς στα υβριδικά

λειτουργία πύλης

Οι συναρτήσεις πύλης (γνωστές επίσης ως συναρτήσεις δρομολόγησης ή δρομολογητές) είναι το θεμελιώδες στοιχείο όλων των αρχιτεκτονικών του MoE, συντονίζοντας τη χρήση υπολογισμών ειδικών και συνδυάζοντας τα αποτελέσματα των ειδικών.

Ανάλογα με τον τρόπο επεξεργασίας κάθε εισόδου, η πύλη μπορεί να χωριστεί σε τρεις τύπους: αραιή, πυκνή και μαλακή. Ο μηχανισμός αραιής πύλης ενεργοποιεί ορισμένους ειδικούς, ενώ ο μηχανισμός πυκνής πύλης ενεργοποιεί όλους τους ειδικούς. Το σχήμα 4 δείχνει τις διάφορες συναρτήσεις πύλης που χρησιμοποιούνται στο μοντέλο MoE.



αραιός

Η συνάρτηση αραιής πύλης ενεργοποιεί ένα επιλεγμένο τμήμα ειδικών κατά την επεξεργασία κάθε διακριτικού εισόδου, το οποίο μπορεί να θεωρηθεί ως μια μορφή υπολογισμού υπό όρους.

Οι συναρτήσεις πύλης μπορούν να εφαρμόσουν πολλές μορφές αποφάσεων πύλης, όπως δυαδικές αποφάσεις, αραιές ή συνεχείς αποφάσεις, τυχαίες ή ντετερμινιστικές αποφάσεις.

Η μελέτη των Shazeer et al. "Εξωφρενικά μεγάλα νευρωνικά δίκτυα: Το στρώμα με αραιά πύλη mix-of-experts" πρωτοστάτησε σε μια διαφοροποιήσιμη ευρετική μέθοδο χρησιμοποιώντας μια βοηθητική απώλεια εξισορρόπησης φορτίου, στην οποία οι ειδικοί μπορούν να υπολογιστούν με βάση τις πιθανότητες επιλογής τους σταθμίζεται. Αυτό εισάγει τη διαφοροποίηση στη διαδικασία πύλης, όπου η βελτιστοποίηση της συνάρτησης πύλης μπορεί να καθοδηγείται από κλίσεις.

Αργότερα, αυτό το παράδειγμα έγινε το κυρίαρχο παράδειγμα στον τομέα της έρευνας του Υπουργείου Υγείας. Εφόσον αυτή η μέθοδος επιλέγει έναν ειδικό για κάθε διακριτικό εισόδου, μπορεί να θεωρηθεί ως μια συνάρτηση πύλης επιλογής διακριτικού.

Τα ακόλουθα είναι τα κύρια σημεία αυτής της ενότητας, δείτε το πρωτότυπο έγγραφο για λεπτομέρειες:

συμβολική επιλεκτική πύλη

Βοηθητική απώλεια για διακριτική επιλεκτική πύλη

συμβολική ικανότητα ειδικού για επιλεκτική θυρίδα

Άλλες εξελίξεις στην επιλεκτική θυρίδα συμβολικών

Μη εκπαιδεύσιμο συμβολικό επιλεκτική πύλη

Expert Selective Gating



Εντατικός

Το Dense MoE σημαίνει ότι όλοι οι ειδικοί ενεργοποιούνται κατά την επεξεργασία κάθε εισόδου.

Παρόλο που το αραιό MoE έχει πλεονεκτήματα στην αποτελεσματικότητα, η κατεύθυνση του πυκνού MoE εξακολουθεί να καλωσορίζει την καινοτομία. Ειδικότερα, η πυκνή ενεργοποίηση αποδίδει καλά στη λεπτομερή ρύθμιση LoRA-MoE και έχει σχετικά χαμηλό υπολογιστικό κόστος για τους ειδικούς του LoRA. Αυτή η προσέγγιση επιτρέπει την αποτελεσματική και ευέλικτη ενσωμάτωση πολλαπλών LoRA για την ολοκλήρωση διαφόρων καθοδικών εργασιών. Αυτό διατηρεί τις δυνατότητες παραγωγής του αρχικού προεκπαιδευμένου μοντέλου, διατηρώντας παράλληλα τα μοναδικά χαρακτηριστικά κάθε LoRA για κάθε εργασία.

απαλό στυλ

Για το αραιό MoE, ένα θεμελιώδες πρόβλημα διακριτής βελτιστοποίησης είναι πώς να αποφασίσετε ποιους κατάλληλους ειδικούς θα ορίσετε σε κάθε διακριτικό. Για να διασφαλιστεί η ισορροπημένη συμμετοχή των ειδικών και να ελαχιστοποιηθούν τα μη κατανεμημένα διακριτικά, αυτό απαιτεί συχνά απώλειες με ευρετική υποβοήθηση. Αυτό το πρόβλημα είναι ιδιαίτερα σημαντικό σε σενάρια που αφορούν δεδομένα εκτός διανομής (όπως μικρές παρτίδες συμπερασμάτων, νέες εισροές ή μεταφορά εκμάθησης).

Παρόμοια με το πυκνό MoE, οι μέθοδοι soft MoE χρησιμοποιούν επίσης όλους τους ειδικούς κατά την επεξεργασία κάθε εισόδου, διατηρώντας έτσι την πλήρη διαφοροποίηση και αποφεύγοντας έτσι τα εγγενή προβλήματα των διακριτών μεθόδων επιλογής ειδικών. Η διαφορά μεταξύ του soft MoE και του πυκνού MoE είναι ότι το πρώτο μειώνει τις υπολογιστικές απαιτήσεις μέσω της περιφραγμένης και σταθμισμένης σύντηξης των διακριτικών εισόδου ή των ειδικών.

ειδικός

Αυτή η ενότητα θα εισαγάγει την αρχιτεκτονική των δικτύων εμπειρογνωμόνων εντός του πλαισίου του Υπουργείου Οικονομικών και θα συζητήσει τις λειτουργίες πύλης που συντονίζουν την ενεργοποίηση αυτών των ειδικών.

Τύπος δικτύου

Δεδομένου ότι το MoE είναι ενσωματωμένο στην αρχιτεκτονική του Transformer, αντικαθιστά συχνά τη μονάδα προώθησης δικτύου (FFN) σε αυτά τα μοντέλα. Συνήθως, κάθε ειδικός στο επίπεδο MoE αντιγράφει την αρχιτεκτονική του FFN που αντικαθιστά.

Αυτό το παράδειγμα χρήσης του FFN ως εμπειρογνώμονα εξακολουθεί να είναι mainstream, αλλά έχουν γίνει πολλές βελτιώσεις.

υπερπαράμετροι

Το μέγεθος του sparse MoE μοντέλου ελέγχεται από πολλές βασικές υπερπαράμετρους, όπως:

Αριθμός εμπειρογνωμόνων ανά επίπεδο MoE

Μέγεθος κάθε ειδικού

Πόσο συχνά τοποθετούνται επίπεδα MoE σε όλο το μοντέλο

Η επιλογή αυτών των υπερπαραμέτρων είναι κρίσιμη καθώς επηρεάζει βαθιά την απόδοση και την υπολογιστική απόδοση του μοντέλου σε διάφορες εργασίες. Επομένως, οι βέλτιστες υπερπαράμετροι επιλέγονται με βάση τις συγκεκριμένες απαιτήσεις εφαρμογής και την υπολογιστική υποδομή. Ο Πίνακας 2 δείχνει ορισμένες διαμορφώσεις μοντέλων που χρησιμοποιούν MoE.



Επιπλέον, ο Πίνακας 3 παραθέτει τον αριθμό των παραμέτρων και την απόδοση των σημείων αναφοράς ορισμένων πρόσφατων μοντέλων ανοιχτού κώδικα.



λειτουργία ενεργοποίησης

Το αραιό μοντέλο MoE που βασίζεται στην πυκνή αρχιτεκτονική του Transformer υιοθετεί μια λειτουργία ενεργοποίησης παρόμοια με κορυφαία πυκνά LLM όπως BERT, T5, GPT και LLAMA. Οι λειτουργίες ενεργοποίησης έχουν εξελιχθεί από ReLU σε πιο προηγμένες επιλογές όπως GeLU, GeGLU, SwiGLU και ούτω καθεξής.

Αυτή η τάση επεκτείνεται επίσης και σε άλλα στοιχεία των μοντέλων MoE, τα οποία συχνά ενσωματώνουν τεχνικές όπως η κανονικοποίηση του μέσου τετραγώνου του στρώματος ρίζας (RMSNorm), η ομαδοποιημένη προσοχή ερωτημάτων (GQA) και η ενσωμάτωση περιστρεφόμενης θέσης (RoPE).

Κοινοί ειδικοί

Το DeepSpeed-MoE εισάγει καινοτόμα την αρχιτεκτονική του υπολειπόμενου MoE (Residual-MoE), στην οποία κάθε διακριτικό επεξεργάζεται από έναν σταθερό ειδικό συν έναν ειδικό που επιλέγεται από την πύλη, συνειδητοποιώντας ότι κάθε επίπεδο έχει δύο ειδικούς που συμμετέχουν στην επεξεργασία Το κόστος επικοινωνίας δεν θα υπερβαίνει τη μέθοδο πύλης top-1. Αυτή η μέθοδος αντιμετωπίζει τον ειδικό MoE που έχει επιλεγεί από την πύλη ως βοήθημα διόρθωσης σφάλματος για σταθερό πυκνό FFN.

Η υπό όρους δρομολόγηση MoE (CMR/Conditional MoE Routing) που χρησιμοποιείται στο NLLB υιοθετεί επίσης μια παρόμοια μέθοδο, συνδυάζοντας την έξοδο πυκνών επιπέδων FFN και MoE.

Το παράδειγμα που ενσωματώνει σταθερό FFN και αραιό MoE ονομάζεται συχνά κοινόχρηστοι εμπειρογνώμονες, όπως φαίνεται στο Σχήμα 5β.



Πρόσφατα, μοντέλα όπως τα DeepSeekMoE, OpenMoE, Qwen1.5-MoE και MoCLE υιοθέτησαν αυτό το παράδειγμα, υποδεικνύοντας ότι γίνεται μια κύρια διαμόρφωση. Ωστόσο, τα DeepSeekMoE και Qwen1.5-MoE χρησιμοποιούν πολλούς κοινόχρηστους ειδικούς αντί για έναν.

Εμπειρογνώμονας απόδοσης παραμέτρων ανάμειξης

Η αποδοτική μικρορύθμιση παραμέτρων (PEFT) είναι μια μέθοδος για τη βελτίωση της απόδοσης μικρορύθμισης. Με απλά λόγια, το PEFT ενημερώνει μόνο ένα μικρό μέρος των παραμέτρων του βασικού μοντέλου κατά τη λεπτομέρεια.

Το PEFT είναι επιτυχές, αλλά λόγω των περιορισμένων εκπαιδεύσιμων παραμέτρων του και των πιθανών καταστροφικών προβλημάτων λήθης, η μέθοδος είναι δύσκολο να χρησιμοποιηθεί σε καταστάσεις όπου απαιτείται γενίκευση σε πολλαπλές εργασίες.

Για την άμβλυνση αυτών των περιορισμών, γεννήθηκε το Mixed Parameter Efficient Expert (MoPE), το οποίο ενσωματώνει το πλαίσιο MoE με το PEFT. Το MoPE ενσωματώνει τον μηχανισμό πύλης και την αρχιτεκτονική πολλών εμπειρογνωμόνων του MoE, και κάθε ειδικός κατασκευάζεται χρησιμοποιώντας την τεχνολογία PEFT. Αυτός ο έξυπνος συνδυασμός μπορεί να βελτιώσει σημαντικά την απόδοση του PEFT σε σενάρια πολλαπλών εργασιών. Επιπλέον, δεδομένου ότι το PEFT χρησιμοποιείται για τη δημιουργία ειδικών, το MoPE χρησιμοποιεί λιγότερες παραμέτρους και είναι πολύ πιο αποδοτικό σε πόρους από το παραδοσιακό μοντέλο MoE.

Το MoPE συνδυάζει τα χαρακτηριστικά πολλαπλών εργασιών του MoE και την αποδοτικότητα των πόρων του PEFT και αποτελεί μια πολλά υποσχόμενη ερευνητική κατεύθυνση. Το Σχήμα 6 ταξινομεί το MoPE σύμφωνα με τη θέση του στην αρχιτεκτονική του μοντέλου Transformer. Για μια πιο λεπτομερή εισαγωγή στα αποτελέσματα της έρευνας για το MoPE, ανατρέξτε στην αρχική εργασία.



Λύσεις εκπαίδευσης και συμπερασμάτων

Οι υβριδικοί ειδικοί προχωρούν, όπως και οι σχετικές λύσεις εκπαίδευσης και συμπερασμάτων.

Η λύση αρχικής εκπαίδευσης και συμπερασμάτων απαιτεί εκπαίδευση του μοντέλου MoE από την αρχή και απευθείας χρήση της διαμόρφωσης εκπαιδευμένου μοντέλου για την εκτέλεση συμπερασμάτων.

Αλλά τώρα, πολλά νέα παραδείγματα έχουν προκύψει στην εκπαίδευση και το συμπέρασμα των μοντέλων MoE, συμπεριλαμβανομένου του συνδυασμού των πλεονεκτημάτων των πυκνών και αραιών μοντέλων για να αλληλοσυμπληρώνονται.



Το Σχήμα 7 δείχνει τις λύσεις εκπαίδευσης και συμπερασμάτων που σχετίζονται με το MoE Μπορεί να φανεί ότι οι αναδυόμενες λύσεις μπορούν να χωριστούν σε τρεις κατηγορίες:

Πυκνό σε αραιό: ξεκινήστε με πυκνή εκπαίδευση μοντέλων και σταδιακά μετάβαση σε αραιή διαμόρφωση MoE.

Sparse to dense: περιλαμβάνει την υποβάθμιση του μοντέλου αραιού MoE σε πυκνή μορφή, η οποία είναι ευεργετική για την εφαρμογή συμπερασμάτων σε μορφή υλικού.

Σύντηξη έμπειρων μοντέλων: Ενσωματώστε πολλαπλά προεκπαιδευμένα πυκνά έμπειρα μοντέλα σε ένα ενοποιημένο μοντέλο MoE.

Παράγωγες τεχνολογίες του Υπουργείου Υγείας

Το Mix of Expertise (MoE) ενέπνευσε πολλές διαφορετικές παραλλαγές τεχνικές. Για παράδειγμα, η εργασία των Xue et al. "Go ευρύτερη αντί για βαθύτερη" προτείνει το WideNet με αυξημένο πλάτος μοντέλου , εκτός από το επίπεδο κανονικοποίησης.

Υπάρχουν επίσης SYT (Sparse Universal Transformer) που προτείνεται από τους Tan et al., MoT (Hybrid Token) που προτείνεται από Antoniak et al., SMoP (Sparse Hybrid Prompter) που προτείνεται από Choi et al., και Lifelong- που προτείνεται από Chen et al. MoE, MoD (mixing depth) που προτείνεται από τους Raposo et al., κ.λπ.

Συνοψίζοντας, η ανάπτυξη τεχνολογιών που προέρχονται από το MoE αποκαλύπτει μια τάση: το MoE έχει όλο και περισσότερες λειτουργίες και είναι ολοένα και πιο προσαρμόσιμο σε διαφορετικά πεδία.

Σχεδιασμός Συστήματος από Hybrid Experts

Ενώ το Mixed Expertise (MoE) μπορεί να βελτιώσει τις δυνατότητες μεγάλων γλωσσικών μοντέλων, φέρνει επίσης νέες τεχνικές προκλήσεις λόγω του αραιού και δυναμικού υπολογιστικού του φορτίου.

Το GShard εισάγει τον παραλληλισμό ειδικών, ο οποίος μπορεί να προγραμματίσει τμηματοποιημένα τοπικά διακριτικά σύμφωνα με τους περιορισμούς εξισορρόπησης φορτίου των δυνατοτήτων των ειδικών, επιτυγχάνοντας έτσι παράλληλους υπολογισμούς θυρών και ειδικών. Αυτό το παράδειγμα έχει γίνει μια βασική στρατηγική για την προώθηση της αποτελεσματικής επέκτασης των μοντέλων του MoE. Μπορούμε να σκεφτούμε αυτήν την προσέγγιση ως μια βελτιωμένη έκδοση του παραλληλισμού δεδομένων - κάθε ειδικός στο επίπεδο MoE έχει εκχωρηθεί σε διαφορετική συσκευή, ενώ όλα τα επίπεδα που δεν είναι ειδικοί αντιγράφονται σε όλες τις συσκευές.

Όπως φαίνεται στο Σχήμα 8α, η ροή εργασίας της παραλληλοποίησης ειδικών είναι να εκτελεί τις ακόλουθες λειτουργίες διαδοχικά: δρομολόγηση πύλης, κωδικοποίηση εισόδου, προγραμματισμός από όλα σε όλους, υπολογισμός ειδικών, συνδυασμός από όλους και αποκωδικοποίηση εξόδου.



Σε γενικές γραμμές, το μέγεθος εισόδου ενός GEMM πρέπει να είναι αρκετά μεγάλο για να χρησιμοποιηθεί πλήρως η υπολογιστική συσκευή. Ως εκ τούτου, η κωδικοποίηση εισόδου χρησιμοποιείται για τη συγκέντρωση των διακριτικών εισόδου του ίδιου ειδικού σε έναν συνεχή χώρο μνήμης, ο οποίος καθορίζεται από τη "χαρτογράφηση διακριτικού-ειδικού" στη δρομολόγηση πύλης. Στη συνέχεια, ο ρόλος του προγραμματισμού All-to-All είναι να διανέμει τα διακριτικά εισόδου στους αντίστοιχους ειδικούς σε κάθε συσκευή. Αυτό ακολουθείται από υπολογισμούς εντοπισμού ειδικών. Αφού ολοκληρωθεί ο υπολογισμός, συνοψίζεται μέσω του συνδυασμού All-to-All, και στη συνέχεια αποκωδικοποιείται και εξάγεται και η διάταξη των αρχικών δεδομένων αποκαθίσταται σύμφωνα με το ευρετήριο πύλης.

Επιπλέον, ορισμένοι ερευνητές διερευνούν τη συνέργεια μεταξύ του παραλληλισμού των ειδικών και άλλων υφιστάμενων παράλληλων στρατηγικών (όπως τανυστές, αγωγοί και παραλληλισμός ακολουθιών) για τη βελτίωση της επεκτασιμότητας και της αποτελεσματικότητας των μοντέλων MoE σε μεγάλης κλίμακας κατανεμημένα περιβάλλοντα.

Μερικά παραδείγματα υβριδικής παραλληλοποίησης δίνονται στο Σχήμα 8, συμπεριλαμβανομένων (β) παραλληλισμού δεδομένων + εμπειρογνώμονα + παραλληλισμού τανυστών, (γ) παραλληλισμού δεδομένων + ειδικού + αγωγού, (δ) παραλληλισμού ειδικού + τανυστή.

Είναι σημαντικό να συνειδητοποιήσουμε ότι υπάρχουν πολύπλοκες αλληλεπιδράσεις μεταξύ της υπολογιστικής απόδοσης, του φόρτου επικοινωνίας και του αποτυπώματος μνήμης, οι οποίες θα επηρεαστούν από την επιλογή της στρατηγικής κατανεμημένης παραλληλοποίησης και θα επηρεαστούν επίσης από διαφορετικές διαμορφώσεις υλικού. Επομένως, κατά την ανάπτυξη στρατηγικών για πρακτικές εφαρμογές, πρέπει να γίνονται προσεκτικοί αντισταθμίσεις και να γίνονται προσαρμογές σε συγκεκριμένα σενάρια.

Στη συνέχεια, η ομάδα παρουσίασε τις προκλήσεις του σχεδιασμού του συστήματος που αντιμετωπίζει η ανάπτυξη μοντέλων του Υπουργείου Υγείας και τα αποτελέσματα της έρευνας για την επίλυση αυτών των προβλημάτων σε τρεις κύριες ενότητες: υπολογιστές, επικοινωνία και αποθήκευση Για λεπτομέρειες, δείτε την αρχική εργασία. Ο Πίνακας 4 παρέχει μια επισκόπηση του πλαισίου Υπουργείου Υγείας ανοιχτού κώδικα.



Ανάμειξη Ειδικών Εφαρμογών

Στον τομέα των μεγάλων γλωσσικών μοντέλων (LLM) που επί του παρόντος κυριαρχεί το Transformer, το παράδειγμα mixed expert (MoE) είναι ελκυστικό επειδή μπορεί να βελτιώσει σημαντικά τις δυνατότητες του μοντέλου χωρίς να εισάγει υπερβολικές υπολογιστικές απαιτήσεις για τις φάσεις εκπαίδευσης και συμπερασμάτων. Αυτός ο τύπος τεχνολογίας μπορεί να βελτιώσει σημαντικά την απόδοση του LLM σε μια ποικιλία εργασιών κατάντη, ακόμη και να δημιουργήσει ορισμένες εφαρμογές τεχνητής νοημοσύνης που ξεπερνούν τα ανθρώπινα επίπεδα.

Υπάρχουν φήμες ότι το GPT-4, το οποίο είναι τόσο ισχυρό, μπορεί επίσης να υιοθετήσει κάποιο είδος αρχιτεκτονικής MoE - που αποτελείται από 8 ειδικούς με 220 δισεκατομμύρια παραμέτρους, εκπαιδευμένους σε διαφορετικά σύνολα δεδομένων και εργασίες και χρησιμοποιώντας μια διαδικασία επαναληπτικής συλλογιστικής 16 φορές. Για περισσότερες λεπτομέρειες σχετικά με αυτήν τη φήμη, ανατρέξτε στην αναφορά Heart of the Machine "Ultimate "Revelation": Αποκαλύφθηκαν η αρχιτεκτονική του μοντέλου GPT-4, το κόστος εκπαίδευσης και οι πληροφορίες συνόλου δεδομένων.

Έτσι, δεν αποτελεί έκπληξη το γεγονός ότι το MoE ανθίζει στην επεξεργασία φυσικής γλώσσας, στην όραση υπολογιστή, στα συστήματα συστάσεων και στις πολυτροπικές εφαρμογές.

Αυτές οι εφαρμογές ουσιαστικά απαιτούν τη χρήση υπολογισμών υπό όρους για να αυξηθεί σημαντικά ο αριθμός των παραμέτρων του μοντέλου για τη βελτίωση της απόδοσης του μοντέλου με σταθερό υπολογιστικό κόστος ή η εφαρμογή δυναμικής επιλογής ειδικών μέσω ενός μηχανισμού πύλης για την επίτευξη αποτελεσματικής εκμάθησης πολλαπλών εργασιών.

Η ομάδα παρουσίασε επίσης αντιπροσωπευτικές εφαρμογές MoE σε αυτούς τους διαφορετικούς τομείς, οι οποίες μπορούν να βοηθήσουν τους αναγνώστες να κατανοήσουν πώς να χρησιμοποιούν το MoE για συγκεκριμένες εργασίες. Δείτε το πρωτότυπο έγγραφο για λεπτομέρειες.

Προκλήσεις και Ευκαιρίες

Υβριδικοί ειδικοί, ισχυροί, μειώνουν το κόστος, βελτιώνουν την απόδοση. Αν και οι προοπτικές είναι καλές, εξακολουθούν να υπάρχουν προκλήσεις.

Σε αυτή την ενότητα, η ομάδα ταξινομεί βασικές προκλήσεις που σχετίζονται με το MoE και επισημαίνει μελλοντικές κατευθύνσεις έρευνας που υπόσχονται σημαντικά αποτελέσματα. Αυτές οι προκλήσεις και οι ερευνητικές κατευθύνσεις παρατίθενται εν συντομία παρακάτω και ανατρέξτε στην αρχική εργασία για περισσότερες λεπτομέρειες.

Προπονητική σταθερότητα και εξισορρόπηση φορτίου

Επεκτασιμότητα και επιβάρυνση επικοινωνίας

Εξειδίκευση και συνεργασία ειδικών

Αραιή ενεργοποίηση και υπολογιστική απόδοση

Γενίκευση και ευρωστία

Επεξήγηση και διαφάνεια

Βέλτιστη αρχιτεκτονική ειδικών

Ενοποίηση με τα υπάρχοντα πλαίσια