νέα

Ικανός να αντιλαμβάνεται πολλαπλούς τρόπους και να ενεργεί ανάλογα με την κατάσταση, η Meta προτείνει ένα ειδικό υβρίδιο με επίγνωση των τρόπων

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Machine Heart

Οι μικτές ειδικοί έχουν επίσης ειδικότητες στο επάγγελμά τους.

Για τα τρέχοντα βασικά μοντέλα μεικτής μορφής, ένας κοινός αρχιτεκτονικός σχεδιασμός είναι η σύντηξη κωδικοποιητών ή αποκωδικοποιητών συγκεκριμένων τρόπων, ωστόσο, αυτή η μέθοδος έχει περιορισμούς: δεν μπορεί να ενσωματώσει πληροφορίες από διαφορετικούς τρόπους και είναι δύσκολο να εξάγει περιεχόμενο που περιέχει πολλαπλούς τρόπους.

Προκειμένου να ξεπεραστεί αυτός ο περιορισμός, η ομάδα Chameleon του Meta FAIR πρότεινε μια νέα ενιαία αρχιτεκτονική Transformer στην πρόσφατη εργασία "Chameleon: Mixed-modal early-fusion foundation models", η οποία μπορεί να προβλέψει το επόμενο διακριτικό με βάση τον προβλεπόμενο στόχο που αποτελούνται από διακριτά διακριτικά εικόνας και κειμένου μοντελοποιούνται για να επιτρέπουν την απρόσκοπτη συλλογιστική και τη δημιουργία μεταξύ διαφορετικών τρόπων.



Μετά την ολοκλήρωση της προεκπαίδευσης σε περίπου 10 τρισεκατομμύρια μικτές μάρκες, ο Chameleon έχει αποδείξει την ικανότητα προσαρμογής σε ένα ευρύ φάσμα όρασης και γλώσσας και μπορεί να χειριστεί μια ποικιλία διαφορετικών εργασιών κατάντη καλά. Οι επιδόσεις του Chameleon είναι ιδιαίτερα εντυπωσιακές στο έργο της δημιουργίας μακροχρόνιων απαντήσεων μεικτούς τρόπους, ξεπερνά ακόμη και τα εμπορικά μοντέλα όπως το Gemini 1.0 Pro και το GPT-4V. Ωστόσο, για ένα μοντέλο όπως το Chameleon, όπου οι διάφορες μέθοδοι αναμειγνύονται στα πρώτα στάδια της εκπαίδευσης μοντέλων, η επέκταση των δυνατοτήτων του απαιτεί την επένδυση μεγάλης υπολογιστικής ισχύος.

Με βάση τα παραπάνω προβλήματα, η ομάδα του Meta FAIR διεξήγαγε κάποια έρευνα και εξερεύνηση σχετικά με τη δρομολογημένη αραιή αρχιτεκτονική και πρότεινε το MoMa: μια υβριδική αρχιτεκτονική με γνώσεις τροπικότητας.



Τίτλος εργασίας: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.21770

Προηγούμενη έρευνα έχει δείξει ότι αυτός ο τύπος αρχιτεκτονικής μπορεί να επεκτείνει αποτελεσματικά τις δυνατότητες των βασικών μοντέλων μεμονωμένων τρόπων και επίσης να βελτιώσει την απόδοση των μοντέλων αντιθετικής μάθησης πολλαπλών τρόπων. Ωστόσο, η χρήση του για πρώιμη εκπαίδευση μοντέλων που ενσωματώνει διάφορες μεθόδους εξακολουθεί να είναι ένα θέμα με ευκαιρίες και προκλήσεις, και λίγοι άνθρωποι το έχουν μελετήσει.

Η έρευνα της ομάδας βασίζεται στη γνώση ότι οι διαφορετικοί τρόποι είναι εγγενώς ετερογενείς - τα διακριτικά κειμένου και εικόνας έχουν διαφορετικές πυκνότητες πληροφοριών και μοτίβα πλεονασμού.

Ενώ ενσωμάτωσε αυτά τα διακριτικά σε μια ενοποιημένη αρχιτεκτονική σύντηξης, η ομάδα πρότεινε επίσης την περαιτέρω βελτιστοποίηση του πλαισίου ενσωματώνοντας ενότητες για συγκεκριμένες μεθόδους. Η ομάδα ονομάζει αυτή την έννοια αραιότητα, ή MaS για συντομία, επιτρέπει στο μοντέλο να αποτυπώνει καλύτερα τα χαρακτηριστικά κάθε τρόπου λειτουργίας, ενώ χρησιμοποιεί επίσης μηχανισμούς μερικής κοινής χρήσης και προσοχής.

Προηγούμενες μελέτες όπως το VLMo, το BEiT-3 και το VL-MoE έχουν υιοθετήσει τη μέθοδο των ειδικών μικτών τρόπων (MoME/mixture-of-modality-experts) για την εκπαίδευση κωδικοποιητών οπτικής γλώσσας και μοντελοποίησης γλώσσας με μάσκα, από το FAIR Η ερευνητική ομάδα έλαβε το χρησιμοποιήσιμο πεδίο εφαρμογής του Υπουργείου Υγείας ένα βήμα παραπέρα.

Μοντέλο αρχιτεκτονικής

πρώιμη σύντηξη

Το νέο μοντέλο που προτείνεται σε αυτό το άρθρο βασίζεται στην πρώιμη αρχιτεκτονική σύντηξης του Chameleon, η οποία αναπαριστά εικόνες και κείμενο ως μια σειρά από διακριτά διακριτικά σε έναν ενοποιημένο μετασχηματιστή. Ο πυρήνας του Chameleon είναι ένα μοντέλο που βασίζεται σε Transformer που εφαρμόζει έναν μηχανισμό αυτοπροσοχής σε μια συνδυασμένη ακολουθία διακριτικών εικόνας και κειμένου. Αυτό επιτρέπει στο μοντέλο να συλλαμβάνει πολύπλοκους συσχετισμούς εντός και μεταξύ των τροπολογιών. Το μοντέλο εκπαιδεύεται με στόχο την επόμενη πρόβλεψη διακριτικού, τη δημιουργία διακριτικών κειμένου και εικόνας με αυτοπαλινδρομικό τρόπο.

Στο Chameleon, το σχήμα κωδικοποίησης εικόνας χρησιμοποιεί ένα πρόγραμμα εκμάθησης εικόνων, το οποίο κωδικοποιεί μια εικόνα 512 × 512 σε 1024 διακριτά διακριτικά που βασίζονται σε ένα βιβλίο κωδικών μεγέθους 8192. Για την τμηματοποίηση κειμένου, θα χρησιμοποιηθεί ένα διακριτικό BPE με μέγεθος λεξιλογίου 65.536, το οποίο περιέχει διακριτικά εικόνας. Αυτή η ενοποιημένη μέθοδος τμηματοποίησης λέξεων επιτρέπει στο μοντέλο να χειρίζεται απρόσκοπτα οποιαδήποτε αλληλουχία αλληλένδετων διακριτικών εικόνας και κειμένου.

Με αυτή τη μέθοδο, το νέο μοντέλο κληρονομεί τα πλεονεκτήματα της ενοποιημένης αναπαράστασης, της καλής ευελιξίας, της υψηλής επεκτασιμότητας και της υποστήριξης για μάθηση από άκρο σε άκρο.

Σε αυτή τη βάση (Εικόνα 1α), προκειμένου να βελτιωθεί περαιτέρω η αποδοτικότητα και η απόδοση του πρώιμου μοντέλου σύντηξης, η ομάδα εισήγαγε επίσης τεχνολογία αραιότητας με επίγνωση των τρόπων λειτουργίας.



Επέκταση πλάτους: υβριδικοί ειδικοί με γνώση των τρόπων

Η ομάδα προτείνει μια προσέγγιση κλιμάκωσης εύρους: επεκτείνοντας την τυπική αρχιτεκτονική μικτών εμπειρογνωμόνων (MoE) ενσωματώνοντας την αραιότητα της μονάδας με επίγνωση της τροπικότητας σε μπροστινές ενότητες.

Αυτή η μέθοδος βασίζεται στη γνώση ότι τα διακριτικά διαφορετικών τρόπων λειτουργίας έχουν διαφορετικά χαρακτηριστικά και πυκνότητες πληροφοριών.

Κατασκευάζοντας διαφορετικές ομάδες εμπειρογνωμόνων για κάθε τρόπο, το μοντέλο μπορεί να αναπτύξει εξειδικευμένες διαδρομές επεξεργασίας, διατηρώντας παράλληλα την ικανότητα ενσωμάτωσης πληροφοριών μεταξύ των τρόπων.

Το Σχήμα 1β απεικονίζει τα βασικά συστατικά αυτού του μείγματος ειδικών με επίγνωση των τρόπων λειτουργίας (MoMa). Για να το θέσουμε απλά, πρώτα ομαδοποιούνται οι ειδικοί κάθε συγκεκριμένης μεθόδου, στη συνέχεια εφαρμόζεται η ιεραρχική δρομολόγηση (διαιρείται σε δρομολόγηση με επίγνωση της μεθόδου και δρομολόγηση ενδοτροπικών), και τελικά επιλέγονται οι ειδικοί. Ανατρέξτε στο πρωτότυπο έγγραφο για τη λεπτομερή διαδικασία.

Γενικά, για ένα διακριτικό εισόδου x, ο επίσημος ορισμός της μονάδας MoMa είναι:



Μετά τους υπολογισμούς του MoMa, η ομάδα χρησιμοποίησε περαιτέρω υπολειπόμενες συνδέσεις και κανονικοποίηση Swin Transformer.

Mixture-of-Depths (MoD)

Προηγούμενοι ερευνητές έχουν επίσης εξερευνήσει την εισαγωγή αραιότητας στη διάσταση βάθους.

Η προσέγγιση της ομάδας βασίζεται στη δεύτερη προσέγγιση, ενώ ενσωματώνει την πρόσφατα προτεινόμενη τεχνολογία Hybrid Depth (MoD). Για περισσότερες πληροφορίες σχετικά με το MoD, ανατρέξτε στην αναφορά Heart of Machine "DeepMind αναβαθμίζει τον μετασχηματιστή, τα FLOP περάσματα προς τα εμπρός μπορούν να μειωθούν έως και στο μισό".

Συγκεκριμένα, όπως φαίνεται στο παρακάτω σχήμα, η προσέγγιση της ομάδας είναι να ενσωματώσει το MoD πριν από τη δρομολόγηση υβριδικών εμπειρογνωμόνων (MoE) σε κάθε επίπεδο MoD, διασφαλίζοντας έτσι ότι το MoD μπορεί να εφαρμοστεί σε ολόκληρη την παρτίδα δεδομένων πριν από τον διαχωρισμό των τρόπων.



αιτιολογία

Στη φάση συμπερασμάτων, δεν μπορούμε να χρησιμοποιήσουμε απευθείας τη δρομολόγηση επιλογής ειδικών του MoE ή τη δρομολόγηση επιλογής επιπέδου του MoD, επειδή οι επιλογές top-k (επιλέγοντας το κορυφαίο k) σε μια παρτίδα δεδομένων θα καταστρέψουν την αιτιώδη σχέση.

Προκειμένου να διασφαλιστεί η αιτιώδης σχέση του συλλογισμού, εμπνευσμένη από την προαναφερθείσα εργασία του MoD, η ερευνητική ομάδα εισήγαγε έναν βοηθητικό δρομολογητή, ο ρόλος του οποίου είναι να προβλέψει την πιθανότητα επιλογής του διακριτικού από έναν συγκεκριμένο ειδικό ή επίπεδο με βάση μόνο το κρυφό αναπαράσταση του κουπονιού.

Upcycling

Υπάρχει μια μοναδική δυσκολία για μια αρχιτεκτονική MoE που εκπαιδεύεται από την αρχή όσον αφορά τη βελτιστοποίηση του χώρου αναπαράστασης και του μηχανισμού δρομολόγησης. Η ομάδα ανακάλυψε ότι ο δρομολογητής MoE είναι υπεύθυνος για τη διαίρεση του χώρου αναπαράστασης για κάθε ειδικό. Ωστόσο, στα πρώτα στάδια της εκπαίδευσης μοντέλων, αυτός ο χώρος αναπαράστασης δεν είναι βέλτιστος, γεγονός που θα οδηγήσει στο να είναι υποβέλτιστη η συνάρτηση δρομολόγησης που προκύπτει από την εκπαίδευση.

Προκειμένου να ξεπεραστεί αυτός ο περιορισμός, πρότειναν μια μέθοδο αναβάθμισης βασισμένη στην εργασία «Sparse upcycling: Training mix-of-experts from dense checkpoints» των Komatsuzaki et al.



Συγκεκριμένα, αρχικά εκπαιδεύεται μια αρχιτεκτονική με έναν ειδικό FFN για κάθε τρόπο. Μετά από κάποια προκαθορισμένα βήματα, το μοντέλο αναβαθμίζεται και μετασχηματίζεται. Αυτό θα επαναφέρει τον χρονοπρογραμματιστή ρυθμού εκμάθησης διατηρώντας παράλληλα την κατάσταση φόρτωσης δεδομένων του προηγούμενου σταδίου για να διασφαλιστεί ότι τα ανανεωμένα δεδομένα μπορούν να χρησιμοποιηθούν στο δεύτερο στάδιο της εκπαίδευσης.

Για να προωθήσει τους ειδικούς να είναι πιο εξειδικευμένοι, η ομάδα χρησιμοποίησε επίσης τον θόρυβο Gumbel για να βελτιώσει τη λειτουργία δρομολόγησης MoE, επιτρέποντας στον νέο δρομολογητή να δειγματίζει ειδικούς με διαφοροποιημένο τρόπο.

Αυτή η μέθοδος αναβάθμισης σε συνδυασμό με την τεχνολογία Gumbel-Sigmoid μπορεί να ξεπεράσει τους περιορισμούς των μαθητών δρομολογητών και έτσι να βελτιώσει την απόδοση της πρόσφατα προτεινόμενης αραιής αρχιτεκτονικής με επίγνωση των τρόπων λειτουργίας.

Βελτιστοποίηση αποδοτικότητας

Για να διευκολύνει την κατανεμημένη εκπαίδευση του MoMa, η ομάδα υιοθέτησε το Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Ωστόσο, σε σύγκριση με το συμβατικό MoE, αυτή η μέθοδος έχει μερικά μοναδικά προβλήματα απόδοσης, συμπεριλαμβανομένων ζητημάτων εξισορρόπησης φορτίου και ζητημάτων απόδοσης της εκτέλεσης ειδικών.

Για το πρόβλημα της εξισορρόπησης φορτίου, η ομάδα ανέπτυξε μια ισορροπημένη μέθοδο ανάμειξης δεδομένων που διατηρεί την αναλογία δεδομένων κειμένου προς εικόνα σε κάθε GPU συνεπή με την αναλογία ειδικών.

Όσον αφορά την αποτελεσματικότητα της εκτέλεσης από ειδικούς, η ομάδα έχει διερευνήσει ορισμένες στρατηγικές που μπορούν να βοηθήσουν στη βελτίωση της αποτελεσματικότητας εκτέλεσης των ειδικών σε διαφορετικούς τρόπους:

Περιορίστε τους ειδικούς σε κάθε τρόπο σε ειδικούς ισομορφικούς και απαγορεύστε τη δρομολόγηση διακριτικών κειμένου σε ειδικούς εικόνων και αντίστροφα.

Χρησιμοποιήστε την αραιότητα μπλοκ για να βελτιώσετε την αποτελεσματικότητα της εκτέλεσης.

Όταν ο αριθμός των τροπολογιών είναι περιορισμένος, οι ειδικοί σε διαφορετικές μεθόδους εκτελούνται διαδοχικά.

Δεδομένου ότι κάθε GPU στο πείραμα επεξεργαζόταν αρκετά διακριτικά, η χρήση του υλικού δεν ήταν μεγάλο πρόβλημα ακόμα και αν χρησιμοποιήθηκαν πολλαπλοί πολλαπλασιασμοί μητρών σε παρτίδες. Ως εκ τούτου, η ομάδα πιστεύει ότι η μέθοδος διαδοχικής εκτέλεσης είναι μια καλύτερη επιλογή για την τρέχουσα κλίμακα του πειραματικού περιβάλλοντος.

Άλλες βελτιστοποιήσεις

Για να βελτιώσει περαιτέρω την απόδοση, η ομάδα χρησιμοποίησε επίσης πολλές άλλες τεχνικές βελτιστοποίησης.

Αυτές περιλαμβάνουν γενικές λειτουργίες βελτιστοποίησης, όπως η μείωση του όγκου επικοινωνίας με κλίση και η αυτοματοποιημένη σύντηξη πυρήνα GPU Η ερευνητική ομάδα εφάρμοσε επίσης τη βελτιστοποίηση γραφήματος μέσω του torch.compile.

Επιπλέον, έχουν αναπτύξει ορισμένες τεχνικές βελτιστοποίησης για το MoMa, συμπεριλαμβανομένης της πολυπλεξίας ευρετηρίων τροπικών διακριτικών σε διαφορετικά επίπεδα για τον πιο αποτελεσματικό συγχρονισμό συσκευών μεταξύ CPU και GPU.

πείραμα

στήνω

Το σύνολο δεδομένων προεκπαίδευσης και η διαδικασία προεπεξεργασίας που χρησιμοποιήθηκαν στο πείραμα είναι ίδια με του Chameleon. Για να αξιολογήσουν την απόδοση κλιμάκωσης, εκπαίδευσαν το μοντέλο χρησιμοποιώντας περισσότερα από 1 τρισεκατομμύριο μάρκες.



Ο Πίνακας 1 δίνει τη λεπτομερή διαμόρφωση των πυκνών και αραιών μοντέλων.

Κλιμάκωση απόδοσης σε διαφορετικά υπολογιστικά επίπεδα

Η ομάδα ανέλυσε την απόδοση κλιμάκωσης διαφορετικών μοντέλων σε διαφορετικά υπολογιστικά επίπεδα (FLOPs) που ισοδυναμούν με τρία μεγέθη πυκνών μοντέλων: 90M, 435M και 1,4B.

Πειραματικά αποτελέσματα δείχνουν ότι ένα αραιό μοντέλο που χρησιμοποιεί μόνο το 1/η των συνολικών FLOP μπορεί να ταιριάζει με την απώλεια πριν από την προπόνηση ενός πυκνού μοντέλου ισοδύναμων FLOP (η αντιπροσωπεύει τον παράγοντα επιτάχυνσης πριν την προπόνηση).

Τροπική αποδεσμοποίηση

Η εισαγωγή της ομαδοποίησης ειδικών για συγκεκριμένες μεθόδους μπορεί να βελτιώσει την αποτελεσματικότητα της προεκπαίδευσης μοντέλων διαφορετικών μεγεθών, κάτι που είναι ιδιαίτερα ωφέλιμο για τους τρόπους εικόνας. Όπως φαίνεται στο Σχήμα 3, η διαμόρφωση moe_1t1i με χρήση 1 ειδικού εικόνας και 1 ειδικού κειμένου ξεπερνά σημαντικά το αντίστοιχο πυκνό μοντέλο.



Η επέκταση του αριθμού των ειδικών ανά ομάδα τρόπων μπορεί να βελτιώσει περαιτέρω την απόδοση του μοντέλου.

Συνδυάστε το βάθος και την τεχνογνωσία

Η ομάδα παρατήρησε ότι η ταχύτητα σύγκλισης της απώλειας προπόνησης βελτιώνεται όταν χρησιμοποιούνται MoE, MoD και οι συνδυασμοί τους. Όπως φαίνεται στο Σχήμα 4, η προσθήκη MoD (mod_moe_1t1i) στην αρχιτεκτονική moe_1t1i μπορεί να βελτιώσει σημαντικά την απόδοση του μοντέλου σε διαφορετικά μεγέθη μοντέλων.



Επιπλέον, το mod_moe_1t1i μπορεί να ταιριάζει ή και να υπερβαίνει το moe_4t4i σε διαφορετικά μεγέθη και λειτουργίες μοντέλων, γεγονός που δείχνει ότι η εισαγωγή αραιότητας στη διάσταση βάθους μπορεί επίσης να βελτιώσει αποτελεσματικά την αποτελεσματικότητα της προπόνησης.

Από την άλλη πλευρά, μπορείτε επίσης να δείτε ότι τα οφέλη από τη στοίβαξη MoD και MoE θα μειωθούν σταδιακά.

Διευρύνετε τον αριθμό των ειδικών

Για να μελετήσει τον αντίκτυπο της επέκτασης του αριθμού των ειδικών, η ομάδα διεξήγαγε περαιτέρω πειράματα κατάλυσης. Διερεύνησαν δύο σενάρια: την ανάθεση ίσου αριθμού εμπειρογνωμόνων σε κάθε τροπικότητα (ισορροπημένη) και την ανάθεση διαφορετικού αριθμού ειδικών σε κάθε μέθοδο (μη ισορροπημένη). Τα αποτελέσματα φαίνονται στο Σχήμα 5.



Για την ισορροπημένη ρύθμιση, μπορεί να φανεί από το Σχήμα 5α ότι όσο αυξάνεται ο αριθμός των ειδικών, η απώλεια προπόνησης θα μειωθεί σημαντικά. Αλλά οι απώλειες κειμένου και εικόνας παρουσιάζουν διαφορετικά μοτίβα κλιμάκωσης. Αυτό υποδηλώνει ότι τα εγγενή χαρακτηριστικά κάθε μεθόδου οδηγούν σε διαφορετικές αραιές συμπεριφορές μοντελοποίησης.

Για τη μη ισορροπημένη ρύθμιση, το σχήμα 5β συγκρίνει τρεις διαφορετικές διαμορφώσεις με ισοδύναμο συνολικό αριθμό ειδικών (8). Μπορεί να φανεί ότι όσο περισσότεροι ειδικοί υπάρχουν σε έναν τρόπο, τόσο καλύτερα το μοντέλο αποδίδει γενικά σε αυτόν τον τρόπο.

Αναβαθμίζω

Η ομάδα φυσικά επαλήθευσε επίσης την επίδραση των προαναφερθέντων αναβαθμίσεων. Το Σχήμα 6 συγκρίνει τις καμπύλες εκπαίδευσης διαφορετικών παραλλαγών μοντέλων.



Τα αποτελέσματα δείχνουν ότι η αναβάθμιση μπορεί πράγματι να βελτιώσει περαιτέρω την εκπαίδευση του μοντέλου: όταν το πρώτο στάδιο έχει 10 χιλιάδες βήματα, η αναβάθμιση μπορεί να φέρει 1,2 φορές το όφελος των FLOP και όταν ο αριθμός των βημάτων είναι 20 χιλιάδες, υπάρχει επίσης 1,16 φορές το όφελος των FLOP.

Επιπλέον, μπορεί να παρατηρηθεί ότι καθώς προχωρά η εκπαίδευση, το χάσμα απόδοσης μεταξύ του αναβαθμισμένου μοντέλου και του μοντέλου που έχει εκπαιδευτεί από την αρχή αυξάνεται.

Ανάλυση απόδοσης

Τα αραιά μοντέλα συχνά δεν παρέχουν άμεσα κέρδη απόδοσης, επειδή τα αραιά μοντέλα αυξάνουν τη δυναμική και τα σχετικά ζητήματα εξισορρόπησης δεδομένων. Για να ποσοτικοποιήσει τον αντίκτυπο της πρόσφατα προτεινόμενης μεθόδου στην αποτελεσματικότητα της εκπαίδευσης, η ομάδα συνέκρινε την απόδοση εκπαίδευσης διαφορετικών αρχιτεκτονικών σε πειράματα με συνήθως ελεγχόμενες μεταβλητές. Τα αποτελέσματα φαίνονται στον Πίνακα 2.



Μπορεί να φανεί ότι σε σύγκριση με τα πυκνά μοντέλα, η αραιή απόδοση που βασίζεται σε τρόπους λειτουργίας επιτυγχάνει καλύτερες αντισταθμίσεις ποιότητας-διακίνησης και μπορεί να επιδείξει λογική επεκτασιμότητα καθώς αυξάνεται ο αριθμός των ειδικών. Από την άλλη πλευρά, αν και οι παραλλαγές MoD επιτυγχάνουν τις καλύτερες απόλυτες απώλειες, τείνουν επίσης να είναι πιο ακριβές υπολογιστικά λόγω πρόσθετης δυναμικής και ανισορροπιών.

Απόδοση χρόνου συμπερασμάτων

Η ομάδα αξιολόγησε επίσης την απόδοση του μοντέλου σε διατηρημένα δεδομένα μοντελοποίησης γλώσσας και εργασίες κατάντη. Τα αποτελέσματα φαίνονται στους Πίνακες 3 και 4.



Όπως φαίνεται στον Πίνακα 3, με τη χρήση πολλών ειδικών εικόνων, το μοντέλο 1.4B MoMa 1t1i υπερτερεί του αντίστοιχου πυκνού μοντέλου στις περισσότερες μετρήσεις, με εξαίρεση τις μετρήσεις σύγχυσης υπό όρους εικόνας σε κείμενο στο COCO και το Flickr. Η περαιτέρω επέκταση του αριθμού των ειδικών μπορεί επίσης να βελτιώσει την απόδοση, με το 1,4B MoE 8x να επιτυγχάνει την καλύτερη απόδοση εικόνας σε κείμενο.

Επιπλέον, όπως φαίνεται στον Πίνακα 4, το μοντέλο 1.4B MoE 8x είναι επίσης πολύ καλό σε εργασίες μετατροπής κειμένου σε κείμενο. Το 1,4B MoMa 4t4i αποδίδει καλύτερα σε όλες τις μετρήσεις αμηχανίας εικόνας υπό όρους, ενώ η αμηχανία κειμένου στα περισσότερα σημεία αναφοράς είναι επίσης πολύ κοντά στο 1,4B MoE 8x.

Συνολικά, το μοντέλο 1.4B MoMa 4t4i έχει τα καλύτερα αποτελέσματα μοντελοποίησης σε τρόπους μικτού κειμένου και εικόνας.

Για περισσότερες λεπτομέρειες, διαβάστε το πρωτότυπο έγγραφο.