Η πρώτη σειρά ιστολογίου του πρώην επιστήμονα της Google Yi Tay του "The Story of LLM": Γιατί εξαφανίστηκε ο BERT;

2024-07-21

Νέα Έκθεση Σοφίας

Επιμέλεια: Yongyong Qiao Yang

[Εισαγωγή στη Νέα Σοφία]Ο πρώην επιστήμονας της Google, Yi Tay, κυκλοφόρησε τη σειρά ιστολογίων "Model Architecture in the LLM Era" Η πρώτη ανάρτηση ιστολογίου έχει να κάνει με: Πώς το BERT που βασίζεται στην αρχιτεκτονική μόνο για κωδικοποιητή αντικαταστάθηκε από το T5 με βάση την αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή. εξαφάνιση του BERT Η όλη ιστορία και τα πλεονεκτήματα και τα μειονεκτήματα των διαφορετικών αρχιτεκτονικών μοντέλων είναι πολύ σημαντική για τη μελλοντική καινοτομία.

Ο Yi Tay, ένας πρώην επιστήμονας της Google που ενδιαφέρεται για το blogging, βαριόταν πολύ να πετάξει πρόσφατα, γι' αυτό έγραψε ένα σε βάθος άρθρο συζητώντας ένα θέμα που απασχολεί πολλούς ανθρώπους αυτήν τη στιγμή - την άμπωτη και τη ροή των αρχιτεκτονικών μοντέλων στην εποχή του LLM .

Αυτή τη φορά ο Yi Tay προσπάθησε να ξετυλίξει όλα όσα συμβαίνουν στη νέα εποχή του LLM, σχετικά με το «Τι απέγιναν οι BERT και T5»; Επίσης, σχετικά με την άνοδο και την πτώση του κωδικοποιητή Transformer, του PrefixLM και των στόχων αποθορύφωσης.

Διεύθυνση ιστολογίου: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Γιατί το μοντέλο μόνο με κωδικοποιητή "δεν είναι πλέον δημοφιλές"; Γιατί το BERT είναι τόσο ισχυρό αλλά δεν μπορεί να το «κλιμακώσει»;

Είναι δύσκολο να δεις ολόκληρη την εικόνα όταν είσαι μέσα σε αυτήν. Σχετικά με αυτά τα θέματα που κάνουν τους ανθρώπους του κλάδου να ξύνουν τα κεφάλια τους, ο Yi Tay μοιράστηκε τις παρατηρήσεις και τις σκέψεις του.

Και ο Yi Tay είπε επίσης ότι αυτή είναι μόνο η πρώτη σε μια σειρά αναρτήσεων ιστολογίου και μπορείτε να περιμένετε περισσότερο περιεχόμενο από αυτόν σχετικά με το θέμα "Αρχιτεκτονική μοντέλων στην εποχή LLM".

Αποφάσισε να ξεκινήσει μια νέα σειρά ιστολογίων με ενημερώσεις σχετικά με την αρχιτεκτονική μοντέλων στην εποχή του LLM. Ακολουθεί το Μέρος 1, που καλύπτει την ευρύτερη αρχιτεκτονική των Transformer Encoders/Encoder-Decoders, του PrefixLM και των στόχων απενεργοποίησης θορύβου. Μια ερώτηση που θα κάνουν πολλοί άνθρωποι είναι: "Άνθρωποι που ασχολούνταν με τη γλώσσα και την έρευνα NLP πριν από περίπου 5 χρόνια, γρατζουνούσαν το κεφάλι τους, αναρωτιούνται πού πήγαν τα μοντέλα κωδικοποιητών. Εάν το BERT είναι τόσο αποτελεσματικό, γιατί να μην επεκτείνει την κλίμακα του;" Επιπλέον, τι συνέβη με το μοντέλο κωδικοποιητή-αποκωδικοποιητή ή καθαρού κωδικοποιητή; Είναι καλός ο στόχος αποθορυβοποίησης; Μοιράζομαι τις σκέψεις μου σε αυτό το blog post.

Ο Yi Tay είναι αρκετά ο «αφηγητής» στην εποχή του LLM Στο blog του, συνόψισε συνοπτικά την ανάπτυξη της αρχιτεκτονικής μοντέλων τα τελευταία χρόνια και παρουσίασε τις δικές του ιδέες.

Ιστορικό

Για να διευκολύνει τους ανθρώπους που δεν είναι τόσο κοντά στην τεχνολογία να διαβάζουν, ο Yi Tay εξήγησε πρώτα το παρασκήνιο της ιστορίας.

Τα τελευταία χρόνια, υπήρξαν τρία σημαντικά παραδείγματα στην αρχιτεκτονική μοντέλων.

Μοντέλα μόνο με κωδικοποιητή (όπως BERT), μοντέλα κωδικοποιητή-αποκωδικοποιητή (όπως το T5) και μοντέλα μόνο αποκωδικοποιητή (όπως η σειρά GPT).

Αλλά οι άνθρωποι είναι πολύ μπερδεμένοι σχετικά με αυτή τη διαίρεση και υπάρχουν πολλές παρεξηγήσεις, επομένως αυτός είναι ο σκοπός της συγγραφής αυτής της ανάρτησης ιστολογίου.

Το πρώτο πράγμα που πρέπει να γίνει σαφές είναι ότι το μοντέλο κωδικοποιητή-αποκωδικοποιητή είναι στην πραγματικότητα ακόμα ένα μοντέλο αυτοπαλινδρομικής συμπεριφοράς. Ο αποκωδικοποιητής στο μοντέλο κωδικοποιητή-αποκωδικοποιητή εξακολουθεί να είναι ένας αιτιώδης αποκωδικοποιητής, κυριολεκτικά και ουσιαστικά.

Το κείμενο διαβιβάζεται πρώτα στον κωδικοποιητή και στη συνέχεια αποστέλλεται στον αποκωδικοποιητή μέσω του μηχανισμού διασταυρούμενης προσοχής αντί να συμπληρωθεί εκ των προτέρων το μοντέλο του αποκωδικοποιητή.

Επομένως, το μοντέλο T5 είναι και μοντέλο γλώσσας!

Μια παραλλαγή του είναι το Prefix Language Model, ή η αρχιτεκτονική PrefixLM, που κάνει σχεδόν το ίδιο πράγμα, εκτός από τον μηχανισμό διασταυρούμενης προσοχής. (Και κάποιες άλλες μικρές λεπτομέρειες, όπως η κατανομή βάρους μεταξύ κωδικοποιητή/αποκωδικοποιητή και κανένα σημείο συμφόρησης κωδικοποιητή)

Το PrefixLM μερικές φορές ονομάζεται αποκωδικοποιητής χωρίς αιτία. Εν ολίγοις, encoder-decoder, encoder-only και PrefixLM δεν διαφέρουν τόσο!

Εάν εξακολουθείτε να έχετε αμφιβολίες σχετικά με αυτό, ο Yi Tay έδωσε επίσης μια αναφορά - την υπέροχη ομιλία του Hyung Won στο Stanford τον Απρίλιο του τρέχοντος έτους, στην οποία εξήγησε έξυπνα τη σχέση μεταξύ αυτών των μοντέλων.

Διεύθυνση διάλεξης: https://www.youtube.com/watch?v=orDKvo8h71o

Ταυτόχρονα, η μέθοδος απαλλαγής από θόρυβο των μοντέλων μόνο με κωδικοποιητή, όπως το BERT, είναι διαφορετική (δηλαδή, επιτόπου) και βασίζεται σε κάποιο βαθμό στην πρόσθετη "κεφαλή εργασιών" που προστίθεται για εκτέλεση με το προεκπαιδευμένο βασικό μοντέλο επιχειρήσεις.

Ο στόχος αφαίρεσης θορύβων του BERT εφαρμόστηκε αργότερα σε μοντέλα όπως το T5, αλλά με ορισμένες τροποποιήσεις και μια μορφή αλληλουχίας σε ακολουθία.

Τούτου λεχθέντος, αξίζει να σημειωθεί ότι η απαλλαγή από θόρυβο στο T5 δεν είναι ακριβώς μια νέα αντικειμενική συνάρτηση (με την έννοια της μηχανικής μάθησης), αλλά μάλλον ένας μετασχηματισμός δεδομένων μεταξύ των εισόδων, δηλαδή, μπορείτε επίσης στο στόχο διαφθοράς του αποκωδικοποιητή αιτίου και αποτελέσματος να εκπαιδεύσω!

Οι άνθρωποι πάντα πιστεύουν ότι το μοντέλο κωδικοποιητή-αποκωδικοποιητή πρέπει να είναι ένα μοντέλο αποθορβοποίησης, και μέρος της αιτίας αυτής της ψευδαίσθησης είναι ότι το μοντέλο T5 είναι πολύ αντιπροσωπευτικό.

Ωστόσο, αυτό δεν συμβαίνει πάντα.

Μπορείτε να χρησιμοποιήσετε μια κανονική εργασία μοντελοποίησης γλώσσας (δηλαδή CLM) για να εκπαιδεύσετε τον κωδικοποιητή-αποκωδικοποιητή ή μπορείτε να χρησιμοποιήσετε μια εργασία καταστροφής εύρους για να εκπαιδεύσετε τον αποκωδικοποιητή αιτίου.

Όπως αναφέρθηκε προηγουμένως, αυτός είναι κυρίως ένας μετασχηματισμός δεδομένων.

Θα πρέπει επίσης να σημειωθεί ότι, γενικά, ένας κωδικοποιητής-αποκωδικοποιητής παραμέτρων 2Ν έχει το ίδιο υπολογιστικό κόστος με ένα μοντέλο μόνο για αποκωδικοποιητή παραμέτρων N, επομένως ο λόγος FLOP/παράμετρός του είναι διαφορετικός.

Με βάση την κατανόηση του παραπάνω ιστορικού, θα εισαγάγουμε τώρα το κείμενο——

Σχετικά με την άρνηση των στόχων (είναι άχρηστη; Δεν κλιμακώνεται; Είναι πολύ απλό;)

Για να γίνουμε σαφείς, ο στόχος απορρόφησης που αναφέρεται από τον Yi Tay αναφέρεται σε οποιαδήποτε παραλλαγή της διαφθοράς του εύρους.

Μερικές φορές ονομάζεται επίσης συμπλήρωση ή συμπλήρωση του κενού.

Παρόλο που οι στόχοι απόσβεσης θορύβων στα μοντέλα τύπου BERT είναι ως επί το πλείστον επί τόπου, μια ελαφρώς πιο σύγχρονη προσέγγιση είναι το "στυλ T5", που είναι ο μετασχηματισμός δεδομένων που χειρίζονται μοντέλα κωδικοποιητή/-κωδικοποιητή ή μόνο αποκωδικοποιητή.

Σε αυτόν τον μετασχηματισμό δεδομένων, το διακριτικό μάσκας απλώς "μετακινείται προς τα πίσω" για το μοντέλο να κάνει προβλέψεις.

Ο κύριος στόχος της προεκπαίδευσης είναι η δημιουργία χρήσιμων εσωτερικών αναπαραστάσεων που ευθυγραμμίζονται με τις κατάντη εργασίες με τον πιο αποτελεσματικό και αποτελεσματικό τρόπο.

Όσο καλύτερες είναι οι εσωτερικές αναπαραστάσεις, τόσο πιο εύκολο είναι να χρησιμοποιήσετε αυτές τις μαθημένες αναπαραστάσεις για κάτι χρήσιμο αργότερα.

Όπως όλοι γνωρίζουμε, ο απλός στόχος «αιτιακής μοντελοποίησης γλώσσας» (CLM) της πρόβλεψης επόμενων διακριτικών το κάνει καλά και έχει γίνει η βάση της επανάστασης του LLM. Το ερώτημα τώρα είναι κατά πόσον ο στόχος αποθορυβοποίησης είναι εξίσου καλός.

Από δημόσιες πληροφορίες, γνωρίζουμε ότι το T5-11B λειτουργεί πολύ καλά ακόμη και μετά την ευθυγράμμιση/SFT (το Flan-T5 XXL έχει βαθμολογία MMLU 55+, που είναι πολύ καλό για ένα μοντέλο αυτού του μεγέθους εκείνη την εποχή).

Ως εκ τούτου, μπορούμε να βγάλουμε κάποια συμπεράσματα: Η μεταφορά της ικανότητας αποθορυβοποίησης στόχων από την προ-εκπαίδευση στην ευθυγράμμιση μπορεί να υποστηρίξει το μοντέλο να λειτουργήσει καλύτερα στην κλίμακα 11Β.

Η άποψη του Yi Tay είναι ότι οι στόχοι αφαίρεσης θορύβων είναι υπέροχοι, αλλά δεν αρκούν ως αυτόνομος στόχος.

Μπορούμε να περιγράψουμε το μειονέκτημά του ως λιγότερη «έκθεση σε απώλεια». Στον στόχο αποθορυβοποίησης, μόνο ένας μικρός αριθμός διακριτικών καλύπτονται και χρησιμοποιούνται στη διαδικασία εκμάθησης (δηλαδή, ενημέρωση της τιμής απώλειας).

Αντίθετα, στη συμβατική μοντελοποίηση γλώσσας, η χρήση διακριτικών είναι κοντά στο 100%.

Αυτό το χαρακτηριστικό του στόχου αποθορυβοποίησης καθιστά την αποδοτικότητα δειγματοληψίας ανά FLOP μάλλον χαμηλή και επομένως τη θέτει σε πολύ μειονεκτική θέση στις συγκρίσεις που βασίζονται σε FLOP.

Ένα άλλο μειονέκτημα είναι ότι οι στόχοι απόσβεσης θορύβου είναι λιγότερο φυσικοί από την κανονική μοντελοποίηση γλώσσας, καθώς επαναδιαμορφώνει την είσοδο/εξαγωγή με έναν περίεργο τρόπο, γεγονός που τους καθιστά λίγο άβολους για την εκμάθηση με λίγες λήψεις. (Παρόλα αυτά, αυτά τα μοντέλα μπορούν ακόμα να ρυθμιστούν ώστε να αποδίδουν αρκετά καλά σε εργασίες με λίγες λήψεις)

Ως εκ τούτου, ο Yi Tay πιστεύει ότι η απενεργοποίηση στόχων μπορεί να χρησιμοποιηθεί σχεδόν μόνο ως συμπλήρωμα στη μοντελοποίηση συμβατικών γλωσσών παρά ως ανεξάρτητος στόχος εκπαίδευσης.

Οι πρώτες μέρες της ενότητας και γιατί το xBERT εξαφανίστηκε

Η σταδιακή κατάργηση μοντέλων που μοιάζουν με το BERT είναι μια ενδιαφέρουσα φάση, αλλά δεν μιλούν πολλοί γι' αυτό αυτές τις μέρες, είναι λεπτή.

Αυτό μπορεί επίσης να εξηγήσει γιατί δεν βλέπουμε πλέον να λειτουργούν πολύ μεγάλα μοντέλα BERT. ποιός είναι ο λόγος;

Αυτό είναι πρωτίστως θέμα ενοποίησης και μετασχηματισμού των παραδειγμάτων εργασίας/μοντελοποίησης.

Τα μοντέλα τύπου BERT ήταν αδέξια, αλλά είχαν πραγματικά καταργηθεί, επειδή οι άνθρωποι ήθελαν να χρησιμοποιήσουν ένα μοντέλο για όλες τις εργασίες, έτσι εισήχθη ένας καλύτερος τρόπος για αποθόρυβο - χρησιμοποιώντας μοντέλα αυτόματης παλινδρόμησης.

Μεταξύ 2018 και 2021, υπήρξε μια κρυφή μετατόπιση παραδείγματος από τη λεπτομέρεια μιας εργασίας σε μοντέλα πολλαπλών εργασιών μεγάλης κλίμακας.

Η προσοχή όλων τράβηξε σιγά σιγά το ενιαίο μοντέλο SFT, το οποίο είναι επίσης το ενιαίο γενικό μοντέλο που βλέπουμε σήμερα.

Είναι πολύ δύσκολο να γίνει αυτό με το BERT.

Ωστόσο, αυτή η «αδεξιότητα» του BERT ελάχιστη σχέση έχει με το έργο της «αποθάρρυνσης». Εάν εξακολουθείτε να θέλετε να χρησιμοποιήσετε αυτόν τον τύπο μοντέλου, μπορείτε να εκφράσετε την εργασία "μείωσης θορύβου" με άλλο τρόπο (όπως το T5).

Ως εκ τούτου, τα μοντέλα τύπου BERT έχουν σχεδόν καταργηθεί σε αυτή τη χρονική στιγμή καθώς εμφανίζεται μια αυστηρά καλύτερη εναλλακτική.

Πιο συγκεκριμένα, τα μοντέλα κωδικοποιητή-αποκωδικοποιητή και μόνο αποκωδικοποιητή είναι σε θέση να εκφράζουν πολλαπλές εργασίες ταυτόχρονα χωρίς να απαιτούν κεφαλίδες ταξινόμησης για συγκεκριμένη εργασία.

Ταυτόχρονα, ερευνητές και μηχανικοί ανακάλυψαν ότι για το μοντέλο κωδικοποιητή-αποκωδικοποιητή, εάν ο κωδικοποιητής απλώς αφαιρεθεί και απομείνει μόνο ο αποκωδικοποιητής, η απόδοσή του θα είναι τόσο ανταγωνιστική όσο ο κωδικοποιητής του BERT.

Όχι μόνο αυτό, αφήνοντας μόνο τον αποκωδικοποιητή διατηρεί επίσης το πλεονέκτημα αμφίδρομης προσοχής που κάνει το BERT ανώτερο από τα μοντέλα GPT σε εργασίες μικρής κλίμακας (συνήθως κλίμακας παραγωγής).

Η τιμή του στόχου αποθορυβοποίησης

Παρόμοια με τον τρόπο με τον οποίο λειτουργεί η κανονική μοντελοποίηση γλώσσας, ο στόχος της προεκπαίδευσης για την αποθορυβοποίηση μαθαίνει επίσης να προβλέπει την επόμενη λέξη.

Ωστόσο, σε αντίθεση με το συμβατικό CLM, το τελευταίο εκτελεί μετασχηματισμό δεδομένων στην ακολουθία για να μάθει να "συμπληρώνει τα κενά" αντί να προβλέπει απλώς κείμενο που εμφανίζεται φυσικά από αριστερά προς τα δεξιά.

Αξίζει να σημειωθεί ότι οι στόχοι της αποθορυβοποίησης μερικές φορές ονομάζονται «καθήκοντα συμπλήρωσης» και μερικές φορές αναμιγνύονται με κανονικές εργασίες μοντελοποίησης γλώσσας για προεκπαίδευση.

Ενώ οι συγκεκριμένες λεπτομέρειες διαμόρφωσης και υλοποίησης μπορεί να διαφέρουν, το σημερινό LLM είναι πιθανό να χρησιμοποιεί κάποιο συνδυασμό μοντελοποίησης γλώσσας και συμπλήρωσης.

Και, είναι ενδιαφέρον, το υβρίδιο της μοντελοποίησης και της πλήρωσης γλώσσας φαίνεται να έχει εξαπλωθεί περίπου την ίδια εποχή (π.χ. UL2, FIM, GLM, CM3), με πολλές ομάδες να φέρνουν τη δική τους «γεύση» στο υβρίδιο με κάποιο τρόπο.

Παρεμπιπτόντως, το μεγαλύτερο μοντέλο που αποκαλύφθηκε και αναφέρθηκε δημοσίως που έχει εκπαιδευτεί με αυτόν τον τρόπο είναι το PaLM-2.

Αξίζει να σημειωθεί ότι η μικτή προπόνηση δεν χρειάζεται απαραίτητα να αναμιγνύεται ταυτόχρονα, αλλά μπορεί να στοιβάζεται διαδοχικά.

Για παράδειγμα, το Flan-T5 εκπαιδεύτηκε αρχικά σε διακριτικά διαφθοράς 1Tspan και στη συνέχεια μεταπήδησε στην εργασία μοντελοποίησης γλώσσας προθέματος των 100B διακριτικών πριν από τη λεπτομερή ρύθμιση των οδηγιών.

Κατά κάποιο τρόπο, αυτό μπορεί να ειπωθεί ότι είναι ένα υβριδικό μοντέλο στόχου μοντελοποίησης απαγόρευσης θορύβου/γλώσσας.

Ο Yi Tay μοιράστηκε επίσης μια ανεπίσημη εμπειρία: οι αναπαραστάσεις που μαθαίνονται με την αφαίρεση θορύβων στόχων αποδίδουν καλύτερα σε ορισμένες κατηγορίες εργασιών και μερικές φορές δειγματίζονται με πιο αποτελεσματικό τρόπο.

Τα βελτιωμένα μοντέλα που έχουν εκπαιδευτεί με αυτόν τον στόχο γενικά παράγουν καλύτερα μοντέλα SFT, ειδικά σε μικρότερες κλίμακες.

Μιλώντας για λεπτομέρεια μίας εργασίας, μπορούμε να δούμε ότι το μοντέλο PaLM-1 62B ηττήθηκε από το μικρότερο T5.

Οι στόχοι αμφίδρομης προσοχής + αποθορυβοποίησης μπορούν να παίξουν τεράστιο ρόλο σε σχετικά μικρό εύρος! Πιστεύω ότι πολλοί επαγγελματίες έχουν δει αυτήν την κατάσταση τώρα, ειδικά στην παραγωγή.

Πλεονεκτήματα και μειονεκτήματα της αρχιτεκτονικής κωδικοποιητή/αποκωδικοποιητή

Η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή έχει στην πραγματικότητα ορισμένα πλεονεκτήματα σε σχέση με το κανονικό μοντέλο μόνο για αποκωδικοποιητή.

Η πλευρά του κωδικοποιητή δεν περιορίζεται από αιτιώδεις μάσκες, στο βαθμό που μπορείτε να στοιβάζετε επίπεδα προσοχής σαν τρελή με επιθετική συγκέντρωση ή οποιαδήποτε μορφή γραμμικής προσοχής χωρίς να ανησυχείτε για τους περιορισμούς των αυτοπαλινδρομικών σχεδίων.

Αυτός είναι ένας καλός τρόπος για να περάσετε λιγότερο σημαντικό "πλαίσιο" στον κωδικοποιητή. Μπορείτε επίσης να κάνετε τον κωδικοποιητή μικρότερο, κάτι που είναι επίσης ωραίο.

Ένα παράδειγμα στο Charformer απεικονίζει την αναγκαιότητα της αρχιτεκτονικής κωδικοποιητή-αποκωδικοποιητή Μπορούμε να κάνουμε μεγάλη φασαρία σχετικά με τον κωδικοποιητή για να μετριαστούν τα ελαττώματα ταχύτητας κατά την κωδικοποίηση σε επίπεδο byte.

Αλλά ταυτόχρονα, ένα μειονέκτημα του κωδικοποιητή-αποκωδικοποιητή σε σύγκριση με το PrefixLM είναι ότι η είσοδος και ο στόχος πρέπει να έχουν σταθερά μήκη κατανομής.

Για παράδειγμα, εάν το προκαθορισμένο μήκος εισόδου είναι 1024 διακριτικά, η πλευρά του κωδικοποιητή πρέπει να συμπληρωθεί σε αυτήν την τιμή, γεγονός που μπορεί να προκαλέσει μεγάλη υπολογιστική σπατάλη.

Αντίθετα, στο PrefixLM, οι είσοδοι και οι στόχοι μπορούν να συνδεθούν απευθείας, μειώνοντας έτσι αυτό το πρόβλημα.

Συνάφεια με τα σημερινά μοντέλα και τα βασικά προϊόντα

Είτε από την προοπτική της αρχιτεκτονικής μοντέλου είτε από την προοπτική της εκπαίδευσης, για να γίνετε ικανός ερευνητής και επαγγελματίας LLM, η ικανότητα χρήσης επαγωγικής προκατάληψης για συλλογισμό είναι απαραίτητη. Και η κατανόηση των θεμελιωδών αποχρώσεων μεταξύ διαφορετικών αρχιτεκτονικών μοντέλων μπορεί να βοηθήσει στη μελλοντική καινοτομία.

Ο Yi Tay μοιράστηκε τα βασικά του:

Τόσο τα μοντέλα κωδικοποιητή-αποκωδικοποιητή όσο και μόνο για αποκωδικοποιητές είναι μοντέλα αυτοπαλίνδρομης λειτουργίας, αλλά υπάρχουν διαφορές σε επίπεδο υλοποίησης, το καθένα με πλεονεκτήματα και μειονεκτήματα. Οι επαγωγικές προκαταλήψεις τους είναι διακριτικά διαφορετικές και η καλύτερη χρήση εξαρτάται πραγματικά από την περίπτωση χρήσης κατάντη και σημαντικούς περιορισμούς εφαρμογής. Για τις περισσότερες εφαρμογές LLM και εξειδικευμένες περιπτώσεις χρήσης, τα μοντέλα τύπου BERT μόνο με κωδικοποιητή θεωρούνται ως επί το πλείστον απαρχαιωμένα.
Ο στόχος αφαίρεσης θορύβου είναι κυρίως συμπλήρωμα του CLM Ως «βοηθητικός στόχος» στην προ-προπόνηση, συνήθως φέρνει κάποια βοήθεια. Αν και αυτό συμβαίνει συχνά με μοντέλα κωδικών (δηλαδή γέμιση κώδικα), στα σημερινά μοντέλα γενικής χρήσης δεν είναι ασυνήθιστο να χρησιμοποιείται ένα CLM με κάποιο στόχο αποθορυβοποίησης για προ-εκπαίδευση (αν και αυτό δεν είναι απαίτηση).
Οι μηχανισμοί αμφίδρομης προσοχής βοηθούν πολύ σε μικρότερες κλίμακες, αλλά συχνά αποτελούν απλώς μια επιλογή σε μοντέλα μεγαλύτερης κλίμακας. Ο Yi Tay πιστεύει ότι η αμφίδρομη προσοχή έχει μια επαγωγική προκατάληψη, όπως πολλοί άλλοι τύποι τροποποιήσεων στην αρχιτεκτονική του Transformer.

Τέλος, για να συνοψίσουμε, δεν έχουμε δει καμία επιτυχή κλιμάκωση του xBERT: το μοντέλο BERT έχει καταργηθεί προς όφελος του πιο ευέλικτου μοντέλου denoising (αυτοπαλινδρομικής) T5.

Αυτό οφείλεται κυρίως στην ενοποίηση των παραδειγμάτων και όλοι θέλουν να χρησιμοποιούν γενικά μοντέλα αντί για συγκεκριμένα μοντέλα.

Ταυτόχρονα, η αυτοπαλινδρομική αποθορυβοποίηση μερικές φορές αναδιπλώνεται σε CLM ως τυχαίος στόχος εκπαίδευσης.

Σχετικά με τον Συγγραφέα

Ο Yi Tay είναι επί του παρόντος ο συνιδρυτής και επικεφαλής επιστήμονας της startup Reka AI. Η Reka είναι αφοσιωμένη στην κατασκευή μοντέλων παραγωγής τελευταίας τεχνολογίας και στην προώθηση της έρευνας τεχνητής νοημοσύνης.

Πριν από αυτό, ήταν ανώτερος ερευνητής στο Google Brain, ασχολήθηκε με εργασίες LLM και τεχνητής νοημοσύνης και επίσης υπηρέτησε ως τεχνικός διευθυντής της ερευνητικής ομάδας των ΗΠΑ στο Google Research, εργαζόμενος στις επεκτάσεις και την αρχιτεκτονική του Transformer.

Όσο ήταν στην Google, ο Yi Tay συνέβαλε σε περίπου 20 κυκλοφορίες προϊόντων.

Κατά τη διάρκεια της θητείας του Yi Tay ως ερευνητής στην Google, τα περισσότερα από τα δημοσιευμένα έργα του περιστρέφονταν γύρω από το Transformer, ειδικά σχετικά με την αποτελεσματικότητα, την επεκτασιμότητα και την αρχιτεκτονική έρευνα.

Εκτός από το blogging, ο Yi Tay λατρεύει επίσης την κλασική μουσική. Είπε: «Αν δεν είχα γίνει ερευνητής, μπορεί να ήθελα να γίνω επαγγελματίας μουσικός». Είναι ενδιαφέρον ότι έλαβε δίπλωμα από αυτή την άποψη.

Ανυπομονώ να κάνει ο Yi Tay ξανά μια πτήση μεγάλων αποστάσεων για να τον δω να ενημερώνει ξανά το blog του.

Βιβλιογραφικές αναφορές:

https://x.com/YiTayML/status/1813262126162845772

Νέα

Η πρώτη σειρά ιστολογίου του πρώην επιστήμονα της Google Yi Tay του "The Story of LLM": Γιατί εξαφανίστηκε ο BERT;

Εισαγωγή

τα στοιχεία επικοινωνίας μου