Νέα

Πού πήγε ο περίφημος ΜΠΕΡΤ;Η απάντηση σε αυτή την ερώτηση σηματοδοτεί μια αλλαγή παραδείγματος στο LLM

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Πού πήγε το μοντέλο του κωδικοποιητή; Εάν το BERT λειτουργεί καλά, γιατί να μην το επεκτείνετε; Τι γίνεται με τα μοντέλα κωδικοποιητή-αποκωδικοποιητή ή μόνο κωδικοποιητή;



Στον τομέα των μεγάλων γλωσσικών μοντέλων (LLM), είναι πλέον μια εποχή που κυριαρχούν μόνο τα μοντέλα αποκωδικοποιητών (όπως η σειρά μοντέλων GPT). Τι γίνεται με την ανάπτυξη μοντέλων κωδικοποιητή-αποκωδικοποιητή ή μόνο κωδικοποιητή; Γιατί ο BERT, κάποτε τόσο διάσημος, σταδιακά τον προσέχει όλο και λιγότερος;

Πρόσφατα, ο Yi Tay, επικεφαλής επιστήμονας και συνιδρυτής της startup Reka AI, δημοσίευσε μια ανάρτηση στο blog για να μοιραστεί τις απόψεις του. Ο Yi Tay εργάστηκε στο Google Research και στο Google Brain για περισσότερα από τρία χρόνια πριν συνιδρυθεί η Reka και συμμετείχε στην ανάπτυξη διάσημων LLMs όπως το PaLM, UL2, Flan-2 και Bard, καθώς και πολυτροπικών μοντέλων όπως PaLI-X και ViT-22B. Ακολουθεί το περιεχόμενο της ανάρτησής του στο blog του.



Βασική εισαγωγή

Σε γενικές γραμμές, η αρχιτεκτονική του μοντέλου LLM τα τελευταία χρόνια χωρίζεται κυρίως σε τρία κύρια παραδείγματα: μοντέλο μόνο κωδικοποιητή (όπως BERT), μοντέλο κωδικοποιητή-αποκωδικοποιητή (όπως το T5) και μοντέλο μόνο αποκωδικοποιητή (όπως η σειρά GPT μοντέλα). Οι άνθρωποι συχνά μπερδεύονται και παρεξηγούν αυτές τις μεθόδους και δομές ταξινόμησης.

Το πρώτο πράγμα που πρέπει να καταλάβουμε είναι ότι το μοντέλο κωδικοποιητή-αποκωδικοποιητή είναι στην πραγματικότητα ένα αυτοπαλινδρομικό μοντέλο. Στο μοντέλο κωδικοποιητή-αποκωδικοποιητή, ο αποκωδικοποιητής εξακολουθεί να είναι ουσιαστικά ένας αιτιώδης αποκωδικοποιητής. Αντί να συμπληρώσει εκ των προτέρων το μοντέλο αποκωδικοποιητή, μεταφορτώνει κάποιο κείμενο στον κωδικοποιητή και στη συνέχεια το στέλνει στον αποκωδικοποιητή μέσω διασταυρούμενης προσοχής. Ναι, το μοντέλο T5 είναι και μοντέλο γλώσσας!

Μια παραλλαγή αυτού του τύπου μοντέλου είναι το Prefix Language Model, ή PrefixLM για συντομία, το οποίο λειτουργεί σχεδόν με τον ίδιο τρόπο, αλλά χωρίς διασταυρούμενη προσοχή (και άλλες μικρές λεπτομέρειες, όπως κοινά βάρη μεταξύ κωδικοποιητή/αποκωδικοποιητή και No encoder bottleneck). Το PrefixLM μερικές φορές ονομάζεται αποκωδικοποιητής χωρίς αιτία. Με απλά λόγια, δεν υπάρχει μεγάλη διαφορά συνολικά μεταξύ κωδικοποιητή-αποκωδικοποιητή, μοντέλων μόνο αποκωδικοποιητή και PrefixLM!

Στην πρόσφατη εξαιρετική διάλεξη του Hyung Won, εξηγεί επιδέξια τη σχέση μεταξύ αυτών των μοντέλων. Για λεπτομέρειες, ανατρέξτε στην έκθεση της Machine Heart: "Ποια θα είναι η κύρια κινητήρια δύναμη για την έρευνα AI;" Ερευνητής της ομάδας ChatGPT: Το κόστος υπολογισμού μειώνεται》

Ταυτόχρονα, η μέθοδος απαλλαγής από θόρυβο των μοντέλων μόνο με κωδικοποιητή όπως το BERT είναι διαφορετική (δηλαδή επιτόπου και σε κάποιο βαθμό, προκειμένου το μοντέλο μόνο με κωδικοποιητή να παίξει πραγματικά έναν ρόλο μετά την προεκπαίδευση). να βασιστείτε στην κεφαλίδα "εργασία" ταξινόμησης. Αργότερα, μοντέλα όπως το T5 υιοθέτησαν μια "τροποποιημένη" έκδοση του στόχου αποθορβοποίησης, η οποία χρησιμοποιούσε μια μορφή αλληλουχίας σε ακολουθία.

Για το σκοπό αυτό, είναι σημαντικό να επισημάνουμε: η απαλλαγή από θόρυβο στο T5 δεν είναι μια νέα αντικειμενική συνάρτηση (με την έννοια της μηχανικής μάθησης), αλλά ένας μετασχηματισμός δεδομένων μεταξύ των εισόδων, δηλαδή μπορείτε επίσης να χρησιμοποιήσετε έναν αιτιώδη αποκωδικοποιητή που έχει εκπαιδευτεί σε κατεστραμμένους στόχους ( span corruption σκοπός).

Οι άνθρωποι πάντα υποθέτουν ότι τα μοντέλα κωδικοποιητή-αποκωδικοποιητή πρέπει να είναι μοντέλα απενεργοποίησης θορύβου, εν μέρει επειδή το T5 είναι τόσο αντιπροσωπευτικό. Αλλά αυτό δεν συμβαίνει πάντα. Μπορείτε να εκπαιδεύσετε τον κωδικοποιητή-αποκωδικοποιητή χρησιμοποιώντας κανονικές εργασίες μοντελοποίησης γλώσσας (όπως η αιτιακή μοντελοποίηση γλώσσας). Με τη σειρά τους, οι αιτιακοί αποκωδικοποιητές μπορούν επίσης να εκπαιδευτούν χρησιμοποιώντας εργασίες διαφθοράς εμβέλειας. Όπως είπα προηγουμένως, αυτός είναι βασικά ένας μετασχηματισμός δεδομένων.

Ένα άλλο σημείο που αξίζει να σημειωθεί: γενικά, ένας κωδικοποιητής-αποκωδικοποιητής με 2N παραμέτρους είναι υπολογιστικά ίδιος με ένα μοντέλο μόνο για αποκωδικοποιητή με N παραμέτρους, επομένως ο λόγος των FLOPs προς τον αριθμό των παραμέτρων είναι διαφορετικός. Αυτό είναι σαν να κατανέμεις την «αραιότητα του μοντέλου» μεταξύ εισόδου και στόχου.

Αυτό δεν είναι κάτι καινούργιο και δεν το σκέφτηκα μόνος μου. Ήταν στο χαρτί T5 το 2019 και το χαρτί UL2 τόνισε ξανά αυτό το σημείο.

Προς το παρόν, χαίρομαι που μπορώ να το ξεκαθαρίσω αυτό. Τώρα για τους στόχους.

Σχετικά με την κατάργηση των στόχων (δεν λειτουργεί; Δεν έχει κλίμακα; Ή είναι πολύ εύκολο;)

Ο στόχος αφαίρεσης θορύβου εδώ αναφέρεται σε οποιαδήποτε παραλλαγή της εργασίας "ζημιά εύρους". Αυτό μερικές φορές ονομάζεται «συμπλήρωση» ή «συμπλήρωση των κενών». Υπάρχουν πολλοί τρόποι έκφρασης, όπως το μήκος του εύρους, η τυχαιότητα, το διακριτικό φρουρού κ.λπ. Πρέπει να έχετε καταλάβει το κλειδί.

Παρόλο που ο στόχος απορρόφησης θορύβου των μοντέλων τύπου BERT είναι βασικά επί τόπου (για παράδειγμα, η κεφαλή ταξινόμησης βρίσκεται στο διακριτικό της μάσκας), το "στυλ T5" είναι πιο σύγχρονο, δηλαδή μέσω ενός κωδικοποιητή-αποκωδικοποιητή ή ενός αποκωδικοποιητή μόνο μοντέλο για το χειρισμό του μετασχηματισμού δεδομένων. Σε έναν τέτοιο μετασχηματισμό δεδομένων, τα καλυμμένα διακριτικά απλώς «μετακινούνται πίσω» έτσι ώστε το μοντέλο να μπορεί να κάνει προβλέψεις.

Ο κύριος στόχος της προεκπαίδευσης είναι να δημιουργηθούν εσωτερικές αναπαραστάσεις που να ευθυγραμμίζονται με την κατάντη εργασία με τον πιο αποτελεσματικό και αποτελεσματικό δυνατό τρόπο. Όσο καλύτερη είναι αυτή η εσωτερική αναπαράσταση, τόσο πιο εύκολο είναι να χρησιμοποιήσετε αυτές τις μαθημένες αναπαραστάσεις για επόμενες εργασίες. Όλοι γνωρίζουμε ότι η απλή πρόβλεψη επόμενης λέξης έχει εξαιρετικά καλή απόδοση για τον στόχο «αιτιακής μοντελοποίησης γλώσσας» και έχει γίνει ο πυρήνας της επανάστασης του LLM. Το ερώτημα τώρα είναι κατά πόσον ο στόχος αποθορυβοποίησης είναι εξίσου καλός.

Με βάση τις δημόσιες πληροφορίες, γνωρίζουμε ότι το T5-11B λειτουργεί αρκετά καλά, ακόμη και μετά από ευθυγράμμιση και εποπτευόμενη λεπτομέρεια (η βαθμολογία MMLU του Flan-T5 XXL είναι 55+, κάτι που ήταν αρκετά καλό για ένα μοντέλο αυτού του μεγέθους εκείνη την εποχή) . Επομένως, μπορούμε να συμπεράνουμε ότι η διαδικασία μεταφοράς της αφαίρεσης θορύβων στόχων (προεκπαίδευση → ευθυγράμμιση) λειτουργεί σχετικά καλά σε αυτήν την κλίμακα.

Η γνώμη μου είναι ότι ο στόχος αποθορυβοποίησης λειτουργεί καλά, αλλά όχι αρκετά καλά ώστε να είναι στόχος από μόνος του. Ένα τεράστιο μειονέκτημα πηγάζει από τη λεγόμενη λιγότερο «έκθεση σε απώλεια». Στον στόχο αποθορυβοποίησης, μόνο ένας μικρός αριθμός διακριτικών καλύπτεται και μαθαίνεται (δηλαδή, λαμβάνεται υπόψη στην απώλεια). Αντίθετα, στη μοντελοποίηση κανονικής γλώσσας αυτό είναι κοντά στο 100%. Αυτό καθιστά τα δείγματα ανά FLOP πολύ αναποτελεσματικά, γεγονός που θέτει τον στόχο αποθορυβοποίησης σε σημαντικό μειονέκτημα στις συγκρίσεις σε βάση flop.

Ένα άλλο μειονέκτημα των στόχων απενεργοποίησης θορύβου είναι ότι είναι λιγότερο φυσικοί από την κανονική μοντελοποίηση γλώσσας, καθώς επαναδιαμορφώνει την είσοδο/εξαγωγή με έναν περίεργο τρόπο, γεγονός που τους καθιστά λιγότερο κατάλληλους για εκμάθηση με λίγες λήψεις. (Αλλά είναι ακόμα δυνατό να συντονιστούν αυτά τα μοντέλα ώστε να αποδίδουν αρκετά καλά σε εργασίες με λίγες λήψεις.) Επομένως, πιστεύω ότι οι στόχοι της αποθορυβοποίησης θα πρέπει να χρησιμοποιούνται μόνο ως συμπληρωματικοί στόχοι της μοντελοποίησης κανονικής γλώσσας.

Οι πρώτες μέρες της ενότητας και ο λόγος για τον οποίο εξαφανίστηκαν τα μοντέλα που έμοιαζαν με την BERT

Μοντέλα όπως το BERT σταδιακά εξαφανίστηκαν και δεν μιλούν πια πολλοί για αυτά. Αυτό μπορεί επίσης να εξηγήσει γιατί δεν μπορούμε να δούμε πολύ μεγάλης κλίμακας μοντέλα BERT τώρα. ποιός είναι ο λόγος; Αυτό οφείλεται σε μεγάλο βαθμό στην ενοποίηση και τη μετατόπιση των παραδειγμάτων εργασίας/μοντελοποίησης. Τα μοντέλα τύπου BERT είναι δυσκίνητα, αλλά ο πραγματικός λόγος για τον οποίο τα μοντέλα BERT καταργήθηκαν είναι ότι οι άνθρωποι ήθελαν να το κάνουν ταυτόχρονα, γι' αυτό υιοθετήθηκε ένας καλύτερος τρόπος για αποθόρυβο - χρησιμοποιώντας αυτοπαλινδρομικά μοντέλα.

Κατά την περίοδο 2018-2021, υπήρξε μια σιωπηρή αλλαγή παραδείγματος: από τη λεπτή ρύθμιση μιας εργασίας σε μοντέλα πολλαπλών εργασιών μεγάλης κλίμακας. Αυτό μας οδήγησε σιγά σιγά στο ενοποιημένο μοντέλο SFT, το οποίο είναι το καθολικό μοντέλο που βλέπουμε σήμερα. Αυτό είναι δύσκολο να γίνει με το BERT. Δεν νομίζω ότι αυτό έχει να κάνει και πολύ με το "αποθόρυβο". Για τους ανθρώπους που εξακολουθούν να θέλουν να χρησιμοποιήσουν ένα τέτοιο μοντέλο (δηλαδή το T5), βρήκαν έναν τρόπο να επαναδιατυπώσουν την εργασία προ-εκπαίδευσης για την αφαίρεση θορύβων, γεγονός που καθιστά τα μοντέλα τύπου BERT βασικά καταργημένα στις μέρες μας, επειδή έχουμε καλύτερα εναλλακτικά σχέδια.

Πιο συγκεκριμένα, τα μοντέλα κωδικοποιητή-αποκωδικοποιητή και μόνο αποκωδικοποιητή μπορούν να χρησιμοποιηθούν για μια ποικιλία εργασιών χωρίς την ανάγκη κεφαλίδων ταξινόμησης για συγκεκριμένη εργασία. Για τον κωδικοποιητή-αποκωδικοποιητή, ερευνητές και μηχανικοί άρχισαν να διαπιστώνουν ότι το αποτέλεσμα της εγκατάλειψης του κωδικοποιητή ήταν παρόμοιο με αυτό του κωδικοποιητή BERT. Επιπλέον, αυτό διατηρεί τα πλεονεκτήματα της αμφίδρομης προσοχής - ένα πλεονέκτημα που καθιστά το BERT ανταγωνιστικό με το GPT σε μικρές κλίμακες (συχνά κλίμακες παραγωγής).

Η τιμή του στόχου αποθορυβοποίησης

Ο στόχος προ-εκπαίδευσης αποθορυβοποίησης μαθαίνει επίσης να προβλέπει την επόμενη λέξη με τρόπο παρόμοιο με το κανονικό μοντέλο γλώσσας. Ωστόσο, σε αντίθεση με τη συμβατική αιτιακή μοντελοποίηση γλώσσας, αυτό απαιτεί τη χρήση ενός μετασχηματισμού δεδομένων στην ακολουθία, έτσι ώστε το μοντέλο να μπορεί να μάθει να "συμπληρώνει τα κενά" αντί να προβλέπει απλώς το φυσικό κείμενο από αριστερά προς τα δεξιά.

Αξίζει να σημειωθεί ότι οι στόχοι αφαίρεσης θορύβων μερικές φορές ονομάζονται «εργασίες συμπλήρωσης» και μερικές φορές αναμιγνύονται με κανονικές εργασίες μοντελοποίησης γλώσσας στην προεκπαιδευτική διαδικασία.

Αν και οι ακριβείς λεπτομέρειες διαμόρφωσης και υλοποίησης μπορεί να διαφέρουν, τα σημερινά σύγχρονα LLM μπορεί να χρησιμοποιούν κάποιο συνδυασμό μοντελοποίησης γλώσσας και συμπλήρωσης. Είναι ενδιαφέρον ότι αυτό το υβρίδιο "γλωσσικού μοντέλου + padding" εξαπλώθηκε στην πραγματικότητα περίπου την ίδια περίοδο (όπως UL2, FIM, GLM, CM3) και πολλές ομάδες έφεραν τις δικές τους μοναδικές υβριδικές λύσεις. Παρεμπιπτόντως, το μεγαλύτερο γνωστό μοντέλο που έχει εκπαιδευτεί με αυτόν τον τρόπο είναι πιθανώς το PaLM-2.

Θα πρέπει επίσης να σημειωθεί ότι το μείγμα εργασιών πριν από την προπόνηση μπορεί επίσης να στοιβάζεται με τη σειρά και δεν χρειάζεται απαραίτητα να αναμειγνύεται ταυτόχρονα. σε 100B διακριτικά για τον στόχο μοντελοποίησης γλώσσας προώθησης. Στη συνέχεια, ρυθμίστε με ακρίβεια την εντολή flan. Σε κάποιο βαθμό, αυτό είναι κατάλληλο για μοντέλα υβριδικής απαλλαγής από θόρυβο/LM-στόχους. Για να είμαστε σαφείς, ο στόχος της μοντελοποίησης γλώσσας του προθέματος (δεν πρέπει να συγχέεται με την αρχιτεκτονική) είναι η καθαρά αιτιώδης μοντελοποίηση γλώσσας, με ένα σημείο διαχωρισμού που προσδιορίζεται τυχαία και αποστέλλεται στην είσοδο (χωρίς απώλεια και μη αιτιώδη κάλυψη).

Παρεμπιπτόντως, το padding μπορεί να προήλθε από το πεδίο του κώδικα LLM, όπου η "συμπλήρωση των κενών" ήταν περισσότερο μια λειτουργία που απαιτείται για τη σύνταξη κώδικα. Ταυτόχρονα, το κίνητρο του UL2 είναι περισσότερο να ενοποιήσει τον στόχο αποθορυβοποίησης και την κατηγορία εργασιών στην οποία υπερέχει το αμφίδρομο LLM με εγγενώς παραγωγικές εργασίες (όπως η σύνοψη ή η δημιουργία ανοιχτού τύπου). Το πλεονέκτημα αυτής της "μετατόπισης προς τα πίσω" της αυτοπαλινδρομικής αποκωδικοποίησης είναι ότι όχι μόνο επιτρέπει στο μοντέλο να μάθει εξαρτήσεις μεγαλύτερης εμβέλειας, αλλά επίσης του επιτρέπει να επωφελείται έμμεσα από τη μη ρητή αμφίδρομη προσοχή (επειδή για να συμπληρώσετε τα κενά, είδαν το μέλλον).

Υπάρχει μια θρυλική εμπειρία: οι αναπαραστάσεις που μαθαίνονται με την αφαίρεση θορύβων στόχων αποδίδουν καλύτερα σε συγκεκριμένες κατηγορίες εργασιών και μερικές φορές έχουν υψηλότερη απόδοση δείγματος. Στο έγγραφο U-PaLM, δείχνουμε πώς μια μικρή ποσότητα προπόνησης με φθορές από το διάστημα αλλάζει τη συμπεριφορά και τα αναδυόμενα φαινόμενα σε ένα σύνολο εργασιών BIG-Bench. Σε αυτή τη βάση, η τελειοποίηση ενός μοντέλου που έχει εκπαιδευτεί με αυτόν τον στόχο συχνά οδηγεί σε ένα καλύτερα εποπτευόμενο και τελειοποιημένο μοντέλο, ειδικά όταν η κλίμακα είναι μικρή.

Όσον αφορά τη λεπτή ρύθμιση μιας εργασίας, μπορεί να φανεί ότι το μοντέλο PaLM-1 62B ηττήθηκε από το πολύ μικρότερο μοντέλο T5. Σε σχετικά μικρή κλίμακα, η "αμφίδρομη προσοχή + στόχος αποθορυβοποίησης" είναι ένας όμορφος συνδυασμός γροθιάς! Πιστεύω ότι πολλοί επαγγελματίες έχουν επίσης παρατηρήσει αυτήν την κατάσταση, ειδικά σε εφαρμογές παραγωγής.

Τι γίνεται με την αμφίδρομη προσοχή;

Η αμφίδρομη προσοχή είναι μια ενδιαφέρουσα «επαγωγική μεροληψία» για τα γλωσσικά μοντέλα - κάτι που οι άνθρωποι συχνά συγχέουν με τους στόχους και τη ραχοκοκαλιά του μοντέλου. Η επαγωγική προκατάληψη έχει διαφορετικές χρήσεις σε διαφορετικούς τομείς υπολογιστών και μπορεί να έχει διαφορετικά αποτελέσματα στην καμπύλη επέκτασης. Τούτου λεχθέντος, η αμφίδρομη προσοχή μπορεί να είναι λιγότερο σημαντική σε μεγαλύτερες κλίμακες από ό,τι σε μικρότερες κλίμακες, ή μπορεί να έχει διαφορετικά αποτελέσματα σε διαφορετικές εργασίες ή τρόπους. Για παράδειγμα, το PaliGemma χρησιμοποιεί την αρχιτεκτονική PrefixLM.

Ο Hyung Won επεσήμανε επίσης στην ομιλία του: Τα μοντέλα PrefixLM (μοντέλα μόνο με αποκωδικοποιητές που χρησιμοποιούν αμφίδρομη προσοχή) έχουν επίσης προβλήματα προσωρινής αποθήκευσης, κάτι που είναι εγγενές ελάττωμα αυτού του τύπου αρχιτεκτονικής. Ωστόσο, νομίζω ότι υπάρχουν πολλοί τρόποι για να επιλύσετε αυτό το ελάττωμα, αλλά αυτό είναι πέρα ​​από το πεδίο εφαρμογής αυτού του άρθρου.

Αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή Πλεονεκτήματα και μειονεκτήματα

Η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή έχει πλεονεκτήματα και μειονεκτήματα σε σύγκριση με το μοντέλο μόνο αποκωδικοποιητή. Η πρώτη περίπτωση είναι ότι η πλευρά του κωδικοποιητή δεν περιορίζεται από την αιτιακή μάσκα. Σε κάποιο βαθμό, μπορείτε να αφαιρέσετε τα χέρια σας από το επίπεδο προσοχής και να εκτελέσετε συγκέντρωση ή οποιαδήποτε μορφή γραμμικής προσοχής επιθετικά χωρίς να ανησυχείτε για τους σχεδιαστικούς περιορισμούς της αυτοπαλίνδρομης. Αυτός είναι ένας πολύ καλός τρόπος για να αποφορτώσετε λιγότερο σημαντικό "πλαίσιο" στον κωδικοποιητή. Μπορείτε επίσης να κάνετε τον κωδικοποιητή μικρότερο, κάτι που είναι επίσης ένα πλεονέκτημα.

Ένα παράδειγμα απαιτούμενης αρχιτεκτονικής κωδικοποιητή-αποκωδικοποιητή είναι το Charformer, το οποίο χρησιμοποιεί τολμηρά κωδικοποιητές και μετριάζει το μειονέκτημα ταχύτητας των μοντέλων σε επίπεδο byte. Η καινοτομία στην πλευρά του κωδικοποιητή μπορεί να αποφέρει γρήγορα οφέλη χωρίς να ανησυχείτε για τις σημαντικές παγίδες της αιτιώδους κάλυψης.

Ταυτόχρονα, σε σύγκριση με το PrefixLM, ένα μειονέκτημα του κωδικοποιητή-αποκωδικοποιητή είναι ότι η είσοδος και ο στόχος πρέπει να έχουν έναν σταθερό προϋπολογισμό. Για παράδειγμα, εάν ο προϋπολογισμός εισόδου είναι 1024 διακριτικά, τότε η πλευρά του κωδικοποιητή πρέπει να συμπληρώσει αυτήν την τιμή, κάτι που μπορεί να σπαταλήσει πολύ υπολογισμό. Αντίθετα, στο PrefixLM, οι είσοδοι και οι στόχοι μπορούν να συνδεθούν απευθείας, μειώνοντας έτσι αυτό το πρόβλημα.

Συνάφεια με τα σημερινά μοντέλα και τα βασικά προϊόντα

Στη σημερινή εποχή, μια βασική ικανότητα για να είσαι εξειδικευμένος ερευνητής και επαγγελματίας LLM είναι να μπορείς να συμπεράνεις επαγωγικές προκαταλήψεις τόσο από την αρχιτεκτονική πτυχή όσο και από την πτυχή της προεκπαίδευσης. Η κατανόηση των λεπτών διαφορών μπορεί να βοηθήσει τους ανθρώπους να επεκτείνουν και να συνεχίσουν να καινοτομούν.

Εδώ είναι τα βασικά μου συμπεράσματα:

Τα μοντέλα κωδικοποιητή-αποκωδικοποιητή και μόνο αποκωδικοποιητή είναι μοντέλα αυτοπαλίνδρομης λειτουργίας και διαφέρουν στο επίπεδο υλοποίησης και έχουν τα δικά τους πλεονεκτήματα και μειονεκτήματα. Είναι ελαφρώς διαφορετικές επαγωγικές προκαταλήψεις. Ποιο από αυτά θα χρησιμοποιηθεί εξαρτάται από τις μεταγενέστερες περιπτώσεις χρήσης και τους περιορισμούς εφαρμογής. Ταυτόχρονα, τα μοντέλα κωδικοποιητών τύπου BERT μπορούν να θεωρηθούν απαρχαιωμένα για τις περισσότερες περιπτώσεις χρήσης LLM και εξειδικευμένες περιπτώσεις χρήσης.

Ο στόχος αποθορυβοποίησης μπορεί κυρίως να χρησιμοποιηθεί ως συμπλήρωμα στο μοντέλο της αιτιακής γλώσσας. Έχουν χρησιμοποιηθεί με επιτυχία ως «στόχοι υποστήριξης» κατά τη φάση της εκπαίδευσης. Η εκπαίδευση μοντέλων αιτιώδους γλώσσας χρησιμοποιώντας στόχους αποθορυβοποίησης συχνά βοηθά σε κάποιο βαθμό. Αν και αυτό είναι πολύ συνηθισμένο στον κόσμο των μοντέλων κώδικα (δηλαδή γέμιση κώδικα), είναι επίσης σύνηθες για τα μοντέλα γενικής χρήσης σήμερα να χρησιμοποιούν ένα μοντέλο αιτιώδους γλώσσας συν κάποιο στόχο αποθορυβοποίησης για προ-εκπαίδευση.

Η αμφίδρομη προσοχή μπορεί να βοηθήσει πολύ τα μικρότερα μοντέλα, αλλά είναι απαραίτητη για μεγαλύτερα μοντέλα. Αυτά είναι κυρίως φήμες. Νομίζω ότι η αμφίδρομη προσοχή έχει μια επαγωγική προκατάληψη, παρόμοια με πολλούς άλλους τύπους τροποποιήσεων στο μοντέλο του Transformer.

Τέλος, μια περίληψη. Επί του παρόντος, δεν υπάρχει σε λειτουργία έκδοση μεγάλης κλίμακας του μοντέλου BERT: το μοντέλο BERT έχει καταργηθεί και αντικατασταθεί από το πιο ευέλικτο μοντέλο απενεργοποίησης θορύβου (αυτοπαλινδρομικό) T5. Αυτό οφείλεται κυρίως στην ενοποίηση του παραδείγματος, δηλαδή, οι άνθρωποι προτιμούν να χρησιμοποιούν ένα γενικό μοντέλο για να εκτελέσουν διάφορες εργασίες (αντί να χρησιμοποιούν ένα συγκεκριμένο μοντέλο εργασίας). Ταυτόχρονα, η αυτοπαλινδρομική αποθορυβοποίηση μπορεί μερικές φορές να χρησιμοποιηθεί ως παράπλευρος στόχος των αιτιακών γλωσσικών μοντέλων.

Αρχικός σύνδεσμος: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising