Τι θα συμβεί αν ανακατω/παραλείψω το επίπεδο Transformer; Η πιο πρόσφατη έρευνα αποκαλύπτει το μηχανισμό ροής πληροφοριών της

Τι θα συμβεί αν ανακατω/παραλείψω το επίπεδο Transformer;Τελευταία έρευνα αποκαλύπτει τον μηχανισμό ροής πληροφοριών του

2024-07-26

Ο δυτικός άνεμος προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Ο μηχανισμός ροής πληροφοριών στο Transformer αποκαλύφθηκε από την πιο πρόσφατη έρευνα:

Είναι απαραίτητα όλα τα στρώματα; Το μεσαίο στρώμα κάνει το ίδιο πράγμα; Έχει σημασία η σειρά των στρώσεων;

ανπαραλείψτε μερικά στρώματα, για παράδειγμα, τι θα συμβεί εάν η έξοδος του στρώματος 4 συνδεθεί στο στρώμα 6.Ανακατέψτε τυχαία τη σειρά των επιπέδων, τι γίνεται με το 4-6-5-7, για παράδειγμα.

Μια πρόσφατη μελέτη με τίτλο "Transformer Layers as Painters" έγινε δημοφιλής και ολοκληρώθηκε από μια ερευνητική ομάδα από τις νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης Sakana AI και Emergence AI.

Ξεκίνησαν από την εσωτερική αρχή λειτουργίας του Transformer και κατέληξαν σε συμπεράσματα για τα παραπάνω θέματα μέσα από μια σειρά πειραμάτων. Η ομάδα δήλωσε ότι η βαθιά κατανόηση αυτών των αρχών όχι μόνο μπορεί να βελτιώσει την αποτελεσματικότητα της χρήσης υπάρχοντος μοντέλου, αλλά και να βοηθήσει στη βελτίωση της αρχιτεκτονικής και στην ανάπτυξη νέων παραλλαγών.

Ο Lucas Beyer, ερευνητής του Google DeepMind και συγγραφέας ViT, του άρεσε αμέσως αφού το διάβασε:

Υπέροχη περίληψη! Παρόλο που ορισμένα από τα πειράματα έχουν παρουσιαστεί σε προηγούμενες μελέτες, μου αρέσουν οι νέες λεπτομέρειες που προσθέσατε, τονίζοντας ιδιαίτερα ότι οι εργασίες τύπου "συλλογισμού" επηρεάζονται περισσότερο από άλλες εργασίες!

Πολλοί μελετητές και μηχανικοί εξέφρασαν επίσης ισχυρές συστάσεις.

Είναι ένα καλό στοίχημα ότι ορισμένες από αυτές τις πληροφορίες θα χρησιμοποιηθούν τελικά για τη βελτίωση του Transformer.

Τα πειράματα επιβεβαίωσαν για άλλη μια φορά ότι: η αντιγραφή επιπέδων είναι χρήσιμη για δημιουργικές εργασίες, αλλά συνήθως είναι αναποτελεσματική για εργασίες συλλογιστικής, η αλλαγή της σειράς των επιπέδων δεν λειτουργεί καλύτερα στο μεσαίο επίπεδο, αλλά εξακολουθεί να απαιτεί προσαρμογές επισκευής.

Λοιπόν, ποια πειράματα πραγματοποίησε η ερευνητική ομάδα σε αυτή τη μελέτη; Ποιες ερωτήσεις απαντήθηκαν;

Πειραματική επιλογή μοντέλων και συγκριτική αξιολόγηση

Ας ρίξουμε μια ματιά πρώτα στην πειραματική διαμόρφωση~

Πειραματιστείτε σεμόνο για αποκωδικοποιητήκαιμόνο για κωδικοποιητήεκτελούνται στο μοντέλο.

Μεταξύ αυτών, επιλέγει το μοντέλο μόνο με αποκωδικοποιητήΛάμα2, μελετά κυρίως το Llama2-7B με 32 επίπεδα και 7 δισεκατομμύρια παραμέτρους Το εκτεταμένο πείραμα περιλαμβάνει επίσης μοντέλα 13B (40 στρώματα) και 70B (80 στρώματα).

Το μοντέλο μόνο για κωδικοποιητή επιλέγειΜΠΕΡΤ, με 24 επίπεδα και 340 εκατομμύρια παραμέτρους.

Οι ερευνητές χρησιμοποίησαν τυπικά σημεία ελέγχου προεκπαίδευσης για αυτά τα μοντέλα. Σε όλα τα πειράματα, το μοντέλο παγώθηκε και εκτός από την αξιολόγηση του BERT, η οποία περιελάμβανε ένα τυπικό βήμα μικρορύθμισης, οι παράμετροι του μοντέλου δεν τροποποιήθηκαν μέσω λεπτομέρειας ή άλλων μεθόδων.

Όσον αφορά τις δοκιμές αναφοράς, το Llama2 χρησιμοποιεί τα ακόλουθα τυπικά σημεία αναφοράς: ARC (ερωτήσεις τεστ επιστήμης), HellaSwag (ερωτήσεις κοινής λογικής), GSM8K (ερωτήσεις μαθηματικών), WinoGrande (συλλογισμός κοινής λογικής), LAMBADA (πρόβλεψη λεξιλογίου). Μεταξύ αυτών, το LAMBADA χρησιμοποιείται για τη μέτρηση της σύγχυσης, η οποία είναι πιο κοντά στην αρχική πρόβλεψη συμβολικού που χρησιμοποιήθηκε κατά τη διάρκεια της προπόνησης.

Για την αξιολόγηση της απόδοσης του Llama2, παρέχεται η κανονικοποιημένη διάμεσος των σημείων αναφοράς, ποσοτικοποιώντας την απόδοση από 0 σε 1 (βέλτιστη απόδοση μοντέλου).

Για το BERT, υιοθετείται το σημείο αναφοράς GLUE και ακολουθούνται οι μετρήσεις αξιολόγησής του, συμπεριλαμβανομένης της μη κανονικοποιημένης μέσης βαθμολογίας του δείκτη αναφοράς. Σημειώστε ότι η τυπική αξιολόγηση BERT περιλαμβάνει ένα βήμα μικρορύθμισης, προσαρμόζοντας έτσι το μοντέλο. Στο παράρτημα, οι ερευνητές δείχνουν επίσης τα αποτελέσματα μιας αξιολόγησης όπου μόνο η κεφαλή του μοντέλου μπορεί να προσαρμοστεί.

Το κίνητρο για το πείραμα προήλθε αρχικά από αυτό το ερώτημα:

Είναι δυνατόν να συνδυαστούν με κάποιο τρόπο πολλά στρώματα σε ένα ενιαίο, ενδεχομένως μεγαλύτερο στρώμα;Υποτίθεται ότι ίσως λόγω της χρήσης υπολειπόμενων συνδέσεων κατά την προπόνηση, το μεσαίο στρώμα του νευρωνικού δικτύουΜπορεί να χρησιμοποιηθεί κοινός χώρος αναπαράστασης.(Αυτό δεν ισχύει για τα τυπικά πολυστρωματικά perceptrons, τα οποία δεν έχουν μηχανισμό για την προώθηση της κοινής αναπαράστασης ή της συνέπειας της διάταξης μεταξύ των στρωμάτων)

Εάν τα επίπεδα μπορούν να μοιράζονται έναν χώρο αναπαράστασης, θα έχει σημαντικό αντίκτυπο στους μετέπειτα υπολογισμούς συνθηκών ή στη δυναμική προσθήκη νέας γνώσης στο προεκπαιδευμένο μοντέλο Transformer και στις κατάντη εφαρμογές.

8 σημαντικές ερωτήσεις σχετικά με το Transformer

Τα επίπεδα χρησιμοποιούν τον ίδιο χώρο αναπαράστασης;

Για να προσδιορίσουν εάν διαφορετικά στρώματα μοιράζονται τον ίδιο χώρο αναπαράστασης, οι ερευνητές εξέτασαν τον μετασχηματιστήΠαραλείψτε συγκεκριμένα επίπεδα ή αλλάξτε τη σειρά των γειτονικών επιπέδωντης ευρωστίας.

Για παράδειγμα, στο μοντέλο Llama2-7B, αλλάξτε τη ροή εξόδου από την κανονική σειρά "Layer 4 -> Layer 5 -> Layer 6" σε "Layer 4 -> Layer 6", παρακάμπτοντας το Layer 5, Τι θα συμβεί;

Ή τι συμβαίνει εάν η έξοδος του στρώματος 4 αποσταλεί στο στρώμα 6 και, στη συνέχεια, η έξοδος του στρώματος 6 σταλεί στο στρώμα 5 και μετά στο στρώμα 7;

Όπως φαίνεται στο παρακάτω σχήμα, το πείραμα διαπίστωσε ότι εκτός από το πρώτο και το τελευταίο στρώμα,Το Llama2-7B δείχνει καλή στιβαρότητα παρακάμπτοντας ή αλλάζοντας την ακολουθία στρώσεων。

Δηλαδή, το μεσαίο στρώμα μοιράζεται έναν χώρο αναπαράστασης και το μεσαίο στρώμα και το "εξωτερικό στρώμα" (το πρώτο και το τελευταίο στρώμα) έχουν ανεξάρτητους χώρους αναπαράστασης.

Για να επιβεβαιώσουν περαιτέρω αυτή την υπόθεση, οι ερευνητές μέτρησαν τη μέση ομοιότητα συνημιτόνου μεταξύ των ενεργοποιήσεων κρυφής κατάστασης διαφορετικών επιπέδων σε διαφορετικά μοντέλα (Llama2-7B, Llama2-13B και BERT-Large) και τα συνέκριναν μεταξύ των σημείων αναφοράς.

Το σχήμα 3 παρακάτω δείχνειΣυνοχή μεταξύ όλων των μεσαίων στρωμάτων . Για παράδειγμα, η ενεργοποίηση του τέταρτου στρώματος στο κάτω μέρος είναι πολύ παρόμοια με την ενεργοποίηση του τέταρτου στρώματος στο επάνω μέρος. Για το Llama2-13B 40 επιπέδων, μπορείτε να δείτε ότι τα στρώματα μπορούν να χωριστούν σε 4-5 ομάδες με βάση την ομοιότητα: στρώμα 0, στρώματα 1-3, το μεσαίο στρώμα και μετά το τελευταίο ένα ή δύο στρώματα.

Αυτό υποδηλώνει ότι το μοντέλο μπορείΥπάρχουν τρεις διαφορετικοί χώροι αναπαράστασης για τα επίπεδα «αρχής», «μεσαίου» και «τελικού». . Οι ερευνητές διαπίστωσαν επίσης ότι ο αριθμός των «αρχικών στρωμάτων» φαινόταν να αυξάνεται με τον συνολικό αριθμό των στρωμάτων στο μοντέλο.

Επιπλέον, η υψηλή ομοιότητα συνημιτόνου μπορεί να αποδείξει ότι υπάρχει κοινός χώρος αναπαράστασης, ενώ η χαμηλή ομοιότητα υποδηλώνει περισσότερο ότι αυτοί οι χώροι δεν είναι κοινόχρηστοι. Τα δεδομένα του Llama2-7B στο Σχήμα 3 παραπάνω είναι πολύ συνεπή με τα αποτελέσματα απόδοσης που φαίνονται στο Σχήμα 2, το οποίο αποδεικνύει περαιτέρω:

Τουλάχιστον ο χώρος αναπαράστασης στο μεσαίο επίπεδο είναι κοινός.

Είναι απαραίτητα όλα τα στρώματα;

Προκειμένου να επαληθευτεί περαιτέρω ότι ο χώρος αναπαράστασης του μεσαίου στρώματος είναι πραγματικά κοινός, οι ερευνητές διεξήγαγαν επίσηςΠείραμα παράκαμψης επιπέδου(Καμία λεπτομέρεια δεν πραγματοποιήθηκε κατά τη διάρκεια των πειραμάτων).

Συγκεκριμένα, η έξοδος του Nth layer περνά απευθείας στην είσοδο του N+Mth layer (M>1), «παρακάμπτοντας» έτσι το M-1 layer, όπως φαίνεται στο παρακάτω σχήμα.

Αρχικά το επίπεδο N+M εκπαιδεύτηκε μόνο στην είσοδο από το επίπεδο N+M-1, οπότε τώρα μπορεί να καταλάβει την ενεργοποίηση του επιπέδου N;

Σε αυτό το είδος πειράματος, οι ερευνητές εκτελούν το πρώτο στρώμα και το τελευταίο στρώμα N-1 κανονικά, ενώ παρακάμπτουν ή τροποποιούν τα επίπεδα N+1 σε TN (T είναι ο συνολικός αριθμός των στρωμάτων στο μοντέλο).

Όπως φαίνεται στο σχήμα 4 παρακάτω, σε πολλαπλές δοκιμές αναφοράς, το Llama2-7B και το BERT-LargeΟι επιδόσεις μειώνονται σταδιακά (Το σχήμα δείχνει τη σταδιακή αύξηση του αριθμού των στρώσεων που παραλείφθηκαν από αριστερά προς τα δεξιά). Αυτό το αποτέλεσμα αποκάλυψε:

Δεν είναι απαραίτητα όλα τα επίπεδα και η παράλειψη τουλάχιστον μερικών από τα μεσαία στρώματα δεν θα έχει σοβαρό αντίκτυπο στη συνολική απόδοση.

Οι μεσαίες βαθμίδες εκτελούν όλες την ίδια λειτουργία;

Είναι περιττά τα ενδιάμεσα στρώματα εάν μοιράζονται έναν κοινό χώρο αναπαράστασης;

Για να απαντήσουν σε αυτό το ερώτημα, οι ερευνητές επανέλαβαν το προηγούμενο πείραμα "παράλειψης", αλλά αυτή τη φορά αντί να παρακάμψουν το μεσαίο στρώμα,Αντικαταστάθηκαν τα βάρη όλων των μεσαίων στρωμάτων με τα βάρη του κεντρικού στρώματος,Οπως φαίνεται παρακάτω.

Στην πραγματικότητα, οι φορές T-2N+1 εκτελούνται στο κεντρικό επίπεδο, όπου T είναι ο συνολικός αριθμός των στρώσεων του μοντέλου (το Llama2-7B είναι 32 επίπεδα, το BERT-Large είναι 24 επίπεδα).

Στη δοκιμή αναφοράς που προκύπτει, καθώς αυξάνεται ο αριθμός των επιπέδων που αντικαθίστανται,Η απόδοση του μοντέλου υποβαθμίζεται γρήγορα . Και η υποβάθμιση της απόδοσης είναι πολύ πιο σοβαρή από το να παρακάμψετε απλώς ορισμένα στρώματα, αυτού του είδους η αντικατάσταση βάρους είναι εξαιρετικά επιζήμια.

επομένως,Δεν είναι περιττό τα μεσαία στρώματα να εκτελούν διαφορετικές λειτουργίες Η κοινή χρήση βαρών μεταξύ των μεσαίων επιπέδων μπορεί να έχει καταστροφικές συνέπειες.

Έχει σημασία η σειρά των στρώσεων;

Τα παραπάνω πειράματα δείχνουν ότι αν και το μεσαίο στρώμα μοιράζεται τον χώρο αναπαράστασης, εκτελεί διαφορετικές λειτουργίες σε αυτόν τον χώρο. Έχει σημασία λοιπόν η σειρά αυτών των πράξεων; Οι ερευνητές πραγματοποίησαν δύο σειρές πειραμάτων.

Πρώτον, το μεσαίο στρώμα εκπαιδεύεται σύμφωνα μεαντίστροφη σειρά εκτελούνται με σειρά (αντίστροφη σειρά). Περάστε την έξοδο του στρώματος TN στο στρώμα TN-1 και ούτω καθεξής στο στρώμα N και, στη συνέχεια, περάστε το αποτέλεσμα αυτού του στρώματος στο τελικό στρώμα TN.

Οπως φαίνεται παρακάτω:

Το δεύτερο πείραμα,τυχαία διάταξηΤα μεσαία στρώματα ταξινομούνται και υπολογίζονται κατά μέσο όρο σε 10 τυχαία αποτελέσματα σπόρων.

Τα αποτελέσματα είναι όπως φαίνονται παρακάτω και στις δύο περιπτώσεις, τα μοντέλα δείχνουνΑργή υποβάθμιση της απόδοσης。

Ακολουθεί ένα σπόιλερ ενός πειραματικού αποτελέσματος, Ανεξάρτητα από το αν είναι με αντίστροφη ή τυχαία σειρά, η απόδοση του μοντέλου είναι καλύτερη από το να παρακάμψετε αυτά τα επίπεδα απευθείας, υποδεικνύοντας ότι ακόμη και αν τα επίπεδα εκτελούνται σε εισόδους με μη προπονητική σειρά. μπορεί ακόμα να παράγει αποτελεσματικό αποτέλεσμα.

Λοιπόν, έχει σημασία η σειρά των επιπέδων; Το συμπέρασμα είναι:

Η προσαρμογή σειράς επιπέδου έχει κάποιο αντίκτυπο στην απόδοση και τόσο η τυχαία σειρά όσο και η αντίστροφη σειρά δείχνουν κάποια υποβάθμιση της απόδοσης.

Αξίζει να σημειωθεί ότι η τυχαία σειρά αποδίδει καλύτερα από την αντίστροφη σειρά. Μπορεί να οφείλεται στο ότι η αντίστροφη σειρά είναι εντελώς αντίθετη από τη σειρά κατά τη διάρκεια της εκπαίδευσης και οποιαδήποτε τυχαία σειρά διατηρεί τουλάχιστον κάποια διαδοχική συνοχή (δηλαδή, ένα στρώμα i είναι πάντα μετά από ένα άλλο επίπεδο j, όπου i>j).

Μπορούν αυτά τα επίπεδα να εκτελεστούν παράλληλα;

Εάν η παρουσία επιπέδων, δηλαδή η μη παράβλεψη, είναι πιο σημαντική από τη σειρά με την οποία εκτελούνται, είναι δυνατόν να εξεταστείΕκτελέστε αυτά τα στρώματα ανεξάρτητα και στη συνέχεια συνδυάστε τα αποτελέσματά τους ? Οπως φαίνεται παρακάτω.

Οι ερευνητές διεξήγαγαν ένα πείραμα όπου αντί να παρακάμψουν τα στρώματα N σε TN, έτρεξαν αυτά τα ενδιάμεσα στρώματα παράλληλα και μετά πέρασαν τα μέσα αποτελέσματά τους στα τελικά Ν στρώματα.

Τα αποτελέσματα φαίνονται στο παρακάτω σχήμα Με εξαίρεση το σημείο αναφοράς μαθηματικού προβλήματος GSM8K, όλα τα σημεία αναφοράς δείχνουν αργή υποβάθμιση της απόδοσης.

Με ενδιαφέρο,Τα παράλληλα επίπεδα αποδίδουν καλύτερα από το να παραλείπονται επίπεδα, αλλά όχι τόσο καλά όσο τα τρέχοντα επίπεδα με αντίστροφη σειρά.

Συνοπτικά, είναι δυνατόν να εκτελεστούν αυτά τα επίπεδα παράλληλα; η απάντηση είναι:Ναι, εκτός από βαριά μαθηματικά σημεία αναφοράς.

Για ορισμένες εργασίες, έχει μεγαλύτερη σημασία η παραγγελία;

Οι περισσότερες παραλλαγές (συμπεριλαμβανομένης της αντίστροφης σειράς, της παράλειψης και της παράλληλης) εμφανίζουν την ταχύτερη υποβάθμιση της απόδοσης στα σημεία αναφοράς αφηρημένης συλλογιστικής ARC ή μαθηματικού συλλογισμού GSM8K.

Αυτό μπορεί να εξηγηθεί από το γεγονός ότι οι σταδιακές εργασίες συλλογισμού είναι πιο ευαίσθητες σε αλλαγές στη σειρά των επιπέδων από τις «σημασιολογικές» εργασίες όπως το Winogrande ή το HellaSwag.

Αυτό συμβαίνει επειδή οι εργασίες συλλογισμού απαιτούν συνδυασμό δομικών και σημασιολογικών πληροφοριών, ενώ εργασίες όπως το HellaSwag μπορούν να ολοκληρωθούν μόνο με σημασιολογία.

Μέσα από πειράματα, οι ερευνητές κατέληξαν στο συμπέρασμα:Οι μαθηματικές και συλλογιστικές εργασίες βασίζονται περισσότερο στη σειρά παρά στις «σημασιολογικές» εργασίες.

Βοηθά η επανάληψη με παράλληλα επίπεδα;

Αν ο εσωτερικός μηχανισμός λειτουργίας του Transformer συγκριθεί με τη διαδικασία ζωγραφικής ενός πίνακα: ο καμβάς (εισαγωγή) περνάει ανάμεσα σε μερικούς ζωγράφους, κάποιοι ζωγράφοι ειδικεύονται στη ζωγραφική πουλιών και κάποιοι είναι καλύτεροι στο βάψιμο τροχών... Κάθε ζωγράφος με τη σειρά του σχεδιάζει από άλλο Ο ζωγράφος παίρνει τον καμβά στα χέρια του και αποφασίζει αν θα προσθέσει στον πίνακα ή θα τον περάσει απευθείας στον επόμενο ζωγράφο (χρησιμοποιώντας υπολειμματικές συνδέσεις).

Είναι κατανοητό ότι ορισμένα στρώματα «συμπληρώνουν» τη ζωγραφική μόνο όταν λαμβάνουν τα κατάλληλα στοιχεία. Για παράδειγμα, ένας καλλιτέχνης που «τραβάει τροχούς» είναι πιο πιθανό να σχεδιάσει τροχούς αν δει πρώτα το αμάξωμα ενός αυτοκινήτου.

Στον μετασχηματιστή, ορισμένα στρώματα μπορεί να συμβάλλουν στο μπροστινό πέρασμα μόνο όταν λαμβάνουν την κατάλληλη είσοδο, αντί να περνούν την είσοδο απευθείας μέσω της υπολειπόμενης σύνδεσης.

Κοιτάζοντας το με αυτόν τον τρόπο, σε σύγκριση με την εκτέλεση του παράλληλου επιπέδου μόνο μία φορά,Επαναληπτική εκτέλεση παράλληλων επιπέδωνΘα πρέπει να βελτιώσει την απόδοση.

Οι ερευνητές το δοκίμασαν αυτό τροφοδοτώντας τη μέση απόδοση των παράλληλων στρωμάτων πίσω στο ίδιο επίπεδο και καθορίζοντας τον αριθμό των επαναλήψεων, όπως φαίνεται παρακάτω:

Στο σχήμα 9 παρακάτω, οι ερευνητές δείχνουν τα αποτελέσματα της επανάληψης του παράλληλου στρώματος 3 φορές Αυτή η μέθοδος είναι σημαντικά καλύτερη από την εκτέλεση του παράλληλου στρώματος μόνο μία φορά.

Η μόνη εξαίρεση είναι όταν το αρχικό στρώμα N είναι 15 για το Llama2-7B ή 11 για το BERT. Σε αυτήν την περίπτωση, το αποτέλεσμα της παραλληλοποίησης του βρόχου 3 φορές είναι ισοδύναμο με την επανάληψη μόνο του μεσαίου στρώματος 3 φορές και το παράλληλο στρώμα αυτή τη στιγμή είναι ισοδύναμο με το πλήρες μοντέλο.

Οι ερευνητές επανέλαβαν επίσης το πείραμα με διαφορετικούς αριθμούς επαναλήψεων.

Το παρακάτω σχήμα δείχνει πώς αλλάζει η απόδοση του Llama2-7B με τον αριθμό των παράλληλων στρωμάτων M και τον αριθμό των επαναλήψεων.

Ο βέλτιστος αριθμός επαναλήψεων για κάθε M υποδεικνύεται από το κόκκινο πλαίσιο. Εκτός από τα M=29 και M=31 (σχεδόν όλα τα στρώματα είναι παραλληλισμένα), ο βέλτιστος αριθμός επαναλήψεων είναι περίπου γραμμικά ανάλογος με τον αριθμό των παράλληλων στρωμάτων.

Το συμπέρασμα λοιπόν είναι:Η επανάληψη βοηθά με παράλληλα επίπεδα και ο βέλτιστος αριθμός επαναλήψεων είναι ανάλογος με τον αριθμό των παράλληλων επιπέδων.

Ποιες παραλλαγές βλάπτουν λιγότερο την απόδοση;

Τέλος, οι ερευνητές συνέκριναν όλες τις διαφορετικές παραλλαγές στο πείραμα στο ίδιο γράφημα.

Τα αποτελέσματα δείχνουν ότι,Επαναλάβετε μονή στρώση(Όπως αναφέρθηκε παραπάνω αντικαταστήστε τα μεσαία στρώματα με ίσο αριθμό κεντρικών στρωμάτων)Το χειρότερο αποτέλεσμα, η απόδοση υποβαθμίζεται γρήγορα στην τυχαία γραμμή βάσης.

Ο επαναληπτικός παραλληλισμός και η τυχαία διαδοχική υποβάθμιση της απόδοσης του επιπέδου είναι ελάχιστες, μεταξύ των οποίων ο επαναληπτικός παραλληλισμός αποδίδει καλύτερα στο BERT και στο Llama2-7B.

Περισσότερα πειραματικά αποτελέσματα έχουν προστεθεί στο παράρτημα της εργασίας και τα ενδιαφερόμενα μέλη της οικογένειας μπορούν να ελέγξουν το αρχικό χαρτί.

Σύνδεσμος χαρτιού: https://arxiv.org/abs/2407.09298v1
Σύνδεσμος αναφοράς: https://x.com/A_K_Nain/status/1812684597248831912

Νέα