Το μεγάλο μοντέλο έχει τη δική του κατανόηση της γλώσσας! Το έγγραφο του MIT αποκαλύπτει τη διαδικασία σκέψης μεγάλου μοντέλου ICML 24

2024-08-17

Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Τα μεγάλα μοντέλα μπορούν να σχηματίσουν τη δική σας κατανόηση του πραγματικού κόσμου!

Μια μελέτη του MIT διαπίστωσε ότι καθώς ένα μοντέλο γίνεται πιο ικανό, η κατανόησή του για την πραγματικότητα μπορεί να υπερβαίνει την απλή μίμηση.

Για παράδειγμα, εάν το μεγάλο μοντέλο δεν έχει μυρίσει ποτέ μια μυρωδιά, αυτό σημαίνει ότι δεν μπορεί να καταλάβει μυρωδιές;

Η έρευνα έχει βρει ότι μπορεί να προσομοιώσει αυθόρμητα ορισμένες έννοιες για εύκολη κατανόηση.

Αυτή η έρευνα σημαίνει ότιΤα μεγάλα μοντέλα αναμένεται να παρέχουν μια βαθύτερη κατανόηση της γλώσσας και του κόσμου στο μέλλον, η εργασία έγινε αποδεκτή από το ICML 24.

Οι συγγραφείς αυτής της εργασίας είναι ο Κινέζος διδακτορικός φοιτητής Charles Jin και ο επιβλέπων καθηγητής Martin Rinard από το MIT Computer and Artificial Intelligence Laboratory (CSAIL).

Κατά τη διάρκεια της μελέτης, ο συγγραφέας ζήτησε από το μεγάλο μοντέλο να μάθει μόνο το κείμενο του κώδικα και διαπίστωσε ότι το μοντέλο σταδιακά κατάλαβε το νόημα πίσω από αυτό.

Ο καθηγητής Rinard είπε ότι αυτή η έρευνα στοχεύει άμεσα ένα βασικό ζήτημα της σύγχρονης τεχνητής νοημοσύνης——

Οι δυνατότητες των μεγάλων μοντέλων προκύπτουν απλώς από στατιστικούς συσχετισμούς μεγάλης κλίμακας ή δημιουργούν ουσιαστική κατανόηση των προβλημάτων του πραγματικού κόσμου που προορίζονται να αντιμετωπίσουν;

△Πηγή: Επίσημος ιστότοπος του MIT

Ταυτόχρονα, αυτή η έρευνα πυροδότησε επίσης πολλές συζητήσεις.

Μερικοί χρήστες του Διαδικτύου είπαν ότι παρόλο που τα μεγάλα μοντέλα μπορεί να καταλαβαίνουν τη γλώσσα διαφορετικά από τους ανθρώπους, αυτή η μελέτη δείχνει τουλάχιστον ότι το μοντέλο κάνει περισσότερα από την απλή απομνημόνευση δεδομένων εκπαίδευσης.

Αφήστε τα μεγάλα μοντέλα να μάθουν καθαρό κώδικα

Προκειμένου να διερευνήσει εάν τα μεγάλα μοντέλα μπορούν να παράγουν κατανόηση σε σημασιολογικό επίπεδο, ο συγγραφέας κατασκεύασε έναΚωδικός προγράμματος και η αντίστοιχη είσοδος και έξοδος τουσύνολο συνθετικών δεδομένων.

Αυτά τα προγράμματα κώδικα γράφονται χρησιμοποιώντας ένα πρόγραμμα που ονομάζεταιKarelΕίναι γραμμένο σε μια γλώσσα διδασκαλίας και χρησιμοποιείται κυρίως για την υλοποίηση του έργου της πλοήγησης ρομπότ σε έναν κόσμο 2D πλέγματος.

Αυτός ο κόσμος πλέγματος αποτελείται από πλέγματα 8x8, κάθε πλέγμα μπορεί να περιέχει εμπόδια, δείκτες ή ανοιχτούς χώρους. Το ρομπότ μπορεί να κινείται μεταξύ των πλεγμάτων και να εκτελεί λειτουργίες όπως η τοποθέτηση/παραλαβή δεικτών.

Η γλώσσα Karel περιέχει πέντε πρωτόγονες λειτουργίες - κίνηση (ένα βήμα προς τα εμπρός), turnLeft (στροφή 90 μοίρες αριστερά), turnRight (στροφή 90 μοίρες δεξιά), pickMarker (σημαδευτής λήψης), putMarker (δείκτης θέσης). πρωτόγονες πράξεις Μια ακολουθία πράξεων.

Οι συγγραφείς δημιούργησαν τυχαία ένα σετ εκπαίδευσης που περιείχε 500.000 προγράμματα Karel, με διάρκεια κάθε προγράμματος μεταξύ 6 και 10.

Κάθε δείγμα εκπαίδευσης αποτελείται από τρία μέρη: 5 καταστάσεις εισόδου, 5 καταστάσεις εξόδου και πλήρης κώδικας προγράμματος Οι καταστάσεις εισόδου και εξόδου κωδικοποιούνται σε συμβολοσειρές σε συγκεκριμένη μορφή.

Χρησιμοποιώντας αυτά τα δεδομένα, οι συγγραφείς εκπαίδευσαν μια παραλλαγή του μοντέλου CodeGen της τυπικής αρχιτεκτονικής Transformer.

Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το μοντέλο μπορεί να έχει πρόσβαση στις πληροφορίες εισόδου και εξόδου και στο πρόθεμα προγράμματος σε κάθε δείγμα, αλλάΔεν είναι δυνατή η προβολή της πλήρους τροχιάς και των ενδιάμεσων καταστάσεων της εκτέλεσης του προγράμματος。

Εκτός από το σετ εκπαίδευσης, ο συγγραφέας κατασκεύασε επίσης ένα δοκιμαστικό σετ που περιέχει 10.000 δείγματα για να αξιολογήσει την απόδοση γενίκευσης του μοντέλου.

Προκειμένου να μελετήσει εάν το γλωσσικό μοντέλο κατανοεί τη σημασιολογία πίσω από τον κώδικα και ταυτόχρονα κατανοεί σε βάθος τη «διαδικασία σκέψης» του μοντέλου, ο συγγραφέας σχεδίασε έναν συνδυασμό ανιχνευτή που περιλαμβάνει έναν γραμμικό ταξινομητή και ένα κρυφό στρώμα MLP μονής/διπλής.

Η είσοδος του ανιχνευτή είναι η κρυφή κατάσταση του μοντέλου γλώσσας στη διαδικασία δημιουργίας διακριτικών προγράμματος και ο στόχος πρόβλεψης είναι η ενδιάμεση κατάσταση εκτέλεσης του προγράμματος, συμπεριλαμβανομένου του προσανατολισμού του ρομπότ, μετατόπισης σε σχέση με την αρχική θέση και κατά πόσο είναι στραμμένο Προς το εμπόδιο (εμπόδιο) αυτά τα τρία χαρακτηριστικά.

Κατά τη διάρκεια της διαδικασίας εκπαίδευσης του παραγωγικού μοντέλου, ο συγγραφέας κατέγραψε τα παραπάνω τρία χαρακτηριστικά κάθε 4000 βήματα και επίσης κατέγραψε την κρυφή κατάσταση του παραγωγικού μοντέλου για να σχηματίσει ένα σύνολο δεδομένων εκπαίδευσης για τον ανιχνευτή.

Τρία στάδια εκμάθησης μεγάλων μοντέλων

Παρατηρώντας πώς η ποικιλομορφία, η αμηχανία και άλλοι δείκτες των προγραμμάτων που δημιουργούνται από το γλωσσικό μοντέλο αλλάζουν με τη διαδικασία εκπαίδευσης, ο συγγραφέας χωρίζει τη διαδικασία εκπαίδευσης σε τρία στάδια -

Στάδιο φλυαρίας: Το πρόγραμμα εξόδου είναι πολύ επαναλαμβανόμενο και η ακρίβεια του ανιχνευτή είναι ασταθής.
Στάδιο απόκτησης γραμματικής: Η ποικιλομορφία του προγράμματος αυξάνεται γρήγορα, η ακρίβεια παραγωγής αυξάνεται ελαφρά και η σύγχυση μειώνεται, υποδεικνύοντας ότι το γλωσσικό μοντέλο έχει αποκτήσει τη συντακτική δομή του προγράμματος.
Στάδιο σημασιολογικής απόκτησης: Ο βαθμός ποικιλομορφίας του προγράμματος και η γνώση της συντακτικής δομής είναι σταθερός, αλλά η ακρίβεια παραγωγής και η απόδοση του ανιχνευτή βελτιώνονται σημαντικά, υποδεικνύοντας ότι το γλωσσικό μοντέλο έχει αποκτήσει τη σημασιολογία του προγράμματος.

Συγκεκριμένα, το στάδιο Babbling καταλαμβάνει το πρώτο 50% της συνολικής διαδικασίας εκπαίδευσης, για παράδειγμα, όταν η εκπαίδευση φτάσει περίπου το 20%, ανεξάρτητα από το ποια προδιαγραφή εισάγεται, το μοντέλο θα δημιουργήσει μόνο ένα σταθερό πρόγραμμα - "pickMarker" που επαναλαμβάνεται 9 φορές.

Το στάδιο απόκτησης γραμματικής βρίσκεται στο 50% έως 75% της εκπαιδευτικής διαδικασίας Η αμηχανία του μοντέλου στο πρόγραμμα Karel έχει μειωθεί σημαντικά, υποδεικνύοντας ότι το γλωσσικό μοντέλο έχει αρχίσει να προσαρμόζεται καλύτερα στα στατιστικά χαρακτηριστικά του προγράμματος Karel, αλλά η ακρίβεια του. το πρόγραμμα που δημιουργήθηκε δεν έχει βελτιωθεί σημαντικά ( Από περίπου 10% σε περίπου 25%), εξακολουθεί να μην μπορεί να ολοκληρώσει την εργασία με ακρίβεια.

Το στάδιο σημασιολογικής απόκτησης είναι το τελευταίο 25% και η ακρίβεια του προγράμματος έχει βελτιωθεί δραματικά, από περίπου 25% σε περισσότερο από 90%, και το πρόγραμμα που δημιουργείται μπορεί να ολοκληρώσει με ακρίβεια τη δεδομένη εργασία.

Περαιτέρω πειράματα διαπίστωσαν ότι ο ανιχνευτής όχι μόνο μπορεί να προβλέψει το χρονικό βήμα συγχρονισμού τη χρονική στιγμή t, αλλά καιΠρόβλεψη της κατάστασης εκτέλεσης του προγράμματος σε επόμενα χρονικά βήματα。

Για παράδειγμα, ας υποθέσουμε ότι το μοντέλο παραγωγής δημιουργεί το διακριτικό "move" τη στιγμή t και θα δημιουργήσει "turnLeft" τη στιγμή t+1.

Ταυτόχρονα, η κατάσταση του προγράμματος τη στιγμή t είναι ότι το ρομπότ είναι στραμμένο προς το βορρά και βρίσκεται στις συντεταγμένες (0,0), ενώ το ρομπότ τη στιγμή t+1 θα είναι ότι το ρομπότ θα είναι στραμμένο προς τα δυτικά, με τη θέση αμετάβλητος.

Εάν ο ανιχνευτής μπορεί να προβλέψει επιτυχώς από την κρυφή κατάσταση του μοντέλου γλώσσας τη χρονική στιγμή t ότι το ρομπότ θα κοιτάξει προς τη δύση τη στιγμή t+1, αυτό σημαίνει ότι πριν από τη δημιουργία του "turnLeft", η κρυφή κατάσταση περιέχει ήδη την αλλαγή κατάστασης που προκαλείται από αυτό. πληροφορίες λειτουργίας.

Αυτό το φαινόμενο δείχνει ότι το μοντέλο δεν έχει μόνο μια σημασιολογική κατανόηση του παραγόμενου μέρους του προγράμματος, αλλά σε κάθε βήμα της παραγωγής, έχει ήδη προβλέψει και σχεδιάσει το περιεχόμενο που θα δημιουργηθεί στη συνέχεια, δείχνοντας μια προκαταρκτικήΔεξιότητες συλλογισμού προσανατολισμένες στο μέλλον。

Αλλά αυτή η ανακάλυψη έφερε νέα ερωτήματα σε αυτήν την έρευνα——

Η βελτίωση της ακρίβειας που παρατηρήθηκε στο πείραμα είναι πράγματι μια βελτίωση στο παραγωγικό μοντέλο ή είναι το αποτέλεσμα του συμπεράσματος του ίδιου του ανιχνευτή;

Προκειμένου να λυθεί αυτή η αμφιβολία, πρόσθεσε ο συγγραφέαςΠείραμα παρέμβασης σημασιολογικής ανίχνευσης。

Η βασική ιδέα του πειράματος είναι η αλλαγή των κανόνων σημασιολογικής ερμηνείας των λειτουργιών του προγράμματος, οι οποίοι χωρίζονται σε δύο μεθόδους: "flip" και "adversarial".

Το "Flip" είναι μια αναγκαστική αντιστροφή του νοήματος της εντολής. Για παράδειγμα, το "turnRight" ερμηνεύεται αναγκαστικά ως "turnLeft" και το "turnRight" μπορούν να εκτελέσουν αυτό το είδος αντιστροφής.

Το "adversarial" ανακατεύει τυχαία τη σημασιολογία που αντιστοιχεί σε όλες τις οδηγίες Η συγκεκριμένη μέθοδος είναι όπως φαίνεται στον παρακάτω πίνακα.

Εάν η κρυφή κατάσταση του παραγωγικού μοντέλου κωδικοποιεί μόνο τη συντακτική δομή του προγράμματος και όχι τις σημασιολογικές πληροφορίες, τότε ο ανιχνευτής θα πρέπει ακόμα να μπορεί να εξάγει τις αλλαγμένες σημασιολογικές πληροφορίες από την κρυφή κατάσταση με ισοδύναμη απόδοση.

Αντίθετα, εάν η απόδοση του ανιχνευτή πέσει σημαντικά, σημαίνει ότι η βελτίωση της απόδοσης που δείχνει ο ανιχνευτής είναι πράγματι επειδή η κρυφή κατάσταση του παραγωγικού μοντέλου κωδικοποιεί την πραγματική σημασιολογία.

Τα πειραματικά αποτελέσματα δείχνουν ότι η απόδοση του ανιχνευτή μειώνεται σημαντικά και στις δύο νέες σημασιολογίες.

Είναι ιδιαίτερα εμφανές στη λειτουργία "αντίπαλης", η οποία είναι επίσης συνεπής με το χαρακτηριστικό ότι η σημασιολογία σε αυτήν τη λειτουργία είναι σημαντικά διαφορετική από την αρχική σημασιολογία.

Αυτά τα αποτελέσματα αποκλείουν έντονα την πιθανότητα ο ανιχνευτής «να μάθει τη σημασιολογική χαρτογράφηση από μόνος του» και επιβεβαιώνει περαιτέρω ότι το μοντέλο παραγωγής πράγματι κατανοεί την έννοια του κώδικα.

Διεύθυνση χαρτιού:
https://icml.cc/virtual/2024/poster/34849
Σύνδεσμοι αναφοράς:
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/

νέα