Νέα

Η ομιλία του ICML2024 έγινε viral!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Πώς ένα μεγάλο γλωσσικό μοντέλο (LLM) λύνει μαθηματικά προβλήματα; Είναι μέσω της μνήμης προτύπων ή μαθαίνει πραγματικά να συλλογίζεται; Ποια είναι η νοητική αριθμητική διαδικασία για το μοντέλο; Ποιες συλλογιστικές δεξιότητες μπορούν να διδαχθούν; Ίδιο με τους ανθρώπους ή πέρα ​​από τους ανθρώπους; Η εκμάθηση μόνο ενός τύπου μαθηματικών προβλημάτων θα βοηθήσει στην ανάπτυξη της γενικής νοημοσύνης; Γιατί τα LLM κάνουν συλλογιστικά λάθη; Πόσο βάθος LLM χρειάζεται για να κάνει κανείς συλλογισμό;



Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.20311

Πρόσφατα, μια ομάδα τεσσάρων ατόμων από το Meta FAIR, το CMU και το MBZUAI, συμπεριλαμβανομένων των Ye Tian, ​​Xu Zicheng, Li Yuanzhi και Zhu Zeyuan, κυκλοφόρησε πρόσφατα την εργασία arXiv "Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes "Χρησιμοποιώντας ελεγχόμενα πειράματα για να απαντήσετε σε έξυπνες ερωτήσεις στα παραπάνω ζητήματα. Ο χρήστης του Twitter @xlr8harder σχολίασε: "Αυτό το αποτέλεσμα θα σταματήσει μια για πάντα τη συζήτηση σχετικά με το εάν το LLM έχει συλλογιστικές ικανότητες ή είναι απλώς ένας τυχαίος παπαγάλος".

Σημείωση του συντάκτη: Ολόκληρη η σειρά του "Language Model Physics" προσκλήθηκε να δώσει μια δίωρη ειδική έκθεση στο ICML 2024 International Machine Learning Top Conference στις 22 Ιουλίου. Η ανταπόκριση ήταν ενθουσιώδης και αναφέρεται ότι υπήρξε συνεχές χειροκρότημα στο η σκηνή. Εδώ σας παρουσιάζω το Μέρος 2.1 της σειράς.



Φιγούρα 1

Αναλυτική επεξήγηση της εργασίας

Πρώτα απ 'όλα, σύμφωνα με τη σύμβαση αυτής της σειράς, ο συγγραφέας πιστεύει ότι δεν πρέπει να μαντέψει κανείς τον τρόπο σκέψης μιλώντας με μεγάλα μοντέλα όπως το GPT-4 Αν και είναι εφικτό αρκετά αυστηρή για να αποκαλύψει επιστημονικά την εσωτερική σκέψη της διαδικασίας GPT-4.

Επιπλέον, από την οπτική γωνία των δεδομένων, μόνο με την πλήρη πρόσβαση στα δεδομένα προεκπαίδευσης του μοντέλου μπορεί να είναι σαφές ποιες ερωτήσεις έχει δει το μοντέλο και ποιες έχουν μάθει μέσω συμπερασμάτων. Ακόμα κι αν ένα μοντέλο επιτυγχάνει υψηλές βαθμολογίες στο GSM8k (ένα σύνολο σημείων αναφοράς 8.000 ερωτήσεων μαθηματικών δημοτικού σχολείου), είναι δύσκολο να πούμε αν έχει δει παραλλαγές αυτών των ερωτήσεων (όπως παραλλαγές σε διαφορετικές γλώσσες ή επανεγγραφές GPT-4).

Για το σκοπό αυτό, ο συγγραφέας δημιούργησε το iGSM, ένα συνθετικό σύνολο ερωτήσεων σκέψης που προσομοιώνει το επίπεδο των μαθηματικών του δημοτικού σχολείου και άφησε το μοντέλο να προεκπαιδευτεί στο iGSM από την αρχή για να ελέγχει τους τύπους ερωτήσεων στις οποίες εκτίθεται το μοντέλο. Αξίζει να σημειωθεί ότι το iGSM δεν περιέχει πληροφορίες κοινής λογικής, μόνο πρόσθεση, αφαίρεση και πολλαπλασιασμό εντός του εύρους του mod 23 και όλοι οι υπολογισμοί γίνονται βήμα προς βήμα χρησιμοποιώντας CoT. Με το iGSM, μπορούν να διεξαχθούν ελεγχόμενα πειράματα που μελετούν ειδικά τις δυνατότητες συμπερασμάτων του μοντέλου, ενώ αγνοούν άλλους παράγοντες (όπως η αριθμητική των μεγάλων ακέραιων αριθμών). Το σχήμα 2 δείχνει ένα απλό παράδειγμα.



Σχήμα 2

Χρησιμοποιώντας αυτό το σύνολο δεδομένων, ο συγγραφέας δοκίμασε πρώτα την απόδοση του GPT2 (έκδοση RoPE). Χρησιμοποιώντας το op για να αναπαραστήσει τον αριθμό των μαθηματικών βημάτων λειτουργίας που απαιτούνται για την επίλυση του προβλήματος, ο συγγραφέας διαπίστωσε ότι όταν εκπαιδεύεται σε ερωτήσεις με op≤21, το μοντέλο μπορεί όχι μόνο να επιτύχει ακρίβεια 99%, αλλά και καλύτερη απόδοση σε πιο δύσκολες ερωτήσεις (όπως π.χ. ως op=32 ), διατηρώντας ποσοστό ακρίβειας 83% (βλ. Εικόνα 3). Αυτό δείχνει ότι το μοντέλο έχει μάθει κάποιες συλλογιστικές δεξιότητες, άλλωστε δεν έχει δει ποτέ ερώτηση με op>21. (Παρεμπιπτόντως, το GPT-4o μπορεί να χειριστεί μόνο ερωτήσεις με op=10 σε αυτό το σύνολο δεδομένων. Οτιδήποτε πέρα ​​από αυτή τη δυσκολία είναι σαν να μαντεύεις τυφλά. Θα συζητήσουμε αυτό το θέμα στο τέλος του άρθρου.)

Τι είδους συλλογιστικές δεξιότητες έχει μάθει το μοντέλο; Υπάρχουν τουλάχιστον δύο τρόποι σκέψης για την επίλυση των μαθηματικών προβλημάτων του iGSM. Ένα είναι αυτό που αποκαλεί ο συγγραφέας "Συλλογισμός επιπέδου 0 », δηλαδή, «μπορεί να υπολογιστεί ο βίαιος υπολογισμός». Δεδομένου ότι οι μεταβλητές στην ερώτηση μπορεί να έχουν πολύπλοκες εξαρτήσεις, ορισμένες μπορούν να υπολογιστούν απευθείας, ενώ άλλες πρέπει να υπολογιστούν πρώτα, για παράδειγμα, εάν ο Xiao Zhang έχει 3 φορές περισσότερα φρούτα από τον Xiao Wang, τότε πρέπει πρώτα να υπολογίσει πόσα μήλα και αχλάδια. Ο Xiao Wang έχει Και μόνο αφού συνοψίσουμε, μπορούμε να αρχίσουμε να υπολογίζουμε τον αριθμό των φρούτων για τον Xiao Zhang. Η "συλλογιστική επιπέδου 0" είναι να απαριθμήσετε όλες τις μεταβλητές όσο το δυνατόν περισσότερο, να βρείτε τυχαία μια υπολογίσιμη μεταβλητή κάθε φορά, να υπολογίσετε το αποτέλεσμα και να συνεχίσετε.

Αντίστοιχο σε αυτό είναι "Συλλογισμός επιπέδου 1 ": Μέσω τοπολογικής ταξινόμησης, ξεκινήστε από το πρόβλημα και εργαστείτε προς τα πίσω για να προσδιορίσετε ποιες μεταβλητές πρέπει να υπολογιστούν και, στη συνέχεια, ξεκινήστε από τους κόμβους των φύλλων και υπολογίστε προς τα πάνω για να προσπαθήσετε για την "συντομότερη απάντηση". Οι κοινές λύσεις μαθηματικών προβλημάτων συνήθως χρησιμοποιούν συλλογισμό επιπέδου 1 και δεν υπολογίζουν «περιττές μεταβλητές». Για παράδειγμα, ο Xiao Zhang έχει τρεις φορές περισσότερα φρούτα από τον Xiao Wang Αν ρωτήσετε τον Xiao Zhang πόσα φρούτα έχει, τότε ο αριθμός των μήλων του Xiao Li είναι μια περιττή μεταβλητή, ενώ ο αριθμός των μήλων και των αχλαδιών του Xiao Wang είναι και οι δύο απαραίτητοι.

Όπως φαίνεται στο Σχήμα 3, ο συγγραφέας διαπίστωσε ότι το GPT-2 μπορεί να μάθει συλλογισμό επιπέδου 1 και να δώσει τη συντομότερη απάντηση σχεδόν κάθε φορά. Αυτό είναι πολύ απλό! Επειδή πριν το μοντέλο δημιουργήσει την πρώτη πρόταση, ολόκληρη η τοπολογική ταξινόμηση πρέπει να έχει γίνει στο μυαλό του - διαφορετικά πώς θα ήξερε ποιες μεταβλητές δεν είναι απαραίτητες; Εάν το μοντέλο δημιουργήσει "Το Xiao Li έχει 7 μήλα" από την αρχή, δεν υπάρχει τρόπος να επιστρέψετε και δεν μπορεί να ληφθεί η συντομότερη απάντηση.



εικόνα 3

Λοιπόν, πώς μαθαίνει το μοντέλο το "συλλογισμό επιπέδου 1"; Για το σκοπό αυτό, ο συγγραφέας διεξήγαγε μια διερευνητική μελέτη σχετικά με τις εσωτερικές παραμέτρους του μοντέλου (βλ. Εικόνα 4). Το συμπέρασμα δείχνει (δείτε το έγγραφο για λεπτομέρειες σχετικά με τη μέθοδο ανίχνευσης) ότι πριν το μοντέλο δημιουργήσει την πρώτη πρόταση, έχει ήδη καθορίσει ποια μεταβλητή Α είναι "απαραίτητη" μέσω της νοητικής αριθμητικής (nece (A)=True). Ταυτόχρονα, μετά την εκφώνηση κάθε πρότασης, το μοντέλο υπολογίζει επίσης νοερά όλες τις επόμενες "υπολογίσιμες" μεταβλητές A (cannext (A)=True). Επομένως, το μοντέλο χρειάζεται μόνο να εκτελεί συνεχώς λογικές πράξεις AND στο nece και στο cannext και η πλήρης διαδικασία υπολογισμού μπορεί να δοθεί βήμα προς βήμα ξεκινώντας από τους κόμβους των φύλλων.

Σημειωτέον, αυτές οι πολύπλοκες νοητικές αριθμητικές ικανότητες δεν εμφανίστηκαν στο σετ προπόνησης. Το μοντέλο έχει εκτεθεί μόνο σε δεδομένα iGSM και έχει δει μόνο το μέρος της «γλώσσας» (ερωτήσεις και απαντήσεις), αλλά έχει μάθει ανεξάρτητα μια ανθρώπινη διαδικασία σκέψης (νοητική διαδικασία) και έφτασε στη βέλτιστη λύση!Με άλλα λόγια, αυτή η έρευνα διαψεύδει την έκθεσή μας πριν από μια εβδομάδα στο "Language ≠ Thinking, μεγάλα μοντέλα δεν μπορούν να μάθουν συλλογισμό: ένα άρθρο του Nature έκανε την κοινότητα AI να εκραγεί" και το απέδειξε χρησιμοποιώντας επιστημονικές μεθόδουςΤα μεγάλα μοντέλα μπορούν πράγματι να μάθουν να σκέφτονται μέσω της γλώσσας

Το ακόμα πιο εκπληκτικό είναι ότι το μοντέλο μαθαίνει περισσότερα από αυτό. Στο Σχήμα 4, ο συγγραφέας διαπίστωσε επίσης ότι το μοντέλο υπολογίζει διανοητικά πολλές πληροφορίες που είναι άχρηστες για την επίλυση του προβλήματος. Για παράδειγμα, αφού μόλις περιγραφεί η σχέση της μεταβλητής, ή ακόμα και πριν τεθεί η ερώτηση, το μοντέλο γνωρίζει ήδη εάν υπάρχει αναδρομική εξάρτηση μεταξύ οποιωνδήποτε δύο μεταβλητών Α και Β - ακόμα κι αν αυτές οι μεταβλητές είναι άσχετες με την επίλυση του προβλήματος. Για τους ανθρώπους, συνήθως ξεκινάμε από την ερώτηση και εργαζόμαστε προς τα πίσω, αγνοώντας περιττές μεταβλητές, αλλά ένα μοντέλο γλώσσας όπως το GPT-2 θα χτενίσει ολόκληρο το γράφημα σχέσης για να αντιμετωπίσει τυχόν ερωτήσεις που μπορεί να τεθούν στο μέλλον. Ο συγγραφέας ονομάζει αυτή την ικανότητα "Συλλογισμός επιπέδου 2」。

Αν και δεν απαιτείται συλλογισμός επιπέδου 2 για την επίλυση προβλημάτων, είναι σίγουρα μια πιο γενική δεξιότητα. Το μοντέλο εκμεταλλεύεται τις παράλληλες δυνατότητες για την εκτέλεση μεγάλου όγκου ταξινόμησης πληροφοριών αιτίου-αποτελέσματος. Αυτή η ικανότητα κατακτάται από το γλωσσικό μοντέλο όταν μαθαίνει να επιλύει προβλήματα. Ο συγγραφέας εικάζει ότι αυτή μπορεί να είναι η πιθανή προέλευση του όρου «καθολική» στην τεχνητή γενική νοημοσύνη (AGI), δηλαδή, τα γλωσσικά μοντέλα μπορούν να μάθουν πιο γενικές ικανότητες πέρα ​​από τις δεξιότητες που διδάσκονται από το σύνολο δεδομένων.



Εικόνα 4

Στη συνέχεια, οι συγγραφείς εξέτασαν γιατί το μοντέλο έκανε το λάθος. Συνοπτικά, στο σύνολο δεδομένων iGSM, το μοντέλο κάνει σχεδόν μόνο δύο τύπους σφαλμάτων: το ένα είναι ο υπολογισμός περιττών μεταβλητών και ο άλλος ο υπολογισμός μεταβλητών που δεν μπορούν να υπολογιστούν αυτήν τη στιγμή, όπως φαίνεται στο Σχήμα 5.

Όσον αφορά την πρώτη, ο συγγραφέας διαπίστωσε ότι εάν το μοντέλο κάνει ένα νοητικό σφάλμα υπολογισμού πριν δημιουργήσει την απάντηση και πιστεύει λανθασμένα ότι μια συγκεκριμένη μεταβλητή A είναι «απαραίτητη» (nece (A) = True), τότε το μοντέλο είναι πιθανό να υπολογίσει αναγκαστικά την A κατά τη δημιουργία της απάντησης Αυτό παράγει μια μη συντομότερη λύση. Αυτό το εύρημα είναι πολύ ενδιαφέρον και υποδηλώνει ότι πολλά από τα λάθη είναι συστηματικά και ότι το μοντέλο είναι πεπεισμένο ότι θα κάνει λάθος (μέσω ανιχνευτών) προτού καν ανοίξει το στόμα του πριν δημιουργηθεί το πρώτο διακριτικό. Αυτός ο τύπος σφάλματος δεν έχει καμία σχέση με την τυχαιότητα στη διαδικασία δημιουργίας μοντέλου ή στην αναζήτηση δέσμης.

Όσον αφορά το τελευταίο, ο συγγραφέας το αποδίδει επίσης σε νοητικά αριθμητικά λάθη και θα χρησιμοποιήσει μια ολόκληρη εργασία παρακολούθησης του Μέρους 2.2 για να βελτιώσει συγκεκριμένα τη νοητική αριθμητική ικανότητα του μοντέλου, ώστε να βελτιωθεί τελικά η ακρίβεια της επίλυσης προβλημάτων. Το έγγραφο δεν έχει κυκλοφορήσει ακόμη και θα συνεχίσουμε να το προσέχουμε και να το αναφέρουμε στον δημόσιο λογαριασμό.



Εικόνα 5

Το επόμενο συμπέρασμα είναι ότι ο συγγραφέας αντέκρουσε το «μόνο το μεγάλο» που τονίζεται στον νόμο κλιμάκωσης των μεγάλων μοντέλων, δηλαδή ότι η απόδοση του μοντέλου σχετίζεται μόνο με τον αριθμό των παραμέτρων και δεν έχει καμία σχέση με το πλάτος ή βάθος. Αυτή η άποψη προτάθηκε για πρώτη φορά από το έγγραφο Scaling Law του OpenAI και ακολουθήθηκε σχεδόν σε όλες τις μετέπειτα έρευνες.

Ο συγγραφέας διεξήγαγε ένα ελεγχόμενο πείραμα μέσω του συνόλου δεδομένων iGSM, όπως φαίνεται στο Σχήμα 6. Συγκρίνοντας μικρότερα και βαθύτερα μοντέλα με μεγαλύτερα και ευρύτερα μοντέλα, βρήκαμε ότι για την επίλυση μαθηματικών προβλημάτων στο iGSM,Το βάθος του μοντέλου είναι προφανώς πιο σημαντικό από το πλάτος . Για παράδειγμα, ένα μοντέλο 20 επιπέδων 9 κεφαλών αποδίδει πολύ καλύτερα από ένα μοντέλο 4 επιπέδων 30 κεφαλών, παρόλο που το τελευταίο έχει διπλάσιες παραμέτρους.

Προχωρώντας παραπέρα, βρήκε ο συγγραφέαςΗ εξάρτηση από το βάθος προκύπτει από την πολυπλοκότητα της νοητικής αριθμητικής του μοντέλου . Μέσω μελετών ανιχνευτών σε διαφορετικά βάθη του μοντέλου, ο συγγραφέας διαπίστωσε ότι για εκείνες τις μεταβλητές Α που απέχουν πολύ από το πρόβλημα, η νοητική αριθμητική ανάγκη (Α) απαιτεί συχνά περισσότερα επίπεδα. Συγκεκριμένα, εάν η απόσταση μεταξύ της μεταβλητής Α και της μεταβλητής του προβλήματος είναι t, τότε χρειάζονται t βήματα νοητικής αριθμητικής για να γνωρίζουμε ότι nece (A)=True. Όσο μεγαλύτερο είναι το t, τόσο περισσότερα στρώματα απαιτεί το μοντέλο, όπως φαίνεται στο Σχήμα 6.

Ο συγγραφέας τονίζει ότι η εξάρτηση του μοντέλου από το βάθος δεν μπορεί να αντισταθμιστεί από το Chain-of-Thought (CoT). Στην πραγματικότητα, η μαθηματική επίλυση προβλημάτων στο iGSM έχει χρησιμοποιήσει το CoT όσο το δυνατόν περισσότερο, δηλαδή όλοι οι υπολογισμοί αναλύονται σε βήμα προς βήμα. Ακόμα κι έτσι, το μοντέλο χρειάζεται ακόμα να κάνει νοητική αριθμητική για να σχεδιάσει ποιο θα πρέπει να είναι το πρώτο βήμα του CoT - και αυτή η νοητική αριθμητική διαδικασία μπορεί να απαιτεί ακόμα πολλά βήματα. Αυτό εξηγεί την εξάρτηση του μοντέλου από το βάθος.



Εικόνα 6

Συνοψίζοντας, σε αντίθεση με περισσότερο από το 99% των εργασιών που μελετούν τη συμπεριφορική διαδικασία του LLM, ο συγγραφέας αυτού του άρθρου υιοθετεί μια νέα προσέγγιση και αποκαλύπτει τη νοητική διαδικασία του LLM κατά την επίλυση μαθηματικών προβλημάτων, η οποία παρέχει νέες ιδέες για τη νοημοσύνη του LLM. προοπτική.

Στο τέλος του άρθρου, ο συγγραφέας επισημαίνει ότι ακόμη και το GPT-4 μπορεί να εκτελέσει μόνο έως και 10 βήματα συλλογισμού στο σύνολο δεδομένων iGSM. Αυτό δείχνει ότι ακόμη και τα πιο ισχυρά τρέχοντα μοντέλα, τα οποία εκμεταλλεύονται υποτιθέμενα όλα τα δεδομένα του Διαδικτύου, εξακολουθούν να μην μπορούν να ολοκληρώσουν με ακρίβεια περισσότερα από 10 βήματα συμπερασμάτων. Αυτό σημαίνει ότι τα δεδομένα προεκπαίδευσης που χρησιμοποιούνται από υπάρχοντα μεγάλα μοντέλα ενδέχεται να έχουν ακόμη πολλά περιθώρια βελτίωσης. Μέσω της μεθόδου αυτού του άρθρου, μπορεί να είναι μια νέα δυνατότητα δημιουργίας τεχνητά συνθεμένων δεδομένων για την ενίσχυση της ικανότητας συλλογισμού και της ικανότητας ταξινόμησης πληροφοριών του μοντέλου.