Τα μεγάλα μοντέλα είναι πραγματικά διαφορετικά από τους ανθρώπους στην επίλυση μαθηματικών προβλημάτων: η έλλειψη γνώσης είναι προφανής, το GPT-4o αποδίδει καλύτερα

Τα μεγάλα μοντέλα είναι πραγματικά διαφορετικά από τους ανθρώπους στην επίλυση μαθηματικών προβλημάτων: η έλλειψη γνώσης είναι προφανής και το GPT-4o αποδίδει καλύτερα

2024-07-23

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτού του άρθρου είναι από το Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου, το Tencent WeChat, το Πανεπιστήμιο Επιστήμης και Τεχνολογίας Huazhong και το Τεχνολογικό Ινστιτούτο του Πεκίνου. Λίστα συγγραφέων: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Zhimin Muxi, Bao , Λι Τσεν, Ζανγκ Χονγκάνγκ. Μεταξύ αυτών, ο πρώτος συγγραφέας Qiao Runqi είναι διδακτορικός φοιτητής στο Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου, ο Tan Qiuna είναι μεταπτυχιακός στο Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου και ο αντίστοιχος συγγραφέας είναι ο αναπληρωτής καθηγητής Zhang Honggang του Πανεπιστημίου Ταχυδρομείων του Πεκίνου. και Τηλεπικοινωνίες Αυτό το άρθρο ολοκληρώθηκε από τον Qiao Runqi κατά τη διάρκεια της πρακτικής του στο WeChat.

Με την ταχεία ανάπτυξη της τεχνολογίας τεχνητής νοημοσύνης, τα πολυτροπικά μεγάλα μοντέλα (LMM) που μπορούν να χειριστούν πολλαπλές πληροφορίες μετατροπής έχουν γίνει σταδιακά ένα ερευνητικό hotspot. Με την ενσωμάτωση πληροφοριών από διαφορετικούς τρόπους, τα LMM επιδεικνύουν ορισμένες ικανότητες συλλογισμού και κατανόησης και αποδίδουν καλά σε εργασίες όπως η οπτική απάντηση ερωτήσεων, η δημιουργία εικόνων και η πολλαπλή ανάκτηση. Αυτή η πολυτροπική ικανότητα κάνει τα LMM να έχουν μεγάλες δυνατότητες εφαρμογής σε διάφορα πολύπλοκα σενάρια Προκειμένου να ελεγχθεί αυστηρά και επιστημονικά εάν η τεχνητή νοημοσύνη έχει ισχυρές δυνατότητες συλλογιστικής, η απάντηση σε μαθηματικές ερωτήσεις έχει γίνει σημαντικό σημείο αναφοράς για τη μέτρηση των δυνατοτήτων συλλογιστικής του μοντέλου.

Κοιτάζοντας πίσω στην ιστορία ανάπτυξης της τεχνητής νοημοσύνης, διαπιστώνουμε ότι η ανθρώπινη γνώση και ο τρόπος που σκεφτόμαστε τα προβλήματα είχαν βαθύ αντίκτυπο στην ανάπτυξη της τεχνητής νοημοσύνης. Καινοτομίες όπως τα νευρωνικά δίκτυα και οι μηχανισμοί προσοχής σχετίζονται στενά με τα πρότυπα ανθρώπινης σκέψης. Φανταστείτε ότι όταν οι άνθρωποι απαντούν σε μια μαθηματική ερώτηση, πρέπει πρώτα να είναι εξοικειωμένοι με τα σημεία γνώσης που εξετάζονται στην ερώτηση και στη συνέχεια να χρησιμοποιούν τη σχετική γνώση για να κάνουν βήμα προς βήμα συλλογισμό για να φτάσουν στην απάντηση. Αλλά όταν το μοντέλο απαντά, είναι η συλλογιστική του διαδικασία συνεπής με τους ανθρώπους;

Εστιάζοντας στα μαθηματικά προβλήματα, διαπιστώσαμε ότι το μοντέλο μπορεί να απαντήσει σε σύνθετες ερωτήσεις, αλλά δεν είναι σε θέση να απαντήσει σε μερικές απλές ερωτήσεις. Προκειμένου να διερευνήσουμε τους λόγους αυτού του φαινομένου, εμπνευσμένοι από τα ανθρώπινα πρότυπα σκέψης επίλυσης προβλημάτων, μοντελοποιήσαμε πρώτα τη διαδικασία επίλυσης προβλημάτων πρώτα να κυριαρχήσουμε τα γνωστικά σημεία και στη συνέχεια να τα χρησιμοποιήσουμε για λογικό συλλογισμό ως εξής:

Μεταξύ αυτών, τα (X, Y) και (x_i, y_i) αντιπροσωπεύουν το μαθηματικό πρόβλημα και τις ερωτήσεις και τις απαντήσεις σε κάθε υποπρόβλημα αντίστοιχα, και το P_reason αντιπροσωπεύει την ολοκληρωμένη ικανότητα εφαρμογής (γενίκευση γνώσης) των LMM. Με βάση αυτό, το We-Math κατασκεύασε αρχικά ένα σύστημα γνώσης δέντρων πολλαπλών επιπέδων βασισμένο σε 67 ατομικά σημεία γνώσης και στη συνέχεια με βάση τις ατομικές γνώσεις και τις συλλογιστικές απαντήσεις, διέσπασε σύνθετα προβλήματα με πολλαπλά σημεία γνώσης σε πολλαπλά σημεία ατομικής γνώσης Αντίστοιχες υποερωτήσεις χρησιμοποιούνται για τη διερεύνηση του μηχανισμού απάντησης του μοντέλου.

题目：WE-MATH: Το μεγάλο πολυτροπικό μοντέλο σας επιτυγχάνει μαθηματικό συλλογισμό που μοιάζει με τον άνθρωπο;
Εισήγηση: https://arxiv.org/pdf/2407.01284
Αρχική σελίδα: https://we-math.github.io/
Κωδικός: https://github.com/We-Math/We-Math
Σύνολο δεδομένων: https://huggingface.co/datasets/We-Math/We-Math

Το We-Math βρίσκεται αυτή τη στιγμή στην πρώτη θέση στο HuggingFace Daily Paper της ημέρας και έχει 10.000+ προβολές στο Twitter!

We-Math Benchmark

1. Σύνθεση δεδομένων

Το σύνολο δεδομένων αξιολόγησης We-Math περιέχει συνολικά 6,5 χιλιάδες πολυτροπικά προβλήματα μαθηματικών πρωτοβάθμιας εκπαίδευσης και μια δομή γνώσης πολλαπλών επιπέδων Κάθε μαθηματικό πρόβλημα έχει αντίστοιχους βαθμούς γνώσης (1-3). Τα σημεία γνώσης όλων των ερωτήσεων καλύπτονται από μια αρχιτεκτονική γνώσης 5 επιπέδων με 99 κόμβους (το τελευταίο επίπεδο περιέχει 67 σημεία γνώσης). Και όπως φαίνεται στο παρακάτω σχήμα, για να αμβλύνουμε τα εγγενή προβλήματα του μοντέλου στην επίλυση του προβλήματος, αναφερόμαστε στο σχολικό βιβλίο και στη Wikipedia και εισάγουμε ευρετικά την περιγραφή 67 σημείων γνώσης, παρέχοντας έτσι τις απαραίτητες γνώσεις για τη συλλογιστική διαδικασία LMM.

2. Αναλύστε την ερώτηση

Για να αξιολογήσουμε εύλογα τον μηχανισμό απάντησης του μοντέλου, βασιστήκαμε αυστηρά στις τυπικές απαντήσεις των ανθρώπινων απαντήσεων και αποσυνθέσαμε τη σύνθετη ερώτηση σε n υποερωτήσεις σύμφωνα με τα σημεία γνώσης που περιέχονται στη σύνθετη ερώτηση, όπου το n αντιπροσωπεύει τον αριθμό της γνώσης σημεία που περιέχονται στη σύνθετη ερώτηση.

Όπως φαίνεται στο παρακάτω σχήμα, για ένα σύνθετο πρόβλημα: Η Μαρία περπάτησε από το βορειότερο σημείο ενός κυκλικού παρτέρι μέχρι το ανατολικότερο σημείο που διανύθηκε παρτέρι. Στη διαδικασία επίλυσης του προβλήματος, πρέπει πρώτα να ανακαλύψετε την κεντρική γωνία που αντιστοιχεί στο μονοπάτι που περπάτησε η Μαρία (το «βορειότερο») με βάση το σημείο γνώσης του «νοτιοανατολικού, βορειοδυτικού» και μέσω των συνθηκών του «βορειότερου» και τις «ανατολικότερες» κατευθύνσεις Η γωνία μεταξύ αυτού και της «ανατολικότερης» είναι 90 μοίρες). Στη συνέχεια, με βάση το σημείο γνώσης "περιφέρεια κύκλου" και την προϋπόθεση ότι η κεντρική γωνία του κύκλου είναι 90 μοίρες και το μήκος του μονοπατιού που έχει περπατήσει η Μαρία, υπολογίζεται η περιφέρεια του κυκλικού παρτέρι και η ακτίνα του λαμβάνεται το κυκλικό παρτέρι. Τέλος, σύμφωνα με το γνωστικό σημείο της «εμβαδού ενός κύκλου» και μέσω των συνθηκών της λαμβανόμενης ακτίνας, υπολογίζεται το εμβαδόν του κυκλικού παρτέρι και ολοκληρώνεται η λύση του προβλήματος.

Αναλύοντας την παραπάνω διαδικασία επίλυσης προβλημάτων, προκειμένου να διερευνηθεί ο μηχανισμός απάντησης του μοντέλου και η ακριβής συλλογιστική απόδοση του μοντέλου, η αρχική ερώτηση μπορεί να αναλυθεί σε τρία υποερωτήματα σύμφωνα με τα αντίστοιχα γνωστικά τους σημεία. Η Μαρία ξεκινάει από έναν κύκλο Από το βορειότερο σημείο του παρτέρι στο ανατολικότερο σημείο κατά μήκος της άκρης του παρτέρι, βρείτε τη μοίρα της κεντρικής γωνίας που αντιστοιχεί στο τόξο του μονοπατιού που περπάτησε: Σε ένα κυκλικό παρτέρι , το μήκος τόξου του τόξου που αντιστοιχεί σε μια κεντρική γωνία 90 μοιρών είναι 59,24 m, βρείτε την ακτίνα του κυκλικού παρτέρι, τρίτη ερώτηση: βρείτε την περιοχή του κυκλικού παρτέρι με ακτίνα 32 m.

3. Μετρήσεις

Σε αυτή τη βάση, όπως φαίνεται στο παρακάτω σχήμα, εισάγουμε ένα νέο πρότυπο τετραδιάστατης μέτρησης, δηλαδή ανεπαρκή γνώση γνώσης (IK), ανεπαρκής ικανότητα γενίκευσης (IG), πλήρης κυριαρχία (CM) και απομνημόνευση κατά λέξη (RM).

Ανεπαρκής γνώση (IK): Το μοντέλο δεν μπορεί να απαντήσει σε σύνθετες ερωτήσεις και συμβαίνουν λάθη σε υποερωτήσεις.
Ανεπαρκής ικανότητα γενίκευσης (IG): Το μοντέλο δεν μπορεί να απαντήσει σε σύνθετες ερωτήσεις, αλλά όλες οι υποερωτήσεις απαντώνται σωστά. Εικάζουμε ότι ο λόγος για τον οποίο το μοντέλο δεν μπορεί να απαντήσει σε σύνθετες ερωτήσεις είναι λόγω της έλλειψης ικανότητας συνολικής εφαρμογής (ικανότητα γενίκευσης).
Πλήρης κυριαρχία (CM): Το μοντέλο μπορεί να απαντήσει σε σύνθετες ερωτήσεις και μπορεί να απαντήσει σε όλες τις επιμέρους ερωτήσεις Αυτό το φαινόμενο είναι λογικό και αναμενόμενο.
Αναλυτική μάθηση (RM): Ένα μοντέλο μπορεί να απαντήσει σε σύνθετες ερωτήσεις, αλλά συμβαίνουν λάθη σε υποερωτήσεις. Αυτό είναι αντίθετο με την ανθρώπινη λογική σκέψη Πιστεύουμε ότι αυτή η κατάσταση είναι παράλογη και εξετάστε την περίπτωση όπου το μοντέλο έχει μηχανική μνήμη.

Μεταξύ αυτών, υπάρχει IK μεταξύ IK, IG και CM

Πειράματα και συμπεράσματα

Η We-Math έχει ολοκληρώσει αυτήν τη στιγμή αξιολογήσεις σε 17 μεγάλα μοντέλα, συμπεριλαμβανομένων συνολικά 4 μοντέλων κλειστού κώδικα και 13 μοντέλων ανοιχτού κώδικα. Ο Πίνακας 1 και το Σχήμα 6 δείχνουν τα αποτελέσματα των LMM υπό διαφορετικούς αριθμούς σημείων γνώσης και την απόδοση του μοντέλου στα σημεία γνώσης δεύτερου επιπέδου και τα σχήματα 7, 8 και 9 δείχνουν τα αποτελέσματα των LMM υπό τετραδιάστατους δείκτες. και Ολοκληρωμένα αποτελέσματα βαθμολόγησης υπό αυστηρά και χαλαρά πρότυπα Το Σχήμα 10 δείχνει τα αποτελέσματα μετριασμού της στρατηγικής KCA για το μοντέλο σε προβλήματα IK.

Η απόδοση των LMM σε διαφορετικούς αριθμούς σημείων γνώσης και η απόδοσή τους στο δεύτερο επίπεδο σημείων γνώσης

Υπάρχει μια προφανής αρνητική συσχέτιση μεταξύ της κατάστασης απάντησης του μοντέλου και του αριθμού των σημείων γνώσης που περιέχονται στην ερώτηση, δηλαδή, όσο περισσότερα σημεία γνώσης περιέχονται στην ερώτηση, τόσο λιγότερο ιδανική είναι η κατάσταση απάντησης του μοντέλου. Προτείνουμε επίσης ότι η δυσκολία μιας ερώτησης μπορεί να μοντελοποιηθεί από τον αριθμό των σημείων γνώσης που περιέχει.
Το μοντέλο αποδίδει καλύτερα σε σημεία γνώσης που σχετίζονται με υπολογισμούς και έχει κακή απόδοση σε λεπτομερή οπτικά προβλήματα. Δείχνει επίσης ότι τα LMM είναι καλά στην εφαρμογή τύπων, αλλά εξακολουθούν να έχουν περιορισμούς στην κατανόηση και τη σύνθεση εφαρμοσμένης γνώσης.
Το GPT-4o αποδίδει καλύτερα, μένοντας μπροστά σε ερωτήσεις που περιέχουν διαφορετικούς αριθμούς σημείων γνώσης και βασικά παραμένοντας μπροστά σε διαφορετικά σημεία γνώσης.
Τα LMM παρουσιάζουν κάποια δυνατότητα συμπίεσης παραμέτρων. Μεταξύ των διαφορετικών LMM, το LLaVA-NeXT-110B αποδίδει πλησιέστερα στο GPT-4. Αυτό που προκαλεί έκπληξη είναι ότι παρά τη μικρή κλίμακα παραμέτρων, μοντέλα όπως τα InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 παρουσιάζουν επίσης καλές επιδόσεις.

Η απόδοση των LMM υπό τετραδιάστατους δείκτες και τα ολοκληρωμένα αποτελέσματα βαθμολόγησής τους υπό αυστηρά και χαλαρά πρότυπα

Τα περισσότερα μοντέλα υποφέρουν από τα προβλήματα της «ανεπαρκούς γνώσης» και της «απομνημόνευσης κατά λέξη», ειδικά σε μικρότερα μοντέλα. Επιπλέον, η «ανεπαρκής γνώση» εξακολουθεί να είναι το κύριο πρόβλημα των περισσότερων μοντέλων.
Το GPT-4o προηγείται σημαντικά από άλλα μοντέλα στη διάσταση μέτρησης της "rote learning", γεγονός που δείχνει περαιτέρω ότι το GPT-4o είναι πιο κοντά στις ανθρώπινες μεθόδους επίλυσης προβλημάτων και τα αποτελέσματα που παρουσιάζει είναι πιο αξιόπιστα, πράγμα που σημαίνει ότι το μοντέλο έχει Γνώση που διδάχτηκε αληθινά, αντί να «απομνημονεύει κατάματα».
Το GPT-4o προηγείται σημαντικά από άλλα μοντέλα στη διάσταση μέτρησης της «ανεπαρκούς γνώσης».

Απόδοση LMM στο πλαίσιο της στρατηγικής KCA

Η συνολική απόδοση του μοντέλου έχει βελτιωθεί στο πλαίσιο της στρατηγικής KCA. Όπως φαίνεται στο παραπάνω σχήμα, τα LMM με διαφορετικά μεγέθη παραμέτρων εμφανίζουν σταθερές βελτιώσεις απόδοσης τόσο σε αυστηρούς όσο και σε χαλαρούς δείκτες μετά την εισαγωγή της στρατηγικής KCA.
Η στρατηγική KCA μετριάζει σημαντικά το πρόβλημα IK, αλλά η βελτίωση του προβλήματος IG δεν είναι εμφανής. Αυτό είναι σύμφωνο με την ανθρώπινη διαίσθηση, καθώς η περιγραφή της γνώσης αντιμετωπίζει κυρίως τα κενά στη συμπερασματική γνώση. Ωστόσο, για να λυθεί το πρόβλημα IG, η ικανότητα γενίκευσης της γνώσης των LMMs πρέπει να βελτιωθεί πλήρως, γεγονός που υποδεικνύει επίσης την κατεύθυνση για μελλοντική έρευνα.

Συνοψίζω

Σε αυτό το άρθρο, προτείνουμε το WE-MATH, ένα ολοκληρωμένο σημείο αναφοράς για τη λεπτομερή αξιολόγηση των μηχανισμών απάντησης των LMM σε εργασίες οπτικής μαθηματικής συλλογιστικής. Το WE-MATH περιέχει συνολικά 6,5 χιλιάδες οπτικά μαθηματικά προβλήματα, που καλύπτουν μια πολυεπίπεδη δομή γνώσης 5 επιπέδων και 67 σημείων γνώσης. Πρωτοστατήσαμε στο πρόβλημα αναλύοντάς το σε πολλαπλές υποερωτήσεις με βάση τα απαιτούμενα γνωστικά σημεία και εισαγάγαμε έναν νέο τετραδιάστατο δείκτη για λεπτομερή αξιολόγηση συλλογισμού. Μέσω του WE-MATH, αξιολογήσαμε διεξοδικά την απόδοση των υπαρχόντων LMM στον οπτικό μαθηματικό συλλογισμό και αποκαλύψαμε ότι υπάρχει μια προφανής αρνητική συσχέτιση μεταξύ της απόδοσης απάντησης του μοντέλου και του αριθμού των σημείων γνώσης που περιέχονται στην ερώτηση.

Επιπλέον, διαπιστώσαμε ότι τα περισσότερα μοντέλα αντιμετωπίζουν προβλήματα με την καθομιλουμένη εκμάθηση (RM) και η ανεπαρκής γνώση (IK) είναι τα μεγαλύτερα μειονεκτήματα των LMM. Ωστόσο, η κύρια πρόκληση του GPT-4o έχει σταδιακά μετατοπιστεί από το IK στο IG, υποδεικνύοντας ότι είναι το πρώτο μοντέλο που περνά στο επόμενο στάδιο. Τέλος, η ανάλυσή μας των στρατηγικών KCA και των περιπτώσεων σφαλμάτων διαφωτίζει περαιτέρω την ανάπτυξη των υπαρχόντων LMM προς την ανθρώπινη οπτική μαθηματική λογική.

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου