τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]
Οι συγγραφείς αυτού του άρθρου είναι από το Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου, το Tencent WeChat, το Πανεπιστήμιο Επιστήμης και Τεχνολογίας Huazhong και το Τεχνολογικό Ινστιτούτο του Πεκίνου. Λίστα συγγραφέων: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Zhimin Muxi, Bao , Λι Τσεν, Ζανγκ Χονγκάνγκ. Μεταξύ αυτών, ο πρώτος συγγραφέας Qiao Runqi είναι διδακτορικός φοιτητής στο Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου, ο Tan Qiuna είναι μεταπτυχιακός στο Πανεπιστήμιο Ταχυδρομείων και Τηλεπικοινωνιών του Πεκίνου και ο αντίστοιχος συγγραφέας είναι ο αναπληρωτής καθηγητής Zhang Honggang του Πανεπιστημίου Ταχυδρομείων του Πεκίνου. και Τηλεπικοινωνίες Αυτό το άρθρο ολοκληρώθηκε από τον Qiao Runqi κατά τη διάρκεια της πρακτικής του στο WeChat.
Με την ταχεία ανάπτυξη της τεχνολογίας τεχνητής νοημοσύνης, τα πολυτροπικά μεγάλα μοντέλα (LMM) που μπορούν να χειριστούν πολλαπλές πληροφορίες μετατροπής έχουν γίνει σταδιακά ένα ερευνητικό hotspot. Με την ενσωμάτωση πληροφοριών από διαφορετικούς τρόπους, τα LMM επιδεικνύουν ορισμένες ικανότητες συλλογισμού και κατανόησης και αποδίδουν καλά σε εργασίες όπως η οπτική απάντηση ερωτήσεων, η δημιουργία εικόνων και η πολλαπλή ανάκτηση. Αυτή η πολυτροπική ικανότητα κάνει τα LMM να έχουν μεγάλες δυνατότητες εφαρμογής σε διάφορα πολύπλοκα σενάρια Προκειμένου να ελεγχθεί αυστηρά και επιστημονικά εάν η τεχνητή νοημοσύνη έχει ισχυρές δυνατότητες συλλογιστικής, η απάντηση σε μαθηματικές ερωτήσεις έχει γίνει σημαντικό σημείο αναφοράς για τη μέτρηση των δυνατοτήτων συλλογιστικής του μοντέλου.
Κοιτάζοντας πίσω στην ιστορία ανάπτυξης της τεχνητής νοημοσύνης, διαπιστώνουμε ότι η ανθρώπινη γνώση και ο τρόπος που σκεφτόμαστε τα προβλήματα είχαν βαθύ αντίκτυπο στην ανάπτυξη της τεχνητής νοημοσύνης. Καινοτομίες όπως τα νευρωνικά δίκτυα και οι μηχανισμοί προσοχής σχετίζονται στενά με τα πρότυπα ανθρώπινης σκέψης. Φανταστείτε ότι όταν οι άνθρωποι απαντούν σε μια μαθηματική ερώτηση, πρέπει πρώτα να είναι εξοικειωμένοι με τα σημεία γνώσης που εξετάζονται στην ερώτηση και στη συνέχεια να χρησιμοποιούν τη σχετική γνώση για να κάνουν βήμα προς βήμα συλλογισμό για να φτάσουν στην απάντηση. Αλλά όταν το μοντέλο απαντά, είναι η συλλογιστική του διαδικασία συνεπής με τους ανθρώπους;
Εστιάζοντας στα μαθηματικά προβλήματα, διαπιστώσαμε ότι το μοντέλο μπορεί να απαντήσει σε σύνθετες ερωτήσεις, αλλά δεν είναι σε θέση να απαντήσει σε μερικές απλές ερωτήσεις. Προκειμένου να διερευνήσουμε τους λόγους αυτού του φαινομένου, εμπνευσμένοι από τα ανθρώπινα πρότυπα σκέψης επίλυσης προβλημάτων, μοντελοποιήσαμε πρώτα τη διαδικασία επίλυσης προβλημάτων πρώτα να κυριαρχήσουμε τα γνωστικά σημεία και στη συνέχεια να τα χρησιμοποιήσουμε για λογικό συλλογισμό ως εξής:
Μεταξύ αυτών, τα (X, Y) και (x_i, y_i) αντιπροσωπεύουν το μαθηματικό πρόβλημα και τις ερωτήσεις και τις απαντήσεις σε κάθε υποπρόβλημα αντίστοιχα, και το P_reason αντιπροσωπεύει την ολοκληρωμένη ικανότητα εφαρμογής (γενίκευση γνώσης) των LMM. Με βάση αυτό, το We-Math κατασκεύασε αρχικά ένα σύστημα γνώσης δέντρων πολλαπλών επιπέδων βασισμένο σε 67 ατομικά σημεία γνώσης και στη συνέχεια με βάση τις ατομικές γνώσεις και τις συλλογιστικές απαντήσεις, διέσπασε σύνθετα προβλήματα με πολλαπλά σημεία γνώσης σε πολλαπλά σημεία ατομικής γνώσης Αντίστοιχες υποερωτήσεις χρησιμοποιούνται για τη διερεύνηση του μηχανισμού απάντησης του μοντέλου.
Το We-Math βρίσκεται αυτή τη στιγμή στην πρώτη θέση στο HuggingFace Daily Paper της ημέρας και έχει 10.000+ προβολές στο Twitter!
We-Math Benchmark
1. Σύνθεση δεδομένων
Το σύνολο δεδομένων αξιολόγησης We-Math περιέχει συνολικά 6,5 χιλιάδες πολυτροπικά προβλήματα μαθηματικών πρωτοβάθμιας εκπαίδευσης και μια δομή γνώσης πολλαπλών επιπέδων Κάθε μαθηματικό πρόβλημα έχει αντίστοιχους βαθμούς γνώσης (1-3). Τα σημεία γνώσης όλων των ερωτήσεων καλύπτονται από μια αρχιτεκτονική γνώσης 5 επιπέδων με 99 κόμβους (το τελευταίο επίπεδο περιέχει 67 σημεία γνώσης). Και όπως φαίνεται στο παρακάτω σχήμα, για να αμβλύνουμε τα εγγενή προβλήματα του μοντέλου στην επίλυση του προβλήματος, αναφερόμαστε στο σχολικό βιβλίο και στη Wikipedia και εισάγουμε ευρετικά την περιγραφή 67 σημείων γνώσης, παρέχοντας έτσι τις απαραίτητες γνώσεις για τη συλλογιστική διαδικασία LMM.
2. Αναλύστε την ερώτηση
Για να αξιολογήσουμε εύλογα τον μηχανισμό απάντησης του μοντέλου, βασιστήκαμε αυστηρά στις τυπικές απαντήσεις των ανθρώπινων απαντήσεων και αποσυνθέσαμε τη σύνθετη ερώτηση σε n υποερωτήσεις σύμφωνα με τα σημεία γνώσης που περιέχονται στη σύνθετη ερώτηση, όπου το n αντιπροσωπεύει τον αριθμό της γνώσης σημεία που περιέχονται στη σύνθετη ερώτηση.
Όπως φαίνεται στο παρακάτω σχήμα, για ένα σύνθετο πρόβλημα: Η Μαρία περπάτησε από το βορειότερο σημείο ενός κυκλικού παρτέρι μέχρι το ανατολικότερο σημείο που διανύθηκε παρτέρι. Στη διαδικασία επίλυσης του προβλήματος, πρέπει πρώτα να ανακαλύψετε την κεντρική γωνία που αντιστοιχεί στο μονοπάτι που περπάτησε η Μαρία (το «βορειότερο») με βάση το σημείο γνώσης του «νοτιοανατολικού, βορειοδυτικού» και μέσω των συνθηκών του «βορειότερου» και τις «ανατολικότερες» κατευθύνσεις Η γωνία μεταξύ αυτού και της «ανατολικότερης» είναι 90 μοίρες). Στη συνέχεια, με βάση το σημείο γνώσης "περιφέρεια κύκλου" και την προϋπόθεση ότι η κεντρική γωνία του κύκλου είναι 90 μοίρες και το μήκος του μονοπατιού που έχει περπατήσει η Μαρία, υπολογίζεται η περιφέρεια του κυκλικού παρτέρι και η ακτίνα του λαμβάνεται το κυκλικό παρτέρι. Τέλος, σύμφωνα με το γνωστικό σημείο της «εμβαδού ενός κύκλου» και μέσω των συνθηκών της λαμβανόμενης ακτίνας, υπολογίζεται το εμβαδόν του κυκλικού παρτέρι και ολοκληρώνεται η λύση του προβλήματος.
Αναλύοντας την παραπάνω διαδικασία επίλυσης προβλημάτων, προκειμένου να διερευνηθεί ο μηχανισμός απάντησης του μοντέλου και η ακριβής συλλογιστική απόδοση του μοντέλου, η αρχική ερώτηση μπορεί να αναλυθεί σε τρία υποερωτήματα σύμφωνα με τα αντίστοιχα γνωστικά τους σημεία. Η Μαρία ξεκινάει από έναν κύκλο Από το βορειότερο σημείο του παρτέρι στο ανατολικότερο σημείο κατά μήκος της άκρης του παρτέρι, βρείτε τη μοίρα της κεντρικής γωνίας που αντιστοιχεί στο τόξο του μονοπατιού που περπάτησε: Σε ένα κυκλικό παρτέρι , το μήκος τόξου του τόξου που αντιστοιχεί σε μια κεντρική γωνία 90 μοιρών είναι 59,24 m, βρείτε την ακτίνα του κυκλικού παρτέρι, τρίτη ερώτηση: βρείτε την περιοχή του κυκλικού παρτέρι με ακτίνα 32 m.
3. Μετρήσεις
Σε αυτή τη βάση, όπως φαίνεται στο παρακάτω σχήμα, εισάγουμε ένα νέο πρότυπο τετραδιάστατης μέτρησης, δηλαδή ανεπαρκή γνώση γνώσης (IK), ανεπαρκής ικανότητα γενίκευσης (IG), πλήρης κυριαρχία (CM) και απομνημόνευση κατά λέξη (RM).
Μεταξύ αυτών, υπάρχει IK μεταξύ IK, IG και CM
Πειράματα και συμπεράσματα
Η We-Math έχει ολοκληρώσει αυτήν τη στιγμή αξιολογήσεις σε 17 μεγάλα μοντέλα, συμπεριλαμβανομένων συνολικά 4 μοντέλων κλειστού κώδικα και 13 μοντέλων ανοιχτού κώδικα. Ο Πίνακας 1 και το Σχήμα 6 δείχνουν τα αποτελέσματα των LMM υπό διαφορετικούς αριθμούς σημείων γνώσης και την απόδοση του μοντέλου στα σημεία γνώσης δεύτερου επιπέδου και τα σχήματα 7, 8 και 9 δείχνουν τα αποτελέσματα των LMM υπό τετραδιάστατους δείκτες. και Ολοκληρωμένα αποτελέσματα βαθμολόγησης υπό αυστηρά και χαλαρά πρότυπα Το Σχήμα 10 δείχνει τα αποτελέσματα μετριασμού της στρατηγικής KCA για το μοντέλο σε προβλήματα IK.
Η απόδοση των LMM σε διαφορετικούς αριθμούς σημείων γνώσης και η απόδοσή τους στο δεύτερο επίπεδο σημείων γνώσης
Η απόδοση των LMM υπό τετραδιάστατους δείκτες και τα ολοκληρωμένα αποτελέσματα βαθμολόγησής τους υπό αυστηρά και χαλαρά πρότυπα
Απόδοση LMM στο πλαίσιο της στρατηγικής KCA
Συνοψίζω
Σε αυτό το άρθρο, προτείνουμε το WE-MATH, ένα ολοκληρωμένο σημείο αναφοράς για τη λεπτομερή αξιολόγηση των μηχανισμών απάντησης των LMM σε εργασίες οπτικής μαθηματικής συλλογιστικής. Το WE-MATH περιέχει συνολικά 6,5 χιλιάδες οπτικά μαθηματικά προβλήματα, που καλύπτουν μια πολυεπίπεδη δομή γνώσης 5 επιπέδων και 67 σημείων γνώσης. Πρωτοστατήσαμε στο πρόβλημα αναλύοντάς το σε πολλαπλές υποερωτήσεις με βάση τα απαιτούμενα γνωστικά σημεία και εισαγάγαμε έναν νέο τετραδιάστατο δείκτη για λεπτομερή αξιολόγηση συλλογισμού. Μέσω του WE-MATH, αξιολογήσαμε διεξοδικά την απόδοση των υπαρχόντων LMM στον οπτικό μαθηματικό συλλογισμό και αποκαλύψαμε ότι υπάρχει μια προφανής αρνητική συσχέτιση μεταξύ της απόδοσης απάντησης του μοντέλου και του αριθμού των σημείων γνώσης που περιέχονται στην ερώτηση.
Επιπλέον, διαπιστώσαμε ότι τα περισσότερα μοντέλα αντιμετωπίζουν προβλήματα με την καθομιλουμένη εκμάθηση (RM) και η ανεπαρκής γνώση (IK) είναι τα μεγαλύτερα μειονεκτήματα των LMM. Ωστόσο, η κύρια πρόκληση του GPT-4o έχει σταδιακά μετατοπιστεί από το IK στο IG, υποδεικνύοντας ότι είναι το πρώτο μοντέλο που περνά στο επόμενο στάδιο. Τέλος, η ανάλυσή μας των στρατηγικών KCA και των περιπτώσεων σφαλμάτων διαφωτίζει περαιτέρω την ανάπτυξη των υπαρχόντων LMM προς την ανθρώπινη οπτική μαθηματική λογική.