ACL 2024 | Στη μαθηματική αξιολόγηση 25 μοντέλων ανοιχτού και κλειστού κώδικα, το GPT-3.5-Turbo μόλις πέρασε

ACL 2024 | Στη μαθηματική αξιολόγηση 25 μοντέλων ανοιχτού και κλειστού κώδικα, το GPT-3.5-Turbo μόλις πέρασε.

2024-07-18

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτού του άρθρου είναι από το Πανεπιστήμιο του Χονγκ Κονγκ και το Tencent. Λίστα συγγραφέων: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Μεταξύ αυτών, ο πρώτος συγγραφέας Li Qintong είναι διδακτορικός φοιτητής στο Εργαστήριο Επεξεργασίας Φυσικής Γλώσσας του Πανεπιστημίου του Χονγκ Κονγκ Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν τη δημιουργία φυσικής γλώσσας και τον συλλογισμό του κειμένου . Οι Leyang Cui και Wei Bi είναι ανώτεροι ερευνητές στο Tencent.

Πρόλογος

Η εξαιρετική ικανότητα των μεγάλων γλωσσικών μοντέλων (LLM) στην επίλυση προβλημάτων γίνεται ολοένα και πιο εμφανής. Πρόσφατα, ένα φαινόμενο που αξίζει προσοχής είναι ότι αυτά τα μοντέλα έχουν επιτύχει εκπληκτικά αποτελέσματα σε πολλαπλά τεστ αναφοράς μαθηματικού συλλογισμού. Λαμβάνοντας ως παράδειγμα το GPT-4, είχε καλές επιδόσεις στο δύσκολο σετ δοκιμών εφαρμογών πρωτοβάθμιας εκπαίδευσης GSM8K [1], με ποσοστό ακρίβειας άνω του 90%. Ταυτόχρονα, πολλά μοντέλα ανοιχτού κώδικα έχουν επίσης επιδείξει εντυπωσιακές επιδόσεις, με ποσοστά ακρίβειας που ξεπερνούν το 80%.

Ωστόσο, κατά τη χρήση, συχνά διαπιστώνουμε ότι όταν τα μαθηματικά προβλήματα αλλάζουν ελαφρώς, τα LLM ενδέχεται να προκαλέσουν ορισμένα σφάλματα χαμηλού επιπέδου, όπως φαίνεται στο παρακάτω σχήμα:

Εικόνα 1: Το GPT-3.5-Turbo απάντησε σωστά σε ένα μαθηματικό πρόβλημα (αριστερά), αλλά όταν προστέθηκε ένας περιορισμός στο αρχικό πρόβλημα (δεξιά), το Turbo δεν έκανε σωστά τη διάκριση μεταξύ των κατευθύνσεων "αναχώρησης" και "επιστροφής". προέκυψε σφάλμα.

Δεν μπορούμε παρά να ρωτήσουμε: Αντιλαμβάνονται πραγματικά τα γλωσσικά μοντέλα μεγάλης κλίμακας την ουσία της μαθηματικής γνώσης; Πώς σκοράρουν τόσο ψηλά σε αυτά τα τεστ; Είναι απλώς θέμα μίμησης επιφανειακών συλλογιστικών προτύπων σε μεγάλους όγκους δεδομένων εκπαίδευσης; Το αν οι LLM κατανοούν πραγματικά τις μαθηματικές έννοιες εξακολουθεί να είναι ένα ερώτημα που αξίζει να διερευνηθεί.

Για να διερευνήσουν αυτό το ζήτημα, οι συντάκτες αυτού του άρθρου σχεδίασαν ένα σημείο αναφοράς αξιολόγησηςGSM-Plus . Αυτό το τεστ έχει σχεδιαστεί για να εκτελεί 8 διαφορετικούς λεπτόκοκκους μαθηματικούς μετασχηματισμούς σε ένα πρόβλημα για να αξιολογήσει συστηματικά την ικανότητα των σημερινών LLM στην αντιμετώπιση βασικών προβλημάτων εφαρμογής μαθηματικών. Σε αυτό το νέο σημείο αναφοράς, το έγγραφο αξιολογεί αυστηρά 25 διαφορετικά LLM, συμπεριλαμβανομένων μοντέλων ανοιχτού κώδικα και κλειστού κώδικα στη βιομηχανία.

Πειραματικά αποτελέσματα δείχνουν ότι το GSM-Plus είναι ένα προκλητικό σημείο αναφοράς για τα περισσότερα LLMs. Ακόμη και στο GSM8K, το GPT-3.5-Turbo κατάφερε να επιτύχει ακρίβεια 73,62%, αλλά μπορεί να επιτύχει ακρίβεια 61,19% μόνο στο GSM-Plus. Αυτή η εργασία έγινε αποδεκτή από το ACL2024 με βαθμολογίες 4, 4 και 4,5.

论文标题：GSM-Plus: Ένα ολοκληρωμένο σημείο αναφοράς για την αξιολόγηση της ευρωστίας των LLM ως μαθηματικών επιλύσεων προβλημάτων

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2402.19255

Αρχική σελίδα χαρτιού: https://qtli.github.io/GSM-Plus/

Ιστορικό

Ο μαθηματικός συλλογισμός είναι μια σημαντική απόδειξη της ανάπτυξης της τεχνητής νοημοσύνης. Απαιτεί αυστηρή κατανόηση προβλημάτων, ανάπτυξη στρατηγικής και υπολογιστικές δεξιότητες εκτέλεσης. Τα τελευταία χρόνια, πολλά δημόσια διαθέσιμα σύνολα δεδομένων έχουν χρησιμοποιηθεί για την αξιολόγηση των μαθηματικών συλλογιστικών ικανοτήτων των συστημάτων τεχνητής νοημοσύνης. Τα πρώιμα μαθηματικά σύνολα δεδομένων επικεντρώθηκαν σε μαθηματικά προβλήματα που βασίζονται σε εξισώσεις. Στη συνέχεια, εισήχθησαν πιο δύσκολα σύνολα δεδομένων που κάλυπταν μαθηματικά προβλήματα δημοτικού, γυμνασίου και πανεπιστημίου.

Καθώς η δυσκολία των δεδομένων αξιολόγησης συνεχίζει να αυξάνεται, η ανάπτυξη των LLMs έχει γίνει επίσης πολύ γρήγορη. Προκειμένου να βελτιωθεί η απόδοση των LLM στον τομέα των μαθηματικών, η εποπτευόμενη λεπτομέρεια (SFT) μπορεί να χρησιμοποιηθεί για να βοηθήσει γρήγορα τα LLM να προσαρμοστούν στον τομέα των μαθηματικών εκπαιδεύοντας σε διάφορα δεδομένα εργασιών. Στο στάδιο της συλλογιστικής, οι μαθηματικές ικανότητες των LLM μπορούν επίσης να διεγερθούν αποτελεσματικά μέσω έξυπνα σχεδιασμένων προτροπών εισαγωγής (για παράδειγμα, Chain-of-Thought και Program-of-Thought).

Για τους περισσότερους LLMs, υπάρχουν ακόμα πολλά περιθώρια βελτίωσης όσον αφορά τα προβλήματα μαθηματικών στο γυμνάσιο και άνω. Ωστόσο, στον τομέα των μαθηματικών της πρωτοβάθμιας εκπαίδευσης, τα LLM έχουν δείξει πολλά υποσχόμενα.Αυτό μας κάνει να αναρωτιόμαστε, μπορούν τα LLM να διατηρήσουν υψηλές επιδόσεις σε πραγματικά περιβάλλοντα;

Σύνολο δεδομένων αξιολόγησης αντιπάλου GSM-Plus

Αυτή η μελέτη στοχεύει να ξεκινήσει ένα ολοκληρωμένο σημείο αναφοράς, το GSM-Plus, για να εξετάσει συστηματικά την ευρωστία των LLM στην επίλυση βασικών μαθηματικών προβλημάτων. Εμπνευσμένο από την ταξινόμηση των μαθηματικών ικανοτήτων επίλυσης προβλημάτων στις αρχές Polya [2], αυτό το άρθρο προσδιορίζει πέντε κατευθυντήριες αρχές για την κατασκευή του συνόλου δεδομένων GSM-Plus:

Για ευκολία κατανόησης, εδώ είναι "Η πάπια της Janet γεννά 16 αυγά κάθε μέρα. Τρώει τρία αυγά για πρωινό κάθε πρωί και χρησιμοποιεί τέσσερα αυγά για να ψήσει μάφιν για τους φίλους της. Πληρώνει 2 $ ανά αυγό πάπιας κάθε μέρα. Πουλάει αυγά που έχουν απομείνει στο η αγορά του αγρότη Πόσα δολάρια βγάζει την ημέρα στην αγορά του αγρότη;

(1) Αριθμητικές αλλαγές: Αναφέρεται στην αλλαγή αριθμητικών δεδομένων ή στον τύπο τους Αυτό το άρθρο ορίζει τρεις υποκατηγορίες:

Αριθμητική αντικατάσταση: Αντικαταστήστε τις αριθμητικές τιμές με τα ίδια ψηφία και τύπους, για παράδειγμα, αντικαταστήστε το "16" στην ερώτηση με το "20".

Επέκταση ψηφίου: αύξηση του αριθμού των ψηφίων σε μια τιμή, για παράδειγμα αντικατάσταση του "16" με το "1600".

Ακέραιος - Δεκαδικός - Μετατροπή κλασμάτων: Αντικαταστήστε τους ακέραιους με δεκαδικούς ή κλάσματα, για παράδειγμα, μετατρέψτε το "2" σε "2,5".

(2) Αριθμητικές αλλαγές: Αναφέρεται στην εισαγωγή πρόσθετων πράξεων ή αντιστροφών σε μαθηματικά προβλήματα, αλλά περιορίζεται σε πράξεις πρόσθεσης, αφαίρεσης, πολλαπλασιασμού και διαίρεσης:

Λειτουργική επέκταση: Προσθέστε περιορισμούς με βάση το αρχικό πρόβλημα. Για παράδειγμα, προσθέστε μια νέα συνθήκη «Χρησιμοποιεί επίσης δύο αυγά για να κάνει σπιτικές μάσκες μαλλιών κάθε μέρα».

Αντιστροφή λειτουργίας: Μετατρέψτε μια γνωστή συνθήκη του αρχικού προβλήματος στις μεταβλητές που πρέπει να επιλυθούν για το πρόβλημα παραλλαγής GSM-Plus. Για παράδειγμα, η δήλωση της αρχικής ερώτησης στο Σχήμα 2 «2 δολάρια ΗΠΑ ανά αυγό πάπιας» μετατρέπεται στην ερωτηματική πρόταση της νέας ερώτησης «Ποια είναι η τιμή κάθε αυγού πάπιας;», ενώ η ερωτηματική πρόταση της αρχικής ερώτησης "Πόσα δολάρια κερδίζετε στην αγορά του αγρότη κάθε μέρα μετατρέπεται σε γνωστές συνθήκες για τη νέα ερώτηση "Κερδίζει 18 $ την ημέρα στην αγορά του αγρότη;"

(3) Κατανόηση προβλημάτων: Αναφέρεται στην επαναδιατύπωση ενός μαθηματικού προβλήματος με διαφορετικές λέξεις χωρίς να αλλάξει το νόημα, όπως "Η Janet μεγαλώνει μια ομάδα πάπιων, οι οποίες γεννούν 16 αυγά πάπιας κάθε μέρα. Καταναλώνει τρία αυγά πάπιας για πρωινό και μετά καταναλώνει τέσσερα αυγά πάπιας για να ψήσει βάφλες ." Στη φίλη της. Η Τζάνετ πουλάει όλα τα υπόλοιπα αυγά πάπιας στην αγορά του αγρότη για 2 $ το καθένα. Πόσα χρήματα βγάζει κάθε μέρα πουλώντας αυγά πάπιας στην αγορά του αγρότη;

(4) Εισαγωγή στοιχείων παρεμβολής: Αναφέρεται στην εισαγωγή προτάσεων που σχετίζονται με το θέμα και περιέχουν αριθμητικές τιμές, αλλά είναι άχρηστες για την επίλυση του προβλήματος στο αρχικό πρόβλημα, όπως "Η Τζάνετ ήθελε επίσης να ταΐσει τον παπαγάλο της με δύο αυγά πάπιας. Ευτυχώς, ο γείτονάς της έδωσε τα δύο αυγά της πάπιας κάθε μέρα για τάισμα».

(5) Κριτική σκέψη: Εστιάζει στο αν οι LLM έχουν την ικανότητα να αμφισβητούν ή να αμφιβάλλουν όταν τα μαθηματικά προβλήματα δεν έχουν τις απαραίτητες προϋποθέσεις, για παράδειγμα " Η πάπια της Janet γεννά αυγά κάθε μέρα. Τρώει τρία αυγά για πρωινό κάθε πρωί και χρησιμοποιεί τέσσερα αυγά για να ψήνει μάφιν για τη φίλη της κάθε μέρα Πουλάει τα υπόλοιπα αυγά στην αγορά του αγρότη για 2 δολάρια την ημέρα.

Με βάση τις 1.319 δοκιμαστικές ερωτήσεις του GSM8K, αυτό το έγγραφο δημιουργεί οκτώ παραλλαγές για κάθε ερώτηση, με αποτέλεσμα ένα σύνολο δεδομένων GSM-Plus που περιέχει 10.552 παραλλαγές ερωτήσεων (αυτό το έγγραφο παρέχει επίσης ένα υποσύνολο δοκιμής που περιέχει 2.400 παραλλαγές ερωτήσεων για γρήγορη ανασκόπηση). . Δοκιμάζοντας τα LLM χρησιμοποιώντας κάθε πρόβλημα και τις οκτώ παραλλαγές του, το GSM-Plus μπορεί να βοηθήσει τους ερευνητές να αξιολογήσουν πλήρως την ευρωστία των LLM στην επίλυση μαθηματικών προβλημάτων.

Σχήμα 2: 8 παραλλαγές προβλήματος δημιουργίας διαταραχών που χρησιμοποιούν 5 γωνίες με βάση ένα μαθηματικό πρόβλημα. Οι σημαντικές τροποποιήσεις επισημαίνονται με πράσινο χρώμα.

Χρησιμοποιώντας το GSM-Plus για την αξιολόγηση 25 LLM διαφορετικών μεγεθών, διαφορετικών μεθόδων προεκπαίδευσης και διαφορετικών λεπτομέρειας εργασιών, και συνδυάζοντας 4 κοινώς χρησιμοποιούμενες τεχνικές προτροπής, αυτή η εργασία διαπίστωσε ότι τα LLM μπορούν να λύσουν με ακρίβεια το πρόβλημα GSM8K στο σύνολό του, αλλά στην απάντηση των ερωτήσεων στο GSM-Plus Προφανείς δυσκολίες προκύπτουν με προβλήματα παραλλαγής. Τα κύρια ευρήματα είναι τα εξής:

Η βελτιστοποίηση συγκεκριμένων εργασιών, δηλαδή η λεπτομέρεια σε μαθηματικά σχετικά σύνολα δεδομένων, μπορεί συχνά να βελτιώσει την ακρίβεια εργασιών, ενώ το επίπεδο ευρωστίας εξαρτάται περισσότερο από την επιλογή του βασικού μοντέλου και του συνόλου δεδομένων.

Όταν απαιτείται "κριτική σκέψη", εμπλέκονται "αριθμητικές αλλαγές" και "εισαγωγή παράγοντα παρεμβολής", η απόδοση των LLM θα μειωθεί γρήγορα, αλλά για τις διαταραχές των "αριθμητικών αλλαγών" και της "κατανόησης προβλημάτων", η απόδοση των LLMs είναι σχετικά. σταθερός.

Προηγούμενες τεχνικές προτροπής (π.χ. CoT, PoT, LtM και CoT με βάση την πολυπλοκότητα) δεν ενίσχυσαν σημαντικά την ευρωστία, ειδικά για «αριθμητικές αλλαγές» και «κριτική σκέψη». Με βάση την προηγούμενη εργασία, αυτό το έγγραφο διερευνά περαιτέρω μια συνδυασμένη μέθοδο άμεσης που μπορεί ταυτόχρονα να βελτιώσει την απόδοση των LLM στο GSM8K και στο GSM-Plus δημιουργώντας και επαληθεύοντας επαναληπτικά κάθε συλλογιστική σκέψη.

Χαρακτηριστικά GSM-Plus

διασφάλιση ποιότητας : Χρησιμοποιήστε δύο στάδια για να δημιουργήσετε ερωτήσεις αξιολόγησης GSM-Plus. Αρχικά, οι δυνατότητες επανεγγραφής ερωτήσεων του GPT-4 χρησιμοποιούνται για τη δημιουργία παραλλαγών ερωτήσεων και, στη συνέχεια, δημιουργούνται υποψήφιες απαντήσεις για αυτές τις παραλλαγές για να διασφαλιστεί η ποιότητα των δεδομένων. Η ομάδα μη αυτόματων σχολιασμών διόρθωσε το 18,85% των προβλημάτων επανεγγραφής του GPT-4.

Λεπτή αξιολόγηση: Για κάθε ερώτηση δοκιμής στο βασικό σύνολο δεδομένων αξιολόγησης GSM8K, το GSM-Plus παρέχει 8 παραλλαγές ερωτήσεις προς την κατεύθυνση της διαταραχής, δοκιμάζοντας πλήρως την ικανότητα του μεγάλου μοντέλου να επιλύει ευέλικτα προβλήματα μαθηματικών εφαρμογών σε διαφορετικά περιβάλλοντα.

πρόκληση : Σε σύγκριση με το GSM8K, η παραλλαγή του προβλήματος του GSM-Plus είναι πιο δύσκολη και η απόδοση όλων των LLM που συμμετέχουν στην αξιολόγηση είναι σημαντικά υποβαθμισμένη. Στην ανάλυση που ακολουθεί, αυτό το άρθρο θα αναλύσει συγκεκριμένα την ευρωστία επίλυσης προβλημάτων των LLM υπό διαφορετικούς τύπους διαταραχών.

Σύγκριση με άλλα δεδομένα λέξεων μαθηματικών πρωτοβάθμιας εκπαίδευσης

Πίνακας 1: Διαφορετικά χρώματα αντιπροσωπεύουν διαφορετικούς τύπους διαταραχών:

Όπως φαίνεται από τον παραπάνω πίνακα, προηγούμενες μελέτες έχουν χρησιμοποιήσει διαφορετικές διαταραχές για να ελέγξουν την ευρωστία του μαθηματικού συλλογισμού, αλλά οι ρυθμίσεις αξιολόγησης καλύπτουν μόνο ορισμένους τύπους διαταραχών και οι περισσότερες εισάγουν διαταραχές μέσω αυτόματης κατασκευής μεθόδου, επομένως η ποιότητα είναι δύσκολη εγγύηση. Αντίθετα, το GSM-Plus χρησιμοποιεί οκτώ διαφορετικές μαθηματικές συλλογιστικές δεξιότητες για να διαταράξει ένα μόνο πρόβλημα, με πιο ολοκληρωμένη κάλυψη και αυστηρό έλεγχο ποιότητας.

ανάλυση πειράματος

Δείκτες αξιολόγησης

Ρυθμός υποβάθμισης απόδοσης (PDR): Ο βαθμός υποβάθμισης της απόδοσης των LLM στο διαταραγμένο πρόβλημα σε σύγκριση με το αρχικό πρόβλημα.

Ποσοστό ζευγών προβλημάτων που λύθηκαν ταυτόχρονα (ASP): Η αναλογία τόσο της αρχικής ερώτησης όσο και της αντίστοιχης παραλλαγής ερώτησης που απαντήθηκε σωστά από LLM.

συνολική απόδοση

Όπως φαίνεται στον παρακάτω πίνακα, η απόδοση των περισσότερων LLM στο GSM-Plus είναι σημαντικά μειωμένη σε σύγκριση με το GSM8K.

Το GPT-4 παρουσιάζει την υψηλότερη στιβαρότητα, με το μικρότερο PDR μόνο 8,23%. Το CodeLlama έχει το μεγαλύτερο PDR, μεταξύ των οποίων τα μοντέλα 7B, 13B και 34B είναι 40,56%, 39,71% και 34,27% αντίστοιχα, ξεπερνώντας το βασικό μοντέλο LLaMA-2-7B (39,49%), καθώς και το μαθηματικό μοντέλο SFT βελτιστοποιημένο σε αυτό, όπως το SEGO-7B (34,91%). Αυτό δείχνει ότι ο συλλογισμός που χρησιμοποιεί μόνο διαδικαστικές γλώσσες είναι ευάλωτος σε διαταραχές.

Ενόψει των μαθηματικών διαταραχών, όσο μεγαλύτερο είναι το μέγεθος του μοντέλου, τόσο πιο σταθερή είναι η απόδοση. Αν και η εποπτευόμενη λεπτομέρεια μπορεί να βελτιώσει την ακρίβεια σε εργασίες κατάντη, δεν ενισχύει σημαντικά την ανθεκτικότητα του μοντέλου σε διαταραχές (δηλαδή χαμηλότερο PDR). Τα δεδομένα που εποπτεύουν τη βελτίωση της ρύθμισης είναι σημαντικά για την ευρωστία. Είναι επίσης τελειοποιημένο με βάση το LLaMA-2 και η χρήση διαφορετικών δεδομένων θα οδηγήσει σε μεγάλες διαφορές στην ακρίβεια και την ευρωστία του μοντέλου.

Πίνακας 2: Συνολική απόδοση

Λεπτόκοκκη πειραματική ανάλυση

Απόδοση LLM υπό διαφορετικές διαταραχές

Αυτό το άρθρο αξιολογεί περαιτέρω τη σταθερότητα απόδοσης των LLM κάτω από 8 παραλλαγές προβλημάτων. Σε σύγκριση με την ανθρώπινη γραμμή βάσης για την κριτική σκέψη (μωβ), την επέκταση λειτουργίας και την αντιστροφή λειτουργίας (μπλε), την εισαγωγή διασπαστών (ροζ) και τη διαταραχή μετατροπής ακέραιου αριθμού δεκαδικού αριθμού (πορτοκαλί), η απόδοση των LLM μειώνεται σημαντικά. Για «αριθμητική αντικατάσταση» και «κατανόηση προβλήματος», η απόδοση των LLMs είναι σταθερή ή και ελαφρώς βελτιωμένη.

Σχήμα 3: Λεπτόκοκκη πειραματική ανάλυση

Μεταβιβασιμότητα δεξιοτήτων μαθηματικού συλλογισμού

Η προηγούμενη ανάλυση βασίζεται κυρίως σε ολόκληρο το σύνολο δεδομένων. Στη συνέχεια, αυτό το άρθρο χωρίζει τα δύο σύνολα δεδομένων ανάλογα με το εάν οι ερωτήσεις μαθηματικών απαντώνται σωστά και αναλύει εάν όταν τα LLM λύνουν επιτυχώς το πρόβλημα GSM8K, σημαίνει ότι η πιθανότητα σωστής απάντησης στην ερώτηση παραλλαγής GSM-Plus γίνεται μεγαλύτερη (δηλ. υψηλή τιμή ASP αντίστροφα. Εάν αυτός ο ισχυρισμός ισχύει, τα LLM μπορούν να θεωρηθούν ότι αποδίδουν σταθερά σε αυτό το συγκεκριμένο υποσύνολο μαθηματικών προβλημάτων, ακόμα κι αν αυτό δεν συμβαίνει σε ολόκληρο το σύνολο δεδομένων. Στην πειραματική ρύθμιση, κάθε πρόβλημα GSM8K και η παραλλαγή του στο GSM-Plus μετατρέπονται σε 8 ζεύγη προβλημάτων και τα αποτελέσματα φαίνονται στο Σχήμα 4.

Εικόνα 4: Δυνατότητα μεταφοράς συμπερασμάτων των LLM μεταξύ των ζευγών προβλημάτων GSM8K και GSM-Plus. Οι μωβ (και οι δύο σωστές) και οι μπλε (και οι δύο λανθασμένες) ράβδοι υποδεικνύουν συνεπή συμπεριφορά μοντέλου, ενώ οι κόκκινες (GSM8K σωστή & GSM-Plus λάθος) και κίτρινες (λανθασμένη GSM8K & σωστή GSM-Plus) υποδεικνύουν Ασυνεπή συμπεριφορά μοντέλου. Το άθροισμα των υψών των μωβ και κόκκινων ράβδων αντιπροσωπεύει τον αριθμό των LLM που λύνουν σωστά το πρόβλημα GSM8K.

Η παρουσία κόκκινων ράβδων (LLM που απαντούν σωστά στην αρχική ερώτηση, αλλά δεν λύνουν την ερώτηση παραλλαγής), υποδηλώνει ότι τα περισσότερα μοντέλα έχουν περιορισμένη δυνατότητα μεταφοράς απόδοσης. Αν και η απόδοση των LLMs διαφέρει στο πρόβλημα GSM8K (ύψος μωβ και κόκκινων ράβδων), η δυνατότητα μεταφοράς απόδοσης είναι παρόμοια (ύψος κόκκινης ράβδου). Αυτό σημαίνει ότι τα υπάρχοντα σημεία αναφοράς δεν μπορούν να αξιολογήσουν με ακρίβεια τις πραγματικές δυνατότητες ενός μοντέλου στη μαθηματική συλλογιστική. Η υψηλή ακρίβεια δεν ισοδυναμεί με ισχυρή ευρωστία συμπερασμάτων.

Συμβουλές για βοήθεια σχετικά με την ευρωστία απόδοσης των LLM

Προηγούμενη εργασία έχει δείξει ότι οι καλές άμεσες οδηγίες είναι σημαντικές για την τόνωση των μαθηματικών ικανοτήτων των γλωσσικών μοντέλων. Αυτό το άρθρο επιλέγει 4 αντιπροσωπευτικά μοντέλα και ελέγχει την απόδοσή τους στην επίλυση προβλημάτων κάτω από διαφορετικές άμεσες οδηγίες. Όπως φαίνεται στο παρακάτω σχήμα, όταν αντιμετωπίζουν παρεμβολές, τα LLM αποδίδουν πιο σταθερά όταν χρησιμοποιούν σύνθετα παραδείγματα ως συμφραζόμενες επιδείξεις (CoT με βάση την πολυπλοκότητα, αντίθετα, χρησιμοποιώντας μόνο τη γλώσσα προγράμματος για την αναπαράσταση ενδιάμεσου συλλογισμού (Program-of-Thought) , LLMs). είναι πιο επιρρεπείς σε παρεμβολές. Συνολικά, αυτές οι συμβουλές και τα κόλπα δεν αρκούν για τα LLM να διατηρήσουν την ίδια απόδοση με το GSM8K στο GSM-Plus.

Εικόνα 5: Επίδραση των υποδείξεων στην ευρωστία απόδοσης των LLM

Λειτουργούν οι προτροπές συνδυασμού;

Πώς να ενισχύσετε την ευρωστία των LLM με βάση τις υπάρχουσες μεθόδους προτροπής; Αυτό το άρθρο διαπιστώνει ότι τα LLM συχνά αγνοούν σημαντικές συνθήκες ή κάνουν σφάλματα υπολογισμού κατά τη διαδικασία επίλυσης προβλημάτων. Για το σκοπό αυτό, αυτή η εργασία διερευνά το Comp, μια συνδυασμένη μέθοδο προτροπής. Αυτή η μέθοδος ζητά πρώτα από τα LLM να εξαγάγουν τις απαραίτητες συνθήκες που σχετίζονται με αριθμητικές τιμές στο πρόβλημα (Prompt1). Στη συνέχεια, βάσει του προβλήματος και των βασικών συνθηκών, οι LLM λαμβάνουν οδηγίες να δημιουργούν επαναληπτικά στόχους συμπερασμάτων (Prompt2) και στόχους υπολογισμού (Prompt3) και να τους αφήνουν να παρέχουν ανατροφοδότηση για τα δημιουργημένα ιστορικά βήματα επίλυσης προβλημάτων για να προσδιορίσουν εάν λαμβάνεται η τελική απάντηση ( Προτροπή 4). Η συγκεκριμένη υλοποίηση φαίνεται στο σχήμα 6.

Εικόνα 6: Σχηματικό διάγραμμα της μεθόδου εντολών Comp iteration

Μπορεί να φανεί ότι το Comp μπορεί να βελτιώσει την απόδοση των LLM σε διάφορους τύπους παραλλαγών προβλημάτων μέσω επαναληπτικής δημιουργίας και αυτοεπαλήθευσης, αλλά εξακολουθεί να μην μπορεί να γεφυρώσει το χάσμα απόδοσης των LLM μεταξύ τυπικών συνόλων δοκιμών και αντίθετων συνόλων δοκιμών. Αυτή η έρευνα προσβλέπει σε περισσότερες μεθόδους στο μέλλον για να βελτιώσει περαιτέρω την ευρωστία του μοντέλου και να προωθήσει την περαιτέρω ανάπτυξη των LLM στον τομέα του μαθηματικού συλλογισμού.

Πίνακας 3: Απόδοση υποδείξεων επανάληψης σύγκρισης

Δημιουργήστε παράδειγμα

Το παρακάτω σχήμα δείχνει την απόδοση του GPT-3.5-Turbo κάτω από διαφορετικές τεχνολογίες προτροπής για το πρόβλημα GSM8K και το πρόβλημα επανεγγραφής GSM-Plus με βάση την "αντιστροφή λειτουργίας". Ενώ όλες οι προτροπές παρακινούν την Turbo να απαντήσει με ακρίβεια στις ερωτήσεις GSM8K, μόνο η Comp βοηθά την Turbo να δημιουργήσει σωστές απαντήσεις στις ερωτήσεις της παραλλαγής GSM-Plus.

Εικόνα 7: Παραδείγματα μοντέλων που απαντούν σε μαθηματικές ερωτήσεις κάτω από διαφορετικές ρυθμίσεις προτροπής

συμπέρασμα

Αυτό το άρθρο εισάγει το GSM-Plus, ένα αντίθετο σετ αξιολόγησης προβλημάτων εφαρμογής μαθηματικών πρωτοβάθμιας εκπαίδευσης, με στόχο τη συστηματική ανάλυση της ευρωστίας των LLM στην επίλυση προβλημάτων εφαρμογής μαθηματικών. Η πειραματική ανάλυση διαπίστωσε ότι όταν αντιμετώπιζαν διαταραχές, η απόδοση των περισσότερων LLM μειώθηκε σημαντικά σε σύγκριση με την απόδοσή τους σε τυπικά σημεία αναφοράς, υπολείποντας πολύ από τα επίπεδα ανθρώπινης απόδοσης. Ο ερευνητής ελπίζει ότι η εργασία αυτού του άρθρου μπορεί να προωθήσει περισσότερη μελλοντική έρευνα, συμπεριλαμβανομένης, ενδεικτικά, της: (1) συστηματικής αξιολόγησης των μαθηματικών δεξιοτήτων των LLMs (2) κατασκευής μοντέλων που μπορούν να εκτελούν με ευελιξία μαθηματικούς συλλογισμούς.

[1] Cobbe, Karl, et al. "Εκπαίδευση επαληθευτών για την επίλυση προβλημάτων μαθηματικών λέξεων." arXiv προεκτύπωση arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] Γεώργιος Πολύα. 2004. Πώς να το λύσετε: Μια νέα πτυχή της μαθηματικής μεθόδου, τόμος 85. Princeton University Press.

Νέα

ACL 2024 | Στη μαθηματική αξιολόγηση 25 μοντέλων ανοιχτού και κλειστού κώδικα, το GPT-3.5-Turbo μόλις πέρασε.

Εισαγωγή

τα στοιχεία επικοινωνίας μου