Εξειδικεύεται στην επίλυση προβλημάτων για μεγάλα μοντέλα! Το νέο σημείο αναφοράς της ομάδας της Jia Jiaya επιτρέπει στο μοντέλο να εντοπίζει μόνο σφάλματα και να μην λύνει προβλήματα

Εξειδικεύεται στην επίλυση προβλημάτων για μεγάλα μοντέλα!Το νέο σημείο αναφοράς της ομάδας Jiajiaya επιτρέπει στο μοντέλο να εντοπίζει μόνο σφάλματα και να μην επιλύει προβλήματα

2024-07-18

Συνεισφορά από την ομάδα MR-Ben
Qubits | Δημόσιος λογαριασμός QbitAI

Το πρόβλημα της επίτευξης υψηλών βαθμολογιών σε μεγάλες δοκιμές μοντέλων αλλά κακής απόδοσης σε πραγματικά σενάρια έχει λυθεί.

Η ομάδα Jiajiaya συνεργάστηκε με μια σειρά από γνωστά πανεπιστήμια για να προτείνει μια νέα μέθοδο αξιολόγησης, επιτρέποντας σε ορισμένα μοντέλα να εμφανιστούν αμέσως ως πρωτότυπα.

Τώρα δεν χρειάζεται να ανησυχείτε μήπως το μεγάλο μοντέλο έχει πάρα πολλές «ερωτήσεις» και το σετ δοκιμών δεν μπορεί να αντικατοπτρίζει το πραγματικό επίπεδο.

Αυτό το νέο σύνολο δεδομένων αξιολόγησης ονομάζεται MR-Ben και χρησιμοποιεί υπάρχουσες ερωτήσεις στα GSM8K, MMLU και άλλα σύνολα δεδομένων.

Ωστόσο, η ταυτότητα του μεγάλου μοντέλου στο τεστ έχει αλλάξει από «απάντηση μαθητή» σε «δάσκαλο μαρκαρίσματος» και το καθήκον είναι ναΕπισημάνετε τα σφάλματα στα υπάρχοντα βήματα λύσης。

Με αυτόν τον τρόπο, το μοντέλο δεν μπορεί πλέον να χτυπήσει τις ερωτήσεις μέσω απαγγελίας ή εικασίας και δεν υπάρχει λόγος ανησυχίας για τη διαρροή των ερωτήσεων του τεστ.

Χρησιμοποιώντας το MR-Ben, η ομάδα Jiajiaya αξιολόγησε πολλά μοντέλα ανοιχτού και κλειστού κώδικα, όπως τα GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B κ.λπ.

Επί του παρόντος, όλος ο κώδικας και τα δεδομένα που εμπλέκονται σε αυτό το σύνολο δεδομένων είναι ανοιχτού κώδικα.

Γνωστές ερωτήσεις τεστ, ολοκαίνουργιες εργασίες

Προς το παρόν, η κύρια κατεύθυνση των δοκιμών μεγάλων μοντέλων είναι η χρήση τυποποιημένων δοκιμών για ανθρώπους - ερωτήσεις πολλαπλής επιλογής και ερωτήσεις συμπλήρωσης κενών για τη διεξαγωγή αξιολόγησης μεγάλων μοντέλων.

Τα πλεονεκτήματα αυτής της μεθόδου δοκιμών είναι σαφή πρότυπα, διαισθητικοί δείκτες και τα ποσοτικά αποτελέσματα είναι φυσικά επίκαιρα.

Ωστόσο, ο συγγραφέας πιστεύει ότι επειδή τα τρέχοντα μεγάλα μοντέλα χρησιμοποιούν γενικά μια μέθοδο αλυσίδας σκέψης βήμα προς βήμα για να δημιουργήσουν την τελική απάντηση, αυτή η μέθοδος δεν είναι "αξιόπιστη".

Το μοντέλο προ-προπόνησης έχει ήδη δει τρισεκατομμύρια μάρκες κατά την προ-προπόνηση.Είναι δύσκολο να πει κανείς εάν το υπό αξιολόγηση μοντέλο έχει ήδη δει τα αντίστοιχα δεδομένα, ώστε να απαντήσει σωστά στις ερωτήσεις «απομνημονεύοντας τις ερωτήσεις».

Και επειδή η μέθοδος αξιολόγησης βασίζεται κυρίως στον έλεγχο της τελικής απάντησης, του μοντέλουΕίναι επίσης άγνωστο εάν επιλέγεται η σωστή επιλογή με βάση τη σωστή κατανόηση και συλλογισμό.。

Παρόλο που η ακαδημαϊκή κοινότητα συνεχίζει να αναβαθμίζει και να μετασχηματίζει σύνολα δεδομένων όπως το GSM8K και το MMLU, όπως η εισαγωγή μιας πολύγλωσσης έκδοσης του συνόλου δεδομένων MGSM στο GSM8K και η εισαγωγή πιο δύσκολων ερωτήσεων με βάση το MMLU, εξακολουθεί να μην μπορεί να απαλλαγεί από το στερεότυπο του επιλέγοντας ή συμπληρώνοντας τα κενά.

Επιπλέον, αυτά τα σύνολα δεδομένων έχουν αντιμετωπίσει σοβαράπρόβλημα κορεσμού, οι τιμές των μεγάλων γλωσσικών μοντέλων σε αυτούς τους δείκτες έχουν κορυφωθεί και σταδιακά έχουν χάσει τη διάκρισή τους.

Για το σκοπό αυτό, η ομάδα Jiajiaya συνεργάστηκε με πολλά γνωστά πανεπιστήμια όπως το MIT, το Tsinghua και το Cambridge, και συνεργάστηκε με εγχώριες εταιρείες σχολιασμού επικεφαλής για να σχολιάσει ένα σύνολο δεδομένων αξιολόγησης MR-Ben για τη διαδικασία συλλογιστικής περίπλοκων προβλημάτων.

Το MR-Ben βασίζεται στις ερωτήσεις των GSM8K, MMLU, LogiQA, MHPP και άλλων μεγάλων μοντέλων προεκπαίδευσης απαιτούμενων συνόλων δεδομένων δοκιμών.Ο μετασχηματισμός παραδείγματος της «βαθμολόγησης», το νέο σύνολο δεδομένων που δημιουργείται είναι πιο δύσκολο και διαφοροποιημένο και μπορεί να αντικατοπτρίζει πιο αληθινά τη συλλογιστική ικανότητα του μοντέλου!

Δεν χρειάζεται να βρείτε ξανά ερωτήσεις ή να παραμορφώσετε τις ερωτήσεις για να ελέγξετε την ευρωστία του μοντέλου μοντέλο είναι ο δάσκαλος για να δοκιμάσει την κυριαρχία του στα σημεία γνώσης!

Συγκεκριμένα, η ομάδα Jiajiaya οργάνωσε τα κύρια σύνολα δεδομένων αξιολόγησης στην αγορά όπως GSM8K, MMLU, LogiQA, MHPP και άλλα σύνολα δεδομένων και τα χώρισε σε πολλαπλές κατηγορίες όπως μαθηματικά, φυσική, χημεία, βιολογία, κώδικας, λογική, ιατρική, κ.λπ., και επίσης διέκρινε διαφορετικό επίπεδο δυσκολίας.

Για κάθε κατηγορία και κάθε ερώτηση που συλλέχτηκε, η ομάδα συνέλεξε προσεκτικά την αντίστοιχη διαδικασία επίλυσης προβλημάτων βήμα προς βήμα και εκπαιδεύτηκε και σχολιάστηκε από επαγγελματίες σχολιαστές μεταπτυχιακού και διδακτορικού.

Κατά τη διαδικασία σχολιασμού, εάν η διαδικασία επίλυσης προβλημάτων είναι σωστή, η θέση του σφάλματος και η αιτία του σφάλματος θα επισημανθούν λεπτομερώς, συγκρίνοντας τα αποτελέσματα βαθμολόγησης του μεγάλου μοντέλου και τα αποτελέσματα βαθμολόγησης των ειδικών. μπορείτε να ξέρετε πόσο καλά το μοντέλο κατέχει τα σημεία γνώσης.

Από τη μέθοδο αξιολόγησης, η μέθοδος που προτείνει ο MR-Ben απαιτεί από το μοντέλο να διεξάγει μια λεπτομερή ανάλυση των υποθέσεων, των υποθέσεων και της λογικής κάθε βήματος στη διαδικασία επίλυσης προβλημάτων και να κάνει προεπισκόπηση της διαδικασίας συλλογισμού για να προσδιορίσει εάν το τρέχον βήμα μπορεί να οδηγήσει στη σωστή απάντηση.

Αυτή η μέθοδος αξιολόγησης «βαθμολόγησης» είναι πολύ πιο δύσκολη από τη μέθοδο αξιολόγησης της απλής απάντησης σε ερωτήσεις, αλλά μπορεί να αποφύγει αποτελεσματικά το πρόβλημα των ψευδώς υψηλών βαθμολογιών που προκαλείται από την απομνημόνευση ερωτήσεων από το μοντέλο. Είναι δύσκολο για έναν μαθητή που μπορεί να απομνημονεύσει μόνο ερωτήσεις να γίνει ειδικευμένος δάσκαλος βαθμολόγησης.

Το GPT4-Turbo αποδίδει καλύτερα

Η ομάδα Jiajiaya αξιολόγησε πολλά γνωστά μεγάλα μοντέλα και ορισμένα μοντέλα είχαν πολλαπλές εκδόσεις που συμμετείχαν στη δοκιμή.

Μπορεί να φανεί ότι μεταξύ των μοντέλων κλειστού κώδικα, το GPT4-Turbo έχει καλύτερη απόδοση (αν και δεν βρέθηκαν σφάλματα υπολογισμού κατά τη διάρκεια της "βαθμολόγησης" στα περισσότερα θέματα, υπάρχουν επιδείξεις (k=1) και όχι επιδείξεις (k =0). είναι μπροστά από άλλα μοντέλα.

Η απόδοση του μοντέλου GLM της ομάδας Zhipu κατατάσσεται δεύτερη στη λίστα, ξεπερνώντας το τελευταίο 3.5-Sonnet του Claude.

Ωστόσο, η διαφορά μεταξύ των διαφορετικών μοντέλων είναι σχετικά μεγάλη.

Επιπλέον, ορισμένα μοντέλα ανοιχτού κώδικα με ισχυρές επιδόσεις έχουν ήδη προλάβει ορισμένα εμπορικά μοντέλα.

Επιπλέον, η ομάδα MR-Ben ανακάλυψε επίσης μερικά ενδιαφέροντα φαινόμενα κατά τη διάρκεια της εργασίας τους, όπως:

Σε σενάρια χαμηλών πόρων, τα μικρά μοντέλα έχουν επίσης πολλά χαρακτηριστικά Στην αξιολόγηση MR-Ben, το Phi-3-mini ξεχώρισε μεταξύ των μικρών μοντέλων, ακόμη και υψηλότερο ή το ίδιο με τα μεγάλα μοντέλα με δεκάδες δισεκατομμύρια παραμέτρους. σημασία της προσαρμογής των δεδομένων σεξ.
Η σκηνή MR-Ben περιέχει πολύπλοκη λογική ανάλυση και βήμα προς βήμα συμπεράσματα.
Ο MR-Ben αξιολόγησε πολλά πειράματα αφαίρεσης ανάκλασης-αναγέννησης για να ελέγξει τις διαφορές μεταξύ των διαφορετικών στρατηγικών προτροπής. Διαπίστωσε ότι δεν είχε καμία επίδραση σε μοντέλα χαμηλού επιπέδου και η επίδραση σε μοντέλα υψηλού επιπέδου όπως το GPT4-Turbo δεν ήταν εμφανής. . Αντίθετα, για τα μοντέλα μεσαίου επιπέδου, το αποτέλεσμα είναι ελαφρώς βελτιωμένο γιατί πάντα διορθώνονται τα λάθος και διορθώνονται τα σωστά.
Μετά από χονδρική διαίρεση των θεμάτων που αξιολογήθηκαν από τον MR-Ben σε βασισμένους στη γνώση, λογικούς, υπολογιστικούς και αλγοριθμικούς τύπους, διαφορετικά μοντέλα έχουν τα δικά τους πλεονεκτήματα και μειονεκτήματα σε διαφορετικούς τύπους συλλογισμών.

Η ομάδα Jiajiaya έχει ανεβάσει μια μέθοδο αξιολόγησης με ένα κλικ στο github Η ποσότητα των κουπονιών που καταναλώνονται σε μία δοκιμή είναι περίπου 12 εκατομμύρια προγραμματιστές και η ομάδα MR-Ben θα ενημερώσει τον αντίστοιχο πίνακα κατάταξης. τρόπος.

Διεύθυνση χαρτιού:
https://arxiv.org/abs/2406.13975
Αρχική σελίδα του έργου:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo:
https://github.com/dvlab-research/Mr-Ben

Νέα

Γνωστές ερωτήσεις τεστ, ολοκαίνουργιες εργασίες

Το GPT4-Turbo αποδίδει καλύτερα

Εισαγωγή

τα στοιχεία επικοινωνίας μου