Οι βαθμολογίες των επτά βασικών μοντέλων μετά τη συμμετοχή τους στην "Εισαγωγική Εξέταση στο Κολέγιο" κυκλοφόρησαν: τα μαθήματα φιλελεύθερων τεχνών έγιναν δεκτά στο πρώτο επίπεδο, αλλά τα μαθήματα επιστήμης μπορούσαν να γίνουν δεκτά μόνο στο δεύτερο επίπεδο

Οι βαθμολογίες των επτά βασικών μοντέλων μετά τη συμμετοχή τους στην «Εισαγωγική Εξέταση στο Κολέγιο» κυκλοφόρησαν: τα μαθήματα φιλελεύθερων τεχνών έγιναν δεκτά στο πρώτο επίπεδο και τα μαθήματα επιστήμης μπορούσαν να γίνουν δεκτά μόνο στο δεύτερο επίπεδο

2024-07-18

Οι υποψήφιοι τεχνητής νοημοσύνης μπορούν να λάβουν μέγιστη βαθμολογία 303 βαθμών στα τρία μαθήματα, συμπεριλαμβανομένων των Κινέζων και των Μαθηματικών.

Τον Ιούνιο προηγουμένως, το OpenCompass, το σύστημα αξιολόγησης Sinan στο πλαίσιο του Εργαστηρίου Τεχνητής Νοημοσύνης της Σαγκάης, κυκλοφόρησε τα πρώτα ολοκληρωμένα αποτελέσματα αξιολόγησης των εισαγωγικών εξετάσεων AI στο κολέγιο, δείχνοντας ότι οι υποψήφιοι τεχνητής νοημοσύνης μπορούσαν να συγκεντρώσουν έως και 303 βαθμούς σε τρία μαθήματα εκτός από τη γλώσσα. και τα μαθηματικά, και απέτυχε σε όλα τα μαθηματικά.

Στις 17 Ιουλίου, το OpenCompass κυκλοφόρησε περαιτέρω μια αξιολόγηση που επέκτεινε το εύρος των θεμάτων.

Εάν το AI δώσει τις εισαγωγικές εξετάσεις στο κολέγιο, σε ποιο πανεπιστήμιο μπορεί να γίνει δεκτό; Το τεστ OpenCompass διαπίστωσε ότι αν το μεγάλο μοντέλο δώσει στις εξετάσεις φιλελεύθερων τεχνών, η καλύτερη βαθμολογία μπορεί να "αποδεχτεί" σε ένα βιβλίο, αλλά αν λάβει την εξέταση φυσικών επιστημών, μπορεί να "ειχθεί" μόνο σε δύο βιβλία το πολύ (βάσει η γραμμή βαθμολογίας της επαρχίας Χενάν, η οποία έχει τον μεγαλύτερο αριθμό εισαγωγικών εξετάσεων κολεγίου φέτος) για αναφορά).

Βαθμολογίες εξετάσεων εισαγωγικών εξετάσεων κολεγίου μεγάλου μοντέλου AI και για τα 9 θέματα

Τα μοντέλα που δοκιμάστηκαν αυτή τη φορά εξακολουθούν να είναι μοντέλα ανοιχτού κώδικα από τα Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral και το μοντέλο κλειστού κώδικα GPT-4o από το OpenAI.

Κρίνοντας από τη συνολική βαθμολογία, η υψηλότερη βαθμολογία στις φιλελεύθερες τέχνες ήταν η Alibaba Tongyi Qianwen Model, η οποία κέρδισε το "Liberal Arts Top Scholar" στην Εισαγωγική Εξέταση AI για το Κολέγιο με 546 βαθμούς. Η υψηλότερη βαθμολογία στην επιστήμη είναι το Pu Chinese Quxing, που αναπτύχθηκε από κοινού από το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης και το SenseTime, το οποίο έφτασε τους 468,5 βαθμούς. Το GPT-4o του OpenAI σημείωσε 531 στις φιλελεύθερες τέχνες, καταλαμβάνοντας την τρίτη θέση και σημείωσε 467 στην επιστήμη, καταλαμβάνοντας τη δεύτερη θέση.

Όσον αφορά τη δικαιοσύνη και τη διαφάνεια των αποτελεσμάτων της αξιολόγησης, οι σχετικοί άνθρωποι είπαν ότι ο κώδικας για τη δημιουργία απαντήσεων, τα μοντέλα φύλλων απαντήσεων και τα αποτελέσματα βαθμολόγησης για την αξιολόγηση εισαγωγικών εξετάσεων κολεγίου μεγάλης κλίμακας είναι εντελώς ανοιχτοί και διαθέσιμοι για αναφορά από όλα τα κοινωνικά στρώματα (π. λεπτομέρειες δημόσιας αξιολόγησης, επισκεφθείτε τη διεύθυνση https://github.com/open- compass/GAOKAO-Eval).

Η ομάδα αξιολόγησης επέλεξε τις σειρές παρτίδων αποδοχής της επαρχίας Χενάν ως αναφορά και συνέκρινε τις βαθμολογίες του μεγάλου μοντέλου με τις αντίστοιχες γραμμές βαθμολογίας. Σε γενικές γραμμές, αναφερόμενοι στις γραμμές εισαγωγής παρτίδας προπτυχιακών σπουδών Henan 2024, τα τρία μοντέλα μεγάλης κλίμακας με τις καλύτερες επιδόσεις έχουν βαθμολογίες περισσότερες από μία στις φιλελεύθερες τέχνες και περισσότερες από δύο στην επιστήμη. Οι βαθμολογίες σε άλλα σημαντικά θέματα φιλελεύθερων τεχνών και επιστημών δεν πληρούσαν τα πρότυπα δεύτερης βαθμίδας.

Εάν η τεχνητή νοημοσύνη δώσει τις εξετάσεις φιλελεύθερων τεχνών, τότε οι βαθμολογίες φιλελεύθερων τεχνών των Tongyi Qianwen, Shushengpu Chinese Quxing και GPT-4o υπερβαίνουν την πρώτη γραμμή, δείχνοντας τη βαθιά γνώση του μεγάλου μοντέλου σε θέματα όπως τα κινέζικα, η ιστορία, γεωγραφία, ιδεολογική πολιτική κλπ. Επιφύλαξη και κατανόηση.

Σύγκριση Βαθμολογιών Μεγάλου Μοντέλου «Εισαγωγική Εξέταση» - Liberal Arts

Εάν η τεχνητή νοημοσύνη συμμετάσχει στις εξετάσεις επιστήμης, η συνολική απόδοση θα είναι πιο αδύναμη από αυτή των φιλελεύθερων τεχνών, γεγονός που αντανακλά τις γενικές ελλείψεις των μεγάλων μοντέλων στη μαθηματική ικανότητα συλλογισμού, ωστόσο, οι τρεις πρώτες επιστημονικές βαθμολογίες είναι επίσης πάνω από τη βαθμολογία δεύτερου επιπέδου γραμμή, και «εισαγωγή» δεν μπορεί να επιτευχθεί με εξετάσεις δύο επιπέδων.

Σύγκριση Βαθμολογιών-Επιστήμης μεγάλου μοντέλου «Εισαγωγική Εξέταση».

Η ομάδα δήλωσε ότι για να είναι πιο κοντά στην πραγματική κατάσταση των εισαγωγικών εξετάσεων στο κολέγιο, η αξιολόγηση υιοθέτησε τη μορφή 3 (εξαιρουμένων των γλωσσών και των μαθηματικών) + 3 (περιεκτικές επιστήμες/περιεκτικές τέχνες) για να δοκιμάσει το μεγάλο μοντέλο σε όλα τα μαθήματα. Κατά τη διαδικασία αξιολόγησης, όλες οι ερωτήσεις απλού κειμένου απαντήθηκαν από μεγάλα γλωσσικά μοντέλα, ενώ ερωτήσεις με εικόνες σε ολοκληρωμένα θέματα απαντήθηκαν από πολυτροπικά μεγάλα μοντέλα ανοιχτού κώδικα από την αντίστοιχη ομάδα.

Η αξιολόγηση διαπίστωσε ότι για ερωτήσεις καθαρού κειμένου, το μέσο ποσοστό βαθμολογίας του μεγάλου μοντέλου μπορεί να φτάσει το 64,32%, ενώ για ερωτήσεις με εικόνες το ποσοστό βαθμολογίας είναι μόνο 37,64%. Όσον αφορά την κατανόηση της εικόνας και τις δυνατότητες εφαρμογής, όλα τα μεγάλα μοντέλα έχουν σημαντικά περιθώρια βελτίωσης.

Επιπλέον, μερικά μεγάλα μοντέλα έχουν φτάσει στην πρώτη τάξη Μετά την επανεκπαίδευση, μπορούν να φτάσουν στο επίπεδο εισαγωγής κορυφαίων πανεπιστημίων; Μετά την ολοκλήρωση της βαθμολόγησης, οι δάσκαλοι συμφώνησαν ότι υπάρχει ακόμα ένα κενό μεταξύ του μεγάλου μοντέλου και των πραγματικών υποψηφίων Αν και η γνώση της βασικής γνώσης είναι εξαιρετική, το μεγάλο μοντέλο εξακολουθεί να μην είναι ικανοποιητικό όσον αφορά τη λογική συλλογιστική και την ευέλικτη εφαρμογή της γνώσης.

Συγκεκριμένα, όταν απαντούν σε υποκειμενικές ερωτήσεις, τα μεγάλα μοντέλα συχνά δεν μπορούν να κατανοήσουν πλήρως το στέλεχος της ερώτησης και δεν καταλαβαίνουν την κατεύθυνση των αντωνυμιών, με αποτέλεσμα να δίνονται λανθασμένες απαντήσεις όταν απαντούν σε μαθηματικές ερωτήσεις, η διαδικασία επίλυσης προβλημάτων είναι μηχανική και κακώς λογική. Συχνά προκύπτουν προβλήματα με τη χωρική λογική. Αντιφατικά συμπεράσματα επιφανειακής κατανόησης φυσικών και χημικών πειραμάτων και αδυναμία ακριβούς προσδιορισμού και χρήσης πειραματικού εξοπλισμού. Επιπλέον, τα μεγάλα μοντέλα θα πλαστογραφήσουν επίσης πλασματικό περιεχόμενο, θα φτιάξουν ποιήματα που φαίνονται λογικά αλλά δεν υπάρχουν στην πραγματικότητα ή δεν θα αντανακλούν αργότερα όταν υπάρχουν προφανή υπολογιστικά λάθη και θα «τσιμπήσουν τη σφαίρα» για να δώσουν μια απάντηση, όλα αυτά φέρνουν πρόβλημα στον δάσκαλο μαρκαρίσματος.

Στις λεπτομέρειες της δημόσιας αξιολόγησης, οι δημοσιογράφοι του China Business News διαπίστωσαν ότι συμπεριλήφθηκαν ορισμένα σχόλια από δασκάλους βαθμολόγησης.

Ο καθηγητής Φυσικών και Μαθηματικών σχολίασε ότι οι ερωτήσεις του μοντέλου μεγάλης κλίμακας ήταν γενικά πολύ μηχανικές και οι περισσότερες από τις ερωτήσεις δεν μπορούσαν να λυθούν μέσω της κανονικής διαδικασίας συλλογισμού. Για παράδειγμα, στην πρώτη ερώτηση της ερώτησης συμπλήρωσης του κενού, το μεγάλο μοντέλο μπορεί να πραγματοποιήσει μόνο ένα μικρό μέρος της διαδικασίας για να επιτύχει ένα αποτέλεσμα το σωστό αποτέλεσμα όπως οι υποψήφιοι που κάνουν τις ερωτήσεις. Η βασική ικανότητα μνήμης τύπων μεγάλων μοντέλων είναι σχετικά καλή, αλλά δεν μπορεί να χρησιμοποιηθεί με ευελιξία. Επιπλέον, τα αποτελέσματα ορισμένων ερωτήσεων είναι σωστά, αλλά η λογική της διαδικασίας είναι κακή και δεν συμμορφώνεται με τους τυπικούς υπολογισμούς, καθιστώντας τη βαθμολόγηση πιο δύσκολη.

Ο δάσκαλος γεωγραφίας πιστεύει ότι το μεγάλο μοντέλο δείχνει ολοκληρωμένη κάλυψη της γεωγραφικής γνώσης στη διαδικασία απάντησης σε ερωτήσεις, που κυμαίνονται από τη φυσική γεωγραφία έως την ανθρωπογεωγραφία, από τα γεωγραφικά φαινόμενα έως τους γεωγραφικούς νόμους. Είναι ιδιαίτερα καλό στη δοκιμή βασικών σημείων γνώσης, ωστόσο, υπάρχουν ορισμένες αποκλίσεις και παραλείψεις σε ερωτήσεις που περιλαμβάνουν εις βάθος ανάλυση ή συλλογισμό.

Ο δάσκαλος φυσικής διαπίστωσε ότι τα μεγάλα μοντέλα αισθάνονταν γενικά μηχανικά και πολλά από αυτά δεν μπορούσαν να αναγνωρίσουν το νόημα των ερωτήσεων Ακόμα κι αν οι απαντήσεις σε ορισμένες ερωτήσεις πολλαπλής επιλογής ήταν σωστές, η ανάλυση ήταν λάθος. Τα βήματα ορισμένων μεγάλων ερωτήσεων είναι περίπλοκα και παράλογα Συμβαίνει το συμπέρασμα αυτού του χρόνου να φέρεται στα στοιχεία που οδηγούν στην ολοκλήρωση αυτού του κύκλου.

Οι δάσκαλοι βαθμολόγησης πιστεύουν ότι σε σύγκριση με τους ανθρώπους που εξετάζουν, τα σημερινά μεγάλα μοντέλα εξακολουθούν να έχουν σημαντικούς περιορισμούς.

Επεξεργαστής στήλης: Zhang Wu Επεξεργαστής κειμένου: Dong Siyun Τίτλος και πηγή εικόνας: Tuchong Επεξεργαστής εικόνας: Xu Jiamin

Πηγή: Συγγραφέας: China Business News

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου