Ανακοινώνονται τα αποτελέσματα της «Εισαγωγικής Εξέτασης στο Κολέγιο» του μεγάλου μοντέλου AI: σχεδόν όλα είναι μερικώς στη λογοτεχνία, λίγο φτωχά στα μαθηματικά και οι ιδέες επίλυσης προβλημάτων είναι ιδιαίτερα «αξονικές»

Ανακοινώνονται τα αποτελέσματα της «Εισαγωγικής Εξέτασης στο Κολέγιο» του μεγάλου μοντέλου AI: σχεδόν όλα είναι μερικώς στη βιβλιογραφία, λίγο φτωχά στα μαθηματικά και οι ιδέες επίλυσης προβλημάτων είναι ιδιαίτερα «αξονικές»

2024-07-26

Μόλις τελείωσε η Εθνική Εισαγωγική Εξέταση στο Εθνικό Κολλέγιο το 2024, το OpenCompass, ένα σύστημα αξιολόγησης ανοιχτού κώδικα μεγάλης κλίμακας υπό το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης, επέλεξε 7 μεγάλα μοντέλα τεχνητής νοημοσύνης στο εσωτερικό και στο εξωτερικό για τη διεξαγωγή δοκιμών όλων των θεμάτων για την Εισαγωγική Εξέταση Κολεγίου Τα τεστ 7 υποψηφίων AI αξιολογήθηκαν από Καθηγητές με εμπειρία στις εξετάσεις θα κρίνουν τις βαθμολογίες χωρίς να γνωρίζουν την ταυτότητα των υποψηφίων.

Πρόσφατα, κυκλοφόρησαν τα αποτελέσματα των δοκιμών: οι βαθμολογίες του μοντέλου μεγάλης γλώσσας της σειράς Shusheng·Puyu 2.0 Wenquxing, του μεγάλου μοντέλου Ali Tongyi Qianwen Qwen2-72B και του GPT-4o κατατάχθηκαν μεταξύ των τριών πρώτων μεταξύ όλων των υποψηφίων AI. Λαμβάνοντας ως σημείο αναφοράς τη φετινή βαθμολογία της επαρχίας Χενάν, οι βαθμολογίες αυτών των τριών υποψηφίων τεχνητής νοημοσύνης στις φιλελεύθερες τέχνες ξεπέρασαν όλοι την "πρώτη γραμμή" και οι βαθμολογίες της επιστήμης ήταν σταθερά πάνω από τη "δεύτερη γραμμή".

Αναλύοντας τα φύλλα απαντήσεων που υποβλήθηκαν από υποψήφιους τεχνητής νοημοσύνης, η βιομηχανία πιστεύει ότι σε αυτό το στάδιο, τα μεγάλα μοντέλα έχουν πολύ διαφορετική πορεία σκέψης από τους ανθρώπους όταν λύνουν προβλήματα μνήμης και λογικής, αλλά αυτό δείχνει επίσης το δρόμο για τη μελλοντική εξέλιξη της τεχνητής νοημοσύνης.

Έδωσε καλές επιδόσεις στις γλωσσικές εξετάσεις, αλλά οι ερωτήσεις σύντομης απάντησης στα μαθηματικά έγιναν "ένα ανυπέρβλητο εμπόδιο"

Τα αποτελέσματα αυτής της δοκιμής δείχνουν ότι οι υποψήφιοι της τεχνητής νοημοσύνης είναι κάπως μερικοί στα θέματα και φαίνεται ότι είναι όλοι «φοιτητές φιλελεύθερων τεχνών».

Μεταξύ των 7 μεγάλων μοντέλων, 4 πέτυχαν υψηλές βαθμολογίες πάνω από 130 στο τεστ Αγγλικών του Paper I του νέου προτύπου προγράμματος σπουδών Μεταξύ αυτών, το GPT-4o κέρδισε την πρώτη θέση στο τεστ Αγγλικών και εκτιμήθηκε από έναν καθηγητή βαθμολογίας αγγλικών Η σύνθεσή του λέγεται ότι έχει "πλούσιες προτάσεις και άψογη γλώσσα", αλλά ο αριθμός των λέξεων είναι ελαφρώς μικρότερος, οπότε θα αφαιρεθεί 1 βαθμός.

Επιπλέον, οι υποψήφιοι τεχνητής νοημοσύνης είχαν καλές επιδόσεις στο Έγγραφο I του νέου προτύπου μαθημάτων κινεζικής γλώσσας: είχαν μέσο ποσοστό βαθμολογίας πάνω από 70% στη σύγχρονη κινεζική ανάγνωση, στην ανάγνωση αρχαίας ποίησης, στην υπαγόρευση διάσημων προτάσεων και στη σύνθεση.

Η τεχνητή νοημοσύνη θεωρείται γενικά ότι έχει εξαιρετικές ικανότητες στη λογική σκέψη, ωστόσο, σε αυτό το τεστ, οι υποψήφιοι τεχνητής νοημοσύνης εξαφανίστηκαν σχεδόν εντελώς στο Έγγραφο Ι του νέου προτύπου μαθηματικών και κανένας από τους υποψηφίους τεχνητής νοημοσύνης δεν σημείωσε το ήμισυ της συνολικής βαθμολογίας. δηλαδή 75 βαθμοί). Οι ερωτήσεις σύντομης απάντησης στα μαθηματικά έχουν γίνει «ανυπέρβλητο εμπόδιο» για αυτή την ομάδα υποψηφίων Ο μέσος όρος βαθμολογίας των πέντε ερωτήσεων σύντομης απάντησης είναι μόνο 18,9%.

Ο Zhang Junping, καθηγητής στη Σχολή Επιστήμης και Τεχνολογίας Υπολογιστών στο Πανεπιστήμιο Fudan, είπε ότι οι υποψήφιοι τεχνητής νοημοσύνης που συμμετέχουν στο τεστ αυτή τη φορά είναι όλοι μεγάλα γλωσσικά μοντέλα και έχουν εκπαιδευτεί σε corpus, επομένως έχουν ένα πλεονέκτημα όταν απαντούν σε γλωσσικές εργασίες . Στην εξέταση των μαθηματικών και της φυσικής, οι υποψήφιοι απαιτείται να έχουν ορισμένες συλλογιστικές ικανότητες και αυτή η ικανότητα ήταν πάντα ένα μειονέκτημα μεγάλων μοντέλων.

Η λειτουργία σκέψης "γρήγορο σύστημα" αποτρέπει τους υποψηφίους τεχνητής νοημοσύνης από το να "σχετίσουν"

Γιατί οι υποψήφιοι τεχνητής νοημοσύνης τείνουν να είναι μερικοί στα θέματα και γιατί είναι τόσο μερικοί; Πολλοί ερευνητές που ασχολούνται βαθιά με τον τομέα της τεχνητής νοημοσύνης τόνισαν ότι αυτό έχει να κάνει πολύ με τον τρόπο «σκέψης» των μεγάλων μοντέλων σε αυτό το στάδιο.

"Όταν κάνουν μια ερώτηση, οι άνθρωποι γενικά διατυπώνουν ιδέες για την επίλυση του προβλήματος πρώτα και μετά απαντούν. Αλλά αυτό δεν συμβαίνει με την τεχνητή νοημοσύνη. Δεν τον ενδιαφέρει, το κάνει απλώς με τη βία. Εάν δεν μπορεί να γίνει , θα «στρωθεί μαζί»." Σχετικά με το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης Ο υπεύθυνος είπε στους δημοσιογράφους ότι η διαδικασία επίλυσης ερωτήσεων μαθηματικών και φυσικής είναι εξαιρετικά αβέβαιη. Ως εκ τούτου, οι υποψήφιοι άνθρωποι συνήθως ξεκαθαρίζουν τις ιδέες τους σε ξυστό χαρτί πριν αρχίσουν να απαντούν οι ερωτήσεις. Τα μεγάλα μοντέλα, από την άλλη, δημιουργούν κείμενα διαδοχικά και δεν έχουν την ικανότητα να «φτιάχνουν προσχέδια», αν αρχίσουν να παραστρατούν όταν απαντούν σε ερωτήσεις, ουσιαστικά δεν υπάρχει χώρος για ανάκτηση.

«Οι δύο τρόποι σκέψης των υποψηφίων τεχνητής νοημοσύνης και των ανθρώπων υποψηφίων μπορούν να συγκριθούν με το «γρήγορο σύστημα» και το «αργό σύστημα» που προτείνονται από τον Daniel Kahneman στο «Thinking, Fast and Slow» αντίστοιχα Γρήγορη εξαγωγή απαντήσεων και χρήση πράξεων πιθανοτήτων για την προσομοίωση της διαδικασίας συλλογισμού Η ανθρώπινη κατανόηση των προβλημάτων βασίζεται συχνά στη συσσώρευση εμπειρίας και μπορεί να δει τα πράγματα ολιστικά και μακροσκοπικά, ώστε να μπορεί επίσης να δει πιο βαθιά.

Τα προβλήματα που εκτίθενται στο δοκιμαστικό χαρτί είναι επίσης «νέα δοκιμαστικά χαρτιά» για την ανάπτυξη της τεχνητής νοημοσύνης.

Στον διαγωνισμό επιλογής εισαγωγικών εξετάσεων κολεγίου, οι άνθρωποι εξακολουθούν να είναι πολύ μπροστά από την τεχνητή νοημοσύνη προς το παρόν. "Ο σκοπός της οργάνωσης μεγάλων μοντέλων τεχνητής νοημοσύνης για τη συμμετοχή στις εισαγωγικές εξετάσεις είναι να αξιολογήσει το πραγματικό επίπεδο των σημερινών μεγάλων μοντέλων, να εντοπίσει προβλήματα και να συνεχίσει να προωθεί την τεχνολογική πρόοδο." Τα αποτελέσματα των υποψηφίων τεχνητής νοημοσύνης εξέθεσαν επίσης τα πλεονεκτήματα και τα μειονεκτήματα των μεγάλων μοντέλων.

Ο αρμόδιος υπεύθυνος του Εργαστηρίου Τεχνητής Νοημοσύνης της Σαγκάης είπε στους δημοσιογράφους ότι τα περισσότερα μοντέλα δεν έχουν ακόμη τη δυνατότητα να διορθώσουν τα λάθη μόνα τους και αν κάνουν λάθη, πρέπει να «παλέψουν σκληρά» μέχρι το τέλος ή ακόμα και να επιστρέψουν. μέσω της «ανοησίας». Επομένως, η βελτίωση των δυνατοτήτων διόρθωσης σφαλμάτων μπορεί να απαιτεί ιδιαίτερη προσοχή στη μελλοντική εκπαίδευση μεγάλων μοντέλων.

Επιπλέον, η «ψευδαίσθηση» των μεγάλων μοντέλων υπάρχει ακόμα και θα συνθέσουν «σοβαρά» το περιεχόμενο. «Σε αυτό το τεστ, μερικά μεγάλα μοντέλα θα φτιάξουν ποιήματα, κάτι που έκανε κάποιους δασκάλους να πιστέψουν λανθασμένα ότι ένα συγκεκριμένο ποίημα που έφτιαξαν υπάρχει, αλλά δεν το γνωρίζουν. πώς να βελτιώσετε την απόδοση της αξιοπιστίας AI, ακόμα σε εξέλιξη.

Συγγραφέας: Zhang Feiya

Κείμενο: Εκπαιδευόμενος ρεπόρτερ Zhang Feiya Εικόνες: Visual China Editor: Zhang Feiya Αρχισυντάκτης: Fan Liping

Παρακαλούμε αναφέρετε την πηγή κατά την επανεκτύπωση αυτού του άρθρου.

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου