είναι το νέο μοντέλο του openai συγκρίσιμο με ένα διδακτορικό; ζήτησα από τον γιατρό qingbei να το δοκιμάσει: wake up

είναι το νέο μοντέλο του openai συγκρίσιμο με ένα διδακτορικό; ζήτησα από τον γιατρό qingbei να το γευτεί: ξύπνα.

2024-09-14

για να είμαι ειλικρινής, δεν αντέχω αυτές τις παρέες, κάνουν πάντα μεγάλα λάθη στη μέση της νύχτας. . .

ιδιαίτερα με το όνομα openai, αυτή τη φορά κυκλοφόρησε το νέο μοντέλο που όλοι σκέφτονταν εδώ και καιρό χωρίς καμία προειδοποίηση.

ανέφερα πριν ότι οι φράουλες δεν είναι φράουλες μια φωτογραφία μιας φράουλας κυκλοφορεί εδώ και αρκετές μέρες.

ως αποτέλεσμα, αυτή τη φορά το νέο μοντέλο δεν έχει καμία σχέση με το strawberry hair, αλλά έχει ένα ολοκαίνουργιο όνομα.oepn όλα συμπεριλαμβάνονται o1 μοντέλο。

και αυτό το πράγμα είναι ήδη γνωστό ως το zenith star technology του openai δημοσίευσε απευθείας ένα μήνυμα λέγοντας ότι αυτό είναι το ισχυρότερο και πιο συνεπές μοντέλο τους μέχρι στιγμής.

η διαφορά από τις προηγούμενες φορές είναι ότι το openai δεν καυχιόταν πραγματικά για το πόσο φοβερό είναι αυτό το πράγμα, αλλά μερικές φωτογραφίες πετάχτηκαν ελαφρά, κάτι που έκανε τους ανθρώπους να αισθάνονται λίγο μουδιασμένοι.

όπως φαίνεται στην παρακάτω εικόνα, μπορούν να εξηγηθούν τα αποτελέσματα τριών δοκιμαστικών εργασιών, δηλαδή της διεθνούς μαθηματικής ολυμπιάδας, του διαγωνισμού προγραμματισμού και των επιστημονικών προβλημάτων διδακτορικού επιπέδου.

το πιο αριστερό εδώ είναι το gpt-4o, το μεσαίο είναι η τρέχουσα ανοιχτή έκδοση προεπισκόπησης o1 και η ψηλή κόκκινη κολόνα στο άκρο δεξιά είναι full health o1. ρίξτε μια ματιά, βασικά κάθε αντικείμενο, o1 σε σύγκριση με τους προκατόχους του,και οι δύο έχουν σχεδόν 8 φορές βελτίωση. . .

εάν αυτά τα αποτελέσματα των δοκιμών αναλυθούν, το νέο o1 ξεπερνά το 4o σε όλους σχεδόν τους κλάδους και τα πεδία.

αυτό που πραγματικά κάνει τους κακούς κριτές να νιώθουν απαίσια είναι ότι το openai είπε ότι κάλεσε ειδικούς διδακτορικούς να απαντήσουν στις ερωτήσεις.

τα αποτελέσματα βασίζονται στα αποτελέσματα των εξετάσεων διδακτορικού επιπέδου,βλέπουμε ότι οι βαθμολογίες απαντήσεων του o1 ξεπέρασαν αυτές των διδακτορικών εμπειρογνωμόνων. το o1 σημείωσε 78, οι άνθρωποι σημείωσαν 69,7. . .

ακόμα και ο γιατρός έχει χάσει, οπότε τι εννοώ σε σύγκριση με αυτό;

οι ευαίσθητοι χρήστες του διαδικτύου σοκαρίστηκαν αμέσως. άρχισε πάλι να φωνάζει, ένας νέος θεός είχε εμφανιστεί.

αν το κοιτάξετε επιπόλαια, θα βρείτε σούπερ υψηλές αξιολογήσεις με τη λέξη «τι». "simply awesome!", "το πιο κοντινό στην ανθρώπινη λογική"。

πολλοί φίλοι μας μάλιστα ήρθαν στα παρασκήνια μας και είπαν με συγκίνηση, o1, πράγματι έχεις κάτι.

ακούγεται φοβερό; προφανώς και οι ίδιοι το openai αισθάνονται το ίδιο.。

το συγκεκριμένο χρηματικό ποσό που δαπανήθηκε για το openai δεν έχει ανακοινωθεί, αλλά από τη χρήση των χρηστών, φαίνεται ξεκάθαρα ότι αυτό το πράγμα κοστίζει πολλά χρήματα.

o1 προεπισκόπηση $15 ανά εκατομμύριο εισροών, $60 ανά εκατομμύριο εκροών

αυτό που είναι ανοιχτό στους χρήστες αυτή τη φορά δεν είναι καν μια πλήρης έκδοση, αλλά μια πρώιμη έκδοση προεπισκόπησης και μια μικρή ευνουχισμένη έκδοση.

ακόμα κι αν μόλις το δοκιμάζετε για πρώτη φορά, όχι μόνο δεν είναι δωρεάν, αλλά ακόμα κι αν πληρώσετε για να γίνετε μέλος, ο αριθμός των ερωτήσεων και των απαντήσεών σας θα είναι περιορισμένος.η έκδοση προεπισκόπησης έχει μόνο 30 καταχωρήσεις την εβδομάδα και η μίνι έκδοση έχει μόνο 50 καταχωρήσεις την εβδομάδα. . .

αν και είναι λίγο ακριβό, σίγουρα δεν μπορούμε να αφήσουμε το openai να καυχιέται για αυτό που λέει.

δεν είπαν ότι ήταν κάτι παραπάνω από γιατρός;ο κακός κριτικός άνοιξε μερικούς λογαριασμούς και βρήκε μερικούς γιατρούς για να το δοκιμάσουν προσωπικά.。

προκειμένου να διασφαλίσουμε τον επαγγελματισμό και την αντικειμενικότητα, προσκαλέσαμε ειδικά διδάκτορες από τρεις επιστημονικούς και ολοκληρωμένους κλάδους να συμμετάσχουν στην αξιολόγηση, συμπεριλαμβανομένης της βιολογίας, της φυσικής στερεάς κατάστασης, της χημείας των υλικών κ.λπ.

σε,ναντζίνγκφυσική στερεάς κατάστασης στο πανεπιστήμιοη αξιολόγηση που δόθηκε από τον δρ. cui είναι η υψηλότερη μεταξύ πολλών ανθρώπων. νιώθει ότι το ο1 έχει φτάσει στο επίπεδο των 60-80 πόντων (από 100).

ακόμη και μερικές απαντήσεις μπορούν να λάβουν 90 βαθμούς.

η πρώτη ερώτηση από τον dr. cui:κατανομή μπερδεμένων φωτονίων σε μεγάλες αποστάσεις υπάρχει κάποιος τρόπος να ξεπεραστεί ο λευκός θόρυβος;

σε περίπου 9 δευτερόλεπτα, το o1 έδωσε 10 εφικτά μέτρα.

φυσικά, ούτε ένα σημείο δεν μου είναι ξεκάθαρο. ωστόσο, η αξιολόγηση του dr. cui είναι αποδεκτή: οι απαντήσεις είναι περιεκτικές, σύμφωνα με την τελευταία υπάρχουσα ερευνητική πρόοδο και είναι απαντήσεις δημοφιλούς επιστήμης.

μεταξύ αυτών, η κατεύθυνση της προσαρμοστικής οπτικής που αναφέρθηκε είναι ακόμη και το τελευταίο επιστημονικό επίτευγμα φέτος.

συγκρίνοντας το με την παλιά έκδοση 4o, μπορώ να διακρίνω αμέσως τη διαφορά.

μην πείτε αν αναφέρθηκε η νέα κατεύθυνση ή όχι, απλώς δόθηκε.ως προς τον αριθμό των μέτρων, υπάρχει μεγάλη διαφορά。

έτσι αργότερα, ρωτήσαμε συγκεκριμένα για τη νέα κατεύθυνση της προσαρμοστικής οπτικής:ποια αρχή της κβαντικής εμπλοκής χρησιμοποιείται για τη βελτίωση της αναλογίας σήματος προς θόρυβο; μπορεί να επεκταθεί στην κβαντική προσαρμοστική οπτική;

μετά από αρκετούς γύρους απαντήσεων, ο δρ cui έδωσε υψηλή βαθμολογία 80-90 βαθμών, επίσης, μου παραδέχτηκε γενναιόδωρα ότι μέρος της σκέψης ήταν το αδύνατο σημείο του και χρησίμευσε ως ένδειξη για την κατεύθυνσή του.

ωστόσο, όταν ρωτήσαμε περαιτέρω αργότερα, το πρόβλημα αποκαλύφθηκε. όταν ερωτηθείτε για πιο δύσκολες πειραματικές λεπτομέρειες, η αποτελεσματικότητα της απάντησης του o1 θα μειωθεί.

αλλά συνολικά, από άποψη φυσικής, η απόδοση του o1 είναι αρκετά καλή. σε σύγκριση με την παλιά έκδοση, η βελτίωση είναι βασικά περίπου 20 πόντους.

ωστόσο, στο τεστ του openai, η φυσική έχει την υψηλότερη βαθμολογία. έτσι φέραμε άλλο ένααναγνωστικό υλικό του πανεπιστημίου του πεκίνουχημική ουσίαο δρ κ, θέλω να κάνω μερικές σκληρές ερωτήσεις για τη χημεία, η οποία έχει τη χαμηλότερη βαθμολογία.

ο γιατρός κ περιβάλλειfe-n4 έγινε μια σειρά ερωτήσεων και η o1 έδωσε μια μακρά λίστα απαντήσεων, για να απλοποιήσουμε τον χώρο, δείχνουμε μόνο μερικές από τις ερωτήσεις και τα αποτελέσματα.

μετά το συνολικό τεστ, η αξιολόγηση του δρ κ ήταν παρόμοια: μπορεί να έχει πτυχίο, αλλά η εις βάθος κατανόηση και η ικανότητά του να δίνει λύσεις είναι σχετικά αδύναμες και απαντά κυρίως σε ερωτήσεις που βασίζονται σε γνωστό περιεχόμενο.

για παράδειγμα, όταν ρωτήθηκε πώς να ρυθμίσετε το fe-n4, το o1 μπορεί να πει ότι βασίζεται σε ηλεκτρονική ρύθμιση κατάστασης, αλλά τι γίνεται αν το ρωτήσετεπροσαρμόζω, κολλάει λίγο.

αν και υπάρχουν λιγότερες ανοησίες από το gpt4o, κανένας από τους δύο δεν μπορεί να δώσει πολλές συμβουλές για συγκεκριμένα θέματα.

εκτός από αυτά τα δύο, η βιολογία είναι σίγουρα απαραίτητη στην τρίτη επιστήμη και τα περιεκτικά μαθήματα.

συμβουλευτήκαμε επίσηςο δρ xin από το πανεπιστήμιο tsinghua, σπουδάζοντας βιολογία, η ερώτησή του είναι: " πώς να διακρίνετε τη γαλακτυλίωση και την τροποποίηση καρβοξυαιθυλίου των υπολειμμάτων λυσίνης από ένα σύνολο δεδομένων φασματομετρίας μάζας; ”

αν και δεν το κατάλαβα, ο ο1 έδωσε επίσης μια πολύ μεγάλη απάντηση, η οποία έμοιαζε με κριτική σε χαρτί, με παραπομπές επισυναπτόμενες στο τέλος.

αλλά απροσδόκητα, όταν δώσαμε αυτή την απάντηση στον δρ. xin, διαπίστωσε ότι κάτι δεν πήγαινε καλά αφού το διάβασε και ήταν ένα πραγματικό πρόβλημα με την πρώτη ματιά.

δεν είναι ότι οι απαντήσεις του ai ήταν όλες λάθος. αν το φτιάξετε τυχαία στις αναφορές, αυτό το χαρτί δεν υπάρχει καθόλου!

αν και έχει υποστεί επεξεργασία, δεν έχει υποστεί πλήρη επεξεργασία, το πανεπιστήμιο δρ. tsinghua εξακολουθεί να πιστεύει ότι είναι πολύ καλύτερο από το προηγούμενο ai. τουλάχιστον η ικανότητα κατανόησης είναι ορατή με γυμνό μάτι . . .

ωστόσο, υπάρχουν διαφορές στην αξιολόγηση των διδακτορικών τίτλων σε διαφορετικές κατευθύνσεις, οι οποίες μπορεί επίσης να σχετίζονται με τους τομείς εμπειρογνωμοσύνης του ίδιου του o1.

κρίνοντας από τις επίσημες βαθμολογίες συνολικής επιστήμης, αν και το gpt4o έχει υψηλότερη βαθμολογία στη βιολογία από τη χημεία και τη φυσική, αυτή τη φορά το o1 είναι εντελώς διαφορετικό.

η βαθμολογία του o1 στη φυσική έφτασε το 92,8, που είναι πολύ υψηλότερο από τα άλλα δύο θέματα.

σε γενικές γραμμές, όταν πρόκειται για την υπέρβαση του επαγγελματικού διδακτορικού επιπέδου, οι γιατροί πιστεύουν ότι εξακολουθεί να είναι απαραίτητο να επιβραδυνθεί.

ο δρ cui είπε ωμά ότι στην πραγματική επιστημονική έρευνα, οι μελετητές πρέπει να το κάνουν μόνοι τους στις περισσότερες περιπτώσεις η τεχνητή νοημοσύνη μπορεί να παρέχει μόνο γενικές κατευθύνσεις, επομένως δεν έχει νόημα να ξοδεύουμε χρήματα σε τόσο λεπτομερή τεχνητή νοημοσύνη.

αυτόςσυνιστάται περισσότερο για προπτυχιακούς φοιτητέςεάν επιλέξετε αυτό το ai, εάν είστε σε μεταπτυχιακό ή διδακτορικό επίπεδο, τότε οι απαντήσεις του ai στην πραγματικότητα δεν πληρούν τα πρότυπα του εκπαιδευτή και σίγουρα θα δεχθείτε κριτική στη συνάντηση της ομάδας.

ο δρ xin από το πανεπιστήμιο tsinghua έχει επίσης αυτή την άποψη, για να μην αναφέρουμε το θέμα της βιβλιογραφίας για την κατασκευή παραισθήσεων, όσον αφορά το επαγγελματικό επίπεδο, η απάντηση του ai είναι επίσης.μπορείς μόνο να ξεγελάσεις τους συναδέλφους σου, δηλαδή, άτομα με διαφορετικές κατευθύνσεις στην ίδια κύρια πειθαρχία, αλλά στα μάτια των κατώτερων συναδέλφων και των ανθρώπων που ειδικεύονται σε αυτή την κατεύθυνση, οι ελλείψεις της τεχνητής νοημοσύνης είναι ακόμα πολύ εμφανείς.

ο δρ κ από το πανεπιστήμιο του πεκίνου προχώρησε περισσότερο σε βάθος. πιστεύει ότι αυτή η τεχνητή νοημοσύνη μπορεί να ειπωθεί ότι έχει το επίπεδο ενός μεταπτυχιακού μαθητή στη γνώση, αλλά είναι απλώς ένα τεχνικό και δεν μπορεί να πει τίποτα για δημιουργικά επιτεύγματα.από πλευράς δημιουργικότητας, η τεχνητή νοημοσύνη είναι πολύ κατώτερη από το επίπεδο ενός μεταπτυχιακού., το οποίο είναι επίσης ένα σημαντικό πρόβλημα που πρέπει να λύσει η τεχνητή νοημοσύνη.

στις αξιολογήσεις των γιατρών, φαίνεται ότι μπορούμε να καταλάβουμε ένα σημαντικό σημείο: ο λόγος για τον οποίο το μοντέλο o1 είναι σχετικά ισχυρότερο είναι επειδή έχει ένα υψηλότερης διάστασης γνωστικό και σκεπτικό μοντέλο.

αυτό είναι επίσης το κύριο σημείο αυτής της ενημέρωσης του o1. βρήκαμε το άρθρο learning to reason with llms στον επίσημο ιστότοπο openai δήλωσαν στο άρθρο ότι ο κύριος λόγος ήταν ότι χρησιμοποίησαν μια μακρά αλυσίδα σκέψης (cot, chain of thought) αντί της παραδοσιακής αλυσίδας προτροπής (prompt chain). .

εκ πρώτης όψεως, φαίνεται λίγο μπερδεμένο, για να το πω ευθέως, αυτό το μεγάλο μοντέλο άλλαξε τον προηγούμενο τρόπο σκέψης εκεί που ρώτησες και απάντησα.

στην προηγούμενη λειτουργία, η ερώτηση και η απάντηση για τα μεγάλα μοντέλα ήταν το ίδιο με το να γνωρίζω την απάντηση υποσυνείδητα, για παράδειγμα, αν με ρωτούσατε τι χρώμα είναι ο ουρανός, θα απαντούσα αμέσως στο μπλε χωρίς καν να το σκεφτώ. αυτό απαιτεί στην πραγματικότητα να γνωρίζω ήδη αυτό το σημείο γνώσης και στη συνέχεια να σας δώσω μια άμεση απάντηση.

αλλά αυτή η μακρά αλυσίδα σκέψης ισοδυναμεί όχι μόνο με το να γνωρίζουμε τι είναι το μπλε, αλλά και να συλλογιστούμε γιατί είναι μπλε, την ατμοσφαιρική σκέδαση και τα φασματικά μήκη κύματος, τα οποία πρέπει να ληφθούν υπόψη.

αυτό απαιτεί η τεχνητή νοημοσύνη να έχει την ικανότητα να κατασκευάζει πραγματικά λογική και συλλογιστική και επιχειρηματολογία, δεν χρειάζεται μόνο να μεγαλώσει τον εγκέφαλό του, αλλά πρέπει επίσης να χρησιμοποιήσει τον εγκέφαλό του.

αν και η έννοια της αλυσίδας σκέψης προτάθηκε από την google το 2022, το openai ήταν το πρώτο που την εφάρμοσε αυτή τη φορά.

κατά τη διάρκεια της πραγματικής λειτουργίας, τώρα που μιλάτε με το μοντέλο o1, εκτός από το να λαμβάνετε απαντήσεις, μπορείτε επίσης να επιλέξετε να επεκτείνετε και να δείτε τη λογική σκέψης του όταν απαντά σε ερωτήσεις η σκέψη του είναι συγκεκριμένη και όχι μαύρο κουτί.

για παράδειγμα, ας πάρουμε την ερώτηση του dr. cui "υπάρχει κάποιος τρόπος να ξεπεραστεί ο λευκός θόρυβος στην κατανομή εμπλεκόμενων φωτονίων σε μεγάλες αποστάσεις η διαδικασία σκέψης του μοντέλου o1 είναι η εξής:"

ωστόσο, όπως μπορεί να ανατρέψει προβλήματα σε επαγγελματικούς τομείς, φαίνεται ότι μερικές απλές ερωτήσεις σε καθημερινά σενάρια μπορεί επίσης να το παραγκωνίσουν.

πάρτε το προηγούμενο παράδειγμα της κλασικής σύγκρισης μεταξύ 9.11 και 9.8, ο xiaohongshu, ο δικτυακός χρήστης @小水 ανακάλυψε ότι αυτό το πράγμα "καταρρέει μόλις φτάσει η δυσκολία... ένας άπειρος βρόχος και σπρώχνει την αλυσίδα της σκέψης. (cot) σαν τρελός"

το συντακτικό μας τμήμα ανακάλυψε επίσης αυτό το πρόβλημα κατά τη διάρκεια της δικής του αξιολόγησης, αλλά όταν ρωτήθηκε γιατί, θα απαντούσε αμέσως ότι η συλλογιστική του ήταν λανθασμένη και στη συνέχεια θα το επαναλάβει.

εντάξει, εντάξει, όπως αναμένεται από έναν γιατρό, καλό στο να βρίσκει λάθη, σωστά;

μετά από έναν ολόκληρο κύκλο δοκιμών, ο αρνητικός κριτής πρέπει να παραδεχτεί ότι έχει πράγματι βελτιωθεί πολύ. αφού βλεπόμασταν για τρεις μέρες, θα πρέπει πραγματικά να κοιτάξουμε ο ένας τον άλλον με θαυμασμό.

όσον αφορά το αποτέλεσμα, είναι πράγματι καλύτερο από την προηγούμενη γενιά, καιη εφαρμογή της μακροπρόθεσμης σκέψης είναι κάτι καλό για τη μελλοντική ανάπτυξη της τεχνητής νοημοσύνης.

αλλά αφού αρκετοί γιατροί το μαστίγωσαν, τα προβλήματά του αποκαλύφθηκαν ξεκάθαρα σε ορισμένες πτυχές, όπως η δημιουργικότητα.δεν μπορεί να αντικαταστήσει τους ειδικούς του διδακτορικού。

ωστόσο, ο noam brown, ένας ερευνητής στο openai, αποκάλυψε ότι οι μελλοντικές εκδόσεις του o1 θα σκέφτονται για ώρες, ημέρες ή ακόμη και εβδομάδες.

επιπλέον, νομίζω ότι το μοντέλο της αλυσίδας σκέψης που εφαρμόστηκε από το gpt o1 είναι πιθανό να μοιάζει με την προηγούμενη αρχιτεκτονική transformer και αρχιτεκτονική dit.οδηγώντας τον κόσμο προς την κατεύθυνση των μεγάλων μοντέλων。

επομένως, ο δρόμος για την agi δεν είναι κοντά, αλλά δεν είναι και μακριά.

γράψτε ένα άρθρο：naxi & big four

εκδίδω ：jiang jiang & noodles

art editor :χουανιάν

εικόνες, πηγές : openai, x, ibm, xiaohongshu, κ.λπ., δίκτυο πηγής εικόνας

νέα

είναι το νέο μοντέλο του openai συγκρίσιμο με ένα διδακτορικό; ζήτησα από τον γιατρό qingbei να το γευτεί: ξύπνα.

εισαγωγή

τα στοιχεία επικοινωνίας μου