η αξιολόγηση του νέου μοντέλου o1 του openai σε πέντε κύριες διαστάσεις: κωδικοποίηση, παραγωγή παιχνιδιών και άλλες ικανότητες είναι "καταπληκτική", αλλά η πραγματική γνώση "ανατρέπεται"

η αξιολόγηση του νέου μοντέλου o1 του openai σε πέντε διαστάσεις: κωδικοποίηση, παραγωγή παιχνιδιών και άλλες ικανότητες είναι «καταπληκτική», αλλά οι πραγματικές γνώσεις «ανατρέπονται»

2024-09-18

το θρυλικό μοντέλο «strawberry» μπήκε ξαφνικά σήμερα στο διαδίκτυο χωρίς καμία προειδοποίηση!

το τελευταίο μοντέλο που κυκλοφόρησε από το openai ονομάζεται o1, το οποίο είναι η πρώτη έκδοση μιας σειράς μοντέλων συμπερασμάτων επί του παρόντος, το μοντέλο που κυκλοφόρησε είναιo1-preview (έκδοση προεπισκόπησης) και o1-mini (έκδοση μίνι）。

επί του παρόντος, το o1-preview και το o1-mini είναι ήδη διαθέσιμα στους συνδρομητές chatgpt plus και team, ενώ οι χρήστες enterprise και edu θα αποκτήσουν πρόσβαση στις αρχές της επόμενης εβδομάδας. η openai είπε ότι σχεδιάζει να παρέχει πρόσβαση o1-mini σε όλους τους δωρεάν χρήστες του chatgpt, αλλά δεν έχει ορίσει ακόμη ημερομηνία κυκλοφορίας.

σύμφωνα με το openai, το μοντέλο o1 είναι πιο κοντά στην ανθρώπινη σκέψη από οποιοδήποτε προηγούμενο μοντέλο όσον αφορά τις ικανότητες επίλυσης προβλημάτων και είναι σε θέση να «λογικεύει» για μαθηματικές, κωδικοποιητικές και επιστημονικές εργασίες.

προκειμένου να επαληθευτεί αν οι δυνατότητες του νέου μοντέλου είναι τόσο ισχυρές όσο ισχυρίζεται το openai, ένας δημοσιογράφος της "daily economic news"από το κλασικό "strawberry test"”το μοντέλο ο1-προεπισκόπηση δοκιμάστηκε σε πέντε διαστάσεις: , σύνταξη κώδικα, παραγωγή μίνι παιχνιδιών, μαθηματικά και οικονομικά και πραγματικές γνώσεις.

τα αποτελέσματα έδειξαν ότι το o1-preview έδειξε δυνατότητες προγραμματισμού και μαθηματικού συλλογισμού που ξεπερνούσαν τα μεγάλα μοντέλα του openai που κυκλοφόρησαν προηγουμένως. για παράδειγμα, o1-πρεμιέραδυνατότητα να γράψετε κώδικα που εκτελείται ομαλά και να λογοδοτείτε μόνοι σας για λύσεις σε πολύπλοκα περιβάλλοντα. επιπλέον, ο ρεπόρτερ αισθάνθηκε επίσης κατά τη διάρκεια της διαδικασίας δοκιμής ότι η προεπισκόπηση o1 έχει επίσης βελτιωθεί σημαντικά όσον αφορά τον εξανθρωπισμό, δείχνοντας τη σκέψη σε πραγματικό πρόσωπο. ωστόσο, το νέο μοντέλο δεν στερείται ελλείψεων, και «ανετράπη» στο τεστ πραγματογνωμοσύνης.

το θρυλικό «strawberry» είναι εδώ

στις 12 σεπτεμβρίου, τοπική ώρα, το openai κυκλοφόρησε ένα νέο μοντέλο που ονομάζεται o1, το οποίο είναι η πρώτη έκδοση μιας σειράς μοντέλων «συμπερασμάτων» που σχεδιάζει να χρησιμοποιήσει. είναι επίσης το μοντέλο «φράουλα» που φημολογείται στη βιομηχανία πολύ καιρό.

πηγή εικόνας: x platform

για το openai, το o1 αντιπροσωπεύει ένα άλλο βήμα προς τον στόχο του για ανθρώπινη τεχνητή νοημοσύνη. η openai πιστεύει ότι το o1 αντιπροσωπεύει μια εντελώς νέα δυνατότητα, μια ικανότητα που θεωρείται τόσο σημαντική που η εταιρεία αποφάσισε να ξεκινήσει από την αρχή από το τρέχον μοντέλο gpt-4, εγκαταλείποντας εντελώς την επωνυμία "gpt" και ονομάζοντάς την από το 1.

το openai λέει ότι θα ξεκινήσει από την αρχή με το τρέχον μοντέλο gpt-4, «επαναφέροντας τον μετρητή στο 1» και εγκαταλείπει ακόμη και την επωνυμία «gpt» που έχει ορίσει μέχρι στιγμής τα chatbots και ολόκληρη την τρέλα της γενετικής τεχνητής νοημοσύνης.η o1 έχτισε ένα σύστημα που μπορεί να λύνει προβλήματα προσεκτικά και λογικά μέσα από μια σειρά διακριτών βημάτων, κάθε βήμα βασίζεται στο προηγούμενο βήμα, παρόμοια με τον τρόπο που συλλογίζονται οι άνθρωποι.

ο επικεφαλής επιστήμονας του openai jakub pachocki είπε ότι τα προηγούμενα μοντέλα θα άρχιζαν αμέσως να απαντούν σε ερωτήσεις χρηστών όταν τα έλαβαν. "και αυτό το μοντέλο (αναφερόμενος στο o1) παίρνει το χρόνο του. σκέφτεται το πρόβλημα και προσπαθεί να το αναλύσει, να βρει γωνίες και να προσπαθήσει να δώσει την καλύτερη απάντηση ήταν νέοι, σκεφτείτε πριν μιλήσετε.

το openai είπε,το o1 κατατάσσεται στο 89ο εκατοστημόριο σε ανταγωνιστικά προβλήματα προγραμματισμού (codeforces), μεταξύ των κορυφαίων 500 μαθητών στις ηνωμένες πολιτείες στα προκριματικά της αμερικανικής ολυμπιάδας μαθηματικών (aime) και στο τεστ ακρίβειας για προβλήματα φυσικής, βιολογίας και χημείας (gpqa) που υπερβαίνει το ανθρώπινο επίπεδο ph.d。

σε έρευνες και αναρτήσεις ιστολογίου που δημοσιεύονται από το openai, το o1 φαίνεται να έχει πολύ ισχυρές δυνατότητες «συλλογισμού» όχι μόνο μπορεί να λύσει προηγμένα μαθηματικά και προβλήματα κωδικοποίησης, αλλά και να αποκρυπτογραφήσει σύνθετους κωδικούς πρόσβασης και να απαντήσει σε ερωτήσεις ειδικών και μελετητών σχετικά με τη γενετική, την οικονομία και την κβαντική επιστήμη. πολύπλοκα προβλήματα στη φυσική. ένας μεγάλος αριθμός διαγραμμάτων το δείχνει αυτόσε εσωτερικές αξιολογήσεις, το o1 έχει ξεπεράσει το gpt-4o, το πιο προηγμένο γλωσσικό μοντέλο της εταιρείας, σε προβλήματα κωδικοποίησης, μαθηματικών και διαφόρων επιστημονικών πεδίων, και μπορεί ακόμη και να έχει ξεπεράσει τους ανθρώπους.

πηγή εικόνας: επίσημος ιστότοπος openai

πέντε διαστάσεις της πραγματικής δοκιμής: η κωδικοποίηση, η παραγωγή παιχνιδιών και άλλες ικανότητες είναι «καταπληκτικές», αλλά «απέτυχαν» στο τεστ πραγματικών γνώσεων

προκειμένου να κατανοήσουν βαθύτερα τις ισχυρές δυνατότητες του μοντέλου o1, οι δημοσιογράφοι από την "daily economic news" δοκίμασαν το μοντέλο o1-preview από πέντε διαστάσεις: κλασική δοκιμή φράουλας, σύνταξη κώδικα, παραγωγή μίνι παιχνιδιών, μαθηματικά και οικονομικά, και πραγματική γνώση.

1) δοκιμή φράουλας

πρώτα από όλα, ο ρεπόρτερ έκανε ένα τεστ χρησιμοποιώντας μια απλή ερώτηση που σχεδόν όλα τα μεγάλα μοντέλα έχουν «αναποδογυρίσει» στο παρελθόν, δηλαδή «πόσα r υπάρχουν στη λέξη φράουλα;».”. κρίνοντας από τα αποτελέσματα που δημιουργήθηκαν, το o1-preview έφερε μια μικρή έκπληξη.

2) συγγραφή κώδικα

ο δημοσιογράφος ρώτησε αρχικά το o1-preview για την πιο διάσημη ερώτηση απλού αλγορίθμου στην διαδικτυακή πλατφόρμα προγραμματισμού leetcode: το πρόβλημα two sum (άθροισμα δύο αριθμών). ο1 έδωσε μια πολύ λεπτομερή συλλογιστική διαδικασία και απαντήσεις.

στη συνέχεια, ο δημοσιογράφος ζήτησε σκόπιμα να βελτιστοποιήσει την απάντηση, αφού σκέφτηκε για 9 δευτερόλεπτα, ο o1 συνειδητοποίησε ότι αυτό που έδωσε ήταν ήδη η βέλτιστη λύση, και το εξήγησε, επιπλέον, έδωσε επίσης μια μη βέλτιστη λύση. σε προηγούμενες δοκιμές άλλων μοντέλων από δημοσιογράφους, αυτά τα μοντέλα ζητούσαν μόνο συγγνώμη και στη συνέχεια άλλαζαν την απάντηση σε μια μη βέλτιστη λύση.

3) παραγωγή mini game

στην επίδειξη του μοντέλου o1, το openai έδειξε τη λειτουργία της "γραφής ενός μίνι παιχνιδιού σε μια πρόταση". κατά τη διάρκεια της διαδικασίας δοκιμής, ο δημοσιογράφος ζήτησε από το o1-preview να βοηθήσει στην εισαγωγή χρήσιμων εργαλείων κωδικοποίησης και να βοηθήσει στη σύνταξη ενός παιχνιδιού πινγκ πονγκ.

χρειάστηκαν μόνο 19 δευτερόλεπτα για την προεπισκόπηση o1 για να παράσχει έναν κώδικα που να μπορεί να εκτελείται ομαλά και επισυνάπτεται ένας οδηγός μελέτης και ενθαρρυντικά λόγια, που είναι πολύ φιλικό προς το χρήστη.

προκειμένου να αποφευχθεί η εξαπάτηση του o1-preview και η χρήση της ικανότητας μνήμης αντί της ικανότητας λογικής απάντησης, ο δημοσιογράφος ζήτησε επίσης από το o1-preview για να αλλάξει το περιβάλλον εκτέλεσης κώδικα: jupyter note. αυτό το περιβάλλον λειτουργίας είναι ένα περιβάλλον python εξειδικευμένο για ανάλυση δεδομένων οι προγραμματιστές βασικά δεν θα χρησιμοποιήσουν αυτό το περιβάλλον για την ανάπτυξη μικρών παιχνιδιών.

αφού το σκέφτηκε, το o1 έδωσε ακόμα έναν κωδικό που μπορεί να τρέξει. ωστόσο, σε σύγκριση με τον προηγούμενο κώδικα, αυτή η απάντηση έχει πολλά σφάλματα, αλλά αυτό δείχνει επίσης ότι αυτή είναι όντως μια μελετημένη απάντηση και όχι μια τυπική απάντηση που προστέθηκε κατά τη διάρκεια της εκπαιδευτικής διαδικασίας.

προκειμένου να επαληθεύσει περαιτέρω τις καινοτόμες συλλογιστικές δυνατότητες του o1-preview, ο δημοσιογράφος ζήτησε από το μοντέλο να αναπτύξει ένα πιο σύνθετο και ενδιαφέρον μίνι παιχνίδι με βάση αυτό το μίνι παιχνίδι.

αυτή τη φορά, η απόδοση του o1 είναι πραγματικά λίγο έκπληξη. με βάση τον μηχανισμό σύγκρουσης του παιχνιδιού πινγκ πονγκ, αυτό το μοντέλο επαναλαμβάνει ένα παιχνίδι άλματος προς τα πάνω. γενικά, άλλα μεγάλα μοντέλα απαιτούν από τους χρήστες να περιγράψουν τις ανάγκες τους με σαφήνεια προτού μπορέσουν να δώσουν μια καλύτερη απάντηση διασκεδαστικό παιχνίδι.

4) τεστ επιστήμης

όσον αφορά τα τεστ επιστήμης, ο δημοσιογράφος επικεντρώθηκε στη δοκιμή της απόδοσης του o1-preview στα μαθηματικά και τα οικονομικά.

πρώτα απ 'όλα, ο δημοσιογράφος έκανε μια ερώτηση μαθηματικού συλλογισμού.o1-προεπισκόπησηρωτήστε για πιθανούς τρόπους επίλυσης της έκρηξης πεπερασμένου χρόνου της εξίσωσης euler (αυτό είναι ένα άρθρο συζήτησης που δημοσιεύτηκε μόλις αυτή την εβδομάδα από τον καθηγητή terence teru, τον διάσημο κινέζο μαθηματικό και νικητή του fields medal).

αν και το o1 δεν δίνει μια σαφή λύση, παρέχει μια ιδέα για την επίλυση του προβλήματος.αυτή η ιδέα είναι εν μέρει συνεπής με το άρθρο του καθηγητή tao zhexuan (αν και πολύ λίγο)。

στην κατεύθυνση των οικονομικών, ο δημοσιογράφος ρώτησε το o1-preview για ένα περίπλοκο ζήτημα του οικονομικού συστήματος. από τα σχόλια που δόθηκαν,βασικά δεν υπάρχουν μεγάλα προβλήματα η συνολική λογική είναι σαφής και οι διαστάσεις της σκέψης είναι επίσης διαφορετικές.。

5) πραγματική γνώση και γλωσσική κατανόηση

σε αυτή τη συνεδρία, ο δημοσιογράφος ρώτησε το o1-preview για ενδιαφέροντα ανέκδοτα για τον πρώτο αυτοκράτορα της δυναστείας μινγκ, αλλά ο o1 ερμήνευσε τα ανέκδοτα ως πράγματα που συνέβησαν στην πραγματικότητα στην ιστορία και αφηγήθηκε ολόκληρη την ιστορική ιστορία του zhu yuanzhang.

ταυτόχρονα, ο ρεπόρτερ έριξε επίσης αυτή την ερώτηση στο μοντέλο gpt-4o ως σύγκριση, το gpt-4o μπορούσε να καταλάβει καλά την ερώτηση του δημοσιογράφου και είπε δύο λαϊκές ιστορίες ευρέως διαδεδομένες.

ολικός,ο ισχυρισμός του openai ότι το μοντέλο o1 μπορεί να προσεγγίσει το ανθρώπινο επίπεδο φαίνεται να ισχύει σε ορισμένες πτυχές.。

αυτό που εξέπληξε περισσότερο τον ρεπόρτερ ήταν ότι το openai έδειξε στον χρήστη τη διαδικασία της μοντελοποίησης σε κείμενο κατά τη διάρκεια της διαδικασίας σκέψης κειμένου, το μεγάλο μοντέλο χρησιμοποίησε πολύ "το κάνω".”λέξεις όπως "νομίζω" και "σχεδιάζω" αισθάνονται πιο ανθρωπόμορφες, όπως ένα πραγματικό άτομο που εξηγεί τη λογική σκέψης του μπροστά στον χρήστη.

αυτό όμως δεν σημαίνει ότι το μοντέλο o1 είναι τέλειο.το openai παραδέχτηκε επίσης ότι το o1 είναι πολύ κατώτερο από το gpt-4o όσον αφορά τη σχεδίαση, τη γραφή και την επεξεργασία κειμένου.το o1 δεν έχει επίσης τη δυνατότητα να περιηγηθεί στον ιστό ή να επεξεργαστεί αρχεία και εικόνες.

το πιο ενοχλητικό πράγμα για τους δημοσιογράφους είναι ότι ακόμη και για ένα πολύ απλό αίτημα, όπως η μετατροπή των αποτελεσμάτων εξόδου σε κινέζικα, το o1 θα αφιερώσει περισσότερα από δέκα δευτερόλεπτα για να το σκεφτεί, ενώ το gpt4o θα χειριστεί γρήγορα το αίτημα.

ακόμη και στις πλεονεκτικές περιοχές του openai, το μοντέλο o1 θα παρουσιάσει ξαφνικά υποβάθμιση της απόδοσης και η απόδοση του μοντέλου θα είναι τεμπέλης.ο karpathy, ο ιδρυτής του openai που παραιτήθηκε, παραπονέθηκε: "αρνήθηκε να λύσει την υπόθεση riemann για μένα. η τεμπελιά του μοντέλου εξακολουθεί να είναι ένα σημαντικό πρόβλημα."

η openai είπε ότι η εταιρεία θα αντιμετωπίσει αυτά τα ζητήματα σε επόμενες ενημερώσεις, σε τελική ανάλυση, αυτή είναι απλώς μια πρώιμη προεπισκόπηση του μοντέλου συμπερασμάτων.

καθημερινά οικονομικά νέα

αναφορά/σχόλια

νέα

το θρυλικό «strawberry» είναι εδώ

εισαγωγή

τα στοιχεία επικοινωνίας μου