το μοντέλο openai o1 βγαίνει, το agi πέντε επιπέδων ξεσπά ξανά! ένας σούπερ γιατρός με ακραία συλλογιστική, ένας κινέζος από το πανεπιστήμιο fudan στη βόρεια δυναστεία qing έχει κάνει αξιοπρεπείς πράξεις

το μοντέλο openai o1 βγαίνει, το agi πέντε επιπέδων ξεσπά ξανά! ένας άντρας με πτυχίο σούπερ γιατρού στο συλλογισμό, ένας κινέζος από το πανεπιστήμιο fudan στη βόρεια δυναστεία qing που έχει κάνει αξιοπρεπείς πράξεις

2024-09-13

μόλις τώρα, τα πιο ισχυρά μοντέλα της σειράς o1 του openai ήρθαν ξαφνικά στο διαδίκτυο. χωρίς προειδοποίηση, το openai έριξε αυτή τη βροντή.

το μοντέλο φράουλας, το οποίο λέγεται ότι θα είναι online μέσα σε δύο εβδομάδες, έφτασε στην πραγματικότητα σε δύο ημέρες!

από σήμερα, η προεπισκόπηση o1 θα κυκλοφορήσει σε όλους τους χρήστες plus και team στο chatgpt και σε προγραμματιστές 5ης βαθμίδας στο api.

την ίδια στιγμή, το openai κυκλοφόρησε επίσης το o1-mini - ένα οικονομικό μοντέλο συμπερασμάτων που είναι πολύ καλό στο stem, ειδικά στα μαθηματικά και την κωδικοποίηση.

το μοντέλο o1 εξακολουθεί να έχει ελαττώματα και περιορισμούς και είναι πιο εντυπωσιακό κατά την πρώτη χρήση παρά μακροπρόθεσμα.

η απόδοση της νέας σειράς o1 στη σύνθετη συλλογιστική έχει αυξηθεί σε ένα εντελώς νέο επίπεδο.

σε μια σειρά δοκιμών αναφοράς, το o1 σημείωσε για άλλη μια φορά τεράστια βελτίωση σε σύγκριση με το gpt-4o, έχει την ικανότητα να κερδίσει ένα χρυσό μετάλλιο στη μαθηματική ολυμπιάδα σε δοκιμές αναφοράς σε προβλήματα φυσικής, βιολογίας και χημείας. επίπεδο ανθρώπινων διδακτορικών!

ο ερευνητής του openai jason wei είπε ότι το o1-mini είναι το πιο εκπληκτικό ερευνητικό αποτέλεσμα που έχει δει τον περασμένο χρόνο. ένα μικρό μοντέλο πέτυχε στην πραγματικότητα βαθμολογία πάνω από 60% στον διαγωνισμό μαθηματικών aime.

ωστόσο, κρίνοντας από το παράρτημα στο άρθρο του openai, η προεπισκόπηση και το μίνι που κυκλοφόρησαν αυτή τη φορά φαίνεται να είναι απλώς «ευνουχισμένες εκδόσεις» του o1.

η κλιμάκωση συμπερασμάτων ανοίγει ένα νέο παράδειγμα

ο ανώτερος επιστήμονας της nvidia, jim fan, ανέλυσε περαιτέρω τις αρχές πίσω από το μοντέλο o1.

είπε ότι το νέο παράδειγμα της κλιμάκωσης του χρόνου συμπερασμάτων είναι ευρέως δημοφιλές και αναπτύσσεται. όπως είπε ο sutton στο "a bitter lesson", υπάρχουν μόνο δύο τεχνολογίες που μπορούν να κλιμακώσουν άπειρα την υπολογιστική ισχύ: η μάθηση και η αναζήτηση.

τώρα, ήρθε η ώρα να στρέψουμε την εστίασή μας στο τελευταίο.

1. δεν χρειάζεστε τεράστια μοντέλα για να βγάλετε συμπεράσματα.

2. μεταφέρετε μεγάλο αριθμό υπολογισμών από την προ-εκπαίδευση/μετά-εκπαίδευση σε υπηρεσίες συμπερασμάτων

3. το openai πρέπει να ανακάλυψε πολύ νωρίς τον κανόνα της κλιμάκωσης του συλλογισμού, αλλά η ακαδημαϊκή κοινότητα μόλις πρόσφατα άρχισε να τον ανακαλύπτει.

4. η πρακτική χρήση του o1 είναι πολύ πιο δύσκολη από την καλή απόδοση σε ακαδημαϊκούς δείκτες αναφοράς

5. η φράουλα μπορεί εύκολα να γίνει βολάν δεδομένων

κρίνοντας από την προηγούμενη ταξινόμηση του openai, ο o1 έχει επιτύχει δυνατότητες συλλογιστικής επιπέδου l2.

κάποιος το δοκίμασε και διαπίστωσε ότι ο ο1 έγραψε με επιτυχία ένα πολύ δύσκολο ποίημα στη διαδικασία, ο προγραμματισμός και η σκέψη που απαιτούνταν για να ολοκληρωθεί με επιτυχία αυτή η εργασία ήταν τρελός και ο συλλογιστικός υπολογισμός του χρόνου ήταν πολύ καλός.

ωστόσο, ο ειδικός της τεχνητής νοημοσύνης karpathy παραπονέθηκε μετά τη δοκιμή του o1-mini, "αρνήθηκε να λύσει την υπόθεση riemann για μένα. η τεμπελιά του μοντέλου εξακολουθεί να είναι ένα σημαντικό πρόβλημα, το οποίο είναι πραγματικά λυπηρό."

ο επίκουρος καθηγητής του nyu xie saining προσπάθησε επίσης να δοκιμάσει την κλασική ερώτηση "ποιος είναι μεγαλύτερος, 9.11 ή 9.8; απροσδόκητα, το o1-preview πήρε τη λάθος απάντηση".

το κλασικό πρόβλημα του "πόσα r υπάρχουν στη φράουλα" φυσικά δεν είναι πρόβλημα για το o1.

το big v matthew sabia είπε ότι το πιο τρομακτικό είναι ότι το gpt-5 είναι 69 φορές πιο ισχυρό από το μοντέλο o1. οι απλοί άνθρωποι απλά δεν καταλαβαίνουν τη λογική και τις λογικές ικανότητες των ελεφάντων.

είναι πραγματικά έτοιμοι οι άνθρωποι;

προβλήματα λογικής συλλογιστικής που προκαλούν σύγχυση στους ανθρώπους λύνονται με το o1

όλοι γνωρίζουμε ότι ο λογικός συλλογισμός ήταν ένα δύσκολο βουνό για τα προηγούμενα llm.

αλλά αυτή τη φορά, η ικανότητα του μοντέλου o1 να επιλύει πολύπλοκα λογικά προβλήματα είναι εκπληκτική.

για παράδειγμα, η ακόλουθη λογική ερώτηση -

η ηλικία της πριγκίπισσας είναι ίση με την ηλικία του πρίγκιπα κάποια στιγμή στο μέλλον, όταν η ηλικία της πριγκίπισσας θα είναι διπλάσια από την ηλικία του πρίγκιπα κάποια στιγμή στο παρελθόν και εκείνη τη στιγμή στο παρελθόν, η ηλικία της πριγκίπισσας θα είναι η μισή άθροισμα των σημερινών ηλικιών τους. ποιες είναι οι ηλικίες της πριγκίπισσας και του πρίγκιπα τώρα; δώστε όλες τις λύσεις σε αυτό το πρόβλημα.

αυτή η ερώτηση είναι εξαιρετικά δύσκολο να προφερθεί ακόμα και για τους ανθρώπους, θα χρειαζόταν πολλή προσπάθεια για να μεταφραστεί και να κατανοηθεί σωστά το νόημα της ερώτησης.

συγκλονιστικά, το μοντέλο o1 έδωσε πραγματικά τη σωστή απάντηση μετά από μερικά βήματα σκέψης!

μέσα από βήματα όπως ο καθορισμός μεταβλητών, η κατανόηση προβλημάτων και η επίλυση εξισώσεων, συμπεραίνεται ότι η ηλικία της πριγκίπισσας είναι 8k ετών και η ηλικία του πρίγκιπα είναι 6k ετών, όπου k είναι θετικός ακέραιος.

σε ένα άλλο demo, ο jason wei μας έδειξε πώς η o1 προγραμμάτισε ένα βιντεοπαιχνίδι βασισμένο σε προτροπές.

όπως μπορείτε να δείτε, αντέγραψε την προτροπή στο μοντέλο o1.

στη συνέχεια, το μοντέλο σκέφτηκε για 21 δευτερόλεπτα και έδειξε όλα τα βήματα σκέψης.

στη συνέχεια, δίνεται ο κωδικός στο μοντέλο.

μετά την εκτέλεση του κώδικα, αποδείχθηκε ότι ήταν ένα πολύ ομαλό παιχνίδι!

πετάξαμε ακόμη και ένα σωρό μπερδεμένες κορεατικές προτάσεις στο o1 και του ζητήσαμε να τις μεταφράσει στα αγγλικά, και στην πραγματικότητα το έκανε.

διότι, αν και η πρόταση είναι γραμματικά ασαφής, το o1 εξακολουθεί να την αποκωδικοποιεί βήμα-βήμα.

στο τέλος, ο o1 έδωσε την απάντηση και είπε χιουμοριστικά: κανένας μεταφραστής στον πλανήτη δεν μπορεί να το κάνει, αλλά οι κορεάτες μπορούν εύκολα να το αναγνωρίσουν αυτή είναι μια μέθοδος κρυπτογράφησης των κορεατικών μέσω διαφόρων αλλαγών στα φωνήεντα και τα σύμφωνα.

αντίθετα, το gpt-4o ήταν εντελώς μπερδεμένο και δεν μπορούσε να καταλάβει.

μπορεί να φανεί ότι η σούπερ απόδοση του o1 έχει ανεβάσει τη λογική συλλογιστική σε ένα νέο επίπεδο.

πώς γίνεται;

η ενισχυτική μάθηση κάνει σπουδαία επιτεύγματα, έρχεται η ώρα για το μεγάλο μοντέλο alphago

η διαφορά μεταξύ των μοντέλων της σειράς o1 και του παρελθόντος είναι ότι θα αφιερώσει περισσότερο χρόνο «σκέφτοντας το πρόβλημα» πριν απαντήσει στην ερώτηση, όπως και οι άνθρωποι.

μέσω της εκπαίδευσης, μαθαίνουν να βελτιώνουν τις διαδικασίες σκέψης τους, να δοκιμάζουν διαφορετικές στρατηγικές και να αναγνωρίζουν μόνοι τους τα λάθη.

πίσω από αυτό, ο ισχυρός αλγόριθμος «ενισχυτικής μάθησης» έχει συμβάλει σημαντικά. τότε, όταν το alphago νίκησε ανθρώπους σκακιστές, ο αλγόριθμος rl χρησιμοποιήθηκε πίσω από αυτό.

ολοκληρώνει αποτελεσματική εκπαίδευση με δεδομένα υψηλού επιπέδου και διδάσκει στο llm να σκέφτεται παραγωγικά χρησιμοποιώντας cot.

ο jason wei, ο προγραμματιστής πίσω από την πρόταση του cot και του ερευνητή openai, είπε ότι το o1 δεν ολοκληρώνει το cot αποκλειστικά μέσω προτροπών, αλλά χρησιμοποιεί μοντέλα εκπαίδευσης rl για να επιτύχει καλύτερα την αλυσιδωτή σκέψη.

επιπλέον, η ομάδα openai ανακάλυψε επίσης έναν «νέο νόμο» στο scaling law στο μοντέλο.

η απόδοση του o1 συνεχίζει να βελτιώνεται καθώς επενδύεται περισσότερη ενισχυτική μάθηση (υπολογισμένη στον χρόνο εκπαίδευσης) και περισσότερος χρόνος σκέψης (υπολογισμένος στον χρόνο δοκιμής).

οι περιορισμοί αυτής της μεθόδου κατά τη διάρκεια του scaling είναι αρκετά διαφορετικοί από τους περιορισμούς της προεκπαίδευσης llm.

η απόδοση του o1 βελτιώνεται σταθερά με την αύξηση του αριθμού των υπολογισμών στη φάση της προπόνησης και στη φάση της δοκιμής.

λίστα με τις ομάδες των χρυσών μεταλλίων

συλλογιστική μελέτη

μεταξύ των ιδρυτικών συντελεστών, ο ilya sutskever, ο οποίος άφησε τη δουλειά του για να ξεκινήσει μια επιχείρηση, αναφέρεται ξεκάθαρα, αλλά δεν αναφέρεται στην εκτελεστική ηγεσία (εκτελεστική ηγεσία) με τον greg brockman και άλλους για ο1.

μετά την παραίτηση του ilya, το openai ξέθαψε επίσης πολλές από τις εργασίες του και άρχισε να τις δημοσιεύει, όπως η έρευνα για την ερμηνευσιμότητα του μοντέλου gpt-4.

σήμερα, η ssi, την οποία ιδρύει, επίσης ανθεί. έχει συγκεντρώσει 1 δισεκατομμύριο δολάρια σε χρηματοδότηση χωρίς καν να έχει προϊόν, με αποτίμηση 5 δισεκατομμυρίων δολαρίων.

hongyu ren

ο hongyu ren αποφοίτησε από το πανεπιστήμιο του πεκίνου με πτυχίο στην επιστήμη των υπολογιστών και πήρε διδακτορικό από το stanford. έχει εργαστεί στο openai από τον ιούλιο του περασμένου έτους.

τζέισον γουέι

ο jason wei είναι επί του παρόντος ερευνητής στο openai. κατά την περίοδο 2020-2023, εργάστηκε στο google brain, πρότεινε το περίφημο cot, instruction fine-tuning και δημοσίευσε μια εργασία σχετικά με την ικανότητα εμφάνισης μεγάλων μοντέλων.

κέβιν γιου

ο kevin yu είναι επί του παρόντος ερευνητής στο openai. έλαβε το μεταπτυχιακό του στη φυσική και την αστροφυσική και το διδακτορικό του στη νευρολογία από το uc berkeley το 2014 και το 2021, αντίστοιχα.

shengjia zhao

ο shengjia zhao αποφοίτησε από το πανεπιστήμιο tsinghua με προπτυχιακό δίπλωμα και έλαβε επίσης διδακτορικό από το stanford. μετά την αποφοίτησή του τον ιούνιο του 2022, εντάχθηκε στην τεχνική ομάδα του openai.

wenda zhou

η wenda zhou εντάχθηκε στο openai πέρυσι. προηγουμένως, ήταν μέλος του moore-sloan fellow στο data science center laboratory στο πανεπιστήμιο της νέας υόρκης.

έλαβε μεταπτυχιακό από το πανεπιστήμιο του κέμπριτζ το 2015 και διδακτορικό στη στατιστική από το πανεπιστήμιο κολούμπια το 2020.

φράνσις σονγκ

ο φράνσις σονγκ έλαβε πτυχίο φυσικής από το πανεπιστήμιο του χάρβαρντ και διδακτορικό στη φυσική από το πανεπιστήμιο του γέιλ. εντάχθηκε στο openai το 2022 και προηγουμένως υπηρέτησε ως ερευνητής στο deepmind και ως βοηθός ερευνητής στο πανεπιστήμιο της νέας υόρκης.

μαρκ τσεν

ο mark chen υπηρέτησε ως διευθυντής frontier research από τότε που εντάχθηκε στο openai το 2018, επιβλέποντας μια ομάδα εργασίας υπό τον αντιπρόεδρο έρευνας bob mcgrew.

μετά την αποφοίτησή του από το mit, ο chen έλαβε διπλό πτυχίο στα μαθηματικά και την επιστήμη των υπολογιστών.

επί του παρόντος, υπηρετεί επίσης ως προπονητής της αμερικανικής προπονητικής ομάδας ioi.

οι πληροφορίες κάποτε υπέθεσαν ότι ο mark chen θα γίνει μέλος της ηγεσίας του openai στο μέλλον.

επιπλέον, η ηγετική ομάδα περιλαμβάνει επίσης τον jakub pachocki, τον επικεφαλής επιστήμονα που ανέλαβε την ilya, και τον wojciech zaremba, έναν από τους λίγους εναπομείναντες συνιδρυτές του openai.

συλλογισμός σχετικά με την τεχνική ασφάλεια

jieqi yu

η jieqi yu αποφοίτησε από το πανεπιστήμιο fudan με πτυχίο στην ηλεκτρονική μηχανική. πήγε στο πανεπιστήμιο επιστήμης και τεχνολογίας του χονγκ κονγκ για ανταλλαγή και στη συνέχεια έλαβε διδακτορικό από το πανεπιστήμιο του πρίνστον. εργάστηκε στο facebook για 12 χρόνια, μεταβαίνοντας από μηχανικός λογισμικού σε υπεύθυνη μηχανικής λογισμικού και εντάχθηκε στο openai ως διευθυντής μηχανικής τον αύγουστο του περασμένου έτους.

κάι σιάο

ο xiao kai αποφοίτησε από το mit τόσο με το πτυχίο του όσο και με το διδακτορικό του εντάχθηκε στο openai τον σεπτέμβριο του 2022.

λίλιαν βενγκ

η lilian weng είναι επί του παρόντος η επικεφαλής του συστήματος ασφαλείας openai και ασχολείται κυρίως με τη μηχανική μάθηση, τη βαθιά μάθηση και άλλες έρευνες.

αποφοίτησε από το πανεπιστήμιο του πεκίνου με πτυχίο στα συστήματα πληροφοριών και στην επιστήμη των υπολογιστών. πήγε στο πανεπιστήμιο του χονγκ κονγκ για μια βραχυπρόθεσμη ανταλλαγή και στη συνέχεια έλαβε το διδακτορικό της από το πανεπιστήμιο της ιντιάνα στο bloomington.

όπως ο mark chen, η lilian θεωρείται ανερχόμενο αστέρι στην ηγεσία του openai.

η πλήρης λίστα των ομάδων έχει ως εξής:

βιοχημική φυσική, πέρα από το ανθρώπινο διδακτορικό επίπεδο

ως νέα σειρά μοντέλων που δημιουργήθηκε από την openai, ποια είναι η δύναμη του o1;

κατατάχθηκε στο κορυφαίο 89% των προβλημάτων προγραμματισμού διαγωνισμών (codeforces) μεταξύ των κορυφαίων 500 μαθητών στους προκριματικούς διαγωνισμούς της αμερικανικής μαθηματικής ολυμπιάδας (aime).

το πιο σημαντικό είναι ότι υπερβαίνει το επίπεδο διδακτορικού στον άνθρωπο στο τεστ αναφοράς των προβλημάτων φυσικής, βιολογίας και χημείας (gpqa).

σε δοκιμές αναφοράς που χρησιμοποιούνται συνήθως, όπως το math και το gsm8k για συλλογισμό, το o1 και πολλά πρόσφατα μοντέλα αιχμής έχουν φτάσει σε κορεσμένες επιδόσεις και είναι δύσκολο να διακριθούν, επομένως, το openai επιλέγει κυρίως το aime για να αξιολογήσει τις μαθηματικές και συλλογιστικές δυνατότητες του μοντέλου. όπως και άλλες ανθρώπινες δοκιμές και σημείο αναφοράς.

το aime έχει σχεδιαστεί για να προκαλεί τις μαθηματικές ικανότητες των καλύτερων μαθητών γυμνασίου στις ηνωμένες πολιτείες στην εξέταση aime του 2024, το gpt-4o έλυσε μόνο το 12% (1,8/15) των ερωτήσεων κατά μέσο όρο.

ωστόσο, η βελτίωση του o1 είναι αρκετά σημαντική, λύνοντας το 74% (11,1/15) των ερωτήσεων κατά μέσο όρο και φθάνοντας στο 83% (12,5/15) όταν η πλειοψηφία διενεργείται σε 64 δείγματα. αν χρησιμοποιήσουμε τη συνάρτηση βαθμολόγησης και παραγγείλουμε ξανά 1000 δείγματα, η ακρίβεια φτάνει ακόμη και το 93% (13,9/15).

η βαθμολογία 13,9 σημαίνει ότι το επίπεδο του ο1 έχει φτάσει τους 500 καλύτερους μαθητές της χώρας και ξεπέρασε την τελική βαθμολογία της αμερικανικής μαθηματικής ολυμπιάδας.

σε προκλητικές εργασίες όπως το codeforces και το gpqa diamond, το o1 υπερβαίνει κατά πολύ το gpt-4o.

το o1 ξεπερνά κατά πολύ το gpt-4o σε προκλητικό σημείο αναφοράς συμπερασμάτων

το gpqa diamond δοκιμάζει την τεχνογνωσία στους τομείς της χημείας, της φυσικής και της βιολογίας. για να συγκρίνει το μοντέλο με τους ανθρώπους, η ομάδα επιστράτευσε ειδικούς με διδακτορικά για να απαντήσουν στις ερωτήσεις της.

ως αποτέλεσμα, το o1 ξεπέρασε αυτούς τους ειδικούς στον άνθρωπο (69,7) (78,0), και έγινε το πρώτο μοντέλο που ξεπέρασε τον άνθρωπο σε αυτό το σημείο αναφοράς.

ωστόσο, αυτό το αποτέλεσμα δεν σημαίνει ότι το o1 είναι πιο δυνατό από έναν άνθρωπο με διδακτορικό από όλες τις απόψεις, δείχνει μόνο ότι μπορεί να λύσει κάποια προβλήματα αντίστοιχου επιπέδου πιο επιδέξια.

επιπλέον, το o1 ανανέωσε επίσης το sota σε δοκιμές αναφοράς όπως τα math, mmlu και mathvista.

μετά την ενεργοποίηση των δυνατοτήτων οπτικής αντίληψης, το o1 πέτυχε βαθμολογία 78,1% στο mmmu, και έγινε το πρώτο μοντέλο που ανταγωνίζεται τους ειδικούς του ανθρώπου, ξεπερνώντας το gpt-4o σε 54 από τις 57 υποκατηγορίες mmlu.

το o1 ξεπερνά το gpt-4o σε ένα ευρύ φάσμα σημείων αναφοράς, συμπεριλαμβανομένων των υποκατηγοριών mmlu 54/57

αλυσίδα σκέψης

μέσω της ενισχυτικής μάθησης, το o1 έμαθε να αναγνωρίζει και να διορθώνει τα δικά του λάθη και να χωρίζει τα πολύπλοκα βήματα σε πιο απλά.

θα δοκιμάσει επίσης διαφορετικές μεθόδους όταν η τρέχουσα δεν λειτουργεί. αυτή η διαδικασία βελτιώνει σημαντικά τις δυνατότητες συμπερασμάτων του μοντέλου.

ας πάρουμε το παράδειγμα της «κρυπτογραφίας».

το ερώτημα είναι: "σκέψου βήμα προς βήμα" είναι κρυπτογραφημένο και αντιστοιχεί στο "oyfjdnisdr rtqwainr acxz mynzbhhx" ρωτήστε ποια είναι η σημασία του "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz".

μπορεί να φανεί ότι το gpt-4o είναι εντελώς αβοήθητο σε αυτό το είδος προβλήματος.

ο ο1 συλλογίστηκε σχετικά με τη μέθοδο υπολογισμού κρυπτογράφησης με βάση τις γνωστές πληροφορίες και τελικά έδωσε τη σωστή απάντηση - υπαρχουν τρια r's στη φραουλα.

gpt-4o

o1-προεπισκόπηση

προγραμματισμός

σε αυτήν την αξιολόγηση, το openai εκπαίδευσε περαιτέρω ένα μοντέλο βελτιωμένου προγραμματισμού βασισμένο στο o1.

στη διεθνή ολυμπιάδα πληροφορικής του 2024 (ioi), το νέο μοντέλο συγκέντρωσε 213 βαθμούς και κατατάχθηκε στη θέση του 49%.

κατά τη διάρκεια του μαθήματος, τα μοντέλα έχουν δέκα ώρες για να λύσουν έξι προκλητικά αλγοριθμικά προβλήματα, με 50 υποβολές να επιτρέπονται για κάθε πρόβλημα.

όταν χαλαρώσουν οι περιορισμοί υποβολής, η απόδοση του μοντέλου μπορεί να βελτιωθεί σημαντικά. όταν επέτρεπε 10.000 υποβολές ανά ερώτηση, το μοντέλο πέτυχε βαθμολογία 362,14 - ξεπερνώντας το όριο του χρυσού μεταλλίου.

τέλος, το openai προσομοίωσε επίσης έναν ανταγωνιστικό διαγωνισμό προγραμματισμού που φιλοξενείται από την codeforces — ακολουθώντας αυστηρά τους κανόνες και επιτρέποντας 10 υποβολές.

η βαθμολογία elo του gpt-4o είναι 808, κατατάσσοντας το 11% των ανθρώπινων παικτών. το νέο μοντέλο ξεπέρασε κατά πολύ τα gpt-4o και o1, φτάνοντας στο υψηλό σκορ 1807, ξεπερνώντας το 93% των παικτών.

περαιτέρω βελτιωμένη ρύθμιση του o1 στους διαγωνισμούς προγραμματισμού: το βελτιωμένο μοντέλο κατατάχθηκε στο 49ο εκατοστημόριο σύμφωνα με τους κανόνες ανταγωνισμού στη διεθνή ολυμπιάδα πληροφορικής του 2024

εκτίμηση της ανθρώπινης προτίμησης

εκτός από τις εξετάσεις και τα ακαδημαϊκά σημεία αναφοράς, το openai αξιολόγησε τις ανθρώπινες προτιμήσεις για το o1-preview έναντι του gpt-4o σε προκλητικές, ανοιχτού τύπου προτρεπτικές λέξεις σε ένα ευρύ φάσμα τομέων.

σε αυτήν την αξιολόγηση, οι άνθρωποι βλέπουν ανώνυμες απαντήσεις για να ζητήσουν λέξεις από το o1-preview και το gpt-4o και ψηφίζουν ποια απάντηση προτιμούν.

σε κατηγορίες βαρέων συλλογισμών, όπως η ανάλυση δεδομένων, ο προγραμματισμός και τα μαθηματικά, οι άνθρωποι είναι πιο πιθανό να επιλέξουν την προεπισκόπηση o1. αλλά σε ορισμένες εργασίες φυσικής γλώσσας, το gpt-4o είναι καλύτερο.

με άλλα λόγια, το o1-preview δεν είναι προς το παρόν κατάλληλο για όλα τα σενάρια χρήσης.

σε τομείς όπου η ικανότητα συλλογισμού είναι πιο σημαντική, οι άνθρωποι είναι πιο πιθανό να επιλέξουν το o1-preview

το o1-mini είναι εξαιρετικά οικονομικό

προκειμένου να παρέχει στους προγραμματιστές πιο αποτελεσματικές λύσεις, το openai κυκλοφόρησε το o1-mini - ένα ταχύτερο και φθηνότερο μοντέλο συμπερασμάτων.

ως μικρότερο μοντέλο, το o1-mini είναι 80% φθηνότερο από το o1-preview.

αυτό είναι ένα ισχυρό και οικονομικά αποδοτικό μοντέλο για εφαρμογές που απαιτούν συλλογισμό, αλλά δεν απαιτούν γενική παγκόσμια γνώση.

ωστόσο, η τρέχουσα σειρά o1 βρίσκεται ακόμα στα αρχικά της στάδια και δυνατότητες όπως τα πρόσθετα δικτύου, η μεταφορά αρχείων σε μεγάλες αποστάσεις και οι εικόνες δεν έχουν ακόμη ενσωματωθεί. βραχυπρόθεσμα, το gpt-4o εξακολουθεί να είναι ο ισχυρότερος παίκτης.

παραπομπές:

https://openai.com/index/learning-to-reason-with-llms/

νέα

εισαγωγή

τα στοιχεία επικοινωνίας μου