openai-erdbeermodell-razzien spät in der nacht! physik und chemie erreichen das niveau von doktoranden, viel besser als gpt-4o, chatgpt ist verfügbar

2024-09-13

autor |. vanille

herausgeber |. li shuiqing

zhidongxi berichtete am 13. september, dass openai heute früh plötzlich das legendäre veröffentlicht habemodell „erdbeere“.teilvorschau von -openai o1-vorschauversion. hierbei handelt es sich um eine reihe neuer ki-modelle, die über komplexe aufgaben nachdenken und probleme lösen können, die schwieriger sind als frühere wissenschaftliche, programmier- und mathematische modelle.

▲openai veröffentlicht das o1-modell

openai o1 ist das erste einer neuen reihe von ki-modellen。im gegensatz zu früheren modellen ist dies der fallentwickelte denkfähigkeiten, wird dabei seindenken sie sorgfältig nach, bevor sie antworten, generieren sie eine langeinterne denkkette, ranking zu wettbewerbsorientierten programmierfragennr. 89, platz im u.s. mathematikolympiade-qualifikationsturnierdie ersten 500, genauigkeit bei benchmark-tests zu physikalischen, biologischen und chemischen problemenübersteigt das menschliche doktorgradniveau！

eine weitere neuveröffentlichungo1 miniist ein schnelleres, kleineres modell, trainiert mit einem ähnlichen framework wie o1. o1 mini ist gut in naturwissenschaften und technik, insbesondere in mathematik und programmierung.die kosten sind 80 % günstiger als bei der o1-vorschauversion。

diese beiden modelle werden von openai als großer fortschritt bei komplexen schlussfolgerungsaufgaben angesehen, daher werden sie o1 genannt, um den zähler zurückzusetzen, und nicht als fortsetzung der gpt-reihe.

allerdings scheiterte die inferenzerweiterte version des o1-modells immer noch kläglich am „problem hoher ordnung“, die größen von 9,9 und 9,11 zu vergleichen.

▲das o1-modell beantwortet die frage nach dem „größenverhältnis“

andrej karpathy, gründungsmitglied von openai und ehemaliger senior director von tesla ai, der openai verlassen hat, um ein unternehmen zu gründen, beklagte sich heute morgen: „o1-mini hat sich immer geweigert, die riemann-hypothese für mich zu lösen. modellfaulheit ist immer noch ein großes thema.“ problem 😞"

▲andrej karpathy beschwerte sich darüber, dass o1 mini „faul“ sei

openai hat die o1-vorschauversion gründlich getestet und bewertet, um sicherzustellen, dass das modell sicher veröffentlicht werden kann. benutzer von chatgpt plus und team können heute zwischen zwei neuen modellen wählen, und entwickler der stufe 5 werden auch die ersten sein, die api-zugriff auf die neuen modelle erhalten.

openai gab außerdem die kernteammitglieder hinter dem o1-modell bekannt, darunter 21 grundlegende mitwirkende, darunter der ehemalige openai-chefwissenschaftler ilya sutskever, der das unternehmen verlassen hat, um ein unternehmen zu gründen, und sieben teamleiter.

1. mmlu ist hinsichtlich der programmierfähigkeiten mit menschlichen experten vergleichbar8doppelter killgpt-4o

wie bereits erwähnt, ist openai o1 darauf trainiert, ein modell zu sein, das mehr zeit damit verbringt, über probleme nachzudenken, bevor es reagiert. es denkt nach, bevor es antwortet, und produziert asehr lange interne ideenketteund können wie menschen seinverbessern sie ihren denkprozess，probieren sie immer wieder neue strategien ausund erkenne deine fehler.

als frühes vorschaumodell ist derzeit openai o1 verfügbarunterstützt nur textkonversationen, verfügt nicht über multimodale funktionen wie das durchsuchen des internets zum abrufen von informationen, das hochladen von dateien und bildern usw.

in bezug auf die leistung ist openai o1physik, chemie und biologieleistung bei benchmark-aufgaben unddoktorandganz und garmathematik und programmierunghervorragende leistung.

▲openai o1-bewertungsbenchmarks in mathematik und programmierung

bei der eignungsprüfung für die internationale mathematikolympiade (imo) hatte das vorgängermodell gpt-4o von openai eine genauigkeitsrate von 13 %, openai o1 hingegen schonerreichen sie 83 %. im coding-wettbewerb codeforces, openai o1’sdie punktzahl beträgt 89, während gpt-4o nur 11 hat. selbst die vorschauversion des o1-preview-modells schneidet um ein vielfaches besser ab als gpt-4o.

o1 schneidet bei den meisten benchmarks deutlich besser ab als gpt-4o und deckt 54 von 57 mmlu-unterkategorien ab. nach aktivierung der visuellen wahrnehmungsfunktion erreichte o1 bei mmlu 78,2 % und wurde damitdas erste modell, das mit menschlichen experten konkurriert。

▲leistungsvergleich zwischen o1-vorschauversion und gpt-4o

hier sind einige beispiele der openai o1-vorschauversion:

1. lösen sie ein komplexes logikrätsel

geben sie a einkomplexes altersrätsel: eine prinzessin ist so alt wie der prinz, wenn sie doppelt so alt ist wie der prinz und wenn ihr alter halb so groß ist wie die summe ihres aktuellen alters. wie alt sind der prinz und die prinzessin? geben sie alle lösungen für dieses problem an.

das modell begann zu antworten, nachdem es mehr als 20 sekunden lang nachgedacht hatte. die logik seiner antwort ist sehr schlüssig. der erste schritt besteht darin, die altersgleichung zu ermitteln, die gegebenen aussagen in mathematische gleichungen umzuwandeln und alle möglichen lösungen zu finden, die diese gleichungen erfüllen. beginnen sie dann schritt für schritt mit der analyse des problems:

der erste schritt besteht darin, die variablen zu definieren, wobei p zur darstellung von prince und q zur darstellung von princess verwendet wird. der zweite schritt besteht darin, die beiden bedingungen im problem zu verstehen die gleichung; der fünfte schritt schritt 1 verwendet diese werte, um alle bedingungen zu überprüfen; schritt 6 liefert alle möglichen lösungen.

schließlich bin ich zu dem schluss gekommen:

2. übersetzen sie sätze mit fehlern

das hinzufügen zusätzlicher unnötiger konsonanten beeinträchtigt das koreanische lesen. für muttersprachler ist die lesbarkeit nicht normal, da diese den text automatisch ändern und verstehen, wenn sie solche sätze sehen. dies ist jedoch eine schwierige herausforderung für das modell.

geben sie a einschwer beschädigte koreanische aufforderungswörterschließlich erkannte openai o1 zunächst, dass der eingabetext verstümmelte oder falsch ausgerichtete koreanische zeichen enthielt, und fragte den benutzer, ob er die eingabe auf fehler überprüfen möchte.

das o1-modell versteht zunächst die zugrunde liegende struktur und dekodiert nach etwa 10 sekunden nachdenken den verstümmelten text, entschlüsselt den text, verbessert die übersetzung, versteht das konzept und wandelt ihn wieder in eine kohärente sprache um.

im gegensatz zu gpt-4o denkt das o1-modell über die frage nach, bevor es die antwort ausgibt, überprüft den text und ändert ihn dann in den richtigen satz, als würde es die antwort knacken. nach etwa 15 sekunden bedenkzeit lieferte o1 die endgültige optimierte version der übersetzung.

dies zeigt, dass argumentationsfähigkeiten zu einem leistungsstarken werkzeug zur problemlösung werden.

3. beantworten sie das bekannte schwierige problem in großen sprachmodellen: das zählen von buchstaben in wörtern

dieses beispiel ist sehr einfach: geben sie das wort „erdbeere“ ein und lassen sie das modell darauf antwortenwie viele rs gibt es im wort?。

infolgedessen gab gpt-4o die falsche antwort: „2“.

warum sollte ein so fortschrittliches modell einen so einfachen fehler machen? der grund dafür ist, dass ein modell wie gpt-4o darauf ausgelegt ist, text und nicht zeichen oder wörter zu verarbeiten. daher kann es fehler machen, wenn es auf probleme stößt, die das verständnis des konzepts von zeichen und wörtern betreffen.

das neue, auf argumenten basierende modell o1 kann nach ein paar sekunden nachdenken die richtige antwort geben:

4. videospiele programmieren

lassen sie das modell pygame verwendenerstellen sie ein videospiel namens squirrel finderund geben sie die folgenden anforderungen ein: der benutzer muss das „koala“-symbol auf dem bildschirm durch drücken der pfeiltasten steuern, den schwebenden erdbeeren ausweichen und innerhalb des zeitlimits von 3 sekunden ein eichhörnchen finden, um zu gewinnen.

bei früheren modellen war das schwieriger, aber mit der o1-vorschauversion war das möglich. o1 verbrachte 21 sekunden mit nachdenken und nutzte den denkprozess, um die codestruktur zu planen, einschließlich der sammlung von details zum spiellayout, zeichenanweisungen, dem einrichten des bildschirms usw., und gab dann den endgültigen programmiercode für das spiel aus.

kopieren sie den code und fügen sie ihn in den sublime text-editor ein. nach der ausführung werden einige zeilen mit kurzen eingabeaufforderungen angezeigt.

dann können sie mit dem spiel „auf der suche nach eichhörnchen“ beginnen.

das o1-modell weist im vergleich zu den vorgängermodellen deutlich verbesserte planungsmöglichkeiten auf.

2. geschwindigkeitsverbesserung der mini-version3~5mal kosten die kosten nur die standardversion1/5

openai wurde ebenfalls veröffentlicht„kleine cup-version“ modell openai o1-mini,dasschneller und günstigerund verfügt über die gleichen herausragenden leistungen in mathematik und programmierung wie die standardversion.

openai o1-mini ist für das denken im mint-bereich (naturwissenschaften, technik, ingenieurwesen und mathematik) während des vortrainings optimiert. nachdem es mit der gleichen rechenintensiven reinforcement learning (rl)-pipeline wie o1 trainiert wurde, erreicht o1-mini bei vielen inferenzaufgaben eine überlegene leistung und ist gleichzeitig deutlich kostengünstiger.

openai o1-mini80 % günstiger als die vorschauversion von openai o1, geeignet für anwendungen, die argumentation erfordern, aber keine umfassenden weltkenntnisse erfordern. in einigen benchmark-tests, die intelligenz und argumentation erfordern, schneidet o1-mini sogar besser ab als o1-preview.

▲mathematische leistungs- und argumentationskostenkurve

beim high-school-mathematikwettbewerb aime betrug die genauigkeitsrate von o1-mini 70 %, was ungefähr äquivalent istdie 500 besten high-school-schüler in den vereinigten staaten. gleichzeitig liegen die genauigkeitsraten von o1 und o1-preview bei 74,4 % bzw. 44,6 %, aber der preis von o1-mini ist viel günstiger als diese.

im hinblick auf die bewertung menschlicher präferenzen erzielte openai die folgenden testergebnisse, indem es menschliche bewerter aufforderte, o1-mini und o1-preview an herausfordernden offenen eingabeaufforderungswörtern in verschiedenen bereichen zu testen und diese mit gpt-4o zu vergleichen. ähnlich wie o1-preview ist o1-mini in bereichen mit umfangreichen inferenzaufgaben beliebter als gpt-4o, wird jedoch in sprachzentrierten bereichen nicht bevorzugt.

▲ergebnisse der bewertung menschlicher präferenzen

in bezug auf die geschwindigkeit benötigen gpt-4o, o1-mini und o1-preview jeweils zeit, um dieselbe frage zum wortschluss zu beantworten.3 sekunden, 9 sekunden, 32 sekunden, aber die antwort von gpt-4o ist falsch und die beiden letztgenannten antworten sind richtig. es ist ersichtlich, dass die geschwindigkeit von o1-mini die antwort erhältungefähr 3 bis 5 mal schneller als o1。

▲gpt-4o, o1-mini und o1-preview reaktionsgeschwindigkeit

natürlich handelt es sich schließlich um eine „kastrierte version“ und auch openai o1-mini weist gewisse einschränkungen auf. wenn es um faktenwissen zu nicht-mint-themen wie daten, biografien und alltäglichen wissenswertem geht, ist o1-mini etwas begrenzt und schneidet auf augenhöhe mit kleineren modellen wie gpt-4o mini ab. openai sagte, es werde diese einschränkungen in zukünftigen versionen verbessern und das modell auf andere hauptfächer und modalitäten über mint hinaus erweitern.

3. führen sie argumentationsmarker ein und nutzen sie denkketten, um probleme zu lösen

ähnlich wie menschen denkt o1 lange nach, bevor es schwierige fragen und anwendungen beantwortetgedankenkette。

durch verstärkendes lernen lernte o1, die denkkette zu verbessern und strategien anzuwenden. es geht um die fähigkeit, fehler zu erkennen und zu korrigieren, knifflige schritte in einfachere zu zerlegen und andere ansätze auszuprobieren, wenn der aktuelle nicht funktioniert. dieser prozess verbessert die argumentationsfähigkeiten des modells erheblich.

konkret wird das o1-modell eingeführtschlussfolgerungsmarke(begründungsmarken). diese inferenzmarker werden zum „nachdenken“ verwendet, um das wortverständnis der eingabeaufforderung aufzuschlüsseln und mehrere möglichkeiten zur generierung einer antwort in betracht zu ziehen. nachdem inferenztokens generiert wurden, generiert das modell antworten als sichtbare abschlusstokens und verwirft die inferenztokens aus ihrem kontext.

unten finden sie ein beispiel für eine mehrstufige konversation zwischen einem benutzer und einem modell. eingabe- und ausgabetokens für jeden schritt bleiben erhalten, während inferenztokens verworfen werden.

▲o1 modellinferenzprozess

es ist erwähnenswert, dass dies festgestellt wurde, als openai ein groß angelegtes training für verstärkungslernalgorithmen durchführtemit der zunahme der intensiven lern- und denkzeit,, oder besser gesagtwenn die trainings- und testzeit zunimmt,，die leistung von o1 wird sich weiter verbessern. dies unterscheidet sich stark vom skalierungsgesetz im vortraining für große modelle.

▲o1-leistung verbessert sich stetig mit der berechnung von trainingszeit und testzeit

um den von o1 erzielten sprung zu zeigen, hat openai die denkkette offengelegt, die von der vorschauversion von o1 bei der lösung von problemen wie programmierung, mathematik, dekodierung und englisch generiert wird.

zum beispiel, wenn sie eine bekommendekodierungsfragengpt-4o zerlegte zunächst die eingabe, ausgabe und beispiele und begann dann mit der analyse möglicher dekodierungsmethoden.

▲gpt-4o-demontage-eingabe, ausgabe und beispiele

es wurde vermutet, dass die erste phrase der gleichen struktur wie das beispiel folgen könnte, und erkannte, dass der eingabetext auf der grundlage natürlicher trennungen oder muster in gruppen zu zerfallen schien, funktionierte dann aber nicht mehr und sagte, es benötige weitere informationen über die konvertierungen oder buchstabenverschiebungen, die möglicherweise auftreten könnten ein bisschen kontext sein.

▲gpt-4o sagte, dass weitere informationen erforderlich seien

auf der anderen seite musste openai o1-preview einige überlegungen anstellengab die antwort genau。

▲o1-preview löst das dekodierungsproblem korrekt

obwohl die endgültige antwort sehr kurz war, war o1s denkprozess sehr langwierig und sein denken und seine formulierung waren sehr menschenähnlich. es beginnt damit, dass man sich fragt: „was ist hier los?“ und dannwiederholen sie die anfrage, dann startenaufgaben aufschlüsseln und ziele klären。

▲o1 denkprozess

dann beginnt o1beachten sie die informationen, die sie erhalten,undschritt-für-schritt-analyse。

▲o1 denkprozess

nach einiger überlegung startet o1überlegen sie sich unterschiedliche lösungen. während dieses prozesses werden sie, wie menschen, plötzlich sagen: „moment mal, ich denke ...“ und dann wieder anfangen zu denken.probieren sie neue methoden aus。

▲o1 denkprozess

darüber hinaus tauchen im denkprozess von o1 sogar wörter wie „ähm“ und „interessant“ auf.umgangssprachlich, emotionalausdruck.

▲o1 denkprozess

die gesamte denkkette ist sehr lang, daher werde ich hier nicht näher darauf eingehen. im allgemeinen kann o1, wie openai sagte, seinen denkprozess wie menschen kontinuierlich verbessern, neue strategien ausprobieren, eigene fehler erkennen und lösen. und „wie menschen“ beschränkt sich hier nicht nur auf die denkweise, sondern spiegelt sich auch im ton wider.

vier,jede woche für gespräche verfügbar30~50mal nahm ilya an grundlegenden beiträgen teil

anders als in der vergangenheit listete openai dieses mal keine futures auf, sonderngehen sie direkt onlinezwei modelle.

von nun an können chatgpt plus- und team-benutzer auf das o1-modell in chatgpt zugreifen und über die modellauswahl manuell o1-preview oder o1-mini auswählen; unternehmens- und bildungsbenutzer können es ab nächster woche verwenden, und auch kostenlose benutzer können dies nutzen erhalten sie in zukunft zugriff.

▲benutzer können über chatgpt auf das o1-modell zugreifen

aber vielleicht aus sicherheits- oder kostengründen begrenzen beide modelle derzeit die anzahl der nachrichten, die vorschauversion und die miniversion.die anzahl der pro woche versendeten nachrichten beträgt 30 bzw. 50.. openai sagte, es arbeite hart daran, die quote zu erhöhen und chatgpt in die lage zu versetzen, automatisch das geeignete modell basierend auf vorgegebenen eingabeaufforderungswörtern auszuwählen.

openai hat auch die api (application programming interface) des o1-modells eingeführt. qualifizierte entwickler können jetzt mit der prototypenentwicklung über die api für beide modelle mit einer geschwindigkeitsbegrenzung von 20 u/min beginnen. diese apis umfassen derzeit keine funktionsaufrufe, streaming, unterstützung für systemnachrichten und andere funktionen.

▲o1, o1 mini-modell-api

wie aus der api-dokumentation hervorgeht, handelt es sich hierbei um zwei modellekontextfenster sind alle 128 kb groß, während das ausgabefenster der mini-version länger ist,ist doppelt so groß wie o1darüber hinaus sind die trainingsdaten der beiden modelle stand oktober 2023.

openai gab außerdem das team hinter dem o1-modell bekanntmitglieder des kernteams：

▲die kernteammitglieder hinter dem o1-modell

ines gibt 21 grundsätzlich beitragende mitglieder, darunter der ehemalige openai-chefwissenschaftler ilya sutskever, der das unternehmen verlassen hat, um ein unternehmen zu gründen.

es gibt 7 teamleiterbzw. jakub pachocki, jerry tworek (insgesamt), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. die projektmanager sind lauren yang und mianna chen.

laut seinen teammitgliedern ist argumentation die fähigkeit, denkzeit in bessere ergebnisse umzuwandeln. sie investierten mehr berechnungen als zuvor, trainierten das modell, um kohärente ideen zu produzieren, und erzielten eine völlig andere leistung als zuvor.

mithilfe von reinforcement learning trainieren sie das ki-modell, seine eigenen gedankenketten noch besser zu generieren und zu verfeinern als die vom menschen dafür programmierten gedankenketten. diese art, ein ki-modell so zu trainieren, dass es seinen eigenen denkprozess generiert, verbessert seine fähigkeit, fehler zu verstehen und zu korrigieren, erheblich, und frühe o1-modelle haben in datentests bereits höhere ergebnisse erzielt.

die liste der wichtigsten mitwirkenden und anderer mitwirkender lautet wie folgt:

▲liste der hauptmitwirkenden von o1 und anderer mitwirkender

zu den verwaltungsleitern gehören 8 personen, darunter sam altman, ceo von openai, präsident greg brockman, ceo mira murati und 8 unterstützende führungskräfte.

▲o1 administrative führung, unterstützende führung

das neue o1-modell kann sicherheitsregeln kontextbezogen ableiten und effektiver nutzen. openai hat strenge tests und bewertungen von o1-preview durchgeführt, um sicherzustellen, dass das modell sicher veröffentlicht werden kann, ohne die risiken zu erhöhen, die sich aus vorhandenen ressourcen ergeben können.

fazit: openai dreht den spieß um, „strawberry“ rekonstruiert das große modellmuster?

vom mysteriösen q*-modell bis zum „erdbeer“-modell ist das neue modell von openai endlich verfügbar. seit beginn des openai-coups im vergangenen november wurde dieses modell als einer der schlüsselfaktoren für altmans rauswurf entlarvt. damals gab es gerüchte, dass eine demonstration des q*-modells innerhalb von openai im umlauf sei, und die geschwindigkeit der entwicklung schockierte einige ki-sicherheitsforscher.

im gegensatz zu gpt-4o eröffnet die o1-modellwahl direkt eine neue nummernbenennungsreihe statt einer fortsetzung von gpt, was zeigt, dass openai ihr große bedeutung beimisst.

jetzt, da viele große modellhersteller damit beginnen, multimodale und volumenanwendungen einzuführen, könnte die veröffentlichung des reinen textmodells o1 durch openai erneut die öffentliche aufmerksamkeit auf die verbesserung der zugrunde liegenden modellfähigkeiten lenken. ob sich die große modelllandschaft unter dem einfluss von o1 rekonstruieren wird, bleibt abzuwarten.

nachricht

openai-erdbeermodell-razzien spät in der nacht! physik und chemie erreichen das niveau von doktoranden, viel besser als gpt-4o, chatgpt ist verfügbar

einführung

meine kontaktdaten