nachricht

das openai o1-modell kommt heraus und die fünfstufige agi bricht erneut durch! ein mann mit einem hervorragenden doktortitel im denken, ein chinese von der fudan-universität in der nördlichen qing-dynastie, der verdienstvolle taten vollbracht hat

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

gerade jetzt sind die leistungsstärksten modelle der o1-serie von openai plötzlich online gegangen. ohne vorwarnung löste openai diesen donner aus.

das erdbeermodell, das angeblich innerhalb von zwei wochen online war, kam tatsächlich innerhalb von zwei tagen an!

ab heute wird o1-preview für alle plus- und team-benutzer in chatgpt sowie für entwickler der stufe 5 in der api eingeführt.

gleichzeitig veröffentlichte openai auch o1-mini – ein kostengünstiges inferenzmodell, das sich sehr gut in mint, insbesondere in mathematik und codierung, eignet.

das o1-modell weist immer noch mängel und einschränkungen auf und überzeugt beim ersten gebrauch mehr als auf lange sicht.

die leistung der neuen o1-serie beim komplexen denken wurde auf ein völlig neues niveau gehoben. man kann sagen, dass sie über echte universelle denkfähigkeiten verfügt.

in einer reihe von benchmark-tests hat o1 erneut eine enorme verbesserung gegenüber gpt-4o erzielt. es hat die möglichkeit, eine goldmedaille bei der mathematikolympiade zu gewinnen, und übertrifft die niveau menschlicher doktortitel!

openai-forscher jason wei sagte, dass o1-mini das überraschendste forschungsergebnis sei, das er im vergangenen jahr gesehen habe. ein kleines modell erreichte beim aime-mathematikwettbewerb tatsächlich eine punktzahl von über 60 %.

dem anhang im openai-artikel nach zu urteilen, scheinen die dieses mal veröffentlichte vorschau und mini jedoch nur „kastrierte versionen“ von o1 zu sein.

inferenzskalierung eröffnet ein neues paradigma

der leitende nvidia-wissenschaftler jim fan hat die prinzipien hinter dem o1-modell weiter analysiert.

er sagte, dass das neue paradigma der inferenzzeitskalierung weithin populär gemacht und eingesetzt werde. wie sutton in „a bitter lesson“ sagte, gibt es nur zwei technologien, die die rechenleistung unendlich skalieren können: lernen und suche.

jetzt ist es an der zeit, unseren fokus auf letzteres zu richten.

1. sie benötigen keine riesigen modelle, um rückschlüsse zu ziehen.

2. übertragen sie eine große menge an berechnungen vor dem training/nach dem training auf inferenzdienste

3. openai muss die argumentationsskalierungsregel sehr früh entdeckt haben, aber die akademische gemeinschaft hat erst vor kurzem damit begonnen, sie zu entdecken.

4. es ist viel schwieriger, o1 in die praxis umzusetzen, als bei akademischen benchmarks gut abzuschneiden

5. erdbeere kann leicht zu einem datenschwungrad werden

nach der vorherigen klassifizierung von openai zu urteilen, hat o1 argumentationsfähigkeiten auf l2-ebene erreicht.

jemand hat es getestet und festgestellt, dass o1 ein sehr schwieriges gedicht erfolgreich geschrieben hat. dabei waren die planung und das denken, die zum erfolgreichen abschluss dieser aufgabe erforderlich waren, verrückt und die berechnung der denkzeit war sehr cool.

der ki-experte karpathy beschwerte sich jedoch nach dem test von o1-mini: „es hat sich für mich geweigert, die riemann-hypothese zu lösen. modellfaulheit ist immer noch ein großes problem, was wirklich traurig ist.“

nyu-assistenzprofessor xie saining versuchte auch, die klassische frage „wer ist größer, 9,11 oder 9,8?“ zu testen. unerwartet erhielt o1-preview immer noch die falsche antwort.

das klassische problem „wie viele r gibt es in erdbeere?“ ist für o1 natürlich kein problem.

big v matthew sabia sagte, das erschreckendste sei, dass gpt-5 69-mal leistungsstärker sei als das o1-modell. gewöhnliche menschen verstehen einfach nicht das denken und die logischen fähigkeiten von elefanten.

sind die menschen wirklich bereit?

logische denkprobleme, die menschen verwirren, werden von o1 gelöst

wir alle wissen, dass logisches denken in früheren llm-studiengängen ein schwieriger berg war.

aber dieses mal ist die fähigkeit des o1-modells, komplexe logische probleme zu lösen, überraschend.

zum beispiel die folgende logische frage:

das alter der prinzessin entspricht dem alter des prinzen zu einem zeitpunkt in der zukunft, wenn das alter der prinzessin doppelt so hoch sein wird wie das alter des prinzen zu einem bestimmten zeitpunkt in der vergangenheit, und zu diesem zeitpunkt in der vergangenheit wird das alter der prinzessin halb so hoch sein summe ihres aktuellen alters. wie alt sind die prinzessin und der prinz jetzt? bitte geben sie alle lösungen für dieses problem an.

diese frage ist äußerst schwer auszusprechen, selbst für menschen wäre es sehr aufwändig, die frage richtig zu übersetzen und zu verstehen.

erstaunlicherweise gab das o1-modell nach einigen denkschritten tatsächlich die richtige antwort!

durch schritte wie das definieren von variablen, das verstehen von problemen und das lösen von gleichungen wird der schluss gezogen, dass das alter der prinzessin 8.000 jahre und das alter des prinzen 6.000 jahre beträgt, wobei k eine positive ganze zahl ist.

in einer weiteren demo zeigte uns jason wei, wie o1 ein videospiel basierend auf eingabeaufforderungen programmierte.

wie sie sehen können, hat er die eingabeaufforderung in das o1-modell kopiert.

anschließend dachte das modell 21 sekunden lang nach und zeigte die gesamten denkschritte an.

anschließend erhält das modell dann den code.

nachdem ich den code ausgeführt hatte, war es ein sehr flüssiges spiel!

wir haben o1 sogar eine menge verwirrender koreanischer sätze zugeworfen und es gebeten, sie ins englische zu übersetzen, und es hat es tatsächlich getan.

denn obwohl der satz grammatikalisch unklar ist, entschlüsselt o1 ihn dennoch schritt für schritt.

am ende gab o1 die antwort und sagte humorvoll: kein übersetzer auf dem planeten kann es, aber koreaner können es leicht identifizieren. dies ist eine methode zur verschlüsselung des koreanischen durch verschiedene änderungen in vokalen und konsonanten.

im gegensatz dazu war gpt-4o völlig verwirrt und nicht in der lage, es zu verstehen.

es ist ersichtlich, dass die superleistung von o1 das logische denken auf ein neues niveau gehoben hat.

wie wird es gemacht?

reinforcement learning macht große erfolge, die zeit für das große alphago-modell kommt

der unterschied zwischen den modellen der o1-serie und der vergangenheit besteht darin, dass sie mehr zeit damit verbringen, „über das problem nachzudenken“, bevor sie die frage beantworten, genau wie menschen.

durch schulungen lernen sie, ihre denkprozesse zu verfeinern, verschiedene strategien auszuprobieren und fehler selbst zu erkennen.

dahinter hat der leistungsstarke algorithmus „reinforcement learning“ einen großen beitrag geleistet. damals, als alphago menschliche schachspieler besiegte, wurde dahinter der rl-algorithmus verwendet.

es vervollständigt ein effizientes training mit hochrangigen daten und lehrt llm, mithilfe von cot produktiv zu denken.

jason wei, der entwickler hinter dem cot-vorschlag und openai-forscher, sagte, dass o1 cot nicht nur durch eingabeaufforderungen abschließt, sondern rl-trainingsmodelle verwendet, um letztendlich das kettendenken besser durchzuführen.

darüber hinaus entdeckte das openai-team auch ein „neues gesetz“ im skalierungsgesetz des modells.

die leistung von o1 verbessert sich weiter, da mehr verstärkungslernen (berechnet in trainingszeit) und mehr denkzeit (berechnet in testzeit) investiert wird.

die einschränkungen dieser methode während der skalierung unterscheiden sich deutlich von den einschränkungen des llm-vortrainings.

die leistung von o1 verbessert sich stetig mit der zunahme der berechnungsmenge in der trainingsphase und testphase.

liste der goldmedaillenteams

argumentationsstudie

unter den gründungsmitgliedern ist ilya sutskever, der seinen job aufgegeben hat, um ein unternehmen zu gründen, eindeutig aufgeführt, aber er wird nicht in der kategorie executive leadership (executive leadership) aufgeführt, zusammen mit greg brockman und anderen. es muss seine frühere forschungsarbeit sein, die den grundstein gelegt hat für o1.

nachdem ilya zurückgetreten war, holte openai auch viele seiner arbeiten hervor und begann, sie zu veröffentlichen, beispielsweise forschungen zur interpretierbarkeit des gpt-4-modells.

heutzutage boomt auch die von ihm gegründete ssi. sie hat eine milliarde us-dollar an finanzierungen eingeworben, ohne überhaupt über ein produkt zu verfügen, mit einer bewertung von 5 milliarden us-dollar.

hongyu ren

hongyu ren schloss sein studium der informatik an der universität peking ab und promovierte seit juli letzten jahres bei openai. zuvor arbeitete er bei unternehmen wie google, apple, nvidia und microsoft.

jason wei

jason wei ist derzeit forscher bei openai. von 2020 bis 2023 arbeitete er bei google brain, schlug das berühmte cot, die feinabstimmung von anweisungen, vor und veröffentlichte einen artikel über die emergenzfähigkeit großer modelle.

kevin yu

kevin yu ist derzeit forscher bei openai. er erhielt seinen master-abschluss in physik und astrophysik und seinen doktortitel in neurologie 2014 bzw. 2021 an der uc berkeley.

zhao shengjia

shengjia zhao schloss sein studium an der tsinghua-universität ab und erhielt außerdem einen doktortitel von stanford. nach seinem abschluss im juni 2022 trat er dem technischen team von openai bei. er ist auch einer der autoren von gpt-4.

wenda zhou

wenda zhou kam letztes jahr zu openai. zuvor war er moore-sloan fellow am data science center laboratory der new york university.

er erhielt 2015 einen master-abschluss von der cambridge university und 2020 einen ph.d. in statistik von der columbia university.

franziskuslied

francis song erhielt einen bachelor-abschluss in physik von der harvard university und einen ph.d. in physik von der yale university. er kam 2022 zu openai und war zuvor als forschungswissenschaftler bei deepmind und als assistenzwissenschaftler an der new york university tätig.

mark chen

mark chen ist seit seinem beitritt zu openai im jahr 2018 als director of frontier research tätig und leitet eine arbeitsgruppe unter dem vizepräsidenten für forschung bob mcgrew.

nach seinem abschluss am mit erhielt chen einen doppel-bachelor-abschluss in mathematik und informatik. während seines studiums absolvierte er ein praktikum bei microsoft und trading und war gastwissenschaftler an der harvard university.

derzeit fungiert er auch als trainer des amerikanischen ioi-trainingsteams.

the information spekuliert einmal, dass mark chen in zukunft mitglied der führung von openai werden wird.

darüber hinaus gehören zum führungsteam auch jakub pachocki, der chefwissenschaftler, der ilya abgelöst hat, und wojciech zaremba, einer der wenigen verbliebenen mitbegründer von openai.

überlegungen zur technischen sicherheit

jieqi yu

jieqi yu schloss ihr studium an der fudan-universität mit einem bachelor-abschluss in elektrotechnik ab. sie ging zum austausch an die hong kong university of science and technology und promovierte anschließend an der princeton university. sie arbeitete 12 jahre lang bei facebook, wechselte von einer software-ingenieurin zu einer software-engineering-managerin und kam im august letzten jahres als engineering-managerin zu openai.

kai xiao

xiao kai schloss sowohl seinen bachelor-abschluss als auch seinen doktortitel ab. als student besuchte er die universität oxford und absolvierte praktika bei unternehmen wie deepmind und microsoft he trat openai im september 2022 bei.

lilian weng

lilian weng ist derzeit leiterin des openai-sicherheitssystems und beschäftigt sich hauptsächlich mit maschinellem lernen, deep learning und anderen forschungen.

sie schloss ihr studium an der universität peking mit einem bachelor-abschluss in informationssystemen und informatik ab. sie ging für einen kurzzeitaustausch an die universität hongkong und promovierte anschließend an der indiana university bloomington.

lilian gilt wie mark chen als aufstrebender star in der führung von openai.

die vollständige liste der teams lautet wie folgt:

biochemische physik, jenseits der menschlichen doktorebene

was ist die stärke von o1 als einer neuen modellreihe, die von openai erstellt wurde?

er gehörte zu den besten 89 % der programmierprobleme bei wettbewerben (codeforces); gehörte zu den 500 besten studenten bei den american mathematical olympiad competition qualifiers (aime).

am wichtigsten ist, dass es im benchmark-test für physikalische, biologische und chemische probleme (gpqa) das menschliche phd-niveau übertrifft.

bei häufig verwendeten benchmark-tests wie math und gsm8k haben o1 und viele neuere spitzenmodelle eine gesättigte leistung erreicht und sind schwer zu unterscheiden. daher wählt openai hauptsächlich aime, um auch die mathematischen und schlussfolgerungsfähigkeiten des modells zu bewerten wie andere menschliche tests und benchmarks.

aime soll die mathematischen fähigkeiten der besten high-school-schüler in den vereinigten staaten herausfordern. bei der aime-prüfung 2024 löste gpt-4o durchschnittlich nur 12 % (1,8/15) der fragen.

die verbesserung von o1 ist jedoch recht deutlich: im durchschnitt löste es 74 % (11,1/15) der fragen und erreichte 83 % (12,5/15), wenn in 64 stichproben eine mehrheitsabstimmung durchgeführt wurde. wenn wir die bewertungsfunktion verwenden und 1000 proben neu anordnen, erreicht die genauigkeit sogar 93 % (13,9/15).

eine punktzahl von 13,9 bedeutet, dass das niveau von o1 die 500 besten schüler des landes erreicht und das endergebnis der amerikanischen mathematikolympiade übertroffen hat.

bei anspruchsvollen aufgaben wie codeforces und gpqa diamond übertrifft o1 gpt-4o bei weitem.

o1 übertrifft gpt-4o bei anspruchsvollen inferenz-benchmarks deutlich

gpqa diamond testet fachwissen in den bereichen chemie, physik und biologie. um das modell mit menschen zu vergleichen, rekrutierte das team promovierte experten, um seine fragen zu beantworten.

dadurch übertraf o1 diese menschlichen experten (69,7) (78,0) und war damit das erste modell, das menschen bei diesem benchmark übertraf.

dieses ergebnis bedeutet jedoch nicht, dass o1 in allen aspekten stärker ist als ein promovierter mensch, es zeigt lediglich, dass es einige entsprechende levelprobleme geschickter lösen kann.

darüber hinaus hat o1 sota auch in benchmark-tests wie math, mmlu und mathvista aktualisiert.

nach der aktivierung der visuellen wahrnehmungsfähigkeiten erreichte o1 eine punktzahl von 78,1 % bei mmmu und war damit das erste modell, das mit menschlichen experten konkurrierte und gpt-4o in 54 der 57 mmlu-unterkategorien übertraf.

o1 übertrifft gpt-4o in einer vielzahl von benchmarks, einschließlich 54/57 mmlu-unterklassen

gedankenkette

durch reinforcement learning lernte o1, eigene fehler zu erkennen und zu korrigieren und komplexe schritte in einfachere zu zerlegen.

es werden auch verschiedene methoden ausprobiert, wenn die aktuelle nicht funktioniert. dieser prozess verbessert die inferenzfähigkeiten des modells erheblich.

nehmen wir das beispiel „kryptographie“.

die frage lautet: „denken sie schritt für schritt“ ist verschlüsselt und entspricht „oyfjdnisdr rtqwainr acxz mynzbhhx“. fragen sie, was die bedeutung von „oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz“ ist.

es ist ersichtlich, dass gpt-4o bei dieser art von problemen völlig hilflos ist.

o1 begründete seine überlegungen zur verschlüsselungsberechnungsmethode anhand der bekannten informationen und gab schließlich die richtige antwort: es gibt drei r in erdbeere.

gpt-4o

o1-vorschau

programmierung

in dieser evaluierung trainierte openai ein programmiergestütztes modell basierend auf o1 weiter.

bei der internationalen informatikolympiade (ioi) 2024 erzielte das neue modell 213 punkte und belegte den 49-prozent-platz.

während des kurses haben die modelle zehn stunden zeit, um sechs anspruchsvolle algorithmische probleme zu lösen, wobei für jedes problem 50 einreichungen zulässig sind.

wenn die einreichungsbeschränkungen gelockert werden, kann die leistung des modells erheblich verbessert werden. bei 10.000 einsendungen pro frage erreichte das modell eine punktzahl von 362,14 und übertraf damit die goldmedaillenschwelle.

schließlich simulierte openai auch einen von codeforces veranstalteten programmierwettbewerb, bei dem die regeln strikt eingehalten und 10 einsendungen zugelassen wurden.

der elo-score von gpt-4o liegt bei 808 und liegt damit bei 11 % der menschlichen spieler. das neue modell übertraf gpt-4o und o1 bei weitem und erreichte eine hohe punktzahl von 1807 und übertraf damit 93 % der spieler.

weitere feinabstimmungen verbesserten o1 bei programmierwettbewerben: das verbesserte modell rangierte bei der internationalen informatikolympiade 2024 im 49. perzentil der wettbewerbsregeln

beurteilung menschlicher präferenzen

zusätzlich zu prüfungen und akademischen benchmarks bewertete openai die menschlichen präferenzen für o1-preview im vergleich zu gpt-4o bei herausfordernden, offenen eingabeaufforderungswörtern in einem breiten spektrum von bereichen.

bei dieser auswertung sehen menschen anonyme antworten auf aufforderungswörter aus o1-preview und gpt-4o und stimmen darüber ab, welche antwort sie bevorzugen.

in kategorien, in denen es auf logisches denken ankommt, wie z. b. datenanalyse, programmierung und mathematik, entscheiden sich menschen eher für o1-vorschau. aber bei einigen aufgaben in natürlicher sprache ist gpt-4o besser.

mit anderen worten: o1-preview ist derzeit nicht für alle nutzungsszenarien geeignet.

in bereichen, in denen logisches denken wichtiger ist, entscheiden sich menschen eher für o1-preview

o1-mini ist äußerst kostengünstig

um entwicklern effizientere lösungen zu bieten, hat openai o1-mini veröffentlicht – ein schnelleres und kostengünstigeres inferenzmodell.

als kleineres modell ist der o1-mini 80 % günstiger als der o1-preview.

dies ist ein leistungsstarkes und kostengünstiges modell für anwendungen, die argumentation erfordern, aber kein allgemeines weltwissen erfordern.

allerdings steckt die aktuelle o1-serie noch in den kinderschuhen und funktionen wie netzwerk-plug-ins, fernübertragung von dateien und bilder sind noch nicht integriert. kurzfristig ist gpt-4o immer noch der stärkste player.

referenzen:

https://openai.com/index/learning-to-reason-with-llms/