die bewertung des neuen o1-modells von openai in fünf hauptdimensionen: codierung, spieleproduktion und andere fähigkeiten sind „erstaunlich“, aber faktenwissen wird „auf den kopf gestellt“

bewertung des neuen o1-modells von openai in fünf dimensionen: codierung, spieleproduktion und andere fähigkeiten sind „erstaunlich“, aber faktenwissen wird „auf den kopf gestellt“

2024-09-18

das legendäre modell „strawberry“ ist heute plötzlich und ohne vorankündigung online gegangen!

das neueste von openai veröffentlichte modell heißt o1 und ist die erste version einer reihe von inferenzmodellen, die derzeit auf dem markt sindo1-preview (vorschauversion) und o1-mini (mini-version）。

derzeit sind o1-preview und o1-mini bereits für chatgpt plus- und team-abonnenten verfügbar, während enterprise- und edu-benutzer anfang nächster woche zugriff erhalten. openai gab bekannt, dass es plant, allen kostenlosen chatgpt-benutzern o1-mini-zugriff bereitzustellen, hat jedoch noch kein veröffentlichungsdatum festgelegt.

laut openai ist das o1-modell hinsichtlich der problemlösungsfähigkeiten näher am menschlichen denken als jedes frühere modell und in der lage, mathematische, codierende und wissenschaftliche aufgaben zu „begründen“.

um zu überprüfen, ob die fähigkeiten des neuen modells so leistungsstark sind, wie openai behauptet, hat ein reporter von „daily economic news“aus dem klassiker „erdbeertest“”das o1-preview-modell wurde in fünf dimensionen getestet: code-schreiben, minispielproduktion, mathematik und wirtschaft sowie faktenwissen.

die ergebnisse zeigten, dass o1-preview programmier- und mathematische denkfähigkeiten zeigte, die die zuvor veröffentlichten großen modelle von openai übertrafen. zum beispiel o1-vorschaufähigkeit, code zu schreiben, der reibungslos läuft, und dennoch selbst über lösungen in komplexen umgebungen nachzudenken. darüber hinaus hatte der reporter während des testprozesses auch das gefühl, dass o1-preview auch im hinblick auf die humanisierung erheblich verbessert wurde und das denken einer realen person zeigt. allerdings ist das neue modell nicht ohne mängel und hat im faktenwissenstest „überschlagen“.

die legendäre „erdbeere“ ist da

am 12. september ortszeit veröffentlichte openai ein neues modell namens o1, die erste version einer reihe von „inferenz“-modellen, die es zu verwenden plant lange zeit.

bildquelle: x-plattform

für openai stellt o1 einen weiteren schritt in richtung seines ziels einer menschenähnlichen ki dar. openai glaubt, dass o1 eine völlig neue fähigkeit darstellt, die als so wichtig erachtet wird, dass das unternehmen beschloss, mit dem aktuellen gpt-4-modell neu zu beginnen, das „gpt“-branding vollständig aufzugeben und es von 1 zu benennen.

openai sagt, es werde mit dem aktuellen gpt-4-modell von vorne beginnen, „den zähler auf 1 zurücksetzen“ und sogar das „gpt“-branding aufgeben, das bisher chatbots und den gesamten trend zur generativen ki definiert hat.o1 hat ein system entwickelt, das probleme sorgfältig und logisch durch eine reihe diskreter schritte lösen kann, wobei jeder schritt auf dem vorherigen schritt aufbaut, ähnlich wie menschen denken.

openai-chefwissenschaftler jakub pachocki sagte, dass frühere modelle sofort mit der beantwortung von benutzeranfragen beginnen würden, sobald sie diese erhalten. „und dieses modell (bezogen auf o1) nimmt sich zeit. es denkt über das problem nach und versucht, es aufzuschlüsseln, blickwinkel zu finden und die beste antwort zu geben, genau wie die frage, die die meisten menschen damals gestellt haben.“ sie waren jung. denken sie nach, bevor sie sprechen.

openai sagte:o1 liegt im 89. perzentil bei kompetitiven programmierproblemen (codeforces), unter den 500 besten studenten in den vereinigten staaten bei den qualifikationsprüfungen für die american mathematics olympiad (aime) und beim benchmark test for physics, biology, and chemistry problems (gpqa) accuracy das übersteigt das menschliche ph.d.-niveau。

in forschungs- und blogbeiträgen, die von openai veröffentlicht wurden, scheint o1 über sehr leistungsstarke „argumentationsfähigkeiten“ zu verfügen. es kann nicht nur fortgeschrittene mathematik- und codierungsprobleme lösen, sondern auch komplexe passwörter entschlüsseln und fragen von experten und wissenschaftlern zu genetik, wirtschaft und quantenwissenschaft beantworten . komplexe probleme der physik. das zeigen zahlreiche diagrammein internen bewertungen hat o1 gpt-4o, das fortschrittlichste sprachmodell des unternehmens, bei problemen in der codierung, mathematik und verschiedenen wissenschaftlichen bereichen übertroffen und möglicherweise sogar menschen übertroffen.

bildquelle: offizielle website von openai

fünf dimensionen des tatsächlichen testens: codierung, spieleproduktion und andere fähigkeiten sind „erstaunlich“, haben aber im test des faktenwissens „durchgefallen“.

um ein tieferes verständnis der leistungsstarken fähigkeiten des o1-modells zu erlangen, testeten reporter der „daily economic news“ das o1-preview-modell in fünf dimensionen: klassisches erdbeertesten, code-schreiben, minispielproduktion, mathematik und wirtschaft. und faktenwissen.

1) erdbeertest

zunächst führte der reporter einen test mit einer einfachen frage durch, die fast alle großen modelle schon einmal „umgedreht“ haben: „wie viele rs gibt es im wort erdbeere?“”. den generierten ergebnissen nach zu urteilen, brachte o1-preview dennoch eine kleine überraschung mit sich.

2) code schreiben

der reporter fragte o1-preview zunächst nach der berühmtesten einfachen algorithmusfrage auf der online-programmierplattform leetcode: dem two-sum-problem (summe zweier zahlen). o1 gab eine sehr detaillierte begründung und antworten.

dann bat der reporter bewusst darum, die antwort zu optimieren. nachdem er 9 sekunden lang nachgedacht hatte, erkannte o1, dass das, was er anbot, bereits die optimale lösung war, und erklärte sie außerdem „rücksichtsvoll“. in früheren tests anderer modelle durch reporter entschuldigten sich diese modelle und änderten dann die antwort auf eine suboptimale lösung.

3) produktion von minispielen

in der demonstration des o1-modells demonstrierte openai die funktion, „ein minispiel in einem satz zu schreiben“. während des testprozesses bat der reporter o1-preview um hilfe bei der einführung nützlicher codierungstools und beim schreiben eines tischtennisspiels.

es dauerte nur 19 sekunden, bis o1-preview einen code bereitstellte, der reibungslos funktioniert, und fügte einen studienführer und ermutigende worte bei, was sehr benutzerfreundlich ist.

um zu verhindern, dass o1-preview betrügt und die gedächtnisfähigkeit anstelle der argumentationsfähigkeit zur beantwortung nutzt, forderte der reporter auch o1-preview auf, die code-ausführungsumgebung zu ändern: jupyter-hinweis. bei dieser laufumgebung handelt es sich um eine auf datenanalyse spezialisierte python-umgebung. entwickler werden diese umgebung grundsätzlich nicht zur entwicklung kleiner spiele verwenden.

nachdem ich darüber nachgedacht hatte, gab o1 immer noch einen code an, der ausgeführt werden kann. im vergleich zum vorherigen code weist diese antwort jedoch viele fehler auf. dies zeigt jedoch auch, dass es sich tatsächlich um eine durchdachte antwort und nicht um eine während des trainingsprozesses hinzugefügte standardantwort handelt.

um die innovativen denkfähigkeiten von o1-preview weiter zu verifizieren, bat der reporter das modell dann, auf der grundlage dieses minispiels ein komplexeres und interessanteres minispiel zu entwickeln.

diesmal ist die leistung von o1 wirklich etwas überraschend. basierend auf dem kollisionsmechanismus des tischtennisspiels wiederholt dieses modell ein aufwärtssprungspiel. im allgemeinen erfordern andere große modelle, dass benutzer ihre bedürfnisse klar beschreiben, bevor sie eine bessere antwort ausgeben können. der reporter hat in diesem test jedoch keine zusätzlichen anweisungen gegeben, um eine antwort auszugeben, die reibungslos funktioniert und in den augen des benutzers ausreichend ist reporter. lustiges kleines spiel.

4) naturwissenschaftlicher test

bei den naturwissenschaftlichen tests konzentrierte sich der reporter auf die prüfung der leistung von o1-preview in mathematik und wirtschaftswissenschaften.

zunächst stellte der reporter eine mathematische frage.o1-vorschaufragen sie nach möglichen wegen zur lösung der endlichen zeitexplosion der euler-gleichung (dies ist ein diskussionsartikel, der erst diese woche von professor terence teru, dem berühmten chinesischen mathematiker und fields-medaillengewinner, veröffentlicht wurde).

obwohl o1 keine klare lösung liefert, liefert es eine idee zur lösung des problems.diese idee stimmt teilweise mit dem artikel von professor tao zhexuan überein (wenn auch nur sehr wenig).。

in richtung wirtschaft befragte der reporter o1-preview zu einem komplexen wirtschaftssystemproblem. aus dem gegebenen feedback geht hervor,im grunde gibt es keine großen probleme. die gesamtlogik ist klar und auch die denkdimensionen sind vielfältig. obwohl es in den angegebenen mathematischen formeln ein paar kleinere fehler gibt, schadet es der gesamtsituation nicht.。

5) sachwissen und sprachverständnis

in dieser sitzung fragte der reporter o1-preview nach interessanten anekdoten über den ersten kaiser der ming-dynastie, aber o1 interpretierte die anekdoten als tatsächlich in der geschichte geschehene ereignisse und erzählte die gesamte historische geschichte von zhu yuanzhang.

gleichzeitig stellte der reporter diese frage auch dem gpt-4o-modell. zum vergleich: gpt-4o konnte die frage des reporters gut verstehen und erzählte zwei weit verbreitete volksgeschichten.

gesamt,die behauptung von openai, dass das o1-modell die menschliche ebene erreichen kann, scheint in einigen aspekten wahr zu sein.。

was den reporter am meisten überraschte, war, dass openai dem benutzer den prozess des modelldenkens im text zeigte. während des textdenkens verwendete das große modell viel „ich mache es“.”wörter wie „ich denke“ und „ich plane“ wirken eher anthropomorph, als würde eine reale person dem benutzer ihre denklogik erklären.

dies bedeutet jedoch nicht, dass das o1-modell perfekt ist.openai gab außerdem zu, dass o1 gpt-4o in bezug auf design, schreiben und textbearbeitung weit unterlegen ist.das o1 verfügt außerdem nicht über die möglichkeit, im internet zu surfen oder dateien und bilder zu verarbeiten.

das ärgerlichste für reporter ist, dass o1 selbst bei einer sehr einfachen anfrage, wie der konvertierung der ausgabeergebnisse ins chinesische, mehr als zehn sekunden damit verbringt, darüber nachzudenken, während gpt4o die anfrage schnell bearbeitet.

selbst in den vorteilhaften bereichen von openai kommt es beim o1-modell plötzlich zu leistungseinbußen und die modellausgabe wird träge sein.karpathy, der gründer von openai, der zurückgetreten ist, beschwerte sich: „es hat sich geweigert, die riemann-hypothese für mich zu lösen. modellfaulheit ist immer noch ein großes problem.“

openai sagte, dass das unternehmen diese probleme in späteren updates beheben werde, schließlich sei dies nur eine frühe vorschau des inferenzmodells.

tägliche wirtschaftsnachrichten

bericht/feedback

nachricht

bewertung des neuen o1-modells von openai in fünf dimensionen: codierung, spieleproduktion und andere fähigkeiten sind „erstaunlich“, aber faktenwissen wird „auf den kopf gestellt“

die legendäre „erdbeere“ ist da

fünf dimensionen des tatsächlichen testens: codierung, spieleproduktion und andere fähigkeiten sind „erstaunlich“, haben aber im test des faktenwissens „durchgefallen“.

einführung

meine kontaktdaten