ist openai „strawberry“ eine billion wert?

2024-09-13

autor |. bi andi, herausgeber |

was haben ultraman und ma baoguo gemeinsam? antwort: sie alle führen gerne hinterhältige angriffe durch.

die nachricht von „strawberry“ kursiert seit mehreren monaten. es wird gesagt, dass es sich um ein mysteriöses projekt innerhalb von openai handelt, das sich offenbar deutlich vom modell der vorherigen generation unterscheidet. aber openai hat es geheim gehalten. der moment, in dem es enthüllt wurde, war ein foto von echten erdbeeren, das ceo sam altman in den sozialen medien gepostet hatte.

erst vor wenigen tagen brachte the information die nachricht, dass „strawberry“ in den nächsten zwei wochen erscheinen wird.

trotz dieser großen aufmerksamkeit überraschte openai die welt dennoch: am nachmittag des 12. september ortszeit veröffentlichte openai plötzlich ein neues modell, ohne vorankündigung oder pressekonferenz.

allerdings ist der name des neuen modells nicht so lecker wie „erdbeere“, sondern sehr ernst und aussagekräftig: o1.

sie wissen, das openai-modell wurde bereits in der „gpt“-reihe wiederholt, von gpt-1 im jahr 2018 bis gpt-4o im mai dieses jahres. heute eröffnet openai eine neue linie.

im offiziellen blogbeitrag zur ankündigung von o1 sagte openai folgendes: „als frühes modell verfügt es noch nicht über viele der funktionen, die chatgpt nützlich machen … aber für komplexe inferenzaufgaben ist dies eine deutliche verbesserung und stellt ki-fähigkeiten dar.“ vor diesem hintergrund haben wir den zähler auf 1 zurückgesetzt und dieser serie den namen openai o1 gegeben.“

das neue modell steht derzeit nur zahlenden chatgpt-abonnenten und einigen programmierern offen. um zu zeigen, dass das modell noch nicht ausgereift ist, heißt es vorübergehend „o1-preview“, und „preview“ bedeutet vorschau. darüber hinaus hat openai auch eine kleine modellversion o1-mini veröffentlicht. unabhängig davon, ob es sich um o1-preview oder o1-mini handelt, gibt es derzeit eine begrenzung der anzahl der antworten pro woche.

ultraman selbst lobte das neue modell in den sozialen medien

gary marcus, ein ki-wissenschaftler, der chatgpt immer gerne mit kaltem wasser übergießt, scherzte, dass der schritt von openai ein „bekanntes rezept“ sei: die demo ankündigen, sie für eine begrenzte anzahl von benutzern öffnen, geld sammeln und es noch einmal machen.

zum zeitpunkt der veröffentlichung von o1 befand sich openai in einer neuen finanzierungsrunde. den neuesten nachrichten von bloomberg zufolge wird es sich bei dieser finanzierungsrunde um ein großereignis mit einer größenordnung von mehreren zehn milliarden us-dollar und einer angestrebten bewertung von 150 milliarden us-dollar handeln.

werfen wir zunächst einen blick auf das modell selbst.

wie bereits gemunkelt wurde, liegt ein hauptschwerpunkt von o1 auf dem „argumentation“. der schlüssel zum „argumentieren“ ist „denken“.

für benutzer ist das intuitivste gefühl, dass die o1-vorschau länger dauert, bis die frage beantwortet wird.

beim o1-preview-modell fragt die alphabetliste chatgpt: „welcher tag im monat und wochentag ist heute?“ nachdem die frage gesendet wurde, zeigt chatgpt nacheinander die laufenden denkschritte an: beantwortung der datumsfrage, überprüfung der richtlinien, verstehen des aktuellen datums und anschließende abgabe der antwort mit der markierung „8 sekunden lang nachdenken“.

im gegensatz dazu gibt chatgpt beim gpt-4o-modell innerhalb von 3 sekunden eine direkte antwort, ohne zwischenschritte anzuzeigen.

„dies ist ein neues großes orakelmodell, das durch verstärkendes lernen trainiert wird und für die ausführung komplexer argumentationsaufgaben konzipiert ist. o1 denkt, bevor es fragen beantwortet – es kann eine interne lange ‚gedankenkette‘ erzeugen, bevor es dem benutzer antwortet“, schrieb openai in einem blogbeitrag.

dieses mal, als das o1-modell veröffentlicht wurde, gaben die verantwortlichen von openai nur sehr wenige technische details preis und betonten immer wieder die „denkkette“.

laut openai nutzt o1 gedankenketten, wenn es darum geht, probleme zu lösen, ähnlich wie menschen lange und gründlich nachdenken, bevor sie eine schwierige frage beantworten. durch reinforcement learning lernte o1, seine denkkette zu verfeinern und seine nutzungsstrategien zu optimieren. es ist in der lage, eigene fehler zu erkennen und zu korrigieren und zu lernen, komplexe schritte in einfachere zu unterteilen. wenn die aktuelle methode nicht funktioniert, wird eine andere methode ausprobiert.

„dieser prozess verbessert die inferenzfähigkeiten des modells erheblich.“

wie stark ist die fähigkeit von o1? neben den zahlreichen von openai veröffentlichten demonstrationsvideos sind die testergebnisse am überzeugendsten. openai sagt, dass o1 bei einer reihe von inferenzintensiven benchmarks „vergleichbar mit menschlichen experten“ abschneidet und frühere techniken übertrifft. bei der internationalen mathematikolympiade (imo) beispielsweise lag die vorherige technische punktzahl bei 13 %, und die punktzahl von o1 lag sogar bei 83 %.

beim codeforces-programmierwettbewerb erreichte o1 eine hervorragende punktzahl von 89 %. basierend auf o1 entwickelte openai auch o1-ioi, das besser programmieren kann, und dessen ergebnisse auf einen schlag 93 % der teilnehmer übertrafen.

ein weiterer test, den openai ausdrücklich „vorzeigt“, ist gpqa-diamond, ein benchmark-test für fachkenntnisse in chemie, physik und biologie. openai lud promovierte experten zum wettbewerb ein und stellte fest, dass „die leistung von o1 die dieser menschlichen experten übertraf“.

openai sagte außerdem, dass o1 nach der aktivierung der visuellen wahrnehmungsfähigkeiten im mmmu-test 78,2 % erreichte und „das erste modell wurde, das mit menschlichen experten konkurrieren kann“. darüber hinaus übertrifft o1 gpt-4o in 54 von 57 mmlu-unterkategorien.

kurz gesagt, o1 legt mehr wert auf die denkfähigkeit als die vorgängermodelle von openai, und seine fähigkeiten in mathematik und programmierung wurden, um es zu übertreiben, wie ein arzt im boxen und ein experte im treten. es wird auch erwartet, dass es die modellillusion reduziert.

allerdings befindet sich o1 noch in einem relativ frühen stadium. wie ultraman betonte, „gibt es noch mängel und einschränkungen.“

lediglich beim oberflächlichen versuch der alphabetliste kam es zu fehlern in der o1-vorschau. auf die frage „was ist größer, 9.11 oder 9.9?“ antwortete gpt-4o beispielsweise falsch, und auch o1-preview antwortete falsch und sagte im ernst: „9.11 ist tatsächlich größer als 9.9. denn 9.11 (d. h. 9.11) ist größer als.“ 9,9 (9,90).“ in der ausführlichkeit liegt ein hauch von humor, ganz zu schweigen davon, dass es 15 sekunden gedauert hat, darüber nachzudenken.

die informationen berichteten auch, dass einige benutzer, die o1-preview ausprobiert hatten, sagten, dass viele interaktionen „die zusätzlichen 10 bis 20 sekunden wartezeit nicht wert seien“ und dass sie die reaktionsgeschwindigkeit von gpt-4o bevorzugten.

derzeit stehen zahlenden benutzern o1-preview und o1-mini zur verfügung, die anzahl ist jedoch begrenzt: o1-preview hat 30 nachrichten pro woche und o1-mini hat 50 nachrichten pro woche.

ab nächster woche werden beide modelle auch für unternehmens- und bildungsnutzer von chatgpt zugänglich sein. openai erklärte außerdem, dass es o1-mini in zukunft allen benutzern kostenlos zur verfügung stellen möchte, der genaue zeitpunkt wurde jedoch nicht bekannt gegeben.

dies ist das erste mal, dass openai bei der veröffentlichung eines modells ein suffix ähnlich „vorschau“ hinzugefügt hat. zuvor hatten sowohl gpt-4 als auch gpt-4o das vollständige modell direkt veröffentlicht.

ein nicht zu vernachlässigendes merkmal von o1 ist, dass es teuer ist.

die kosten für den entwicklerzugriff auf o1 sind sehr hoch: in bezug auf die api berechnet o1-preview 15 us-dollar pro 1 million eingabe-tokens oder textblöcke, die vom modell geparst werden, das dreifache von gpt-4o, und 60 us-dollar pro 1 million ausgabe-tokens , viermal so viel wie gpt-4o.

the atlantic analysierte in dem bericht, dass o1 speziell darauf ausgelegt ist, mehr zeit zu benötigen, was unweigerlich mehr ressourcen verbrauchen und die rentabilität von aigc erschweren wird.

gary marcus, der am anfang dieses artikels erwähnt wurde, ist ein wissenschaftler an der schnittstelle zwischen menschlicher neurowissenschaft und künstlicher intelligenz, honorarprofessor an der new york university und gründer und ceo des ki-startups geometric intelligence ist „der dorn in der ki-welt“ hat openai immer wieder kritisiert.

seiner ansicht nach handelt es sich bei der plötzlichen veröffentlichung von o1-preview durch openai eher um eine propagandamethode.

schließlich befindet sich openai in einer wichtigen finanzierungsrunde und verhandelt darüber, 6,5 milliarden us-dollar bei einer bewertung von 150 milliarden us-dollar einzusammeln banken in form von revolvierenden krediten.

„senden sie eine demo, öffnen sie sie für begrenzte benutzer, sammeln sie geld und wiederholen sie den vorgang.“ so fasst marcus die „mittel“ von openai zusammen.

im juli dieses jahres berichtete the information, dass openai in diesem jahr bis zu 5 milliarden us-dollar verlieren könnte. darunter belaufen sich die personalkosten von openai in diesem jahr auf etwa 1,5 milliarden us-dollar, die kosten für ki-schulung und inferenz könnten bis zu 7 milliarden us-dollar betragen und der jahresumsatz wird voraussichtlich zwischen 3,5 und 4,5 milliarden us-dollar liegen.

damals prognostizierte the information, dass openai bei diesem tempo der geldverbrennung bald mittel aufbringen müsste. die letzte wichtige finanzierung für openai erfolgte anfang 2023, als microsoft dutzende milliarden dollar investierte.

dies ist nicht das erste mal, dass openai „unausgereifte produkte“ an schlüsselknoten veröffentlicht.

im oktober letzten jahres gab es die nachricht, dass openai anteile verkaufen wollte. damals wurde gemunkelt, dass die mögliche bewertung bei 86 milliarden us-dollar lag. doch im darauffolgenden monat erlebte openai einen schockierenden wechsel in der führungsspitze von openai. altman wurde aus dem unternehmen geworfen, kehrte jedoch bald in seine position als ceo zurück und gewann den „palastkampf“. allerdings verzögerte sich der aktienverkaufsplan kurzzeitig, und bis ende november gab es keine nachricht, dass die transaktion „wieder auf kurs“ sei. zu diesem zeitpunkt sagten mit der angelegenheit vertraute personen, dass die mitarbeiter befürchteten, dass sich der notfall auf den aktienverkauf und die unternehmensbewertung auswirken würde.

interessanterweise kündigte openai am 15. februar dieses jahres plötzlich ein neues videogenerationsmodell sora an, und die demo löste bei der außenwelt einen schock aus. innerhalb von drei tagen berichtete die new york times, dass openai den verkauf der mitarbeiteranteile abgeschlossen habe und die unternehmensbewertung „wie erwartet“ 80 milliarden us-dollar überstieg.

mehr als ein halbes jahr ist vergangen und sora war weder für die öffentlichkeit zugänglich noch hat es groß angelegte tests gefördert. die außenwelt begann zu vermuten, dass sora tatsächlich nicht über genügend rechenleistung verfügte, um seinen betrieb zu unterstützen. ein von der marktforschungsorganisation factorial funds veröffentlichter bericht geht davon aus, dass für den einsatz von sora 720.000 nvidia h100-chips benötigt werden.

anfang september berichtete „taiwan economic daily“, dass der a16-angström-chip von tsmc bereits bestellungen von großkunden erhalten habe, darunter apple und openai. openai wird benutzerdefinierte chips verwenden, um die videogenerierungsfunktionen von sora zu verbessern. dies scheint auch zu bestätigen, dass sora schon einmal einen rechenleistungsstau hatte.

jetzt, da das chatgpt mit erdbeergeschmack da ist, werden wir vielleicht bald die nachricht sehen, dass openai eine neue finanzierungsrunde erfolgreich abgeschlossen hat und einen wert von über einer billion yuan hat.

nachricht

ist openai „strawberry“ eine billion wert?

einführung

meine kontaktdaten