langsam und teuer? das openai-inferenzmodell „strawberry“ ist da, wie weit ist gpt-5?

langsam und teuer? das openai-inferenzmodell „strawberry“ ist da, wie weit ist gpt-5 entfernt?

2024-09-13

„strawberry“ von openai ist endlich da.

am 12. september ortszeit veröffentlichte der riese für künstliche intelligenz (ki) openai die openai o1-serie von ki-inferenzmodellen mit dem codenamen „strawberry“, einschließlich openai o1-preview und einer kleinen version von o1-mini.

laut openai wird o1 mehr zeit damit verbringen, über probleme nachzudenken, bevor es reagiert, genau wie menschen. durch das training habe ich gelernt, meinen denkprozess zu verfeinern, verschiedene strategien auszuprobieren und meine fehler zu erkennen. denken sie über komplexe aufgaben nach und lösen sie schwierigere probleme als frühere wissenschaftliche, codierende und mathematische modelle.

openai sagte, dass diese modellreihe einen großen fortschritt für komplexe argumentationsaufgaben darstelle, weshalb sie auch den produktzähler auf 1 zurücksetzte und ihn openai o1 nannte. das „o“ im namen könnte sich auf orion beziehen.

stärkere denkfähigkeit und denkkette bieten neue möglichkeiten für die modellsicherheit

das „strawberry“-projekt hieß zuvor „q*“, was der grund war, der den „gerichtsstreit“ von openai auslöste und zur plötzlichen entlassung des ceo des unternehmens, sam altman, führte. damals teilte mira murati, chief technology officer von openai, den mitarbeitern mit, dass ein brief über den ki-durchbruch bei q* (ausgesprochen q-star) den vorstand dazu veranlasst habe, die entlassung anzunehmen, berichten quellen.

die fortschritte von openai bei q* haben einige unternehmensinsider zu der annahme veranlasst, dass dies ihr durchbruch bei der entdeckung von „superintelligenz“ (agi, künstliche allgemeine intelligenz) sein könnte.

nach offiziellen angaben verfügt o1 über viele fähigkeiten, die weit über die von gpt-4o hinausgehen. platz 89 bei codeforces, platz unter den 500 besten studenten des landes bei der american mathematical olympiad (aime) und übertraf das niveau eines human-doktoranden.

berichten zufolge verwendet o1 ähnlich wie menschen lange nachdenken, bevor sie ein schwieriges problem lösen, eine reihe von gedanken, wenn sie versuchen, ein problem zu lösen. durch verstärkendes lernen kann o1 lernen, seine denkkette zu verfeinern und die von ihm verwendeten strategien zu verbessern. es lernt, fehler zu erkennen und zu korrigieren, knifflige schritte in einfachere zu zerlegen und andere ansätze auszuprobieren, wenn der aktuelle nicht funktioniert.

openai sagte, dass die verwendung von gedankenketten die sicherheit und konsistenz erheblich verbessern kann, da das denken des modells auf klare weise beobachtet werden kann und die argumentation des modells zu sicherheitsregeln gegenüber off-distribution-szenarien robuster ist.

xu li, vorstandsvorsitzender und ceo von sensetime, hat zuvor gesagt, dass die frage, ob ein modell in zukunft intelligent ist oder nicht, ausschließlich davon abhängt, ob die methodik zur erstellung von modell-denkkettendaten stark genug ist und ob diese starke methodik nachhaltig sein kann und iterativ.

teilweiser screenshot der ursprünglichen vollständigen denkkette von openai o1

letztlich entschied sich openai jedoch dafür, dem benutzer nicht die ursprüngliche denkkette anzuzeigen, sondern eine zusammenfassung der denkkette anzuzeigen. openai erklärte weiter: „verborgene gedankenketten bieten eine einzigartige möglichkeit, modelle zu überwachen. unter der annahme, dass das modell zuverlässig lesbar ist, ermöglichen uns versteckte gedankenketten, die gedanken des modells zu ‚lesen‘ und seinen denkprozess zu verstehen. zum beispiel in der zukunft.“ möglicherweise möchten wir die gedankenketten auf anzeichen manipulierender benutzer überwachen. dazu muss das modell jedoch in der lage sein, seine gedanken in unveränderter form auszudrücken, sodass wir die einhaltung von richtlinien oder benutzerpräferenzen nicht trainieren können „ich möchte nicht, dass benutzer inkonsistente gedankenketten direkt sehen.“

derzeit sind zwei o1-modelle für plus- und team-benutzer von chatgpt verfügbar, unternehmens- und bildungsbenutzer können sie ab nächster woche nutzen.

langsamer, aber teurer, nicht der „nachfolger“ von gpt-4o

derzeit beträgt das wöchentliche nachrichtenlimit 30 für o1-preview und 50 für o1-mini. openai sagte, es arbeite hart daran, das nachrichtenlimit zu erhöhen und chatgpt in die lage zu versetzen, basierend auf gegebenen eingabeaufforderungen automatisch den geeigneten modus auszuwählen. außerdem wird der zugriff auf mehr benutzerebenen ausgeweitet und es ist geplant, allen kostenlosen benutzern zugriff auf o1-mini zu gewähren.

auf der api-seite (application programming interface) berechnet o1-preview 15 us-dollar pro 1 million eingabe-tokens (große modelle zerlegen text in wörter, zeichensätze oder kombinationen aus wörtern und satzzeichen) und 60 us-dollar pro 1 million ausgabe-tokens. im vergleich zu gpt-4o betragen die eingabekosten das dreifache und die ausgabekosten das vierfache.

o1-mini ist schneller in der positionierung und kostengünstiger. es soll auch eine hervorragende leistung in bezug auf bewertungsbenchmarks wie aime und codeforces aufweisen zu o1-preview. mit höheren ratenlimits und geringerer latenz ist o1-mini für api-benutzer 80 % günstiger als o1-preview.

auch andere nachteile liegen auf der hand. openai o1 ist langsamer als andere modelle. laut ausländischen medienberichten kann es mehr als 10 sekunden dauern, bis o1 bestimmte fragen beantwortet, und das modell wählt den fortschritt aus, indem es beschriftungen für die aktuell ausgeführten unteraufgaben anzeigt.

gleichzeitig kann o1 angesichts der unvorhersehbarkeit generativer ki-modelle andere mängel und einschränkungen aufweisen. beispielsweise können beim tic-tac-toe-spiel manchmal fehler gemacht werden. in einem fachartikel sagte openai, einige tester hätten gemunkelt, dass o1 anfälliger für halluzinationen sei als gpt-4o und weniger bereit sei zuzugeben, wenn es die antwort auf eine frage nicht kenne.

darüber hinaus ist o1 derzeit nicht in der lage, im internet zu surfen oder dateien zu analysieren.

altman gab offen zu, dass o1 derzeit die leistungsstärkste und abgestimmtste modellreihe von openai ist, aber es weist immer noch mängel auf.

openai-präsident greg brockman sagte auch, dass sich die o1-technologie noch in einem frühen stadium befinde und openai aktiv an der erforschung von zuverlässigkeit, halluzinationen und robustheit (stabilität) gegen angreifer arbeite.

openai sagte, dass openai o1 als frühes modell noch nicht über viele der funktionen verfügt, die chatgpt nützlich machen, wie z. b. das durchsuchen von netzwerkinformationen, das hochladen von dateien und bildern usw. für viele häufige fälle wird gpt-4o kurzfristig über größere fähigkeiten verfügen. regelmäßige updates und verbesserungen werden folgen, und „es wird noch daran gearbeitet, dieses neue modell so einfach zu bedienen wie das aktuelle modell zu machen.“

openai betont, dass openai o1 nicht der „nachfolger“ von gpt-4o ist, sondern dass 4o in verbindung mit den inferenzfunktionen von o1 verwendet werden kann. es ist geplant, nach der o1-serie weiterhin modelle der gpt-serie zu entwickeln und zu veröffentlichen.

vergleich mehrerer benchmarks zwischen openai o1 und gpt-4o

erwähnenswert ist, dass openai laut früheren ausländischen medienberichten möglicherweise erwägt, höhere ladestandards für das große modell „strawberry“ oder das flaggschiffmodell der nächsten generation festzulegen, die maximal 2.000 us-dollar pro monat erreichen könnten. zum vergleich: die aktuelle gebühr für chatgpt plus beträgt 20 $ pro monat.

turbulentes openai, wann kommt gpt-5?

laut ausländischen medienberichten werde derzeit das hauptmodell gpt-5 der nächsten generation gebaut, sagte mulati, das deutlich größer sein werde als sein vorgänger. während das unternehmen immer noch davon überzeugt ist, dass die skalierung dazu beitragen wird, neue möglichkeiten der künstlichen intelligenz zu erschließen, wird gpt-5 wahrscheinlich auch die dieses mal eingeführte inferenztechnologie umfassen.

„es gibt zwei paradigmen“, sagte murati, „das skalierungsparadigma und dieses neue paradigma. wir wollen sie zusammenbringen.“

der entwicklungspfad von gpt-5 ist nicht einfach.

am 11. september ortszeit gab alexis conneau, forschungsleiter von gpt-4o/gpt-5 und technischer leiter der openai-version von „her“, plötzlich seinen rücktritt bekannt. zuvor sind openai-mitbegründer und chefwissenschaftler ilya sutskever, „super alignment“-teamleiter jan leike und mitbegründer john schulman, chatgpt-chef peter deng und andere zurückgetreten ... derzeit sind nur noch zwei der elf gründer bei openai .

es gibt nicht nur personelle turbulenzen, sondern openai sieht sich in diesem jahr offenbar auch mit einer einnahmen- und ausgabenlücke von 5 milliarden us-dollar konfrontiert.

was jedoch zu erkennen ist, ist, dass openai bereits maßnahmen ergreift.

der jüngste plan von openai sieht vor, etwa 6,5 milliarden us-dollar aufzubringen, was den wert dieser finanzierungsrunde auf 150 milliarden us-dollar erhöht. ende letzten monats wurde bekannt, dass sich openai auf eine neue finanzierungsrunde in höhe von 1 milliarde us-dollar vorbereitet, die von der risikokapitalgesellschaft thrive capital angeführt wird und an der möglicherweise microsoft, apple und nvidia beteiligt sind knapp über 100 milliarden us-dollar.

am 29. august ortszeit gab openai bekannt, dass chatgpt derzeit mehr als 200 millionen aktive benutzer pro woche hat, doppelt so viele wie im letzten herbst.

laut openai nutzen 92 % der fortune-500-unternehmen seine produkte und die nutzung seiner api hat sich seit der einführung von chatgpt-4o mini im juli verdoppelt.

der zeitungsreporter qin sheng

(dieser artikel stammt von the paper. für weitere originalinformationen laden sie bitte die „the paper“-app herunter.)

bericht/feedback

nachricht

langsam und teuer? das openai-inferenzmodell „strawberry“ ist da, wie weit ist gpt-5 entfernt?

einführung

meine kontaktdaten