openai „sprudelt“ erneut große modelle, um ihre lebensdauer zu verlängern

openai gibt großen modellen erneut eine „blase“, um ihre lebensdauer zu verlängern

2024-09-14

text丨er qianming

herausgeber: cheng manqi huang junjie

das wichtigste produkt von openai in diesem jahr, das modell o1, wurde wie geplant veröffentlicht. der aktienkurs von nvidia, dem größten gewinnbringer im ki-bereich, ist innerhalb von zwei tagen um 10 % gestiegen.

o1, das zum beantworten von fragen mehr rechenleistung benötigt, „denkt“ dutzende sekunden oder sogar länger nach, wenn es eine frage sieht, bevor es eine antwort gibt. laut openai kann es olympia-mathefragen weitaus besser beantworten oder programmieraufgaben erledigen als große modelle, die bereits auf dem markt sind.

doch die gute laune von openai-ceo sam altman wurde schnell unterbrochen. unter seinem tweet, der den vollständigen start von o1 ankündigte, lautete der top-kommentar: „wann wird die neue sprachfunktion verfügbar sein?“ er konterte sofort: „können sie sich ein paar wochen zeit nehmen, um sich für diese magie zu bedanken?“ ein neues spielzeug?“

was dieser benutzer nach altman will, ist kein neues spielzeug, sondern die kommende gpt-4o-end-to-end-sprachfunktion, die openai im mai dieses jahres versprochen hat. bei der damaligen live-demonstration klang diese neue ki natürlich, reagierte sehr schnell und wusste, wann sie unterbrechen musste, was es für andere schwierig machte, die wahrheit vom falschen zu unterscheiden. laut offiziellem zeitplan sollten zig millionen zahlende chatgpt-benutzer diese funktion innerhalb weniger wochen nutzen, doch bisher verzögerte sich dies.

im vergangenen jahr waren die produkte von openai ähnliche „zukünfte“: gpt-4 ist seit mehr als einem jahr online, und für das nächste generationsmodell von openai, gpt-5, gibt es noch keine anzeichen für eine veröffentlichung. das von openai anfang des jahres veröffentlichte videomodell wurde bisher nicht in großem umfang veröffentlicht und nur wenige von ihnen ausgewählte branchenprofis haben es tatsächlich verwendet.

die größten verzögerungen der branche haben die geduld des kapitalmarkts mit großen ki-modellen immer wieder strapaziert. einige chinesische technologieriesen und große modellunternehmen haben mitte dieses jahres die ausbildung grundlegender modelle eingestellt und mehr ressourcen in die anwendungsentwicklung investiert oder gpu-rechenleistung an externe kunden vermietet. sie befürchten, dass es in der technologie nicht viel raum für fortschritte gibt, und beginnen daher, investitionen zu reduzieren und nach rendite zu streben.

vor dieser woche war der marktwert von nvidia gegenüber seinem juni-höchststand um mehr als 20 % gefallen, und auch der marktwert von microsoft war um 13 % geschrumpft, wobei beide unternehmen hunderte milliarden dollar verloren hatten. der cfo von microsoft sagte, dass die zig milliarden dollar, die sie in den bereich der großen modelle investiert haben, 15 jahre oder länger warten müssen, bis sie sich erholen.

untersuchungen von sequoia zeigen, dass die investitionen im ki-bereich im vergangenen jahr den umsatz um mehr als 120 milliarden us-dollar überstiegen und dieses jahr auf 500 milliarden us-dollar steigen könnten. aber außer nvidia konnten nur wenige unternehmen einen großen anteil des umsatzwachstums verzeichnen. immer mehr menschen in der branche beginnen darüber zu diskutieren, ob die ki-blase wieder platzen wird, wenn die fähigkeiten großer modelle hier aufhören?

„blasen“ sind nicht unbedingt eine schlechte sache. bevor eine neue technologie die welt verändert, wird es eine phase geben, in der die vision weit über die realität hinausgeht. der unterschied liegt darin, ob und wann die vision realisierbar ist. wenn es auf lange sicht nicht erfüllt werden kann, platzt die blase und das unternehmen geht in die pleite. ein schweres platzen der blase kann sogar ein feld oder sogar mehrere volkswirtschaften lahmlegen. wenn sich die vision erfüllt, wird sie nur noch eine fußnote zum technischen fortschritt sein.

das von openai veröffentlichte o1 wird das zögern, dass es bei großen modellen keinen raum für fortschritte gibt, zumindest vorübergehend umkehren und die lebensdauer der „blase“ großer modelle verlängern.

jede neue technologie muss sich weiterentwickeln, bevor sie die welt verändern kann. die einzigartigkeit von o1 besteht nicht nur darin, dass die leistung in den bereichen programmierung, mathematik, physik und anderen bereichen erheblich verbessert wurde, sondern auch darin, dass es für eine gruppe von openai-anhängern und die dahinter stehenden investoren einen weg nach vorne gefunden hat: in der vergangenheit die informatik die leistung wurde eher zum „speichern von wissen“ verwendet. durch die verwendung einer großen datenmenge zum trainieren des modells weist o1 mehr rechenleistung dem „denken bei der beantwortung von fragen“ zu, dh dem argumentationsprozess, und die logischen fähigkeiten werden erheblich verbessert.

zuvor war das training großer modelle in den engpass der ursprünglichen skalierungsgesetze geraten. nach der erweiterung der modellparameterskala verlangsamte sich die leistungsverbesserung allmählich.

speziell für mathematik, programmierung und wissenschaftliche probleme optimiert, zeigt o1-mini auch ein erhebliches anwendungspotenzial. es kann wissenschaftlern und entwicklern nicht nur direkt dabei helfen, die arbeitseffizienz zu verbessern, sondern auch die entwicklungsleistung und -sicherheit in anderen hochwertigen vertikalen bereichen anzeigen sind bessere modellansätze.

wie bei mehreren veröffentlichungen üblich, hat openai den zeitpunkt der veröffentlichung von o1 sorgfältig ausgewählt. medienberichten zufolge suchte openai vor der veröffentlichung von o1 nach einer neuen finanzierung in höhe von 7 milliarden us-dollar mit einem wert von 150 milliarden us-dollar. zu den potenziellen investoren zählen apple, nvidia, microsoft und der united arab emirates investment fund. nun gibt es einen weiteren grund, den wettlauf um ressourceninvestitionen fortzusetzen.

vom großen sprachmodell zum „inferenzmodell“ ist o1 stark in der theorie und schwach in der literatur

dieses mal hat openai zwei modelle für benutzer veröffentlicht: o1-preview und o1-mini, und angekündigt, dass weitere modelle der o1-serie auf dem weg sind.

der grund, warum diese serie den namen o1 trägt, anstatt gpt zu verwenden, liegt darin, dass es offensichtliche änderungen in den trainingsmethoden der beiden gibt. in dem blogbeitrag von openai, in dem o1 vorgestellt wird, wird es oft als argumentationsmodell (begründungsmodell) bezeichnet, anstelle des zuvor beim aufrufen von gpt üblicherweise verwendeten großen sprachmodells (großes sprachmodell).

die allgemeine trainingslogik traditioneller großer sprachmodelle wie gpt besteht aus vortraining und feinabstimmung: zuerst werden große datenmengen verwendet, um dem großen modell in der vortrainingsphase beizubringen, das nächste wort vorherzusagen, und dann lernen, das nächste wort vorherzusagen das nächste wort in der feinabstimmungsphase: das große modell lernt wissen in einem bestimmten bereich und lässt menschen antworten schreiben, um dem großen modell beizubringen, welche antworten die leute wollen, und die maschine verbessert sich basierend auf dem feedback.

die neuen schlüsselwörter von o1 sind reinforcement learning und chain of thought (cot).

openai beschreibt den prozess folgendermaßen: „durch verstärkendes lernen lernt o1, seine denkkette zu verfeinern und die von ihm verwendeten strategien zu verfeinern. es lernt, komplexe schritte in einfachere zu zerlegen verbessert die inferenzfähigkeiten des modells erheblich, indem verschiedene methoden ausprobiert werden, wenn die aktuelle methode nicht funktioniert.

alphago, das den go-weltmeister im jahr 2016 besiegte, und sein nachfolgemodell alphazero nutzten reinforcement learning, um dem modell zu ermöglichen, selbst zu spielen und zu lernen, welche strategien zur verbesserung der gewinnquote in verschiedenen zuständen (spielen) eingesetzt werden können. das modell kann auch durch kontinuierliche versuche daten generieren, um das modell zu trainieren.

openai o1 verwendet eine ähnliche methode: es stellt dem großen modell schritt-für-schritt-problemlösungsdaten zur verfügung, sodass das modell lernen kann, sich selbst zu korrigieren und bei jedem schritt zu lernen, fragen zu beantworten, um die optimale antwort zu erhalten.

„die fähigkeit des ki-modells beruht immer noch auf daten. wenn es dinge gibt, die ursprünglich in den daten fehlen oder nicht ausreichen, kann das modell sie nicht lernen. o1 entspricht der implementierung einer methode zur synthese professioneller daten. mit diesen professionellen daten „o1 kann berufliche fähigkeiten erlernen“, sagte yuan jinhui, gründer von silicon mobile.

o1 bei der beantwortung einer frage wird er die frage auch in eine reihe kleiner fragen aufteilen und die frage schritt für schritt beantworten. dies ist die „denkkette“. laut openai-anzeige ist der prozess der o1-beantwortung von fragen wie folgt (in der vom benutzer verwendeten version verbirgt openai den inhalt der denkkette):

frage (ursprünglich auf englisch):

schreiben sie ein bash-skript, das eine matrix empfängt (dargestellt als string im format „[1,2],[3,4],[5,6]“) und die transponierte der matrix im gleichen format ausgibt.

problemlösungsideen von o1-preview (denkkette):

ein benutzer hat angefordert, ein bash-skript zu schreiben, das eine zeichenfolge empfangen kann, die eine matrix darstellt, z. b. „[1,2],[3,4],[5,6]“, und deren transponierte im gleichen format ausgeben kann.

lassen sie uns zunächst die eingabe- und ausgabeformate verstehen.

eingabe: '[1,2],[3,4],[5,6]', die entsprechende matrix ist:

1 2

3 4

5 6

daher besteht die eingabe aus einer reihe von zeilen, die in eckige klammern eingeschlossen und durch kommas getrennt sind.

die transponierte dieser matrix ist:

1 3 5

2 4 6

daher ist die erforderliche ausgabe „[1,3,5],[2,4,6]“.

gesamtmission:

schreiben sie ein bash-skript, das ein argument (eine zeichenfolge, die eine matrix darstellt) akzeptiert und seine transponierte im gleichen format ausgibt.

okay, jetzt überlegen wir, wie man eine eingabezeichenfolge in bash analysiert, eine matrix erstellt (möglicherweise unter verwendung eines arrays), sie transponiert und dann die transponierte matrix ausgibt, wobei das gleiche format beibehalten wird.

einschränkungen:

- da es sich um bash handelt, müssen wir beim string-parsing vorsichtig sein.

-das skript sollte die eingabezeichenfolge als parameter akzeptieren.

verfahren:

-parsen sie die eingabezeichenfolge, um matrixelemente zu extrahieren.

- konstruieren sie eine matrix als array von arrays.

-transponieren sie die matrix.

- geben sie die transponierte matrix im gleichen format aus.

umsetzungsschritte:

1. erfassen sie die eingabezeichenfolge als parameter.

2. entfernen sie alle leerzeichen (falls vorhanden).

3. analysieren sie die eingabezeichenfolge und extrahieren sie die zahlen in ein array.

-da das eingabeformat „[1,2],[3,4],[5,6]“ ist, können wir:

--gegebenenfalls äußere halterungen entfernen.

--teilen sie die zeichenfolge durch „]“, um jede zeile zu erhalten.

--entfernen sie für jede zeile „[“ und „]“ und trennen sie dann die elemente durch „,“.

4. erstellen sie in bash ein zweidimensionales array (array von arrays).

-da bash-arrays eindimensional sind, müssen wir ein zweidimensionales array simulieren.

5. transponieren sie die matrix.

-beim transponieren müssen wir zeilen und spalten vertauschen.

6. geben sie die transponierte matrix im gewünschten format aus.

-rekonstruieren sie die ausgabezeichenfolge im format „[1,3,5],[2,4,6]“.

beginnen sie nun schritt für schritt mit dem schreiben des codes.

mögliche probleme:

-bash selbst hat keine nativen mehrdimensionalen arrays, also müssen wir das simulieren.

-wir müssen mit zahlen umgehen, die mehrstellig sein können.

als nächstes können wir schritt für schritt damit beginnen, das framework dieses bash-skripts zu schreiben.

【leicht】

nun testen wir dieses skript anhand der beispieleingabe „[1,2],[3,4],[5,6]“.

lassen sie mich versuchen zu simulieren, was passieren würde.

ich werde es als antwort aufschreiben.

weder reinforcement learning noch thought chaining waren die ersten technischen richtungen, die openai vorschlug.

bevor o1 online ging, veröffentlichte google deepmind im juli eine aktualisierte version des mit einer ähnlichen methode trainierten alphageometry-modells, die imo eine silbermedaille bei der internationalen mathematikolympiade gewinnen konnte.

aber openai hat wieder einmal bewiesen, dass sie bei der entwicklung von modellen mit noch erstaunlicheren ergebnissen auf der grundlage der branche die führung übernehmen können. laut openai kann ihr speziell für die internationale informatikolympiade trainiertes o1-ioi-modell die goldmedaille gewinnen.

mit neuen trainings- und inferenzmethoden übertrifft openai o1-preview gpt-4o deutlich bei der lösung schwieriger mathematischer probleme und der bearbeitung von programmieraufgaben. beispielsweise beträgt der o1-vorschau-score beim mathematik-wettbewerbsdatensatz aime 2024 mehr als das vierfache des gpt-4o-werts, beim programmierwettbewerbs-datensatz codeforces beträgt der abstand das 5,6-fache.

bei mathematikwettbewerben, programmierwettbewerben und wissenschaftlichen fragen- und antwortdatensatztests übertrafen o1-preview und o1 gpt-4o deutlich.

openai sagte, dass es sich bei den derzeit begrenzten versionen von openai o1-preview und openai o1-mini nur um frühe versionen handele. ihr nächstes modell schneide bei anspruchsvollen testfragen in physik, chemie, biologie usw. ähnlich ab wie das vorgängermodell sie befinden sich auf bachelor- oder masterniveau.

um technologie in die realität umzusetzen, erwähnte openai 212 mitwirkende, was mit den mitwirkenden des textteils von gpt-4o (234 personen) vergleichbar ist. für das training von o1 sind jedoch mehr datentypen erforderlich. openai erwähnte, dass die im o1-vortraining verwendeten daten aus öffentlichen datensätzen, proprietären daten von partnern und intern entwickelten benutzerdefinierten datensätzen stammen, während gpt-4o nur die ersten beiden datentypen verwendet, wenn es textfunktionen beherrscht.

die o1-serie, die auf „inferenzmodelle“ ausgerichtet ist, hat gpt-4o nicht vollständig übertroffen, und ihre sprachfähigkeit ist ihre relative schwäche.

in den openai-tests glauben die meisten leute, dass o1-preview bei der beantwortung von fragen, die wert auf argumentation wie datenanalyse, programmierung und mathematik legen, besser ist als gpt-4o. in bezug auf persönliches schreiben, textbearbeitung usw. ist gpt-4o jedoch besser ist immer noch besser.

probleme, die von gpt-4o nicht gelöst werden können, werden auch in der o1-vorschau angezeigt. beispielsweise wird auch „unsinn“ gemacht und angenommen, dass 9.11 größer als 9.2 ist.

für persönliches schreiben, textbearbeitung usw. ist gpt-4o besser.

die durch die denkkette verursachte längere reaktionszeit (denken) kann ein mangel der o1-serie im tatsächlichen einsatz sein. als ich gebeten wurde, „die namen von fünf ländern aufzulisten, deren dritter buchstabe a ist“, benötigte gpt-4o nur 3 sekunden, während o1-mini 9 sekunden, o1-preview 32 sekunden und gpt-4o zehn mal benötigte. für einfache fragen grundsätzlich nicht erreichbar.

derzeit verfügen o1-preview und mini nicht über die funktionen zum surfen im internet, zum abrufen von informationen und zum verarbeiten hochgeladener dateien und bilder wie gpt-4o. derzeit scheinen softwareentwickler die schnellsten leute zu sein, die o1 zur produktivitätssteigerung nutzen können, aber openai schränkt auch die art und weise ein, wie sie die api aufrufen: sie können nur 20 mal pro minute aufrufen, ausgenommen funktionen wie funktionsaufrufe, streaming usw unterstützung für systemnachrichten.

von der trainingsskalierung bis zur inferenzskalierung wird der wettbewerb um die rechenleistung weitergehen

nach ansicht vieler großer modellforscher besteht die wichtigste änderung von o1 darin, dass es einen neuen weg aufzeigt, um die fähigkeiten großer modelle erheblich zu verbessern.

die ursprünglichen skalierungsgesetze bedeuten, dass die verwendung von mehr daten und rechenleistung zum trainieren eines modells mit größeren parametern zu einer besseren leistung führt.

wie in der folgenden abbildung dargestellt, zeigt o1, dass sich die leistung weiter verbessert, wenn das modell mehr zeit und mehr rechenleistung für die beantwortung von fragen aufwendet (testzeitberechnung). jim fan, leitender ki-wissenschaftler bei nvidia, sagte in den sozialen medien, dass dies möglicherweise das wichtigste bild in der forschung an großen modellen sei, seit deepmind im jahr 2022 chinchill scaling laws (eine optimierung der ursprünglichen scaling laws) vorgeschlagen habe.

jim fan schlug auch eine möglichkeit für die zukünftige entwicklung großer modelle vor: zukünftige modelle könnten argumentation und wissen trennen, einen kleinen „argumentationskern“ haben und auch eine große anzahl von parametern verwenden, um fakten (wissen) für tests wie quizfragen zu speichern und antworten. hervorragende leistung.

openai erwähnte in dem artikel zur einführung von o1 auch ausdrücklich, dass sie die gpt-modellreihe weiterentwickeln werden. dies könnte darauf hindeuten, dass openai die in o1 verwendeten methoden in das gpt-modell der nächsten generation einführen wird.

unabhängig davon, ob o1 zur neuen mainstream-methode wird oder o1 mit der gpt-serie kombiniert wird, um die nächste generation großer modelle zu entwickeln, dürften die anforderungen an die rechenleistung weiter steigen.

openai hat die inferenzkosten der o1-serie nicht bekannt gegeben, aber aus der zeit, die das o1-modell benötigt, um fragen zu beantworten, und den nutzungsbeschränkungen von openai für o1 lässt sich ableiten, dass o1 viel größere inferenz-rechenressourcen erfordert als die gpt-serie.

bezahlte benutzer von chatgpt plus, die 20 us-dollar pro monat ausgeben, können o1-preview derzeit nur 30 mal und o1-mini 50 mal pro woche nutzen. das aktuelle limit von gpt-4o liegt bei 4480 mal pro woche (80 mal alle 3 stunden), was dem 90-fachen von o1-mini und dem 150-fachen von o1-preview entspricht.

die zeit, die o1-preview zur beantwortung von fragen benötigt, hat sich bei modellen der gpt-serie von sekunden auf mehrere zehn sekunden oder sogar länger erhöht. außerdem verarbeitet es bei der beantwortung von fragen deutlich mehr text. nehmen sie die im artikel aufgeführten programmierprobleme als beispiel, wenn sie den prozess der „denkkette“ zeigen. als o1 ihn löste, verarbeitete er einschließlich der denkkette 6632 zeichen, was dem 4,2-fachen von gpt-4o entspricht. längere rechenzeit und längere ausgabe bedeuten höhere kosten für rechenleistung.

o1 die belebung der ki-aussichten und des rechenleistungsverbrauchs spiegelte sich schnell am kapitalmarkt wider. seit medienberichte zu beginn dieser woche, dass openai kurz vor der veröffentlichung eines neuen modells steht, ist der aktienkurs von nvidia um 10 % gestiegen, und auch microsoft ist gemeinsam gestiegen.

für diejenigen unternehmen, die sich über die richtung der technologischen entwicklung nicht sicher sind oder ihre forschung an basismodellen verlangsamt haben, gibt es jetzt neue aufgaben zu erledigen und neue wege einzuschlagen. die hohe wahrscheinlichkeit der veröffentlichung von o1 bedeutet, dass sich der wettbewerbsunterschied in bezug auf „inferenzmodelle“ erneut vergrößert hat und eine runde beschleunigter aufhol- und investitionsaktivitäten bevorsteht.

„es ist zeit, zur sache zu kommen, sonst sind wir nicht mehr im spiel“, sagte ein chinesischer großmodellforscher.

titelbild: visual china

1957 betrat zum ersten mal ein von menschenhand geschaffenes objekt das universum und umkreiste drei wochen lang die erde. wenn menschen nach oben schauen, können sie einen kleinen lichtblitz sehen, der nachts parallel zu den mythischen sternen über den himmel streift.

solche leistungen gehen über rassen und ideologien hinweg und lösen auf der ganzen welt freude aus. aber nicht die siegesfreude, von der wir vermuten könnten, dass sie von menschlichen heldentaten getrieben wird. laut der damaligen beobachtung der politischen philosophin hannah arendt nähert sich die stimmung der menschen einer lang erwarteten erleichterung – die wissenschaft hat endlich die erwartungen eingeholt und „die menschheit ist endlich auf dem weg aus dem gefängnis der erde.“ genommen worden.“

menschen passen ihre erwartungen an die welt immer schnell an, basierend auf technologischen erkundungen. wenn die fantasie eines science-fiction-autors wirklichkeit wird, dann ist es oft der zeitpunkt, an dem die technologie endlich die erwartungen der menschen erfüllt, oder in arendts worten: „die technologie erkennt und bestätigt, dass die träume der menschen weder verrückt noch nihilistisch sind.“

in zeiten wie heute ist es besser, mehr zu träumen.

dies ist auch die erwartung, dass „latepost“ die kolumne tech tuesday startet. wir hoffen, neben der geschäftswelt, der „late“ täglich aufmerksamkeit schenkt, regelmäßig neue wissenschaftliche forschungen und technologische fortschritte vorstellen zu können.

dabei kann es sich um den fortschritt einer spitzenforschung, um eine beobachtung einer technologieanwendung oder um eine hommage an einige herausragende technologien oder sogar eine ära handeln.

in dieser kolumne werden die vielfältigen veränderungen in der welt aus der perspektive von wissenschaft und technik erfasst. ich hoffe, dass die leser sich uns auf dieser reise anschließen und ein wenig mehr verständnis für die welt gewinnen können.

· fin ·

nachricht

openai gibt großen modellen erneut eine „blase“, um ihre lebensdauer zu verlängern

einführung

meine kontaktdaten