openai veröffentlicht neues o1-modell: es wird so „nachdenklich“ sein wie „humans

openai veröffentlicht neues o1-modell: es wird so „nachdenklich“ sein wie menschen

2024-09-13

autor｜suchoi

ohne jede vorsichtsmaßnahme wurde das lang erwartete „strawberry“-modell von openai veröffentlicht.

einführungsausschnitt des o1-modells, quelle: openai

heute früh pekinger zeit veröffentlichte openai ein neues modell namens openai o1, das ebenfalls das zuvor gemeldete „strawberry“ war, aber ursprünglich den codenamen „q*“ trug. sam altman, ceo von openai, nannte es „den beginn eines neuen paradigmas“.

den offiziellen informationen von openai nach zu urteilen,zusammenfassend sind die eigenschaften von o1: größer, stärker, langsamer und teurer.

durch verstärkungslernen (reinforcement learning) hat openai o1 erhebliche fortschritte bei den argumentationsfähigkeiten erzielt. das forschungs- und entwicklungsteam beobachtete, dass sich die leistung des o1-modells mit der verlängerung der trainingszeit (erhöhung des verstärkungslernens) und der denkzeit (berechnung während des tests) allmählich verbesserte. die herausforderungen bei der skalierung dieses ansatzes unterscheiden sich von den einschränkungen vor dem training großer sprachmodelle (llms).

die leistung von o1 verbessert sich stetig mit der berechnung der trainingszeit und der testzeit, quelle: openai

was die gerüchte auf dem markt betrifft, dass „das o1-modell selbstständig aufgaben auf browser- oder systembetriebsebene für benutzer ausführen kann“, wird diese funktion in den aktuellen öffentlichen informationen nicht erwähnt.

ein openai-beamter sagte: „obwohl dieses erste modell noch nicht über funktionen wie die online-suche nach informationen und das hochladen von dateien und bildern verfügt, hat es erhebliche fortschritte bei der lösung komplexer denkprobleme gemacht, was eine neue ebene der technologie der künstlichen intelligenz darstellt. so war es.“ beschlossen, dieser serie einen neuen ausgangspunkt zu geben und sie openai o1 zu nennen.“die hauptanwendung von o1 konzentriert sich immer noch auf die beantwortung und analyse von fragen durch textinteraktion und nicht auf die direkte steuerung des browsers oder betriebssystems.

im gegensatz zu früheren versionendas o1-modell „denkt gründlich nach“, bevor es eine antwort gibt, wie es ein mensch tun würde.es dauert etwa 10 bis 20 sekunden, um eine lange kette interner ideen zu generieren und in der lage zu sein, verschiedene strategien auszuprobieren und eigene fehler zu identifizieren.

diese starke denkfähigkeit bietet o1 ein breites anwendungspotenzial in verschiedenen branchen, insbesondere bei komplexen wissenschaftlichen, mathematischen und programmieraufgaben. bei der bearbeitung physikalischer, chemischer und biologischer probleme ist die leistung von o1 sogar mit der von doktoranden in diesem fachgebiet vergleichbar. bei der international mathematical olympiad qualifying examination (aime) lag die genauigkeitsrate von o1 bei 83 % und erreichte damit erfolgreich den platz unter den besten 500 studenten in den vereinigten staaten, während die genauigkeitsrate des gpt-4o-modells nur 13 % betrug.

altman teilte auch o1 auf x, quelle: x

openai bietet einige spezifische anwendungsfälle: medizinische forscher können o1 verwenden, um zellsequenzierungsdaten zu kommentieren. physiker können o1 verwenden, um komplexe mathematische formeln zu generieren, die für die quantenoptik erforderlich sind mehr.

die o1-serie umfasst drei modelle: openai o1, openai o1-preview und openai o1-mini. beide modelle stehen den nutzern ab heute zur verfügung:

openai o1: erweitertes inferenzmodell, vorübergehend nicht für die öffentlichkeit zugänglich.

openai o1-vorschau: diese version konzentriert sich mehr auf die verarbeitung tiefer schlussfolgerungen und kann 30 mal pro woche verwendet werden.

openai o1-mini: diese version ist effizienter und kostengünstiger, eignet sich für codierungsaufgaben und kann 50 mal pro woche verwendet werden.

entwickler und forscher können nun über chatgpt und anwendungsprogrammierschnittstellen auf diese modelle zugreifen.

was den preis betrifft, so brachte the information zuvor die nachricht, dass führungskräfte von openai über den preis der kommenden neuen großen modelle „strawberry“ und „orion“ mit 2.000 us-dollar pro monat diskutieren, was viele beschwerden und verurteilungen auslöste. aber heute hat jemand herausgefunden, dass die chatgpt pro-mitgliedschaft bereits online ist und 200 us-dollar pro monat kostet. die lücke zwischen 2.000 und 200 us-dollar macht es schwierig, nicht das gefühl zu haben, „einen vorteil auszunutzen“. der psychologische kampf um den preis wurde eindeutig von openai geführt.

im mai dieses jahresaltman trifft mit-präsidentin sally kornbluthes wurde in einem kamingespräch erwähnt,gpt-5 kann daten von inferenz-engines trennen.

„gpt-5 oder gpt-6 können die beste inferenz-engine werden. derzeit besteht die einzige möglichkeit, die beste engine zu erreichen, darin, eine große datenmenge zu trainieren.“tatsächlich verschwendet das modell jedoch bei der datenverarbeitung viele datenressourcen.wie gpt-4. es funktioniert auch wie eine datenbank, nur dass die inferenz langsam, teuer und „nicht ideal“ ist.bei diesen problemen handelt es sich im wesentlichen um eine ressourcenverschwendung, die durch die art und weise verursacht wird, wie das modell entworfen und trainiert wird.

„dies ist zwangsläufig ein nebeneffekt der einzigen möglichkeit, modelle für inferenzmaschinen zu erstellen. er kann neue ansätze für die zukunft vorhersehen.“es geht darum, die argumentationsfähigkeit des modells von der nachfrage nach big data zu trennen.

aber in der heutigen veröffentlichung tauchte gpt-5 nicht auf und auch die idee der trennung von daten- und inferenz-engines fehlte.

was den preis betrifft, so brachte the information zuvor die nachricht, dass die führungskräfte von openai planten, den preis für die neuen großen modelle „strawberry“ und „orion“ auf 2.000 us-dollar pro monat festzulegen, was viele beschwerden und verurteilungen auslöste. aber heute hat jemand herausgefunden, dass die chatgpt pro-mitgliedschaft bereits online ist und 200 us-dollar pro monat kostet.

die lücke zwischen 2.000 und 200 us-dollar macht es für benutzer schwierig, nicht das gefühl zu haben, dass sie den preis ausnutzen. der psychologische kampf um den preis wird eindeutig von openai betrieben.

2. polieren sie die „denkkette“

große modelle wurden schon immer wegen ihrer „unfähigkeit zu zählen“ kritisiert.der hauptgrund liegt darin, dass großen modellen die fähigkeit zum strukturierten denken fehlt.

denken ist eine der kernfähigkeiten der menschlichen intelligenz.große modelle werden hauptsächlich anhand unstrukturierter textdaten trainiert, zu denen normalerweise nachrichtenartikel, bücher, webseitentext usw. gehören. text hat die form natürlicher sprache und folgt keinen strengen logischen oder strukturellen regeln. das modell lernt also hauptsächlich, wie man sprache basierend auf dem kontext generiert, und nicht, wie man informationen nach festen regeln logisch begründet oder verarbeitet.

viele komplexe denkaufgaben sind jedoch strukturiert.

zum beispiel logisches denken, mathematisches problemlösen oder programmieren. wenn wir aus einem labyrinth herauskommen wollen, müssen wir eine reihe logischer und räumlicher regeln befolgen, um den ausgang zu finden. diese art von problem erfordert, dass das modell in der lage ist, eine reihe fester schritte oder regeln zu verstehen und anzuwenden, was den meisten großen modellen fehlt.

obwohl modelle wie chatgpt und bard auf der grundlage von trainingsdaten scheinbar vernünftige antworten generieren können, ähneln sie in wirklichkeit eher einem „stochastischen nachplappern“.sie können die komplexe logik dahinter oft nicht wirklich verstehen oder fortgeschrittene denkaufgaben bewältigen.

denken sie daran, dass große modelle bei der verarbeitung von unstrukturiertem text in natürlicher sprache eine gute leistung erbringen, da dies der schwerpunkt der trainingsdaten ist. wenn es jedoch um aufgaben geht, die strukturiertes logisches denken erfordern, fällt es ihnen oft schwer, sie mit menschenähnlicher genauigkeit auszuführen.

um dieses problem zu lösen, dachte openai über die verwendung nachgedankenkette (cot)kommen sie, um „die situation zu durchbrechen“.

gedankenverkettung ist eine technologie, die ki-modellen beim denken hilft. es funktioniert, indem das modell bei der beantwortung komplexer fragen jeden schritt des argumentationsprozesses schritt für schritt erklären lässt, anstatt die antwort direkt zu geben. wenn das modell also eine frage beantwortet, ist es wie ein mensch, der beim lösen eines problems zunächst über die logik jedes schritts nachdenkt und dann nach und nach das endergebnis ableitet.

allerdings ist die manuelle kennzeichnung von gedankenketten im prozess des ki-trainings zeitaufwändig und teuer. die unter der führung des skalierungsgesetzes erforderliche datenmenge ist für den menschen grundsätzlich eine unmögliche aufgabe.

an diesem punkt wird reinforcement learning zu einer praktischeren alternative.

reinforcement learning ermöglicht es dem modell, durch übung und versuch und irrtum selbstständig zu lernen. es erfordert keine manuelle annotation der einzelnen schritte, sondern optimiert die methode zur problemlösung durch kontinuierliches experimentieren und feedback.

konkret passt das modell sein verhalten basierend auf den konsequenzen (gut oder schlecht) der maßnahmen an, die es beim versuch, das problem zu lösen, durchführt. auf diese weise kann das modell autonom mehrere mögliche lösungen untersuchen und durch versuch und irrtum die effektivste methode finden. beispielsweise kann ki in spielen oder simulationsumgebungen strategien durch selbstspiel kontinuierlich optimieren und schließlich lernen, komplexe aufgaben präzise auszuführen, ohne dass bei jedem schritt eine manuelle anleitung erforderlich ist.

beispielsweise kombinierte alphago, das 2016 die go-welt eroberte, deep-learning- und reinforcement-learning-methoden, optimierte sein entscheidungsmodell kontinuierlich durch eine große anzahl von selbstspielspielen und konnte schließlich den weltbesten go-spieler lee besiegen sedol.

das o1-modell verwendet dieselbe methode wie alphago, um probleme schrittweise zu lösen.

dabei verbessert o1 kontinuierlich seinen denkprozess durch reinforcement learning, lernt fehler zu erkennen und zu korrigieren, zerlegt komplexe schritte in einfachere teile und probiert bei hindernissen neue methoden aus. diese trainingsmethode verbessert die denkfähigkeit von o1 erheblich und ermöglicht es o1, probleme effektiver zu lösen.

greg brockman, einer der mitbegründer von openai, ist „sehr stolz“ darauf, „dies ist das erste mal, dass wir ein modell mithilfe von reinforcement learning trainiert haben.", sagte er.

ausschnitte aus brockmans tweets, quelle: x

laut brockman führte das modell von openai ursprünglich system-1-denken (schnelle, intuitive entscheidungsfindung) durch, während die denkkettentechnologie system-2-denken (vorsichtiges, analytisches denken) initiierte.

system-1-denken eignet sich für schnelle reaktionen, während system-2-denken die „denkketten“-technologie nutzt, um dem modell zu ermöglichen, probleme schritt für schritt zu begründen und zu lösen. die praxis hat gezeigt, dass durch kontinuierliches ausprobieren die leistung des modells erheblich verbessert werden kann, indem das modell von anfang bis ende vollständig trainiert wird (z. b. bei der anwendung in spielen wie go oder dota).

obwohl sich die o1-technologie noch in einem frühen entwicklungsstadium befindet, hat sie sich in puncto sicherheit gut bewährt. beispielsweise kann das erweiterte modell verwendet werden, um eine detaillierte analyse der strategie durchzuführen, um deren robustheit gegenüber angriffen zu verbessern und das risiko von halluzinationsphänomenen zu verringern. diese fähigkeit zum tiefen denken zeigt bereits erste positive ergebnisse bei sicherheitsbewertungen.

„wir haben ein neues modell auf basis des o1-modells entwickelt, es am wettbewerb der internationalen informatikolympiade (ioi) 2024 teilnehmen lassen und in 49 % der rankings 213 punkte erzielt.“

es konkurrierte unter den gleichen bedingungen wie menschliche teilnehmer und löste sechs algorithmische probleme mit jeweils 50 einreichungsmöglichkeiten. die wirksamkeit seiner auswahlstrategie wird durch die überprüfung mehrerer kandidaten und die auswahl von einsendungen auf der grundlage öffentlicher testfälle, modellgenerierter testfälle und bewertungsfunktionen demonstriert, wobei die durchschnittlichen bewertungen höher sind als die zufälliger einsendungen.

als die anzahl der einsendungen auf 10.000 pro frage gelockert wurde, schnitt das modell besser ab und punktete über dem goldstandard. schließlich demonstrierte das modell „erstaunliche“ programmierfähigkeiten in einem simulierten codeforces-programmierwettbewerb. gpt-4o hat eine elo-bewertung von 808 und liegt damit im 11. perzentil der menschlichen konkurrenz. und unser neues modell hat eine elo-bewertung von 1807 und übertrifft damit 93 % der konkurrenz.

weitere feinabstimmungen verbesserten die leistung des o1-modells im programmierwettbewerb. quelle: openai

2. die „unruhigen zeiten“ von openai

vor der veröffentlichung von o1 war openai von veränderungen im kernmanagement des unternehmens betroffen.

im februar dieses jahres gab andrej karpathy, gründungsmitglied von openai und forschungswissenschaftler, bei x bekannt, dass er das unternehmen verlassen habe. capas sagte, er habe openai einvernehmlich und „nicht aufgrund eines bestimmten vorfalls, problems oder dramas“ verlassen.

der frühere chefwissenschaftler und mitbegründer ilya sutskever gab im mai seinen rücktritt bekannt und auch das super alignment-team wurde aufgelöst. die branche ist der ansicht, dass dies der spagat zwischen dem streben nach technologischen durchbrüchen und der gewährleistung der ki-sicherheit ist.

von rechts: ilya sutskvi, greg brockman, sam altman und mira mulati. quelle: new york times

stunden nach ilyas ankündigung trat auch jan leike, einer der erfinder von rlhf und co-direktor des super alignment-teams, in seine fußstapfen und sorgte erneut für mehr unsicherheit über die zukunft von openai-sex.

im august gab john schulman, mitbegründer und forschungswissenschaftler von openai, seinen rücktritt bekannt und wechselte zu anthropic, um sich auf eingehende forschung zur ki-ausrichtung zu konzentrieren. er erklärte, dass sein weggang darin bestand, sich auf die ki-ausrichtung und technische arbeit zu konzentrieren, und nicht, weil openai die ausrichtungsforschung nicht unterstützte. schulman dankte seinen kollegen bei openai und drückte „volles vertrauen“ in die zukünftige entwicklung aus.

anthropic wurde von den geschwistern dario amodei, dem vizepräsidenten für forschung bei openai, der 2020 zurücktrat, und daniela amodei, der damaligen vizepräsidentin für sicherheit und politik, gegründet.

brockman kündigte im selben monat auch ein einjähriges sabbatical an, seinen „ersten langen urlaub“ seit der mitgründung von openai vor neun jahren.

am 10. september gab alexis conneau, der die openai gpt-4o- und gpt-5-modell-audiointeraktionsforschung leitet, seinen rücktritt bekannt und gründete sein eigenes unternehmen, das sich der umsetzung der im film „her“ gezeigten funktionen widmet sprachinteraktionserlebnis, aber die veröffentlichung verwandter produkte wurde wiederholt verzögert.

seit seiner gründung hat openai aufgrund seines doppelstatus – gemeinnützige organisation und kommerzialisierung – viel aufmerksamkeit auf sich gezogen. als sich der kommerzialisierungsprozess beschleunigte, wurden interne spannungen über die gemeinnützige mission immer deutlicher, was ebenfalls zur fluktuation von teammitgliedern beitrug. unterdessen könnte auch eine aktuelle klage von elon musk mit fluktuationen zusammenhängen.

openai-forscher daniel kokotajlo sagte in einem exklusiven interview mit den medien nach seinem rücktritt, dass altman während des „palastkampfs“ im letzten jahr kurzzeitig entlassen und dann schnell wieder eingestellt wurde. die drei vorstandsmitglieder, die sich auf die agi-sicherheit konzentrierten, wurden entlassen. „dadurch können altman und brockman ihre macht weiter festigen, während diejenigen, denen es in erster linie um die agi-sicherheit geht, an den rand gedrängt werden. (altman) sie weichen von den plänen des unternehmens für 2022 ab.“

darüber hinaus muss openai mit einem verlust von bis zu 5 milliarden us-dollar und betriebskosten von bis zu 8,5 milliarden us-dollar rechnen, bei denen es sich größtenteils um servermieten und schulungskosten handelt. um dem hohen betriebsdruck standzuhalten, strebt openai eine neue finanzierungsrunde mit einem wert von möglicherweise über 100 milliarden us-dollar an. potenzielle investoren wie microsoft, apple und nvidia haben interesse bekundet. führungskräfte von unternehmen suchen weltweit nach investitionen, um ihren schnell wachsenden kapitalbedarf zu decken.

um den finanziellen druck zu verringern, strebt openai eine neue finanzierungsrunde an. laut einem bericht der new york times vom 11. hoffte openai letzte woche außerdem, etwa 1 milliarde us-dollar bei einer bewertung von 100 milliarden us-dollar einzusammeln. da die für den aufbau großer ki-systeme erforderliche rechenleistung jedoch zu höheren kosten führen wird, hat das unternehmen kürzlich beschlossen, die finanzierungssumme auf 6,5 milliarden us-dollar zu erhöhen.

einige ausländische medien zitierten jedoch mit der angelegenheit vertraute personen und nicht veröffentlichte interne finanzdatenanalysen mit der aussage, dass openai in diesem jahr enorme verluste von bis zu 5 milliarden us-dollar erleiden könnte und die gesamtbetriebskosten voraussichtlich 8,5 milliarden us-dollar erreichen werden. unter anderem belaufen sich die kosten für die anmietung von servern bei microsoft auf bis zu 4 milliarden us-dollar und die kosten für die datenschulung auf 3 milliarden us-dollar. der finanzielle druck auf das unternehmen wird durch die höheren betriebskosten fortschrittlicherer modelle wie strawberry und orion noch verstärkt.

(quelle des titelbildes: openai)

nachricht

openai veröffentlicht neues o1-modell: es wird so „nachdenklich“ sein wie menschen

einführung

meine kontaktdaten