„programmieren als beruf endet heute“, das beängstigende an openais neuem modell o1

2024-09-15

autor: fanfan, herausgeber: odette, titelbild von: ai generation

erinnern sie sich noch an das hochhaus-erdbeben von openai zuvor?

was die entlassung von sam altman, den weggang von mitbegründer greg brockman und die verschärfung interner konflikte innerhalb von openai auslöste, war ein projekt namens q* (ausgesprochen q-star).

das q*-projekt sei zu diesem zeitpunkt erheblich vorangekommen und könne bereits grundlegende mathematische probleme lösen, sagen mit der materie vertraute personen. im gegensatz zu taschenrechnern, die nur eine begrenzte anzahl von operationen lösen können, und gpt-4, das jedes mal unterschiedliche antworten auf dieselbe frage gibt,q* verfügt möglicherweise bereits über die fähigkeit zu verallgemeinern, zu lernen und zu verstehen, was ein wichtiger schritt in richtung agi ist.openai-forscher schickten einen brief an den vorstand, in dem sie warnten, dass die große entdeckung von q* die gesamte menschheit bedrohen könnte, aber sam altman verheimlichte dies.

openai hat weltbewegende interne veränderungen durchgemacht, und openai selbst hat nie direkt auf die existenz von q* reagiert.

heute hat openai plötzlich ein neues modell veröffentlicht, bei dem es sich immer noch um eine vorschauversion handelt. es handelt sich um das legendäre q*, das später den codenamen „strawberry“ erhielt und jetzt openai o1-preview heißt.

ein neues argumentationsmodell zur lösung komplexer probleme, das nicht mehr zur gleichen serie wie chatgpt｜openai gehört

o, immer noch „omini“, allumfassend o, aber laut openai stellt dieses modell „einen neuen höhepunkt der künstlichen intelligenz dar“ und unterscheidet sich in der arbeitsweise stark vom vorherigen großen modell, sodass ein neues modell separat erstellt werden kann serie , gezählt von 1 (gpt5: ich bin alt!).

ob dieses modell nach einschätzung von ilya sutskever und anderen rebellischen ehemaligen kernwissenschaftlern von openai „die menschheit bedrohen“ wird und die menschheit ohne perfekte moralische zwänge in die agi-ära (künstliche allgemeine intelligenz) treibt, können sie im artikel lesen und dann selbst beurteilen.

o1, übertrifft alles

der erste ist der bekannte scoring-link.

jede generation großer modelle kommt heraus und erreicht beispiellose neue höhen, aber dieses mal ist o1 grundlegend anders.

die meisten der derzeit beliebten großen modelle haben die form von chatbots, deren denkpfad schwer zu erklären ist und deren entwicklungsrichtung multimodal ist (kann sprechen, sehen und zuhören), und deren tonalität immer menschlicher wird und reaktionen. o1 ist anders als sie.

erstens besteht das ziel nicht darin, immer schneller oder gar immer langsamer zu werden.

der openai-wissenschaftler noam brown sagte, dass o1 derzeit antworten in wenigen sekunden geben kann, in zukunft jedoch in der lage sein muss, stunden-, tage- oder sogar wochenlang zu denken. dann wurde ein bild beigefügt, nach dem o1 nach mehr als zehn sekunden nachdenken einen fall diagnostizierte. was noam brown meinte:eine lange inferenzzeit bedeutet, dass das modell längere denkketten aufbauen und tiefergehende überlegungen anstellen kann.

zweitens durchbricht o1 die achillesferse früherer großer sprachmodelle, die mathematik.

aime, die american mathematics invitational examination, ist einfacher als die olympiade und viel schwieriger als die sat. sie wird im allgemeinen verwendet, um die besten high-school-schüler in mathematik in den vereinigten staaten auszuwählen. als gpt4-o gebeten wurde, die fragen für den einladungswettbewerb zu schreiben, erzielte er nur 12 punkte, aber o1 beantwortete die fragen in einem durchgang und erzielte 74 punkte. wenn sie 1.000 stichproben durchführen und die 1.000 stichproben dann mit der bewertungsfunktion neu anordnen (dies spiegelt das erwartete niveau des modells besser wider), erzielte o1 93 punkte und kann zu den top 500 in den vereinigten staaten gehören und für den amerikanischen wettbewerb in die engere wahl kommen mathematikolympiade.

vergleicht man die leistung von o1 und gpt-4o, ist der mathematische fortschritt sehr groß｜openai

lassen sie o1 fragen für die internationale informatikolympiade (ioi) 2024 schreiben. es erzielte 213 punkte in 10 stunden, wobei jede frage bis zu 50 mal eingereicht werden durfte, was zu den besten 49 % der menschlichen spieler führt.wenn die anzahl der einsendungen auf 10.000 erhöht wird, kann o1 362,14 punkte erzielen, die ioi-goldmedaille erhalten und der tsinghua-universität empfohlen werden.

im eigentlichen test wurde eine optimierte version von o1 verwendet, nicht die zukunftsweisende version, die wir verwenden können |

darüber hinaus gibt es viele tests, die nicht verfügbar sind. beim gpqa (einem intelligenztest, der physik, chemie und biologie kombiniert) beispielsweise übertraf o1 in einigen fragen doktoranden in verwandten bereichen.

zusamenfassend,die involution in einem bereits starken bereich ist seit langem nicht mehr der zweck von o1. es besteht darin, durchbrüche in der komplexen logik zu erzielen, in denen große sprachmodelle nicht gut sind.

ein schritt zurück, zwei schritte vorwärts

wie oben erwähnt, hat sich die reaktionsgeschwindigkeit von o1 verlangsamt.

es braucht mehr zeit zum nachdenken, bevor es reagiert, dann verfeinert es den denkprozess, probiert verschiedene strategien aus und lernt aus seinen fehlern. das ist beängstigend.

darüber hinaus ist o1 jetzt kein multimodales modell. openai hat zwei jahre damit verbracht, das große modell wieder in die lage zu versetzen, zu sehen und zuzuhören, und o1 kann nur zeicheneingaben akzeptieren.

langsamer und eintöniger, für o1,es ist ein schritt zurück und zwei schritte vorwärts. leute, die o1 bereits verwendet haben, sagen, dass o1 das intelligenteste modell ist, das sie je verwendet haben, und die gespräche damit gingen über die vorherigen kleinen auseinandersetzungen hinaus.

in einem test stellte der benutzer o1 eine logische paradoxe frage: „wie viele wörter enthält die antwort auf diese frage?“

o1 dachte zehn sekunden lang nach und zeigte seinen denkprozess. zunächst wurde angenommen, dass dies ein selbstreferenzielles paradox oder eine rekursive frage ist. wenn die antwort nicht bestimmt ist, kann die anzahl der wörter in der antwort nicht bestimmt werden.„für klare und prägnante antworten ist es wichtig, unnötige ausdrücke zu vermeiden.“. der nächste schritt besteht darin, die wörter zu zählen, wobei die im satz vorkommenden zahlen mit der anzahl der wörter im satz übereinstimmen müssen. dann listete es viele sätze auf und fand die passendste passende option. es stellte sich heraus, dass „das hat fünf wörter“ fünf wörter hat, sodass nach der änderung der satzstruktur auf eine vollständige antwort fünf durch sieben ersetzt werden sollte.

also antwortete es: „die antwort besteht aus sieben wörtern.“

dieser denkprozess unterscheidet sich nicht wesentlich von meinem denkprozess｜x

in einem anderen beispiel benötigte o1 5,6 sekunden und 631 token, um die einfache frage „wie viele r gibt es in straberry?“ zu beantworten.

aus dem obigen beispiel ist das ersichtlichdie arbeitsweise von o1 unterscheidet sich grundlegend von chatgpt.jetzt hat o1 begründungs-tokens hinzugefügt, die eine frage in mehrere schritte aufteilen, diese separat betrachten und dann die begründungs-tokens entfernen, um antworten zu generieren.

die folgende abbildung zeigt, wie die ideenkette funktioniert, was auch erklärt, warum die reaktionsgeschwindigkeit von o1 langsamer geworden ist.

wenn sie o1 verwenden, können sie auch einige klassische logikprobleme und mathematische probleme verwenden, um seine fähigkeiten zu testen.

bei der beantwortung einfacher fragen ist der unterschied zwischen der durchführung mehrerer argumentationsrunden vielleicht nicht offensichtlich, aber wenn es zur lösung komplexer probleme beim schreiben von code, bei mathematischen problemen und in naturwissenschaften verwendet wird, ist diese art von denkfähigkeit unerlässlich.

openai sagte in dem artikel, dass medizinisches personal nun o1 verwenden kann, um zellsequenzierungsdaten zu kommentieren, physiker o1 verwenden können, um die komplexen mathematischen formeln zu generieren, die für die quantenoptik erforderlich sind, und entwickler in verschiedenen bereichen können o1 verwenden, um mehrstufige arbeiten zu erstellen und durchzuführen . verfahren.

was mehr ist,dies ist der prototyp einer denkweise und die frühe form der weisheit.

neue modelle, neue gewohnheiten

da sich die funktionsweise von o1 von der von chatgpt unterscheidet, sind die tutorials, die ich zuvor gesehen habe und in denen sie lernen, wie man eingabeaufforderungen schreibt, nicht mehr anwendbar. in der aktuellen situation verbrauchen zu viele beschreibungen nur eine große menge an token, erhalten diese aber nicht unbedingt . bessere ergebnisse.

um dies allen benutzern klar zu machen, hat openai neue token-richtlinien geschrieben. in der anleitung erklärt openai, dass die besten eingabeaufforderungen in o1 direkt und prägnant sind, wenn man das modell schritt für schritt anweist oder mehrere verstreute eingabeaufforderungswörter angibt. hier sind ein paar offizielle empfehlungen:

eingabeaufforderungen sollten einfach und direkt sein. models reagieren am besten auf kurze, klare anweisungen, die nicht zu viel anleitung erfordern.

vermeiden sie gedankenketten in aufforderungen. o1 führt seine eigenen internen überlegungen durch, daher ist es nutzlos, es schritt für schritt anzuleiten und ihren denkweg zu erklären.

um die übersichtlichkeit zu verbessern, ist es besser, trennzeichen zu verwenden. verwenden sie trennzeichen wie „“, <> und §, um verschiedene teile von eingabeaufforderungen klar zu unterscheiden, damit das modell probleme stapelweise verarbeiten kann.

beschränken sie den abruf von zusätzlichem kontext bei der erweiterten generierung. geben sie nur die relevantesten informationen an, um ein überdenken des modells zu vermeiden.

als ich den dritten artikel sah, fühlte ich mich mit diesem format ein wenig vertraut. zukünftige programmierer werden wahrscheinlich die programmierung in natürlicher sprache verwenden. die grundlegenden anweisungen sind immer noch dieselben, aber sie sind umgangssprachlich geworden. nach den neuesten richtlinien würde eine gute eingabeaufforderung wie folgt aussehen:

oder so etwas:

§ gastgeber § schriftsteller § barbesitzer § ölmaler § lederverarbeiter § silberschmied § sänger § tamburinkünstler § rucksacktourist § goldene linke wange § französischer ritter § zen-schüler §

lassen sie das modell den rest erledigen.

geben sie mir eine minute, um eine 3d-schlange zu erstellen

es gibt einen grund, die schlange als beispiel zu nehmen. weniger als einen tag nach der veröffentlichung von o1 haben die leute viele versuche damit gemacht, darunter auch 3d snake.

@ammaar reshi auf

haben sie gelernt, aufforderungen zu schreiben? ｜@ammaar reshi

obwohl die wirkung etwas grob ist, kann niemand sagen, dass es sich nicht um eine gierige schlange handelt.

und es macht ziemlich viel spaß｜@ammaar reshi

netizen @james wade hat mit o1 eine datenanalyse-app erstellt, die eine kurze beschreibung und ein beispiel für jede verteilung anzeigen kann. dies dauerte einschließlich der bereitstellungszeit nur 15 minuten. er sagte: „ich habe noch nie daran gedacht, so etwas zu tun.“

der effekt ist wie im bild gezeigt｜@james wade

ein anderer full-stack-ingenieur @dallas lones, der seit 16 jahren arbeitet, sagte mit emotionen, nachdem er in wenigen minuten eine react native full-stack-entwicklungs-app erstellt hatte:ich habe nicht so schnell wie möglich ein unternehmen gegründet, aber jetzt ist dieses handwerk zum tränen der zeit geworden.er sagte:„der beruf des programmierens endet heute offiziell.“

es gibt mehr leute, die die grenzen von o1 herausfordern, und einige leute spielen es bereits„mal sehen, wessen frage schwieriger ist und o1 am längsten zum nachdenken bringen kann.“spiel.

derzeit steht o1 zunächst chatgpt plus- und team-benutzern offen, während der api-zugriff zunächst benutzern der stufe 5 offen steht, die mehr als 1.000 us-dollar für die openai-api ausgeben. im nächsten schritt wird openai die low-profile-version von o1-mini schrittweise für kostenlose nutzer öffnen.

wird dies der sonnenuntergang der menschheit sein?

nachricht

„programmieren als beruf endet heute“, das beängstigende an openais neuem modell o1

einführung

meine kontaktdaten