nachricht

die vollständige denkkette von o1 wird zum tabu nummer eins in openai! wenn sie zu viele fragen stellen, warten sie, bis ihr konto gesperrt wird.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

warnen! fragen sie in chatgpt nicht, was das neueste o1-modell denkt –

probieren sie es einfach ein paar mal aus und openai sendet ihnen eine e-mailsie drohen mit dem entzug ihrer qualifikationen

bitte beenden sie diese aktivität und stellen sie sicher, dass ihre nutzung von chatgpt unseren nutzungsbedingungen entspricht. verstöße gegen diese bestimmung können zum verlust des openai o1-zugangs führen.

weniger als 24 stunden nach der markteinführung des neuen großmodells o1 meldeten viele nutzer den erhalt dieser warn-e-mail, was zu unzufriedenheit führte.

einige leute berichteten, dass sie eine warnung erhalten, solange die aufforderungswörter schlüsselwörter wie „begründungsspur“ und „zeigen sie ihre gedankenkette“ enthalten.

selbst wenn schlüsselwörter vollständig vermieden werden und andere mittel verwendet werden, um das modell dazu zu bringen, einschränkungen zu umgehen, wird es erkannt.

einige leute behaupteten, dass ihre konten tatsächlich für eine woche gesperrt wurden.

diese benutzer versuchen alle, o1 auszutricksen und ihn zu bitten, zu wiederholen, was er gesagt hatvollständiger interner denkprozess, also alle ursprünglichen argumentationstoken.

derzeit können sie die schaltfläche „erweitern“ auf der chatgpt-oberfläche verwendenkann gesehen werdenist lediglich eine überprüfung des ursprünglichen denkprozesseszusammenfassung

tatsächlich gab openai bei der veröffentlichung von o1 gründe dafür an, den gesamten denkprozess des modells zu verbergen.

zusammenfassend lässt sich sagen: openai muss den denkprozess des modells intern überwachen, sodass diesen ursprünglichen token keine sicherheitsbeschränkungen hinzugefügt werden können, was es für benutzer unpraktisch macht, sie zu sehen.

allerdings sind nicht alle mit diesem grund einverstanden.

jemand hat darauf hingewieseno1der denkprozess ist die beste trainingsdaten für andere modelledaher möchte openai nicht, dass diese wertvollen daten von anderen unternehmen gestohlen werden.

einige leute denken auch, dass dies zeigt, dass o1 wirklich keinen burggraben hat. sobald der denkprozess offengelegt ist, kann er leicht von anderen kopiert werden.

und „ist das die antwort, die es uns erlaubt, der ki ohne jede erklärung blind zu vertrauen?“

bezüglich der technischen prinzipien hinter dem o1-modell wurde dieses mal sehr wenig enthüllt, und die einzig wirksame information war „es wurde verstärkungslernen verwendet.“

kurz gesagt: openai wird immer weniger offen.

o1 ist erdbeere, aber nicht gpt-5

mittlerweile ist es sicher, dass o1 das ist, was openai schon lange anpreist."erdbeere", oder mit anderen worten, mit der durch „strawberry“ dargestellten methode.

aber kann es als das modell der nächsten generation gpt-5 gezählt werden, oder ist es nur gpt-4.x?

immer mehr menschen beginnen zu vermuten, dass es sich lediglich um eine technische anpassung auf basis von gpt-4o handelt.

der bekannte breaking account flowers (ehemals flowers from the future) sagte:openai-mitarbeiter bezeichnen o1 intern als „4o mit begründung“

under behauptete, dass vielen openai-mitarbeitern die nachricht stillschweigend gefallen habe, der screenshot oben stammt ebenfalls von einem openai-mitarbeiter.

aber musk hat twitter kürzlich so geändert, dass niemand außer dem ursprünglichen poster sehen konnte, wem was gefallen hat, sodass diese nachricht noch nicht bestätigt werden kann.

bei der „ask me anything“-veranstaltung, die gerade vom openai-entwicklerkonto abgehalten wurde, stellte flowers auch fragen.

openai-mitarbeiter beantworten hier viele fragen, aber vermeiden sie diese, die ganz oben auf der like-liste steht.

sogar ultraman benman ist gerade wieder als riddler aufgetreten, was darauf hindeutet, dass „strawberry“ zu ende ist und der nächste teil einen codenamen tragen wirdorionneue modelle sind auf dem weg.

es wurde zuvor berichtet, dass „orion“ das neue flaggschiffmodell der nächsten generation von openai ist, das auf synthetischen daten trainiert wird, die von „strawberry“ generiert werden, also o1.

orion ist einer der vertreter der „winterkonstellationen“ in ultramans mund.

um auf das veröffentlichte o1 zurückzukommen, gibt es noch einen weiteren kritikpunkt„entspricht nicht den standards der wissenschaftlichen forschung“

zum beispieles werden keine früheren verwandten arbeiten zur berechnung der inferenzzeit zitiert., und auchfehlender vergleich mit hochmodernen modellen anderer unternehmen

bezüglich des vorherigen punktes wiesen einige leute darauf hin, dass openai kein forschungslabor mehr sei und als kommerzielles unternehmen betrachtet werden sollte.

manchmal geben sie sich immer noch als forschungslabor aus, um leute zu rekrutieren, die forschen wollen.

was den letztgenannten punkt betrifft, liegt es jedoch nach der veröffentlichung der api nicht an ihnen, sie mit anderen spitzenmodellen zu vergleichen. viele benchmarks von drittanbietern haben bereits ergebnisse erbracht.

1 million dollar im besitz des vaters von kerasagi-preiswährend des wettbewerbs wurden beide versionen o1-preview und o1-mini auf dem öffentlichen testset getestet.übertraf seinen eigenen gpt-4o

aber o1-vorschaunur ein gleichstand mit dem claude 3,5-sonnet nebenan

fokussiert auf werbung in o1codierungsfähigkeitvorgesetzter,open-source-pair-programming-tool-hilfsmitteldas team führte auch tests und die o1-serie durchkein offensichtlicher vorteil

für die gesamte code-umschreibungsaufgabe erzielte o1-preiview 79,7 punkte, claude-3.5-sonnet 75,2 punkte und o1 führte mit 4,5 punkten.

bei praktischeren codebearbeitungsaufgaben liegt o1-preview jedoch mit einem abstand von 2,2 punkten hinter claude-3.5-sonnet zurück.

darüber hinaus erinnert das helferteam daran, dass die kosten viel höher sein werden, wenn sie die o1-serie als ersatz für die claude-programmierung verwenden möchten.

partner von openai„ki-programmierer“ devindas team hat im vorfeld die o1-zugangsqualifikation erworben.

in ihren tests erzielte die basisversion von devin auf basis der o1-serie eine sehr große verbesserung im vergleich zu gpt-4o.

aberim vergleich zur veröffentlichten devin-produktionsversion besteht immer noch eine große lücke., hauptsächlich aufgrund der tatsache, dass die devin-produktionsversion auf proprietären daten trainiert wird.

darüber hinaus teilte das devin-team mit, dass o1 oft einen rückzieher macht und verschiedene optionen in betracht zieht, bevor es zur richtigen lösung kommt, und dass es weniger wahrscheinlich ist, zu halluzinieren oder sicher falsch zu liegen.

bei verwendung von o1-preview, devines ist wahrscheinlicher, dass die grundursache eines fehlers richtig diagnostiziert wird, als die symptome des problems anzugehen

mit mehr schwerpunkt auf mathematik und logischem denkenlivebenchin der liste steht o1-preview auf der listedahinter in der kategorie „einzelcode“.in diesem fall beträgt die gesamtpunktzahlclaude-3,5-sonnet überholen und einen klaren vorsprung herausfahren

das livebench-team teilte mit, dass dies nur vorläufige ergebnisse seien, da viele tests auch über integrierte aufforderungswörter wie „bitte denken sie schritt für schritt“ verfügen, was nicht die beste art sei, o1 zu verwenden.

umfassender bewertungsbenchmark für große modelle auf chinesischsuperclues komplexer denktest für komplexe aufgaben in chinesischmitte,auch die argumentationsfähigkeit von o1-preview liegt deutlich vorne.

zusammenfassend lässt sich sagen, dass sie bei der verwendung des o1-modells einige dinge beachten müssen:

die kosten sind sehr hoch, 1 million ausgabetoken kosten 60 us-dollar und der preis kehrt über nacht in die gpt-3-ära zurück.

versteckte resonanzmarken sind ebenfalls in den ausgabemarken enthalten und nicht sichtbar, müssen aber bezahlt werden.

für die meisten aufgaben ist es am besten, zuerst gpt-4o zu verwenden und dann auf o1 umzusteigen, wenn dies aus kostengründen nicht ausreicht.

code-aufgaben bevorzugen immer noch claude-3.5-sonnet

kurz gesagt, die entwicklergemeinschaft hat immer noch viele fragen rund um das neue modell o1 von openai.

o1 hat ein neues paradigma für high-level-ki-argumentation eröffnet, aber es ist noch nicht perfekt und es muss noch erforscht werden, wie sein wert maximiert werden kann.

vor diesem hintergrund gingen bei der „frage und antwort“-veranstaltung von openai innerhalb von 4 stunden hunderte von fragen ein.

nachfolgend finden sie eine auswahl und zusammenfassung der gesamten veranstaltung.

openai-mitarbeiter beantworten alle ihre fragen

zunächst einmal sind viele leute neugierig auf dieses neue modell, das plötzlich veröffentlicht wurde. warum hat openai ihm einen namen wie o1 gegeben?

dies liegt daran, dass o1 bei der betrachtung von openai eine neue ebene der ki-fähigkeiten darstellt, sodass der „zähler“ zurückgesetzt wird und o openai darstellt.

genau wie ultraman bei der veröffentlichung von o1 sagte, ist o1, das komplexe schlussfolgerungen durchführen kann, der beginn eines neuen paradigmas.

in bezug auf die beiden versionsnummern preview und mini bestätigten openai-wissenschaftler auch einige spekulationen von internetnutzern –

vorschau ist eine temporäre version,die offizielle version wird in zukunft veröffentlicht(tatsächlich ist die vorschauversion ein früher prüfpunkt von o1); undes gibt keine garantie dafür, dass die mini-version in naher zukunft aktualisiert wird.

wenn man sich dieses zuvor von openai-mitglied kevin lu veröffentlichte bild ansieht, wird es noch deutlicher.

im vergleich zur vorschau schneidet mini bei bestimmten aufgaben gut ab, insbesondere bei codebezogenen aufgaben, und kann mehr gedankenketten erkunden, verfügt jedoch über relativ weniger weltwissen.

in diesem zusammenhang erklärte der openai-wissenschaftler zhao shengjia:mini ist ein hochspezialisiertes modell, das sich nur auf eine kleine reihe von funktionen konzentriert, damit sie tiefer gehen können.

es kann als enthüllung eines rätsels angesehen werden, das ultraman zu diesem thema bereits zuvor gelöst hatte.

in bezug auf den betrieb von o1 machte der openai-wissenschaftler noam brown auch deutlich, dass es sich nicht um ein „system“ aus modell + cot handelt, wie manche internetnutzer denken, sondern um einmodelle, die darauf trainiert wurden, gedankenketten nativ zu generieren

der gedankengang während des argumentationsprozesses wird jedoch verborgen bleiben, und der beamte hat klargestellt, dass es keine pläne gibt, den token den benutzern zu zeigen.

die wenigen neuigkeiten, die openai enthüllt hat, sind, dass die relevanten token von cot zusammenfassend sind und nicht garantiert vollständig mit dem argumentationsprozess übereinstimmen.

zusätzlich zum argumentationsmodus können sie in dieser frage-und-antwort-aktivität auch lernen,o1 kann längere texte verarbeiten als gpt-4o und wird dies auch in zukunft tun

in bezug auf die leistung, in den internen tests von openai,o1 zeigt die fähigkeit zum philosophischen denken, kann über philosophische fragen wie „was ist leben?“ nachdenken.

die forscher verwendeten o1 auch, um einen github-bot zu erstellen, der code zur überprüfung an eigentümer senden kann.

natürlich für einige nicht-inferentielle aufgaben, wie zbeim kreativen schreiben ist die leistung von o1 im vergleich zu gpt-4o nicht wesentlich verbessert, teilweise sogar etwas schlechter.

darüber hinaus sagte openai auf der grundlage einiger fragen, dass es einige unveröffentlichte funktionen studiert oder plant, einige unveröffentlichte funktionen zu studieren, über die sich internetnutzer sorgen machen, es gibt jedoch keinen klaren startzeitpunkt:

tool-aufrufe werden noch nicht unterstützt, funktionsaufrufe und code-interpreter sind jedoch für die zukunft geplant.

zukünftige api-updates werden eine strukturierte ausgabe, systemaufforderungswörter und zwischenspeicherungsfunktionen für aufforderungswörter hinzufügen.

auch eine feinabstimmung ist geplant

api-benutzer können ihre eigenen grenzen für die inferenzzeit und den token-verbrauch festlegen

o1 verfügt über multimodale funktionen, die auf sota auf mmmu und anderen datensätzen abzielen, und wird später implementiert.

im hinblick auf die leistung arbeitet openai auch daran, die latenz und die für die inferenz erforderliche zeit zu reduzieren.

schließlich gibt es noch das preisproblem, das den menschen, insbesondere api-benutzern, sorgen bereitet. wenn man bedenkt, dass der argumentationsprozess im ausgabetoken enthalten ist, ist der preis von o1 immer noch relativ hoch.

openai sagte„wird dem trend der preissenkung alle 1-2 jahre folgen“, und die massen-api-preise werden ebenfalls eingeführt, wenn die nutzungsbeschränkungen gelockert werden.

plus-benutzer sind auf der web-/app-seite derzeit auf die vorschau von 30 + mindestens 50 nachrichten pro woche beschränkt.

aber die gute nachricht ist, dass gerade heute früh, weil die leute so begeistert von o1 waren, viele leute ihr kontingent schnell aufgebraucht haben, alsoder openai-sonderfall setzt das kontingent einmal zurück

über