ist das neue modell von openai mit einem doktortitel vergleichbar? ich habe dr. qingbei gebeten, es zu probieren: wake up

ist das neue modell von openai mit einem doktortitel vergleichbar? ich bat dr. qingbei, es zu probieren: aufwachen.

2024-09-14

ehrlich gesagt kann ich diese unternehmen nicht ausstehen, sie machen immer mitten in der nacht große fehler. . .

dieses mal mit dem namen openai wurde ohne vorankündigung das neue modell veröffentlicht, über das alle schon lange nachgedacht haben.

ich habe bereits erwähnt, dass erdbeeren keine erdbeeren sind. ein foto einer erdbeere kursiert schon seit mehreren tagen.

daher hat das neue modell dieses mal nichts mit strawberry hair zu tun, sondern trägt einen völlig neuen namen.öpnv ki o1-modell。

und dieses ding ist bereits als zenith star technology von openai bekannt. ultraman hat direkt eine nachricht gepostet, dass dies ihr bisher stärkstes und beständigstes modell ist.

der unterschied zu früheren zeiten besteht darin, dass openai nicht wirklich damit prahlte, wie großartig dieses ding ist, aber die wenigen bilder, die es herausflatterte, ließen die leute ein wenig taub werden.

wie im bild unten dargestellt, lassen sich die ergebnisse von drei testprojekten erklären, nämlich der internationalen mathematikolympiade, dem programmierwettbewerb und den wissenschaftlichen problemen auf doktorandenniveau.

die ganz linke hier ist gpt-4o, die mittlere ist die aktuell geöffnete vorschauversion o1 und die hohe rote säule ganz rechts ist volle gesundheit o1. werfen sie einen blick darauf, im grunde jedes element, o1 im vergleich zu seinen vorgängern,beide stellen eine fast achtfache verbesserung dar. . .

wenn man diese testergebnisse herunterschlüsselt, übertrifft der neue o1 den 4o in fast allen disziplinen und bereichen.

was den schlechten rezensenten wirklich ein schlechtes gewissen macht, ist die tatsache, dass openai angab, speziell promovierte experten eingeladen zu haben, um die fragen zu beantworten.

die ergebnisse basieren auf testergebnissen auf doktoratsebene.wir sehen, dass die antwortwerte von o1 die der doktoranden übertrafen. o1 erzielte 78 punkte, menschen 69,7 punkte. . .

sogar der doktor hat verloren, was meine ich also im vergleich dazu?

empfindliche internetnutzer waren sofort schockiert. er fing wieder an zu schreien, ein neuer gott war erschienen.

wenn man es beiläufig durchsieht, findet man superhohe bewertungen mit dem wort „am meisten“. „einfach großartig!“, „der menschlichen vernunft am nächsten“。

viele unserer freunde kamen sogar hinter die bühne und sagten voller emotionen: „o1, du hast wirklich etwas.“

klingt großartig? openai selbst sieht das offensichtlich genauso.。

der konkrete geldbetrag, den openai dafür ausgegeben hat, wurde nicht bekannt gegeben, aber aus der nutzung durch die nutzer lässt sich deutlich erkennen, dass dieses ding viel geld kostet.

o1 vorschau: 15 $ pro million inputs, 60 $ pro million outputs

diesmal steht den nutzern nicht einmal eine vollblutversion offen, sondern eine frühe vorschauversion und eine kleine kastrierte version.

selbst wenn sie es zum ersten mal ausprobieren, ist es nicht nur nicht kostenlos, sondern selbst wenn sie für die mitgliedschaft bezahlen, ist die anzahl der fragen und antworten begrenzt.die vorschauversion hat nur 30 einträge pro woche und die miniversion nur 50 einträge pro woche. . .

obwohl es etwas teuer ist, können wir openai auf keinen fall damit prahlen lassen, was es sagt.

sagten sie nicht, es sei mehr als ein arzt?der schlechte rezensent eröffnete ein paar konten und fand ein paar ärzte, um es persönlich zu testen.。

um professionalität und objektivität zu gewährleisten, haben wir speziell doktoranden aus drei wissenschaftlichen und umfassenden disziplinen eingeladen, an der bewertung teilzunehmen, darunter biologie, festkörperphysik, materialchemie usw.

in,nanjingfestkörperphysik an der universitätdie von dr. cui abgegebene bewertung ist die höchste unter mehreren personen. er ist der meinung, dass o1 das niveau von 60-80 punkten (von 100) erreicht hat.

auch teilantworten können mit 90 punkten bewertet werden.

die erste frage von dr. cui:verteilung verschränkter photonen über große entfernungen gibt es eine möglichkeit, weißes rauschen zu überwinden?

in etwa 9 sekunden lieferte o1 10 realisierbare maßnahmen.

natürlich ist mir kein einziger punkt klar. die einschätzung von dr. cui ist jedoch in ordnung: die antworten sind umfassend, entsprechen dem neuesten stand der forschung und sind antworten auf populärwissenschaftlichem niveau.

darunter ist die erwähnte richtung der adaptiven optik sogar die neueste wissenschaftliche errungenschaft in diesem jahr.

beim vergleich mit der alten version 4o kann ich sofort den unterschied erkennen.

sagen sie nicht, ob die neue richtung erwähnt wurde oder nicht, sie wurde nur vorgegeben.bezüglich der anzahl der maßnahmen gibt es einen großen unterschied。

deshalb haben wir später gezielt nach der neuen richtung der adaptiven optik gefragt:welches prinzip der quantenverschränkung wird verwendet, um das signal-rausch-verhältnis zu verbessern? kann es auf die quantenadaptive optik ausgeweitet werden?

nach mehreren antwortrunden vergab dr. cui eine hohe punktzahl von 80–90 punkten. er gab mir auch großzügig zu, dass ein teil des denkens seine schwachstelle war und als hinweis auf seine richtung diente.

als wir jedoch später weiter nachfragten, wurde das problem aufgedeckt. wenn man nach schwierigeren experimentellen details fragt, wird die wirksamkeit der antwort von o1 abnehmen.

aber insgesamt ist die leistung von o1 physikalisch gesehen ziemlich gut. im vergleich zur alten version beträgt die verbesserung grundsätzlich etwa 20 punkte.

im openai-test hat jedoch die physik die höchste punktzahl. also haben wir noch einen mitgebrachtlesematerialien der universität pekingchemischdr. kich möchte einige schwierige fragen zum thema chemie stellen, das die niedrigste bewertung hat.

dr. k umgibtfe-n4 es wurde eine reihe von fragen gestellt, und o1 gab eine lange liste mit antworten. um den platz zu vereinfachen, zeigen wir hier nur einige der fragen und ergebnisse.

nach dem gesamttest fiel die einschätzung von dr.

wenn man zum beispiel fragt, wie man fe-n4 anpasst, kann o1 sagen, dass es auf einer elektronischen zustandsanpassung basiert, aber was ist, wenn man danach fragt?anpassen, es bleibt ein wenig hängen.

obwohl es weniger unsinn gibt als gpt4o, kann keiner von ihnen viele ratschläge zu bestimmten themen geben. die alte version verliert details und redet unsinn, während die neue version nur begrenzte fähigkeiten hat und sprachlos sein wird.

neben diesen beiden ist die biologie in den dritten naturwissenschaftlichen und umfassenden fächern definitiv unverzichtbar.

wir haben uns auch beratendr. xin von der tsinghua-universität studiert biologieseine frage lautet: „ wie kann man lactylierung und carboxyethyl-modifikation von lysinresten aus einem massenspektrometrie-datensatz unterscheiden? ”

obwohl ich es nicht verstand, gab o1 auch eine sehr lange antwort, die wie eine rezension auf papier aussah, mit am ende angehängten referenzen.

doch als wir dr.

es ist nicht so, dass die antworten der ki alle falsch waren; wenn sie es in den referenzen zufällig erfinden, existiert dieser artikel überhaupt nicht!

obwohl es bearbeitet wurde, ist es nach ansicht der dr. tsinghua-universität immer noch viel besser als die vorherige ki. zumindest ist die verständnisfähigkeit mit bloßem auge sichtbar, und auch die bearbeitung ist sehr ähnlich . . .

allerdings gibt es unterschiede in der bewertung von doktorgraden in verschiedene richtungen, die auch mit den eigenen fachgebieten von o1 zusammenhängen können.

gemessen an den offiziellen gesamtbewertungen in den naturwissenschaften ist die punktzahl von gpt4o in biologie zwar höher als die von chemie und physik, die punktzahl von o1 ist dieses mal jedoch völlig anders.

die punktzahl von o1 in physik erreichte 92,8, was weitaus höher ist als in den anderen beiden fächern. dies könnte der grund sein, warum dr. cui diesbezüglich optimistischer ist.

wenn es darum geht, das niveau der berufspromotion zu übertreffen, sind ärzte im allgemeinen der meinung, dass es immer noch notwendig ist, langsamer zu werden.

dr. cui sagte unverblümt, dass die wissenschaftler bei der tatsächlichen wissenschaftlichen forschungsarbeit in den meisten fällen nur allgemeine anweisungen geben können, sodass es wenig sinn macht, geld für solch detaillierte ki auszugeben.

ereher empfehlenswert für studentenwenn sie sich für diese ki entscheiden, wenn sie sich auf master- oder doktorandenniveau befinden, dann entsprechen die antworten der ki tatsächlich nicht den standards des dozenten und sie werden bei der gruppensitzung definitiv kritisiert.

auch drsie können ihre kollegen nur täuschen, also menschen mit unterschiedlichen richtungen in derselben hauptdisziplin; in den augen von nachwuchskollegen und personen, die sich auf diese richtung spezialisiert haben, sind die mängel der ki immer noch sehr offensichtlich.

dr. k. von der peking-universität ging näher darauf ein. er glaubt, dass man von dieser ki nur das niveau eines masterstudenten in sachen kognition haben kann, aber sie ist nur ein bastler und kann nichts über kreative leistungen aussagen.in puncto kreativität ist ki dem niveau eines masterstudiums weit unterlegen., was ebenfalls ein wichtiges problem ist, das ki lösen muss.

in den bewertungen der ärzte scheinen wir einen wichtigen punkt erfassen zu können: der grund, warum das o1-modell relativ stärker ist, liegt darin, dass es über ein höherdimensionales kognitives und denkmodell verfügt.

dies ist auch der hauptpunkt dieses updates von o1. wir haben den artikel „learning to reason with llms“ auf der offiziellen website von openai gefunden. sie gaben in dem artikel an, dass der hauptgrund darin bestand, dass sie eine lange gedankenkette (cot, chain of thought) anstelle der traditionellen eingabeaufforderungskette (prompt chain) verwendeten. .

auf den ersten blick erscheint es etwas verwirrend. um es ganz klar auszudrücken: dieses große modell hat die bisherige denkweise verändert, bei der sie fragen und ich antworte.

im vorherigen modus war die beantwortung von fragen zu großen modellen so, als würde ich unbewusst die frage beantworten, welche farbe der himmel hat, und ich antwortete sofort blau, ohne darüber nachzudenken. dies erfordert tatsächlich, dass ich diesen wissenspunkt bereits kenne und ihnen dann eine direkte antwort geben kann.

aber diese lange denkkette bedeutet nicht nur zu wissen, was blau ist, sondern auch zu überlegen, warum es blau ist, atmosphärische streuung und spektrale wellenlängen, die alle berücksichtigt werden müssen.

dies erfordert mit anderen worten, dass die ki in der lage ist, tatsächlich logik, argumentation und argumentation zu konstruieren, er muss nicht nur sein gehirn wachsen lassen, sondern auch sein gehirn nutzen.

obwohl das konzept der denkkette im jahr 2022 von google vorgeschlagen wurde, war openai dieses mal der erste, der es implementierte.

während der eigentlichen operation können sie jetzt, da sie mit dem o1-modell sprechen, nicht nur antworten erhalten, sondern auch seine denklogik erweitern und bei der beantwortung von fragen sehen. sein denken ist konkret und keine blackbox.

nehmen wir zum beispiel die frage von dr. cui: „gibt es eine möglichkeit, weißes rauschen bei der verteilung verschränkter photonen über große entfernungen zu überwinden?“ der denkprozess des o1-modells ist wie folgt:

doch genauso wie es probleme in beruflichen bereichen zunichte machen kann, scheint es, dass einige einfache fragen in alltäglichen szenarien es auch zunichtemachen können.

nehmen sie das vorherige beispiel des klassischen vergleichs zwischen 9.11 und 9.8. xiaohongshu-netizen @小水 stellte sofort nach dem aufwachen fest, dass dieses ding „zusammenbricht, sobald die schwierigkeit erreicht ist ... endlosschleife und die gedankenkette verschiebt ( cot) wie verrückt“

auch unsere redaktion hat dieses problem bei der eigenen auswertung entdeckt, auf die frage nach dem grund jedoch sofort geantwortet, dass ihre argumentation falsch sei, und sie dann neu abgeleitet.

okay, okay, sie sind es wert, arzt zu sein, sie sind gut darin, fehler zu finden, oder?

nach einer ganzen testrunde muss der negative rezensent zugeben, dass es sich tatsächlich erheblich verbessert hat. nachdem wir uns drei tage lang gesehen haben, sollten wir uns wirklich voller bewunderung ansehen.

von der wirkung her ist es tatsächlich besser als die vorgängergeneration, unddie anwendung langfristigen denkens ist eine gute sache für die zukünftige entwicklung der ki.

aber nachdem sich mehrere ärzte mit der auspeitschung abwechselten, wurden seine probleme in einigen aspekten wie kreativität,es kann menschliche doktoranden nicht ersetzen。

noam brown, ein forscher bei openai, gab jedoch bekannt, dass zukünftige versionen von o1 stunden-, tage- oder sogar wochenlang nachdenken werden. dies wird zwar mehr geld verbrennen, die kosten für aufgaben wie die entwicklung von krebsmedikamenten sind es jedoch wert.

darüber hinaus denke ich, dass das von gpt o1 implementierte denkkettenmodell wahrscheinlich der vorherigen transformer-architektur und dit-architektur ähnelt.weltweit führend in richtung großer modelle。

daher ist der weg zu agi nicht nah, aber auch nicht weit. ich freue mich darauf, dass spieler verschiedener unternehmen als nächstes auftauchen.

schreiben sie einen artikel:naxi & big four

bearbeiten ：jiang jiang& nudeln

kunstredakteur :huanyan

bilder, quellen : openai, x, ibm, xiaohongshu usw., picture source network

nachricht

ist das neue modell von openai mit einem doktortitel vergleichbar? ich bat dr. qingbei, es zu probieren: aufwachen.

einführung

meine kontaktdaten