das goldmedaillen-team von o1 enthüllt den erstaunlichen moment, in dem die ki den menschen übertrifft! das vollständige 22-minütige video wird auf public

das goldmedaillen-team von o1 enthüllt den erstaunlichen moment, in dem die ki den menschen übertrifft! die vollversion des 22-minütigen videos ist jetzt für die öffentlichkeit zugänglich

2024-09-22

neuer weisheitsbericht

herausgeber: tao zi qiao yang

[einführung in die neue weisheit】die geburt von o1 ist der revolutionärste moment für das openai-team. im 22-minütigen vollständigen interviewvideo teilten sie ihre gedanken zum neuen modell und die entwicklungsgeschichte dahinter.

das vollständige video des interviews mit dem openai o1-team ist endlich online!

22 minuten lang erlebte das von project bob mcgrew organisierte forschungs- und entwicklungsteam von o1 gemeinsam einen aha-moment.

einige leute erwähnten, dass das neue o1-modell der „fusion“ mehrerer ärzte entspricht und oft bessere leistungen erbringt als menschen. einige leute sagten, dass sie nach der veröffentlichung von o1 deutlich die ankunft von agi gespürt hätten.

„wenn modelle den menschen in bereichen wie mathematik, codierung, go und schach übertreffen, wird die zukunft von agi klarer.“

nathan lambert, ein wissenschaftler vom allen institute, hat die höhepunkte dieses videos zusammengefasst.

insgesamt gibt es 8 punkte:

1 o1 mit reinforcement learning ist besser als menschen darin, neue cot-argumentationsschritte zu entdecken

2 das aufkommen der selbstkritik ist der kraftvollste moment von o1

3 lassen sie o1 die antwort vor dem „timeout“ beenden und erleben sie dann plötzlich den „aha“-moment

4. die herausforderung, parametergrößen zu skalieren und den weg der weiterentwicklung von reinforcement-learning-algorithmen fortzusetzen

5 viele leute erwähnten, wie wichtig infrastruktur im vergleich zu algorithmen ist

6 durch planung und fehlerkorrektur kann o1 neue probleme auf der welt lösen

7 das neue trainingsparadigma ist ein völlig neuer ansatz, der mehr rechenleistung in das modell bringt

8 o1wenn beim schreiben von code der zu verwendende code ausgegeben wird, muss er den komponententest bestehen

schauen wir uns als nächstes die geschichte hinter dem o1-modell genauer an.

verstärkung des lernens + denkens, o1 eröffnet ein neues paradigma

als neue serie von openai liegt der größte unterschied zwischen o1 und dem gpt-modell in der inferenz.

im wesentlichen handelt es sich um ein argumentationsmodell, das bedeutet, dass es mehr „denkt“ als zuvor.

laut openai-forschern ist „denken“ die intuitivste art des denkens.

wenn wir manchmal gefragt werden, was die hauptstadt italiens ist, können wir fast sofort eine antwort finden, ohne überhaupt darüber nachzudenken. aber manchmal, wenn es um geschäftspläne, das schreiben von romanen usw. geht, ist ein langer denkprozess erforderlich.

es versteht sich von selbst, dass die ergebnisse umso besser sein werden, je länger sie darüber nachdenken.

daher ist argumentation die fähigkeit, denkzeit in optimale ergebnisse umzuwandeln.

in den worten von mark chen ist das denken „primitiv“ und der einzige weg, einen zuverlässigen denkprozess zu erreichen.

was die inferenzforschung angeht, hat openai tatsächlich sehr früh begonnen. in den frühen tagen seiner gründung erkannten sie das potenzial von alphago, menschen durch rl-algorithmen zu besiegen, und führten umfangreiche forschung durch.

beispielsweise eröffneten sie 2016 die spieletestplattform „universe“, eine open-source-plattform zum training des allgemeinen intelligenzniveaus von ki.

im jahr 2018 wurde eine spiel-ki namens openai five entwickelt, die das weltmeister-og-team im zweimaligen dota2 international invitational tournament erfolgreich besiegte.

gleichzeitig wurden in den bereichen daten und robotik erhebliche skalierungsfortschritte erzielt.

das openai-team begann darüber nachzudenken: wie kann man reinforcement learning in allgemeinen bereichen implementieren und eine sehr leistungsfähige ki erreichen?

das ist das neue paradigma, das durch die gpt-serie eröffnet wurde. es hat erstaunliche ergebnisse bei der skalierung des unbeaufsichtigten lernens erzielt.

und seitdem haben forscher begonnen zu erforschen, wie sich diese beiden paradigmen – verstärkendes lernen und unüberwachtes lernen – kombinieren lassen.

es sei schwierig, genau zu sagen, wann die bemühungen begannen, aber sie seien schon seit langem in arbeit, sagten die forscher.

„aha“-moment

in dem video sagte jemand, dass seiner meinung nach das coolste an der forschung der „aha“-moment sei.

zu einem bestimmten zeitpunkt kam es zu einem unerwarteten durchbruch in der forschung und alles wurde plötzlich klar, wie eine offenbarung.

welche aha-erlebnisse erlebten die teammitglieder?

jemand sagte, er habe das gefühl, dass es im trainingsprozess des modells einen kritischen moment gegeben habe, nämlich an dem zeitpunkt, an dem mehr rechenleistung als zuvor investiert und zum ersten mal ein sehr kohärentes cot generiert wurde.

in diesem moment waren alle angenehm überrascht: es war offensichtlich, dass sich dieses modell deutlich vom vorgänger unterschied.

andere sagten, wenn man darüber nachdenke, ein modell mit denkfähigkeiten zu trainieren, käme man als erstes in den sinn, menschen ihre denkprozesse aufzeichnen zu lassen und entsprechend zu trainieren.

der aha-moment für ihn war, als er entdeckte, dass das trainieren eines modells durch reinforcement learning zur generierung und optimierung von cot sogar noch besser war als von menschen geschriebenes cot.

dieser moment zeigt, dass wir auf diese weise die argumentationsfähigkeiten des modells erweitern und erforschen können.

dieser forscher sagte, dass er hart daran gearbeitet habe, die fähigkeit des modells zur lösung mathematischer probleme zu verbessern.

zu seiner enttäuschung schien das modell nie jedes mal, wenn es ein ergebnis generierte, zu hinterfragen, was es falsch gemacht hatte.

als sie jedoch eines der frühen o1-modelle trainierten, stellten sie zu ihrer überraschung fest, dass sich die punktzahl des modells beim mathematiktest plötzlich deutlich verbesserte.

darüber hinaus können forscher den forschungsprozess des modells erkennen – es beginnt, über sich selbst zu reflektieren und sich selbst zu hinterfragen.

er rief: endlich haben wir etwas anderes gemacht!

dieses gefühl war extrem stark und in diesem moment schien alles zusammenzupassen.

ein anderer forscher sagte, dass der prozess sehr interessant sei, wenn man das modell auffordert, seine denkvorgänge vor dem „timeout“ abzuschließen.

es ist, als würde man an einem mathe-wettbewerb teilnehmen. jedes denken ist zeitlich begrenzt.

er sagte, dass dies auch der hauptgrund sei, warum er in den ki-bereich eingestiegen sei, und dass dies für ihn nun als ein „closed-loop“-moment angesehen werden könne.

das erstaunliche am o1-modell ist außerdem, dass es eine große hilfe bei der förderung wissenschaftlicher entdeckungen und des technischen fortschritts ist.

für viele menschen scheint agi ein sehr abstraktes und weit hergeholtes konzept zu sein, bis sie sehen, dass ki dinge tut, in denen menschen gut sind, sie können nicht an die ankunft von agi glauben.

für professionelle schach- und go-spieler haben ibms deep blue sowie deepmind alphago und alphazero dies vor einigen jahren erkannt.

für die openai-gruppe von wissenschaftlern, die gut in mathematik und codierung sind, hat das o1-modell eine ähnliche bedeutung. noch interessanter ist, dass ihre arbeit der schaffung einer ki gleichkommt, die ihre eigenen fähigkeiten überfordern kann.

auf welche schwierigkeiten sind sie während des projekts gestoßen?

zu den dabei auftretenden hürden führten die forscher direkt an, dass die llm-ausbildung grundsätzlich sehr schwierig sei.

ähnlich wie beim start einer rakete von der erde zum mond gibt es nur einen schmalen weg zum erfolg, aber es gibt unzählige wege zum scheitern. wenn sie auch nur geringfügig vom winkel abweichen, werden sie das ziel nicht erreichen können.

es gibt tausende möglichkeiten, wie der trainingsprozess schief gehen kann, und selbst in den händen dieser talentierten gruppe von forschern traten in jeder trainingsrunde hunderte von problemen auf.

darüber hinaus wird die bewertung immer schwieriger, da modelle immer intelligenter werden, wie z. b. o1, was menschen mit mehreren doktorgraden entspricht.

manchmal dauert es lange, bis sie feststellen, ob das modell das richtige tut, und irgendwann sind viele häufig verwendete branchen-benchmarks gesättigt, und sie müssen neue benchmarks finden, die für die fähigkeiten von o1 geeignet sind.

zusätzlich zum modellentwicklungsprozess wurden die forscher auch nach ihren bevorzugten anwendungsfällen für das o1-modell gefragt.

hyung won chung sagte, o1 könne ein guter codierungsassistent sein.

bei der arbeit folgt er in der regel der tdd-entwicklungsmethode (test-driven development). mit hilfe von o1 kann er sich das schreiben von unit-tests ersparen und stattdessen die anforderungen direkt vorgeben und das modell automatisch schreiben lassen.

darüber hinaus kann die aufgetretene fehlermeldung auch direkt an o1 weitergeleitet werden. obwohl es das problem manchmal nicht direkt lösen kann, kann es eine bessere frage als der compiler stellen und ihnen bei der lösung des fehlers helfen.

jason wei sagte, dass er o1 oft als brainstorming-partner einsetzt und dass die bandbreite der themen, die besprochen werden können, ziemlich breit ist und von der lösung eines maschinellen lernproblems bis hin zum verfassen eines blogs oder tweets reicht.

ein blog, den er im mai dieses jahres über die llm-bewertung schrieb, stützte sich auf die meinungen von o1, beispielsweise zur struktur des artikels, den vor- und nachteilen verschiedener bewertungsmaßstäbe und dem schreibstil.

wie ist es, bei openai zu arbeiten?

zu diesem thema sprachen viele menschen über die intelligenz aller und die harmonie der teamatmosphäre.

ich habe zum beispiel eine woche lang einen code debuggt, und ein vorbeikommender kollege hat ihn sofort gelöst; die tägliche zeit mit äußerst klugen kollegen hat mich nach und nach demütig gemacht.

mark chen beschrieb das „strawberry“-projekt als ein sehr „organisches“ projekt, da jeder seine eigenen meinungen und meinungen zu beruflichen themen hat und alle ideen haben, die sie mit begeisterung vorantreiben möchten.

wenn diese ideen zusammenkommen, sprühen funken und schneebälle wie schneebälle.

die andere seite des durchsetzungsvermögens besteht jedoch darin, dass jeder auf seiner eigenen meinung beharrt, aber nicht stur ist. sie werden ihre meinung auch ändern, wenn sie objektive ergebnisse sehen, die ihre behauptungen widerlegen.

noch lobenswerter ist, dass diese gruppe äußerst kluger menschen auch sehr nett ist und bereit ist, anderen beim gemeinsamen essen und abhängen zu helfen. viele forscher sagten unverblümt: „die arbeit hier macht sehr viel spaß.“ erfahrung".

die geschichte hinter o1-mini

die motivation für die veröffentlichung von o1-mini besteht darin, mehr forschern modelle zur verfügung zu stellen, die über geringere budgets verfügen, aber dennoch über starke inferenzfähigkeiten verfügen.

es kann als „experte für argumentation“ bezeichnet werden und ist intelligenter als das beste openai-modell der vergangenheit.

darüber hinaus sind die kosten und die latenz sehr gering.

vielleicht kennt man eine berühmte person nicht unbedingt anhand ihres geburtsdatums, aber sie verfügt über die fähigkeit, effektiv zu argumentieren, und über eine menge weisheit.

openai-forscher sagten, sie würden den algorithmus weiter verbessern, um ihn mit den besten kleinen modellen vergleichbar zu machen.

darüber hinaus haben forscher auf der ganzen welt in mehr rechenleistung und hardware investiert, was dazu geführt hat, dass die modellkosten über einen langen zeitraum exponentiell gesunken sind.

ein fehler besteht jedoch darin, dass wir nicht mehr zeit damit verbracht haben, einen neuen weg zu finden, die dinge zu ändern.

das neue paradigma von o1 ist unsere entdeckung – inferenzskalierung, die auch die rechenleistungseffizienz optimieren kann.

was motiviert sie zur forschung?

was ist der grund, warum diese gruppe „intelligenter gehirne“ zusammenkommen kann, um sie zur forschung zu inspirieren?

ein forscher sagte, es sei faszinierend, über die verschiedenen möglichkeiten nachzudenken, wie er sein modell nutzen könne, um schlussfolgerungen zu ziehen.

andere sagten: „alle guten dinge kommen in schweren zeiten.“

die tatsache, dass o1 so schnell antworten kann, ist der erste schritt hin zu einem modell, das lange über fragen nachdenken kann. in zukunft wird es monate oder sogar jahre der forschung dauern, bis es auf die nächste reise geht.

„es ist sehr aufregend und bedeutsam zu glauben, dass eine kleine anzahl von uns einen einfluss haben kann, der die welt verändert.“

das faszinierendste ist, dass das neue paradigma aufgaben freischaltet, die das modell zuvor nicht erledigen konnte. dabei geht es nicht nur um die beantwortung bestimmter fragen, sondern tatsächlich um die verallgemeinerung neuer fähigkeiten durch planung und korrektur von fehlern.

darüber hinaus kann o1 neues wissen generieren, was den aufregendsten teil wissenschaftlicher entdeckungen darstellt.

forscher sagen, dass das modell in kurzer zeit einen immer stärkeren beitrag zu seiner eigenen entwicklung leisten wird.

als der verantwortliche von o1 schließlich fragte: „gibt es noch weitere erwähnenswerte beobachtungen?“

jason wei teilte mit: „eine interessante beobachtung ist, dass jedes trainierte modell etwas anders ist und seine eigenen eigenheiten hat, wie ein artefakt. diese einzigartigkeit verleiht jedem modell einen hauch von persönlichkeit.“

die vollständige version des videos lautet wie folgt:

nachricht

das goldmedaillen-team von o1 enthüllt den erstaunlichen moment, in dem die ki den menschen übertrifft! die vollversion des 22-minütigen videos ist jetzt für die öffentlichkeit zugänglich

einführung

meine kontaktdaten