der neue könig der open-source-großmodelle hat gpt4o gestürzt, die neue technologie kann sich selbst korrigieren und mathematics 99.2 hat den testsatz ausgereizt

2024-09-06

der westwind kommt vom aofei-tempel
qubits |. öffentliches konto qbitai

der thron der open-source-großmodelle wechselte plötzlich den besitzer und kam von einem kleinen unternehmerteam, was die branche sofort zum explodieren brachte.

das neue modell heißtreflexion 70bmithilfe einer neuen trainingstechnologie kann die ki lernen, ihre eigenen fehler und illusionen während des denkprozesses zu korrigieren.

so machte es beispielsweise beim kürzlich populären digitalen r-test die gleichen fehler wie die meisten modelle zu beginn, ergriff aber die initiative dazu<reflection>-tagzhong korrigierte sich.

in der offiziellen bewertung übertraf das 70b-modell die leistungsstärksten open-source-modelle llama 3.1 405b, gpt-4o, claude 3 opus und gemini 1.5 pro deutlich und übertraf insbesondere den mathematischen benchmark gsm8k.99,2 % erreicht。

dieses ergebnis veranlasste auch noam brown, einen openai-wissenschaftler und vater der poker-ki, begeistert das mikrofon zu öffnen:

gsm8k erreicht 99 %! kann dieser benchmark offiziell abgeschafft werden?

sobald das modell online ging, waren die internetnutzer von der testversion überwältigt und auch meta setzte sich aktiv für mehr rechenleistung ein.

in netizen-tests kann reflection 70b fragen beantworten, die falsche antworten auf den gsm8k-datensatz haben:

ich habe die „ground_truth“-probleme des modells 5 berücksichtigt, die in gsm8k vorhanden sind und von natur aus falsch sind.
anstatt die falschen antworten im datensatz zu wiederholen, hat das modell sie alle richtig gemacht, was beeindruckend ist.zeigt, dass die genauigkeit von 99,2 % nicht durch das auswendiglernen des testsatzes bedingt ist！

es ist sogar einfach, alle arten von rs zu zählenerstellte wörterauch mehrere r in „drirrrrngrrrrnnnn“ können korrekt gezählt werden.

die internetnutzer sind überrascht, dass das von einem kleinen team erstellte open-source-modell das top-closed-source-modell übertroffen hat. jetzt kann das leistungsstärkste open-source-modell lokal ausgeführt werden.

der schlüssel 70b ist nur der anfang. beamte sagten, dass nächste woche ein größerer artikel veröffentlicht wird.reflexion 405b。

es wird erwartet, dass die leistung von 405b deutlich besser sein wird als die von sonnet und gpt-4o.

die reflection 70b-gewichte wurden veröffentlicht und der api-zugriff wird im laufe des tages von hyperbolic labs bereitgestellt.

modelle können fehler selbst reflektieren und korrigieren

weitere derzeit verfügbare details zum reflection 70b finden sie weiter unten.

der schlüssel zur verbesserung der fähigkeiten von reflection 70b ist die verwendung einer methode namensreflexions-tuningeine trainingsmethode, die es dem modell ermöglicht, über den von ihm generierten text nachzudenken und fehler in seiner eigenen argumentation zu erkennen und zu korrigieren, bevor eine antwort finalisiert wird.

die trainingsdaten stammen aus synthetischen daten, die mit der glaiveai-plattform generiert wurden.

reflection 70b basiert auf dem llama 3.1 70b instruct und kann von reflection llama-3.1 70b mit demselben code, derselben pipeline usw. wie andere llama-modelle abgetastet werden.

es verwendet sogar das standard-chat-format llama 3.1.

allerdings führt reflection 70b einige einbesondere token, strukturierter ausgabeprozess.

wie das folgende beispiel zeigt, kann die aufteilung des planungsprozesses in einen separaten schritt den cot-effekt verbessern und die ausgabe verfeinern:

das modell stammt von<thinking> und</thinking> die intra-label-ausgabeinferenz beginnt, und sobald sie mit der inferenz zufrieden ist, wird die<output> und</output> die endgültige antwort wird im label ausgegeben.

so ist es in der lage, sein internes denken und denken von der endgültigen antwort zu trennen.

existieren<thinking> abschnitt kann das modell einen oder mehrere ausgeben<reflection>etikett, was darauf hinweist, dass das modell einen fehler in seiner argumentation entdeckt hat und versuchen wird, ihn zu korrigieren, bevor es eine endgültige antwort liefert.

das system fordert sie wie folgt auf:

sie sind ein weltklasse-ki-system, das zu komplexen schlussfolgerungen und überlegungen fähig ist. begründen sie die abfrage in tags und geben sie dann ihre endgültige antwort in
tags. wenn sie feststellen, dass ihnen in ihrer argumentation an irgendeiner stelle ein fehler unterlaufen ist, korrigieren sie ihn innerhalb der tags.
(sie sind ein erstklassiges künstliches intelligenzsystem, das zu komplexen überlegungen und reflexionen fähig ist. überlegungen zu abfragen innerhalb von tags und dann
geben sie ihre endgültige antwort im tag ein. wenn sie an irgendeiner stelle feststellen, dass ihre argumentation falsch ist, korrigieren sie sich innerhalb des etiketts. )

erwähnenswert ist auch, dass im benchmark-test alle benchmarks auf kontamination überprüft und mit dem llm decontaminator von lmsys isoliert wurden.<output> abschnitt und testen sie diesen abschnitt alleine.

bei der verwendung von reflection 70b gab der beamte auch einige tipps:

es wird zunächst empfohlen, dass der parameter temperatur 0,7 und top_p 0,95 beträgt
um die genauigkeit zu verbessern, fügen sie am ende der eingabeaufforderung am besten „überlegen sie sorgfältig“ hinzu.

das erklärten auch beamteein bericht wird nächste woche veröffentlicht, in dem der modelltrainingsprozess und die ergebnisse detailliert beschrieben werden.

erstellt vom agent-unternehmerteam

hinter reflection 70b steht ein kleines team unter der leitung des ceo von hyperwriteai mutt shumerführen.

laut linkedin ist mutt shumer ein serienunternehmer, der seinen abschluss an der syracuse university in den usa gemacht hat und derzeit mitbegründer und ceo von othersideai ist.

othersideai ist ein ki-anwendungsunternehmen, das sich der entwicklung der weltweit fortschrittlichsten autovervollständigungstools durch groß angelegte ki-systeme widmet. es ist auch das unternehmen hinter hyperwrite.

hyperwrite ist ein browser-operationsagent, der google chrome wie ein mensch bedienen kann, um eine reihe von aufgaben zu erledigen, beispielsweise das bestellen von pizza:

wie bei gpt-llm-trainer müssen sie das ziel nur im text beschreiben und es wird es ausführen und dabei die schritte auflisten.

als es zum ersten mal auf den markt kam, wurde behauptet, es sei „besser als autogpt“.

hyperwrite kann auch als google-erweiterung installiert werden.

darüber hinaus gründete mutt shumer visos während seiner schulzeit und engagiert sich für die entwicklung der nächsten generation von virtual-reality-software für medizinische zwecke.

außerdem gründete er furi, ein unternehmen mit dem ziel, die sportartikelindustrie durch die entwicklung leistungsstarker produkte und deren verkauf zu fairen preisen zu revolutionieren.

obwohl es meta-unterstützung gibt, ist die testversion derzeit geöffnet, aber immer noch: vorübergehend nicht zugänglich.

wenn sie sich für kinderschuhe interessieren, können sie zunächst ihre bestellung aufgeben~

https://reflection-playground-produktion.up.railway.app/

referenzlinks:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

nachricht

der neue könig der open-source-großmodelle hat gpt4o gestürzt, die neue technologie kann sich selbst korrigieren und mathematics 99.2 hat den testsatz ausgereizt

modelle können fehler selbst reflektieren und korrigieren

erstellt vom agent-unternehmerteam

einführung

meine kontaktdaten