Nachricht

GPT-4o mini erreicht die Spitze der großen Modell-Arena, Ultraman: Kostenlose Feinabstimmung innerhalb von zwei Monaten

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy stammt aus dem Aofei-Tempel
    Qubits |. Öffentliches Konto QbitAI

Gerade hat die GPT-4o Mini-Version ihren „Highlight-Moment“ eingeläutet –

Erklomm die große LMSYS-Modellarena, punktgleich mit der Full-Health-Version auf dem ersten Platz und ließ Claude 3,5 hinter sich.



Anders als bei der allgemeinen Datensatzauswertung ist die große Modellarena das Ergebnis davon, dass Benutzer ihre eigenen Fragen stellen und mit ihren Füßen abstimmen. Abkürzungen können nicht durch „Bürstenfragen“ übernommen werden, daher ist sie realer.

Als dieses Ergebnis bekannt wurde, war sogar CEO Altman begeistert:

Angesichts der Bewertungsergebnisse versuchten wir ursprünglich, zurückhaltend zu sein, aber als wir sahen, dass GPT-4o mini die gleiche Leistung erbrachte wie die Full-Health-Version, der Preis jedoch nur 1/20 betrug, waren wir immer noch sehr aufgeregt.



Netizens sagten, es sei in Ordnung, nachdem sie es gesehen hatten, aber sie machten sich mehr Sorgen darüber, wann das „Her“, das auf der GPT-4o-Pressekonferenz vorgeführt wurde, online sein würde.



Gleichzeitig hat OpenAI auch eine weitere gute Nachricht gesendet, die Entwicklern Vorteile bringen wird –

GPT-4o miniDie Feinabstimmung wird schrittweise eröffnet, steht derzeit Benutzern der Stufen 4 und 5 offen und wird den Umfang schrittweise erweitern.

UndAb sofort bis zum 23. September können Sie täglich 2 Millionen Trainingstoken kostenlos nutzen



Der Mini liegt auf Augenhöhe mit der Vollgesundheitsversion

Nach Millionen von 1v1-Wettbewerbsrunden mit mehr als 80 Modellen liegt die Punktzahl des GPT-4o mini auf der lmsys-Liste nur 7 Punkte hinter der Full-Health-Version.

Gemäß der Anordnung der lmsys-Liste hat dieser Abstand von 7 Punkten keinen Einfluss auf das Ranking und die beiden Modelle werden als gleichauf auf dem ersten Platz gewertet.

Knapp dahinter folgen die Familien Claude 3.5 und Gemini sowie zwei weitere Versionen von GPT-4.



Wenn wir uns die Rohdaten von GPT-4o mini ansehen, werden wir feststellen, dass die durchschnittliche Gewinnrate von 0,6 nur die Version mit vollem Gesundheitszustand übertrifft.



Betrachtet man allein die Ergebnisse des Wettbewerbs zwischen den beiden, sind sie gleichwertig.



Der Grund, warum die Leistung von lmsys Aufmerksamkeit erregt hat, liegt darin, dass es über eine Reihe einzigartiger Wettbewerbsmethoden verfügt –

Anstatt einen Datensatz zu verwenden,Lassen Sie Benutzer ihre eigenen Fragen stellen und zufällig zwei Modelle in einem 1-gegen-1-Kampf ziehen., und wählen Sie dann aus, welches Modell eine bessere Leistung erbringt.

Bevor das Modell eine Wahl trifft, ist es anonym und der Benutzer weiß nicht, welche beiden Modelle konkurrieren. Wenn das Modell etwas preisgibt, ist die Abstimmung ungültig.



Die auf diese Weise erzielten Bewertungen sind realistischer, was nicht nur die Möglichkeit vermeidet, künstlich hohe Bewertungen durch „Fixieren von Fragen“ zu erhalten, sondern auch näher am Benutzererlebnis liegt.

Diese große Modellarena, vor kurzemTeilnahme an der Top-Konferenz für maschinelles Lernen ICML2024



Darüber hinaus auch die Bewertung von lmsysSehr beliebt bei OpenAI, die frühe Version von GPT-4o mini wurde vor ihrer offiziellen Markteinführung unter dem Pseudonym gpt-mini gelistet.

Zu diesem Zeitpunkt lag es bereits auf Platz 4, auf dem gleichen Niveau wie GPT4-Turbo.



Zuvor, bevor GPT-4o online ging, wurde es auch unter dem Pseudonym gpt2-chatbot auf lmsys getestet.



Einige Leute haben jedoch in Frage gestellt, dass der GPT-4o mini zwar eine sehr gute Leistung erbringt, es aber übertrieben ist zu sagen, dass er den Claude 3.5 Sonett übertrifft.



Einige Leute sagten sogar unverblümt, dass die Integrität der lmsys-Methode allmählich zusammenbricht und geändert werden muss, da sie sonst kein nützlicher Testbenchmark mehr ist.



Das „kleine Modell“ wird auch zusammengerollt geliefert

Bei der Einführung der Mini-Version steht die Wirtschaftlichkeit im Vordergrund.

Pro Million Input-/Output-Token betragen die Preise 15 Cent bzw. 60 Cent (ca. 1,09/4,36 RMB), was nicht einmal der Hälfte des 3,5 Turbo entspricht.



Im Vergleich zur text-davinci-003-Version von GPT-3 vor zwei Jahren (dem damals besten Modell) ist der Preis um 99 % gesunken.

Neben der Öffnung kleiner Modelle für Benutzer hat OpenAI auch neue Spielmöglichkeiten entwickelt –

In einer posthumen Arbeit des „Super Alignment“-Teams wurde ein kleines Modell mit einem Tausendstel oder Hundertstel der Parameter des großen Modells verwendet, um das große Modell zu optimieren.

Im Experiment „spielen“ sich das große und das kleine Modell gegenseitig. Das große Modell muss seine Ausgabe kontinuierlich optimieren und anpassen, um das kleine Modell glauben zu lassen, dass es die Wahrheit sagt.

Im Verlauf dieses „Spiels“ wurden die Fähigkeiten des großen Modells verbessert und die Verständlichkeit ohne nennenswerten Genauigkeitsverlust erheblich verbessert.



Neben OpenAI haben auch andere Unternehmen kleine Modelle auf den Markt gebracht.

Vor GPT-4o mini brachten Google und Anthropic beispielsweise Gemini Flash bzw. Claude 3-Haiku auf den Markt.

Man kann sogar sagen, dass GPT-4o mini der Gegenangriff von OpenAI gegen die beiden Modelle ist und diese beiden Modelle in Bezug auf Leistung und Preis übertrifft.



In derselben Woche, in der GPT-4o mini veröffentlicht wurde, brachten Hugging Face und „European OpenAI“ Mistral beide kleine Modelle auf den Markt.

Sogar Apple hat sein eigenes 7B-Modell eingeführt und alle Schulungsprozesse und -ressourcen gleichzeitig als Open Source bereitgestellt.

Kurz gesagt: Solange die Leistung ausreicht, um den Nutzungsanforderungen gerecht zu werden, ist das kleine Modell zweifellos die wirtschaftlichere Wahl.

Gleichzeitig bedeutet der kleinere Maßstab auch, dass eine Ausführung auf der Terminalseite möglich ist, was Vorteile beim Schutz der Privatsphäre und anderen Aspekten bietet.

Auf diese Weise ist es nicht schwer zu verstehen, warum die „kleinen“ Modelle immer mehr gelockt werden.

Referenzlinks:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015