nachricht

gpt-4o mini-ranking-lawine, regeln für große modellarena aktualisiert, tipps zur steigerung der ultraman-punkte ungültig

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

regeln für große modellarena aktualisiert,das ranking von gpt-4o mini brach sofort ein und fiel aus den top 10 heraus

die neue liste antwortet auf kimerkmale wie länge und stil wurden herabgestuft.dadurch wird sichergestellt, dass die bewertung die tatsächliche fähigkeit des modells zur lösung des problems widerspiegelt.

der versuch, schöne formate zu verwenden, die anzahl der untertitel zu erhöhen und andere techniken zu verwenden, um benutzer zufriedenzustellen und das ranking zu verbessern, ist jetzt nutzlos.

unter den neuen regeln, ultraman'sgpt-4o mini, musksgrok-2-seriedeutlicher rückgang im ranking, googlegemini-1,5-flashauch kleine modelle sind zurückgefallen.

claude-serielama-3.1-405bdie werte großer modelle sind nach und nach gestiegen.

wenn nur harte aufgaben (hard prompt) berechnet werden, ist der vorteil großer modelle in der stilkontrollliste noch deutlicher.

zuvor erreichte das gpt-4o-mini-modell einmal die spitze und belegte den ersten platz mit der gpt-4o-vollgesundheitsversion, was offensichtlich nicht mit der körperlichen erfahrung der internetnutzer übereinstimmte.

lmsys large model arena, ein einst von karpathy empfohlener bewertungsstandard, ist ebenfalls so weit gefallen, dass er „nur noch benutzerpräferenzen und nicht mehr modellfähigkeiten widerspiegeln kann“.

die lmsys-organisation lernte aus der erfahrung und veröffentlichte zunächst die daten von 1.000 gefechten, an denen gpt-4o mini teilnahm, und analysierte dabei die ablehnungsrate des modells, die länge des generierten inhalts und die formatierung als mehrere faktoren, die sich auf die abstimmungsergebnisse auswirken.

darüber hinaus deutete ultraman vor der veröffentlichung des gpt-4o mini an, dass er nach menschlichen vorlieben optimiert wurde.

jetzt ist lmsys noch einen schritt weiter gegangen und hat einen neuen algorithmus zur steuerung dieser faktoren eingeführt. dies ist nur der erste schritt in der planung.

wie kann man den einfluss des stils kontrollieren?

gehe davon aus, dass es so istmodell aes ist gut darin, code, fakten, unvoreingenommene antworten usw. zu generieren, aber die ausgabe ist sehr prägnant.

modell bes ist inhaltlich nicht sehr gut (z. b. korrektheit), aber die ausgabe ist lang, detailliert und schön formatiert.

welches ist also besser?

die antwort ist nicht eindeutig. lmsys versucht mathematisch herauszufinden, wie viel inhalt oder stil zur bewertung eines modells beitragen.

darüber hinaus haben aktuelle studien gezeigt, dassmenschen bevorzugen möglicherweise ki-antworten, die schön formatiert und detaillierter sind.

von inbradley-terry kehrt zurückfügen sie stilmerkmale wie antwortlänge, anzahl der markdown-untertitel, listen und anzahl des fett gedruckten textes als argumente hinzu.

dies ist eine gängige technik in der statistik und wurde kürzlich von alpacaeval lc und anderen für die auswertung großer modelle verwendet.

durch die einbeziehung von störvariablen (z. b. antwortlänge) in die regression kann der anstieg der punktzahlen auf die störvariablen und nicht auf die modellstärke selbst zurückgeführt werden.

der entsprechende code wurde auf google colab veröffentlicht.

darüber hinaus führte das team auch ablationsexperimente zur „nur kontrolle der länge“ und „nur kontrolle des formats“ durch. die ergebnisse der serien gpt-4o mini und google gemini werden stärker vom format beeinflusst.

dieser ansatz weist jedoch einschränkungen auf, beispielsweise die möglichkeit, dass unbeobachtete störfaktoren wie eine positive korrelation zwischen länge und antwortqualität nicht berücksichtigt werden (z. b. denkkettenaufforderungen).

viele internetnutzer sagten, dass die angepasste liste schwieriger aufgaben eher ihren subjektiven eindrücken entspreche.

manche leute denken auch, dass es das hin und her zwischen der liste und den großen modellunternehmen, die um die liste konkurrieren, ist, die das gesamte feld gemeinsam voranbringen können.

wählen sie ihre modelle immer noch nach den ergebnissen der großen modellarena aus? oder wenn sie bessere bewertungsmethoden haben, teilen sie diese bitte im kommentarbereich mit.