gpt-4o mini ranking-lumivyöry, suuren malliareenan säännöt päivitetty, ultraman-pisteiden lisäämisvinkkejä invalid

gpt-4o mini ranking-lumivyöry, suuren mallin areenan säännöt päivitetty, ultraman-pisteiden kohotusvinkit virheelliset

2024-08-31

suuren malliareenan säännöt päivitetty,gpt-4o minin sijoitus romahti välittömästi ja putosi 10 parhaan joukosta。

uusi luettelo vastaa tekoälyynominaisuuksia, kuten pituus ja tyyli, on alennettu., varmistaen, että pisteet kuvastavat mallin todellista kykyä ratkaista ongelma.

kauniiden muotojen käyttäminen, tekstitysten määrän lisääminen ja muut tekniikat käyttäjien miellyttämiseksi ja sijoituksen parantamiseksi ovat nyt turhia.

uusien sääntöjen mukaan ultramaningpt-4o mini, muskingrok-2 sarjamerkittävä pudotus sijoituksissa, googlegemini-1,5-salamamyös pienet mallit ovat pudonneet.

claude sarja、laama-3.1-405bsuurten mallien pisteet ovat kasvaneet yksi toisensa jälkeen.

kun vain vaikeita tehtäviä (hard prompt) lasketaan, suurten mallien etu tyyliohjausluettelossa on vieläkin ilmeisempi.

aikaisemmin gpt-4o-minimalli nousi kerran huipulle ja jakoi ensimmäisen sijan gpt-4o-täysterveysversion kanssa, mikä oli selvästi ristiriidassa verkkokäyttäjien fyysisen kokemuksen kanssa.

lmsys large model arena, karpathyn aikoinaan suosittelema arviointistandardi, on myös pudonnut siihen pisteeseen, että se "voi heijastaa vain käyttäjien mieltymyksiä mallin ominaisuuksien sijaan".

lmsys-organisaatio otti kokemuksista opikseen ja julkisti ensin tiedot 1000 taistelusta, joihin gpt-4o mini osallistui. näin analysoitiin mallin hylkäysprosentti, generoidun sisällön pituus ja muotoilu useina äänestystulokseen vaikuttavina tekijöinä.

lisäksi ennen gpt-4o minin julkaisua ultraman vihjasi, että se oli optimoitu ihmisen mieltymysten mukaan.

nyt lmsys on mennyt askeleen pidemmälle ja julkaissut uuden algoritmin näiden tekijöiden hallitsemiseksi, ja tämä on vasta ensimmäinen askel suunnittelussa.

kuinka hallita tyylin vaikutusta?

oletetaan, että onmalli ase on hyvä luomaan koodia, faktoja, puolueettomia vastauksia jne., mutta sen tulos on erittäin ytimekäs.

malli bse ei ole sisällöltään (kuten oikeellisuuden) kannalta kovin hyvä, mutta sen tulos on pitkä, yksityiskohtainen ja kauniisti muotoiltu.

joten kumpi on parempi?

vastaus ei ole ainutlaatuinen, lmsys yrittää matemaattisesti selvittää, kuinka paljon mallin pisteistä vaikuttaa sisältö tai tyyli.

lisäksi viimeaikaiset tutkimukset ovat osoittaneet senihmiset saattavat pitää parempana kauniisti muotoiltuja ja yksityiskohtaisempia tekoälyvastauksia.

sisäänbradley-terry palaalisää argumenteiksi tyyliominaisuuksia, kuten vastauksen pituus, alatekstitysten määrä, luettelot ja lihavoitun tekstin määrä.

tämä on yleinen tekniikka tilastoissa, ja alpacaeval lc ja muut ovat käyttäneet sitä äskettäin suurten mallien arvioinnissa.

mahdollisten hämmentäviä muuttujia (kuten vastauksen pituutta) sisällyttäminen regressioon mahdollistaa pistemäärän nousun johtuvan hämmentävistä muuttujista eikä itse mallin tehosta.

asiaa koskeva koodi on julkaistu google colabissa.

lisäksi ryhmä suoritti myös ablaatiokokeita "vain pituuden hallintaan" ja "vain muodon hallintaan". muoto vaikuttaa enemmän gpt-4o mini- ja google gemini -sarjojen pisteisiin.

tällä lähestymistavalla on kuitenkin rajoituksia, kuten mahdollisuus havaitsemattomiin hämmentäviin tekijöihin, kuten positiivinen korrelaatio pituuden ja vastauksen laadun välillä, joita ei oteta huomioon (esim. ajatusketjun kehotteet).

monet verkkokauppiaat sanoivat, että vaikeiden tehtävien mukautettu luettelo vastaa paremmin heidän subjektiivisia vaikutelmiaan.

jotkut ajattelevat myös, että listan ja listasta kilpailevien suurten malliyritysten välinen edestakaisin peli voi saada koko kentän edistymään yhdessä.

valitsetko edelleen malleja suuren malliareenan tulosten perusteella? tai jos sinulla on parempia arviointimenetelmiä, jaa ne kommenttikentässä.

uutiset

gpt-4o mini ranking-lumivyöry, suuren mallin areenan säännöt päivitetty, ultraman-pisteiden kohotusvinkit virheelliset

johdanto

yhteystietoni