GPT-4o mini saavuttaa suuren malliareenan huipulle, Ultraman: ilmainen hienosäätö kahdessa kuukaudessa

GPT-4o mini saavuttaa suuren malliareenan huipulle Ultraman: ilmainen hienosäätö kahdessa kuukaudessa

2024-07-24

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Juuri nyt GPT-4o miniversio aloitti "kohohetkensä"—-

Kiipesi lmsysin suurelle malliareenalle, jakaantui ensimmäiselle sijalle täyden terveysversion kanssa ja jätti Claude 3.5:n taakse.

Poiketen yleisestä tietojoukon arvioinnista, suuri malliareena on tulosta siitä, että käyttäjät asettavat omia kysymyksiään ja äänestävät jaloillaan Pikakuvakkeita ei voi ottaa "harjaamalla kysymyksiä", joten se on todellisempaa.

Heti kun tämä tulos ilmestyi, jopa toimitusjohtaja Altman innostui:

Arviointitulosten edessä yritimme alun perin olla varattuja, mutta kun näimme, että GPT-4o mini suoriutui samalla tavalla kuin täysterveysversio, mutta hinta oli vain 1/20, olimme silti erittäin innoissamme.

Netizens sanoi, että se oli OK nähtyään sen, mutta he olivat enemmän huolissaan siitä, milloin GPT-4o:n lehdistötilaisuudessa osoittama "Her" olisi verkossa.

Samaan aikaan OpenAI lähetti myös toisen hyvän uutisen, joka tuo etuja kehittäjille——

GPT-4o miniHienosäätö avataan asteittain, joka on tällä hetkellä avoinna tason 4 ja 5 käyttäjille, ja laajentaa asteittain soveltamisalaa.

jaTästä lähtien 23. syyskuuta asti voit käyttää 2 miljoonaa koulutusrahaa ilmaiseksi joka päivä。

Mini on tasavertainen täyden terveysversion kanssa

Miljoonien 1v1-kilpailukierrosten jälkeen yli 80 mallilla GPT-4o minin pisteet lmsys-listalla ovat vain 7 pistettä jäljessä täysiveriseen versioon.

Lmsys-listan järjestelyn mukaan tämä 7 pisteen ero ei vaikuta sijoitukseen, ja nämä kaksi mallia lasketaan ykkössijalle.

Seuraa tiiviisti Claude 3.5- ja Gemini-perheet sekä kaksi muuta GPT-4-versiota.

Jos tarkastelemme GPT-4o minin raakatietoja, huomaamme, että sen keskimääräinen voittoprosentti 0,6 on toiseksi vain täyden terveysversion jälkeen.

Pelkästään näiden kahden välisen kilpailun tuloksia tarkasteltaessa ne ovat tasavertaisia.

Syy, miksi lmsysin suorituskyky on herättänyt huomiota, on se, että sillä on ainutlaatuinen joukko kilpailumenetelmiä.

Tietojoukon käyttämisen sijaanAnna käyttäjien keksiä omia kysymyksiä ja piirtää satunnaisesti kaksi mallia 1-1-taistelussa.ja valitse sitten, mikä malli toimii paremmin.

Ennen valinnan tekemistä malli on anonyymi, eikä käyttäjä tiedä, mitkä mallit kilpailevat keskenään.

Tällä tavalla saadut pisteet ovat realistisempia, mikä ei ainoastaan välttää keinotekoisesti korkeiden pisteiden saamista "kysymysten harjaamalla", vaan on myös lähempänä käyttökokemusta.

Tämä suuri malliareena, äskettäinOsallistui huippuluokan koneoppimiskonferenssiin ICML2024。

Lisäksi lmsysin arvio myösErittäin suosittu OpenAI:n kanssa, GPT-4o minin varhainen versio ennen sen virallista julkaisua listattiin salanimellä gpt-mini.

Tuolloin se sijoittui jo neljänneksi, samalla tasolla kuin GPT4-Turbo.

Aiemmin, ennen kuin GPT-4o tuli verkkoon, sitä testattiin myös salanimellä gpt2-chatbot lmsysissä.

Jotkut ihmiset ovat kuitenkin kyseenalaistaneet, että vaikka GPT-4o mini toimii erittäin hyvin, on liioittelua sanoa, että se ylittää Claude 3.5 -sonetin.

Jotkut jopa sanoivat suoraan, että lmsys-menetelmän eheys on alkanut romahtaa ja sitä on muutettava, muuten se ei ole enää hyödyllinen testivertailu.

"Pieni malli" on myös rullattu

Miniversion julkaisussa keskitytään kustannustehokkuuteen.

Miljoonaa input/output tokenia kohden hinnat ovat 15 senttiä ja 60 senttiä (noin 1,09/4,36 RMB), mikä ei ole edes puolet 3,5 Turbosta.

Verrattuna kahden vuoden takaiseen GPT-3:n text-davinci-003-versioon (silloin paras malli), hinta on laskenut 99 %.

Sen lisäksi, että OpenAI on avannut pieniä malleja käyttäjille, se on myös keksinyt uusia tapoja pelata...

"Super Alignment" -tiimin postuumityössä suuren mallin optimointiin käytettiin pientä mallia, jossa oli tuhannesosa tai sadasosa suuren mallin parametreista.

Kokeessa isot ja pienet mallit "leikittelevät" toisiaan. Suuren mallin on jatkuvasti optimoitava ja säädettävä tuottoaan, jotta pieni malli uskoo, että se puhuu totta.

Tämän "pelin" prosessissa suuren mallin ominaisuuksia on parannettu ja ymmärrettävyyttä on parannettu huomattavasti ilman merkittävää tarkkuuden menetystä.

OpenAI:n lisäksi myös muut yritykset ovat tuoneet markkinoille pieniä malleja.

Esimerkiksi ennen GPT-4o miniä Google ja Anthropic julkaisivat Gemini Flashin ja Claude 3-Haikun.

Voidaan jopa sanoa, että GPT-4o mini on OpenAI:n vastahyökkäys kahta mallia vastaan, ylittäen nämä kaksi mallia suorituskyvyltään ja hinnaltaan.

Samalla viikolla, kun GPT-4o mini julkaistiin, Hugging Face ja “European OpenAI” Mistral julkaisivat molemmat pieniä malleja.

Jopa Apple on julkaissut oman 7B-mallinsa ja avoimen lähdekoodin kaikki koulutusprosessit ja resurssit kerralla.

Lyhyesti sanottuna, niin kauan kuin suorituskyky riittää vastaamaan käyttötarpeisiin, pieni malli on epäilemättä edullisempi valinta.

Samalla pienempi mittakaava tarkoittaa myös sitä, että terminaalin puolella on mahdollista ajaa, mikä osoittaa etuja yksityisyyden suojassa ja muissa asioissa.

Tällä tavalla ei ole vaikea ymmärtää, miksi "pienet" mallit ovat yhä enemmän käpristyneitä.

Viitelinkit:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

uutiset