Se käy kovaa, Googlen uusi malli, ChatGPT virallinen tili, voitti GPT-4o:n: kaikki hengittävät syvään

Se on kovaa, Googlen uusi malli, ChatGPT virallinen tili, voitti GPT-4o:n: kaikki hengittävät syvään

2024-08-02

Tule, Googlen uusi malli on ohittanut GPT-4o:n!

Viikon aikana yli 12 000 ihmistä äänesti anonyymisti.Gemini 1.5 Pro (0801) Googlen edustaminen voitti ensimmäisen paikan lmsys-areenalla ensimmäistä kertaa. (Kiinan tehtävä on myös ensimmäisellä sijalla)

Ja tällä kertaa se on kaksinkertainen kruunu kokonaissijoituksen (ainoa pistemäärä on 1300) lisäksiVisuaalinen tulostaulukkoSe on myös ykkönen.

Simon Tokumine, Gemini-tiimin avainhenkilö, lähetti viestin juhlimaan:

(Tämä uusi malli) on tehokkain ja älykkäin Gemini, jonka olemme koskaan tehneet.

Eräs Reddit-käyttäjä myös kutsui mallia "erittäin hyväksi" ja toivoi, että sen toimintoja ei vähennettäisi.

Lisää verkkovieraita ilmaisi innoissaan, että OpenAI on vihdoin haastettu ja julkaisee uuden version taistellakseen takaisin!

Virallinen ChatGPT-tili myös vihjasi jotain.

Jännityksen keskellä Google AI Studion tuotepäällikkö ilmoitti, että malli on saapunutIlmainen testausvaihe：

Saatavilla ilmaiseksi AI-studiossa

Netizen: Google on vihdoin täällä!

Tarkkaan ottaen Gemini 1.5 Pro (0801) ei ole itse asiassa uusi malli.

Pitäisikokeellinen versioGooglen helmikuussa julkaiseman Gemini 1.5 Pron pohjalta 1.5-sarja laajensi myöhemmin kontekstiikkunan 2 miljoonaan.

Mallin päivityksen myötä nimi pitenee koko ajan, mikä saa myös ihmiset valittamaan.

Ei, OpenAI:n työntekijä onnitteli häntä unohtamatta olla outo:

Tietenkin, vaikka nimeä on vaikea muistaa, Gemini 1.5 Pro (0801) suoriutui tällä kertaa hyvin virallisessa areenan arvioinnissa.

Yleinen voittoprosentin lämpökartta osoittaa, että se on 54 % parempi kuin GPT-4o ja 59 % parempi kuin Claude 3.5 Sonnet.

olla olemassamonikielisyysVertailutesteissä se sijoittuu ensimmäiseksi kiinaksi, japaniksi, saksaksi ja venäjäksi.

Coding and Hard Prompt Arenalla se ei kuitenkaan voi voittaa vastustajia, kuten Claude 3.5 Sonnet, GPT-4o ja Llama 405B.

Tätä ovat kritisoineet myös nettimiehet, mikä käännettynä:

Koodauksella on väliä, mutta se ei toimi siellä hyvin.

Jotkut ihmiset ovat kuitenkin kehittäneet Amway Gemini 1.5 Pron (0801)Kuva- ja PDF-poimintaominaisuudet。

Elvis, DAIR.AI:n perustaja, suoritti henkilökohtaisesti täydelliset testit öljyputkelle ja päätteli:

Visuaaliset ominaisuudet ovat hyvin lähellä GPT-4o:ta。

Lisäksi joku käytti Gemini 1.5 Prota (0801) ratkaistakseen ongelman, johon Claude 3.5 Sonet ei aiemmin vastannut hyvin.

Tulokset osoittivat, että se ei vain toiminut paremmin, vaan myös voitti pienen ystävänsä Gemini 1.5 Flashin.

Mutta jotkutKlassinen yleisten tietojen testiSe ei vieläkään ymmärrä sitä, kuten "Kirjoita kymmenen lausetta, jotka päättyvät omenoihin."

Yksi asia vielä

Samaan aikaan Googlen Gemma 2 -sarja toivottaa tervetulleeksi uuden2 miljardin parametrin malli。

Gemma 2 (2B)Valmis laatikosta, voi toimia Google Colabin ilmaisella T4 GPU:lla.

Areenan tulostaulukossa seYlittää kaikki GPT-3.5 mallit, jopa ylittää Mixtral-8x7b.

Edessä Googlen uusin uudet sijoitukset, ArenaListan auktoriteettiKaikki kyselivät taas.

Nous Researchin perustaja Teknium (tunnettu toimija hienosäädetyn jälkikoulutuksen alalla) julkaisi muistutuksen:

Vaikka Gemma 2 (2B) on korkeampi kuin GPT-3.5 Turbo Arenalla, se on paljon alhaisempi kuin jälkimmäinen MMLU:ssa.
Tämä ero olisi huolestuttava, jos areenan sijoitusta käytettäisiin ainoana mallin suorituskyvyn indikaattorina.

Bindu Reddy, Abacus.AI:n toimitusjohtaja, vetosi jopa suoraan:

Lopeta tämän ihmisten arvioiman tulostaulukon käyttö välittömästi!
Claude 3.5 Sonnet on paljon parempi kuin GPT-4o-mini.
Samanlaisten Gemini/Gemma-pisteiden ei pitäisi olla niin korkealla tässä ranking-listassa.

Joten, onko tämä ihmisten anonyymi äänestämismenetelmä mielestäsi edelleen luotettava?

uutiset

Se on kovaa, Googlen uusi malli, ChatGPT virallinen tili, voitti GPT-4o:n: kaikki hengittävät syvään

Johdanto

yhteystietoni