uutiset

Google voittaa vihdoin OpenAI:n: Gemini 1.5 Pron kokeellinen versio ohitti GPT-4o:n

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Toimittaja: Chen Chen, Xiaozhou

Näin tehokkaalla mallilla Google tarjoaa kaikille ilmaisen kokeilujakson.

Viimeisten kahden päivän aikana Google on julkaissut uusimman tutkimuksen. Eilen julkaistun tehokkaimman Gemma 2 2B -pikkumallin jälkeen Gemini 1.5 Pron kokeellinen versio (0801) on juuri julkaistu.

Käyttäjät voivat testata ja antaa palautetta Google AI Studion ja Gemini API:n kautta.

Koska se on ilmainen, autetaan sinua testaamaan viime aikoina suosittua kokosuhdeongelmaa. Kun kysyimme Gemini 1.5 Prolta (0801), kumpi luku oli suurempi, 9.9 vai 9.11, malli vastasi oikein ensimmäisellä kerralla ja antoi syyn.



Kun jatkoimme kysymistä "kuinka monta r-kirjainta sanassa Strawberry on", Gemini 1.5 Pro (0801) kaatui. Kun "loitsu" käytettiin kehotteissa askel askeleelta, mallianalyysi meni pieleen neljännessä vaiheessa.



Google AI Studion testiosoite: https://aistudio.google.com/app/prompts/new_chat

Virallisen arvioinnin perusteella Gemini 1.5 Pro (0801) on kuitenkin edelleen erittäin pätevä eri mittareissa. Uusi malli nousi nopeasti arvostetun LMSYS Chatbot Arenan tulostaulukon kärkeen ja tarjoaa vaikuttavan 1300 ELO-pisteen.

Tämä saavutus asettaa Gemini 1.5 Pron (0801) OpenAI:n GPT-4o:n edelle(ELO: 1286) ja Anthropicin Claude-3.5 Sonnet (ELO: 1271) ja muut vahvat kilpailijat, tämä voi ennakoida muutosta tekoälymaisemassa.



Gemini-tiimin avainjäsen Simon Tokumine kutsuu Gemini 1.5 Prota (0801) tehokkaimmaksi ja älykkäimmäksi Geminiksi (malliksi), jonka Google on koskaan tehnyt.

Chatbot Arenan kärkipaikan lisäksi Gemini 1.5 Pro (0801) suoriutui erittäin hyvin myös monikielisissä tehtävissä, matematiikassa, Hard Promptissa ja koodauksessa.

Tarkemmin sanottuna Gemini 1.5 Pro (0801) toimi ensin kiinaksi, japaniksi, saksaksi ja venäjäksi.





Mutta koodauksen ja Hard Promptin alalla Claude 3.5 Sonnet, GPT-4o, Llama 405B ovat edelleen kärjessä.





Voittosuhteen lämpökartassa: Gemini 1.5 Pron (0801) voittoprosentti GPT-4o:ta vastaan ​​on 54 % ja Claude-3.5-Sonnetin voittoprosentti 59 %.



Gemini 1.5 Pro (0801) on myös Vision-listan ensimmäisellä sijalla!





Netizens sanoi, että Google todella ylitti kaikkien odotukset tällä kertaa Se avasi yhtäkkiä vahvimman mallin testin ilman virallista ennakkoilmoitusta.



Vaikka Gemini 1.5 Pro (0801) saavuttaa korkeita tuloksia, se on vielä kokeiluvaiheessa. Tämä tarkoittaa, että malliin voidaan tehdä lisämuutoksia ennen laajaa käyttöä.

Nettizen kommentit

Jotkut verkkokäyttäjät testasivat Gemini 1.5 Pron (0801) sisällönpoisto-, koodinluonti-, päättelykykyjä jne. Katsotaanpa hänen testituloksiaan.



Lähde: https://x.com/omarsar0/status/1819162249593840110

Ensinnäkin Gemini 1.5 Prossa (0801) on vahva kuvatietojen poimintatoiminto. Syötä esimerkiksi laskun kuva ja kirjoita laskun tiedot JSON-muodossa:



Katsotaanpa Gemini 1.5 Pron (0801) PDF-dokumentin sisällön poimintatoimintoa. Otetaan esimerkkinä klassinen paperi "Attention Is All You Need" ja pura paperin lukuhakemisto:



Anna Gemini 1.5 Pron (0801) luoda Python-peli, joka auttaa oppimaan laajan kielimallin (LLM) tietämystä, joka luo suoraan koko koodin:





On syytä mainita, että Gemini 1.5 Pro (0801) tarjoaa myös yksityiskohtaisia ​​koodiselityksiä, mukaan lukien toimintojen rooli koodissa, kuinka Python-peliä pelataan jne.



Tätä ohjelmaa voidaan ajaa suoraan Google AI Studiossa, ja sitä voi kokeilla, esimerkiksi tehdä monivalintakysymyksiä Tokenizationin määritelmästä:



Jos monivalintakysymykset ovat mielestäsi liian yksinkertaisia ​​ja tylsiä, voit edelleen antaa Gemini 1.5 Pron (0801) luoda monimutkaisempi peli:





Hanki LLM-asiantuntemuslauseen täyttöpeli:



Testaakseen Gemini 1.5 Pron (0801) päättelykykyä nettimiehet esittivät "kynttilän puhalluksen" kysymyksen, mutta malli vastasi väärin:



Joistakin puutteista huolimatta Gemini 1.5 Pro (0801) näyttää visuaaliset ominaisuudet lähellä GPT-4o:ta sekä koodin luonti- ja PDF-ymmärrys- ja päättelyominaisuudet lähellä Claude 3.5 Sonnetia, mitä kannattaa odottaa.

https://www.youtube.com/watch?v=lUA9elNdpoY