Musk julkaisi yhtäkkiä uuden suuren mallin uhraten Teslan resursseja haastaakseen OpenAI:n, ja ensikäden testi on täällä

2024-08-14

Mengchen tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Muskin xAI-suuri malli on julkaistu toisessa sukupolvessaan!

Grok-2Beta-versio on julkaistu, Xiaobei Grok-2 mini on jo pelattavissa verkossa alustalla.

Musk paljasti myös salaisuuden, joka on vaivannut suurta mallipiiriä yli kuukauden Riddlerin muodossa:

Osoittautuu, että salaperäinen anonyymi malli Lmsysin suurella malliareenallasus-column-r, todellinen muoto on Grok-2.

sus-column-r on kerännyt yli 10 000 ihmisääntä tulostaulukossa ja onTasainen kolmannelle sijalle GPT-4o:n API-versiolla。

xAI:n omassa sisäisessä testauksessa Grok-2 kilpaili muiden huippumallien kanssa muun muassa yleistiedon (MMLU, MMLU-Pro), matematiikan kilpailukysymyksissä (MATH) ja jatko-tason tieteellisessä tiedossa (GPQA).

Lisäksi Grok-2 on paras visioon perustuvissa tehtävissä ja saavuttaa SOTA:n visuaalisessa matemaattisessa päättelyssä (MathVista).

Tämän kuvan asettelu on kuitenkin hieman hankala: GPT-4o ja Claude-3.5-Sonnet, joilla on korkeimmat pisteet, sijoitetaan kauemmaksi sinusta.

Pelkästään tulosten katsominen on edelleen abstraktia, siirrytään ensikäden varsinaiseen testaukseen.

Ensikäden testi Grok-2:sta

Jos olet /Twitter-alustan maksullinen käyttäjä, voit kokeilla sitä suoraan Grok-kanavalla. Jos et kuluta rahaa, voit myös mennä Lmsysin suurelle malliareenalle ja valita sus-column-r kokeillaksesi sitä.

jaMaksavat käyttäjät voivat pelata vain Xiaobei miniversiota., ilmaiset käyttäjät voivat pelata isoa cupia, mikä on myös erittäin antelias.。

Koska Grok-2:lla on pääsy reaaliaikaisiin tietoihinVoit pyytää häntä suoraan tekemään yhteenvedon päivän uutisista, jos otat hauskan tilan käyttöön, voit myös kommentoida.

Myös maksullinen versioKäytti uusinta avoimen lähdekoodin tekoälykaaviomallia Flux.1, kääntää kiinalaiset kehotteet englanniksi ymmärtämisen vuoksi.

Napsauta "Amway a Fantasy Game" -kysymysesimerkkiä kotisivulla ja näet, että se suosittelee ensin "Baldur's Gate 3" -peliä ja käsittelee useita näkökohtia, kuten juoni, hahmojen räätälöinti, pelimekaniikka, maailmanmuokkaus, huumorielementit ja pelaajayhteisö. Arvostelu on tehty eri näkökulmasta ja se kuvaa pelin kohokohdat erittäin hyvin.

Tällä hetkellä voit vaihtaa suoraan kiinaksi ja jatkaa kysymysten esittämistä.

Grok-2 tietää myös "Black Myth: Wukong" -pelistä, jota ei ole vielä julkaistu. Hän totesi tarkasti, että julkaisupäivä on 20. elokuuta, käytetyn Unreal 5 -moottorin, ja tiivisti keskustelut nettikäyttäjien keskuudessa.

Sen lopussa on myös nettilaisten viestejä, joita klikkaamalla voit osallistua keskusteluun. Toiminnallinen integraatio koko alustan kanssa on jo olemassa.

Koska mallista on kuitenkin vain miniversio, siirrymme seuraavaksi suurelle malliareenalle voimakokeeseen ja saamme myös PK:n GPT-4o:lla.

Viime aikoina suositut IQ-testauskysymykset"Kumpi on suurempi, 9,9 vai 9,11?"Testissä Grok-2 (sus-column-r) ylittää ChatGPT:n uusimman version.

Mutta toinen suosittu testi"Kuinka monta r-kirjainta mansikassa on"Tässä asiassa molemmat epäonnistuivat edelleen. (Yritä muutaman kerran ja on pieni mahdollisuus saada molemmat oikein).

Vakavampia ansakysymyksiä"Mikä seuraavista kynttilöitä sammutetaan ensin?", Grok-2 on hieman edistyneempi kuin ChatGPT.

Testikohta on, että kynttilän jäljellä oleva osa, joka puhalletaan ensin, on pidempi (oikea vastaus 3) tulkitsee sen väärin lyhimmäksi. Grok-2-idea on oikea, mutta sen numero on pisin ei oikein.

Molemmat näyttävät jotenkin voittavan klassisen suuren mallin heikkouden "käänteisen kirouksen" -ongelman. Se ei vain voi vastata suoraan kysymykseen "Kuka on Tom Cruisen äiti?", vaan se voi myös vastata käänteiseen kysymykseen "Mary Lee Pfeifferin poika on Tom Cruise", jonka tiedot näkyvät harvemmin.

(Ei tietenkään voida sulkea pois sitä, että kun siitä tulee klassinen ongelma, saatavilla on enemmän relevanttia tietoa.)

Muskin suuri malli päivitettiin Teslan kustannuksella

Testi on tullut päätökseen ja voidaan nähdä, että Grok-2 on edistynyt huomattavasti edellisen sukupolven Grok-1.5:een verrattuna.

Kulissien takana Musk käytti paljon resursseja ja työvoimaa.

Esimerkiksi uusi xAI:hen liittynyt tutkija sanoi, että sitä voidaan käyttää100 000 korttiklusteriTutkimuksen tekeminen on paljon hauskempaa kuin huonot resurssit koulussa.

Mutta yksi ryhmä ihmisiä ei ole tyytyväinen: Teslan osakkeenomistajat.

Wall Street Journalin mukaanMusk jatkaa lahjakkuuksien, datan ja GPU-resurssien siirtämistä Teslasta xAI:lle。

Tähän mennessä xAI on palkannut vähintään 11 Teslassa työskennelleet työntekijää, joista kuusi on työskennellyt suoraan Autopilot-tiimissä.

Musk pyysi myös Nvidiaa priorisoimaan xAI:n toimituksen GPU-tilauksille, jotka oli alun perin varattu Teslalle.

Musk on myös puhunut julkisesti Teslan keräämistä valtavista määristä visuaalista dataa, jota hänen mukaansa voidaan käyttää resurssina xAI-mallien koulutuksessa.

Ainakin kolme Teslan osakkeenomistajaa haastoi Muskin oikeuteen tästä asiasta väittäen, että resurssien siirtäminen xAI:lle vahingoitti Teslan sijoittajien etuja.

Asia on tällä hetkellä vireillä Delawaren tuomioistuimessa.

uutiset

Musk julkaisi yhtäkkiä uuden suuren mallin uhraten Teslan resursseja haastaakseen OpenAI:n, ja ensikäden testi on täällä

Johdanto

Yhteystietoni