Musk aiheuttaa taas ongelmia! Uusi iso malli haastaa GPT-4o:n, nettimiehet ovat menossa crazy

Musk aiheuttaa taas ongelmia! Uudet suuret mallihaasteet GPT-4o:ssa, nettimiehet ovat tulossa hulluksi

2024-08-14

Zhidongxi News 14. elokuuta, tänä iltapäivänä Pekingin aikaa, Muskin suuren mittakaavan mallin startupxAIToisen sukupolven mallin lanseerausGrok-2 beta, mukaan lukien Grok-2 ja Grok-2 miniversiot.

MyskiJulkaisi intohimoisesti omalla sosiaalisessa mediassasus-column-r。

Hän uudelleentwiittasi Lmsysin twiitin sanomalla: "Grok on raketin nopeus." sus-column-r sai yli 12 000 ääntä sijoituslistalla ja sen suorituskykyParempi kuin Claude 3.5 Sonet ja GPT-4-TurboGPT-4otasan kolmannelle sijalle。

Monissa arvioinneissa, kuten GPQA, MMLU, MMLU-Pro, MATH, MathVista jne.,Grok-2Pisteet ylittävät valtavirran mallien, kuten GPT-4 Turbo, Claude 3 Opus ja Gemini Pro 1.5, pisteet, mutta ovat silti GPT-4o:ta huonompia.

Tällä hetkellä X Premium- ja Premium+-käyttäjät voivat nyt kokea Grok-2:n ja Grok-2 minin, ja Zhixixi suoritti ensimmäisenä todellisen testauksen ja kokemuksen.

Kokemuksen jälkeen Grok-2:n minulle antama ilmeisin tunne on, että sen logiikka on hyvin selkeä. Esimerkiksi seuraavassa esimerkissä, vaikka Grok-2 ja GPT-4o antoivat molemmat oikeat vastaukset, edellisen kunkin vaiheen vaiheet ja laskelmat ovat erittäin selkeitä ja helpompia ymmärtää. Lisäksi Grok-2:n Vincentian-grafiikkaominaisuudet ovat nousseet pilviin FLUX.1:n tuella, ja se on säilyttänyt yhtenäisen "rohkean" tyylinsä.

xAI aikoo myös julkaista kaksi Grok-2 Enterprise API -versiota myöhemmin tässä kuussa.

Kokemusosoite:https://lmarena.ai/?model=sus-column-r

1. Suorituskyky saavuttaa useita GPT-4-versioita, ja visuaaliset ja loogiset ominaisuudet vahvistuvat.

LMSYS Chatbot Arenalla Grok-2:n varhainen versio, sus-column-r, osallistui arviointiin.Elon kokonaispistemäärä ylittää Clauden ja useiden GPT-4-versioiden。

Kuten alla olevasta kuvasta näkyy, Grok-2:n pisteet ylittivät GPT-4o-minin 18. heinäkuuta ja GPT-4-Turbon 9. huhtikuuta, mutta pisteet olivat silti alhaisemmat kuin elokuun 8. ChatGPT-4o – GPT-4o:n uusin versio, 15. toukokuuta.

Sisäisesti xAI-tiimi noudattaa samanlaista prosessia arvioidakseen malleja, ja arvioinnissa keskitytään mallin kahteen ydinominaisuuksiin: Ensinnäkin,Noudata ohjeita tarkasti, toinen on tietojen antaminenTarkkuus ja aitous。

On syytä mainita, että Grok-2 onPäätelmäanalyysin hakusisältöjaKäytä työkalujaSe on edistynyt merkittävästi, kuten sen kyky tunnistaa puuttuvat tiedot tarkasti, suorittaa loogista päättelyä tapahtumasarjojen kautta ja poistaa tehokkaasti epäolennaiset viestit.

Vertailutestaukseen tiimi käytti sarjaa testejä, jotka kattavatPäättely, luetun ymmärtäminen, matematiikka, luonnontieteet ja koodausGrok-2-mallin kattava arviointi tehtiin muiden alojen akateemisilla vertailuarvoilla.

Tulokset osoittavat, että Grok-2 ja sen yksinkertaistettu versio Grok-2 mini ovat huomattavasti parempia verrattuna edellisen sukupolven Grok-1.5 malliin.

korkeakoulutasollaTieteellinen tieto (kuten GPQA), maalaisjärkeä koskeva kysymys ja vastaus (kuten MMLU, MMLU-Pro)samoin kuinMatematiikan kilpailukysymykset (kuten MATH)Muilla aloilla niiden suorituskyky voi kilpailla muiden huippumallien kanssa.

Kuten alla olevasta kuvasta näkyy, Grok-2 sai hyvät tulokset kaikissa näissä testeissä.Ylitti GPT-4 Turbon, Claude 3 Opuksen ja Gemini Pro 1.5:n, mutta ei silti voinut voittaa GPT-4o:ta。

On syytä mainita, että Grok-2 onvisuaaliset tehtävätErinomainen suorituskyky, varsinkin päälläVisuaalinen matemaattinen päättely (MathVista)jaAsiakirjapohjainen kysymyksiin vastaaminen (DocVQA)Suorituskyky on erityisen erinomaista.

2. Grok-2 on käynnistetty

Grok-2 ja Grok-2 mini ovat nyt X-tilaajien saatavilla, ja myös muut kuin tilaajat voivat kokea Grok-2-mallin varhaisen version sus-column-r ilmaiseksi Large Model Arenalla.

Suurella malliareenalla on saatavilla yhteensä 62 mallia, mukaan lukien GPT-4o. Testataan ensin tätä varhaista mallia.

Ensimmäinen on kokosuhdeongelma, joka kaatui monet mallit jokin aika sitten: kumpi on suurempi, 13.11 vai 13.8. Sekä Grok-2 että GPT-4o vastasivat tarkasti, mutta Grok-2:n ajatteluprosessi oli selkeämpi ja siinä lueteltiin yksityiskohtaisia ajatteluvaiheita.

Toiseen klassiseen kysymykseen "Kuinka monta r-kirjainta on Strawberryssa?" Grok-2 vastasi aluksi väärin, mutta antoi sitten oikean vastauksen vaihtaessaan englanniksi GPT-4o vastasi oikein sekä kiinaksi että englanniksi. Näyttää siltä, että suurissa malleissa on edelleen onnea.

Suuren malliareenan mallit eivät ole yhteydessä Internetiin reaaliajassa Kun kysyin "Mitkä ovat Googlen juuri julkaiseman Pixel 9:n kohokohdat?", molemmat mallit sanoivat, ettei heillä ollut vielä tätä tietoa. Grok-2 antoi sitten ennusteita, jotka perustuivat teknologian kehitystrendeihin ja Pixelin menneisiin ominaisuuksiin. Yksi arvaus oli melko luotettava Googlen päivityksen painopisteenä ovat kamerat, prosessorit, tekoäly.

GPT-4o ei antanut ennustetta, mutta tiivisti Pixel-puhelimien aiemmat kohokohdat.

Koodausominaisuuksien suhteen näiden kahden mallin suorituskyky on vertailukelpoinen, ja vaatimuksia varten on annettu yksityiskohtaiset ratkaisuvaiheet ja täydelliset koodit.

Loogisen päättelyn kannalta Grok-2 osoittaa jälleen kerran logiikan selkeyden, ja jokainen päättelyvaihe on jaettu tekstityksiin. Vaikka myös GPT-4o vastasi oikein, ajatteluvaiheet eivät olleet riittävän selkeitä.

Vincent-grafiikkaominaisuudet ovat tämän Grok-2-päivityksen pääpaino. FLUX.1-malli, johon se on yhdistetty, on ollut viime aikoina erittäin suosittu avoimen lähdekoodin yhteisössä tehokkaan suorituskyvyn ansiosta. Kuvantuotantokykyä ei kuitenkaan voi kokea suurella malliareenalla, ja se voidaan saavuttaa vain X-tilauksella.

Nettimiehet ovat jo pitäneet hauskaa Grok-2 Wenshengtun kanssa, esimerkiksi käyttäneet sen tekstinluontiominaisuuksia auttamaan Grok-2:ta pitämään offline-lehdistötilaisuuden.

Tai käytä mielikuvitustasi ja anna Muskin ajaa autoa Marsissa.

Grokin lähes nollasensuurijärjestelmään perustuen monet nettimiehet ovat tehneet vitsejä, kuten pyytäneet Trumpia ampumaan ja George W. Bushia nuuskamaan kokaiinia...

Tai anna Trumpin nousta taivaalle SpaceX-raketilla. Saman pyynnön edessä GPT-4o kieltäytyi erittäin päättäväisesti.

Kuinka häpeämätön Grokin sensuurijärjestelmä onkaan. Jotkut nettimiehet testasivat suurta mallia "sijoittaakseen 10 parhaan älykkyysosamäärän rodun mukaan", ja vain Grok-2 antoi vastauksen epäröimättä.ChatGPT, Claude kieltäytyi suoraan, ja Kaksoset käynnistivät huolellisen koulutuksen.

Kaiken kaikkiaan Grok-2 toteuttaa edelleen rohkeaa tyyliään. Samanaikaisesti sen mallin suorituskyky on verrattavissa päämalleihin, kuten GPT-4o, sen logiikka on selkeämpi ja sen multimodaaliset ominaisuudet ovat jopa parempia kuin FLUX.1. Siunauksen myötä se nousi suoraan ylös.

3. Käynnistä yrityksen API-alusta kuun lopussa integroidaksesi saumattomasti yritysjärjestelmät

Tämän kuun lopussa xAI läpäisee uudenEnterprise API -alusta, julkaisi virallisesti Grok-2 ja Grok-2 mini kehittäjille.

Tämä API ottaa käyttöön uuden mukautetun teknisen arkkitehtuurin tukeakseenUsean alueen päättelyn käyttöönotto, vartenmaailmanlaajuisia käyttäjiäTarjoa sujuva käyttökokemus pienellä viiveellä.

Samaan aikaan xAI:ssa on parannettuja suojausominaisuuksia, mukaan lukien pakollinen monitekijätodennus (kuten Yubikey, Apple TouchID tai TOTP), ja se tarjoaa yksityiskohtaistaLiikennetilastot ja edistyneet laskutusanalyysipalvelut, tukee tietojen vientiä.

Lisäksi xAI on myös julkaissut hallintasovellusliittymän, joka tukee tiimin, käyttäjien ja laskutuksen hallintatoimintojen saumatonta integrointia olemassa oleviin sisäisiin työkaluihin ja palveluihin.

Johtopäätös: Grok-2:n ja X-alustan välinen yhteys on syvempi, ja OpenAI ja muut ovat suuren paineen alla.

Grok-2 ja Grok-2 mini ovat nyt verkossa X-alustalla. Esimerkiksi parannettu hakukokemus, X-viestien syvällinen analyysi ja optimoidut vastaustoiminnot ovat varsin jännittäviä. Pian xAI julkaisee myös esikatseluversion multimodaalisista ymmärrysominaisuuksistaan.

Grok-1:n julkaisusta marraskuussa 2023 lähtien xAI on edistynyt nopeasti teknologiassa, tuotteissa ja rahoituksessa, ja Grok-2:n julkaisu on sen uusi virstanpylväs. Kun Musk yhdistää Grokin suuret malliominaisuudet X-alustan tehokkaaseen sisällön käyttäjäekologiaan, muodostuu suljettu silmukka, mukaan lukienOpenAIPaine suuriin malli-aloitusyrityksiin, mukaan lukien Alibaba Cloud, on vielä suurempi.

Kirjoittaja |. Li Shuiqing Vanilla

Toimittaja |

uutiset

Musk aiheuttaa taas ongelmia! Uudet suuret mallihaasteet GPT-4o:ssa, nettimiehet ovat tulossa hulluksi

1. Suorituskyky saavuttaa useita GPT-4-versioita, ja visuaaliset ja loogiset ominaisuudet vahvistuvat.

2. Grok-2 on käynnistetty

3. Käynnistä yrityksen API-alusta kuun lopussa integroidaksesi saumattomasti yritysjärjestelmät

Johtopäätös: Grok-2:n ja X-alustan välinen yhteys on syvempi, ja OpenAI ja muut ovat suuren paineen alla.

Johdanto

Yhteystietoni