uutiset

Grok-2 on täällä, se pystyy luomaan kuvia ja tunnistamaan kuvia, ja sen suorituskyky on verrattavissa GPT-4o:han: Se kehittyy kuin raketti

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Machine Heart -toimitusosasto

GPT-5 ei ole vielä ilmestynyt, Grok on jo kiinni.

Samana päivänä, kun Google ja OpenAI kilpailivat uutisista, Muskin xAI ei myöskään ollut käyttämättömänä.

Keskiviikkona iltapäivällä Pekingin aikaa xAI julkaisi virallisesti uuden sukupolven Grok 2 -suuren mallin.



Kolmannen osapuolen suuri malli-benchmark-organisaatio Chatbot Arena päivitti myös välittömästi LMSYS-listan tulosluettelon. Grok 2:n varhainen malli (sus-column-r) voidaan sijoittua neljänneksi GPT-4o:n (versio 0513) jälkeen, ja se ylittää Claude 3.5 Sonnetin ja GPT-4-Turbon.

Se on erinomainen koodauksessa, monimutkaisissa ongelmissa ja matematiikassa.





Musk ei voinut olla ylpeilemättä: "Grokin propulsionopeus on kuin raketti."



Huomaa, että tämä on vain varhaisen version pisteet, Chatbot Arena sanoi, että se testaa virallista versiota tulevaisuudessa.

Musk sanoi, että Grok-2 on edistynyt kielimalli, jossa on huippuluokan päättelykyky. Uusi sukupolvi sisältää kaksi versiota: Grok-2 ja Grok-2 mini. Molemmat mallit on nyt julkaistu Grok-käyttäjille X-alustalla. Tällä hetkellä X Premium- ja Premium+-käyttäjät voivat jo kokea Grok-2- ja Grok-2-minimalleja.

Verrattuna edelliseen Grok-1.5:een, Grok-2:n varhainen esikatseluversio on edistynyt merkittävästi, ja se on osoittanut johtavia ominaisuuksia chatissa, päättelyssä, koodauksessa jne. xAI sanoo, että Grok-2 ja Grok-2 mini ovat tällä hetkellä beta-vaiheessa X:ssä ja tulevat saataville yrityssovellusliittymän kautta myöhemmin tässä kuussa.

Alle puoli tuntia uuden mallin julkaisun jälkeen eräs nettimies esitteli tuloksia. Hän käytti Grok 2 miniä luodakseen kuvan "Minä ja Musk syömässä hot dogeja".





Kokeile toista luodaksesi muotokuva Washingtonista.



Jotkut ihmiset kokeilivat myös Grok 2 miniä luodakseen lentävän kissan.



Joku muu rakensi Tesla Model Y:n, näyttääkö se samalta?



Grok-2 suorituskyky PK

Kun xAI laittaa Grok-2:n varhaisen version "sus-column-r" Chatbot Arenaan, näemme sen suorituskyvyn verrattuna muihin suosittuihin avoimen ja suljetun lähdekoodin malleihin.

Mitä tulee Elo-pisteisiin, Grok-2 toimii paremmin kuin Claude-sarjan mallit ja useimmat GPT-4:n versiot. Tietysti ensimmäinen listalla on GPT-4o (versio 8. elokuuta), jonka OpenAI julkaisi juuri näinä päivinä.



Alla oleva kuva näyttää Win Rate -vertailun Grok-2:n ja muiden suosittujen mallien välillä.



Alla olevassa kuvassa on tosiasioihin perustuva voittoprosenttivertailu Grok 1.5:n ja Grok 2:n kahden version välillä.



xAI käyttää tätä prosessia arvioidakseen Grok 2 -mallia ja käyttää AI-tutoreita aidosti vuorovaikutuksessa mallin kanssa erilaisissa tehtävissä. Jokaisen vuorovaikutuksen aikana Grok 2 tarjoaa kaksi vastausta tekoälyohjaajille, jotka sitten valitsevat parhaan vastauksen oppaassa lueteltujen erityisten kriteerien perusteella.

xAI keskittyy mallin suorituskyvyn arvioimiseen kahdella avainalueella: ohjeiden seuraaminen ja tarkan, totuudenmukaisen tiedon tarjoaminen. Tulokset osoittavat merkittäviä parannuksia Grok 2:n kyvyssä perustella haetun sisällön perusteella ja käyttää työkaluja, kuten puuttuvien tietojen oikea tunnistaminen, tapahtumasarjan päättely, asiaankuulumattomien viestien hylkääminen jne.

Vertailupisteet

xAI arvioi Grok-2-mallia useiden akateemisten vertailuarvojen perusteella, mukaan lukien päättelyn, luetun ymmärtämisen, matematiikan, luonnontieteiden ja koodauksen.

Sekä Grok-2 että Grok-2 mini ovat merkittäviä parannuksia edelliseen Grok-1.5-malliin verrattuna. Suorituskyky on verrattavissa muihin huippuluokan malleihin sellaisilla aloilla kuin jatko-tason tieteellinen tieto (GPQA), yleistieto (MMLU, MMLU-Pro) ja matematiikan kilpailuongelmat (MATH).

Lisäksi Grok-2 suoriutuu hyvin myös visioon perustuvissa tehtävissä, ja sillä on erinomainen suorituskyky visuaalisessa matemaattisessa päättelyssä (MathVista) ja dokumenttipohjaisessa kysymysvastaamisessa (DocVQA).



Grok 2 -käyttöliittymä ja toiminnot "iso muodonmuutos"

Muutaman viime kuukauden aikana xAI on jatkuvasti parantanut Grok-kokemusta x-alustalla. Seuraavan sukupolven Grok 2:n julkaisun myötä xAI on suunnitellut käyttöliittymän uudelleen alla olevan kuvan mukaisesti.



Tietenkin xAI tarjoaa joitain uusia ominaisuuksia, kuten Conwayn "Game of Life" -sovelluksen yksinkertaisen toteutuksen.



Toinen esimerkki on multimodaalinen ymmärryskyky (kuvien katsominen ja puhuminen).



Niiden joukossa Grok-2 on xAI:n edistynein tekoälyavustaja, jolla on tekstin ja visuaalisen ymmärtämisen ominaisuudet ja integroitu reaaliaikainen tieto X-alustalta, jota voidaan käyttää X-sovelluksen Grok-välilehden kautta.

Grok-2 mini on pieni mutta tehokas malli, joka löytää hyvän tasapainon nopeuden ja vastauksen laadun välillä.



Grok-2 on intuitiivisempi, ohjattavampi ja joustavampi kuin edeltäjänsä, joten se sopii monenlaisiin tehtäviin, olitpa sitten etsimässä vastauksia, kirjoittamista yhdessä tai koodaustehtävien ratkaisemista.

Lisäksi xAI tekee yhteistyötä startup Black Forest Labsin kanssa kokeillakseen heidän FLUX.1-malliaan Grokin ominaisuuksien laajentamiseksi X:ssä.



Myöhemmin tässä kuussa xAI julkaisee myös Grok-2:n ja Grok-2 minin kehittäjille uuden yrityksen API-alustan kautta. Tuleva API on rakennettu uuteen mukautettuun teknologiapinoon, mikä mahdollistaa usean alueen päättelyn käyttöönoton maailmanlaajuista matalan viiveen pääsyä varten.

Tietysti xAI tarjoaa myös joitain parannettuja suojausominaisuuksia, kuten pakollisen monitekijätodennuksen (esim. Yubikeyn, Apple TouchID:n tai TOTP:n avulla).

Voidaan nähdä, että Grok-1:n julkaisusta marraskuussa 2023 lähtien xAI on kehittänyt tätä mallisarjaa hälyttävää vauhtia. Pian he julkaisevat esikatseluversion, jossa on multimodaalinen ymmärrys. Painopiste xAI:n jälkeen on mallin ydinpäättelykykyjen parantaminen uusien laskentaklustereiden avulla.

Blogin osoite: https://x.ai/blog/grok-2