Musk ha improvvisamente rilasciato un nuovo modello di grandi dimensioni, sacrificando le risorse di Tesla per sfidare OpenAI, e un test di prima mano è qui

2024-08-14

Mengchen viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Il modello grande xAI di Musk è arrivato alla sua seconda generazione!

Grok-2Viene rilasciata la versione beta, Xiaobei Grok-2 mini è già giocabile online sulla piattaforma.

Musk ha anche rivelato il segreto che affligge la grande cerchia di modellisti da più di un mese sotto forma dell'Enigmista:

Si scopre che il misterioso modello anonimo nell'arena dei modelli di grandi dimensioni Lmsyscolonna-su-r, la cui vera forma è Grok-2.

sus-column-r ha accumulato più di 10.000 voti umani nella classifica e haAl terzo posto a pari merito con la versione API di GPT-4o。

Nei test interni di xAI, Grok-2 ha gareggiato con altri modelli all'avanguardia in aree quali la conoscenza generale (MMLU, MMLU-Pro), le domande di competizione matematica (MATH) e la conoscenza scientifica a livello di laurea (GPQA).

Inoltre, Grok-2 è il migliore nei compiti basati sulla visione e raggiunge SOTA nel ragionamento matematico visivo (MathVista).

Tuttavia, il layout di questa immagine è un po’ complicato: GPT-4o e Claude-3.5-Sonnet, che hanno i punteggi più alti, sono posizionati più lontano da te.

Anche solo guardare i punteggi è ancora astratto, entriamo nei test effettivi in prima persona.

Prova diretta di Grok-2

Se sei un utente a pagamento della piattaforma /Twitter, puoi entrare direttamente nel canale Grok per provarlo. Se non spendi soldi, puoi anche andare all'arena dei modelli di grandi dimensioni Lmsys e scegliere sus-column-r per provarlo.

EGli utenti paganti possono giocare solo alla versione Xiaobei mini., gli utenti gratuiti possono giocare a Big Cup, che è anche molto generoso.。

Poiché Grok-2 ha accesso ai dati in tempo realePuoi chiedergli direttamente di riassumere le notizie del giorno, se attivi la modalità divertimento, puoi anche lasciare commenti.

Anche versione a pagamentoAccesso all'ultimo modello grafico AI open source Flux.1, tradurrà le parole cinesi in inglese per facilitare la comprensione.

Fai clic sull'esempio di domanda "Amway a Fantasy Game" nella home page e vedrai che consiglia innanzitutto "Baldur's Gate 3" e discute diversi aspetti tra cui trama, personalizzazione del personaggio, meccaniche di gioco, modellazione del mondo, elementi umoristici e comunità di giocatori. La recensione è fatta da una prospettiva diversa e cattura molto bene i punti salienti del gioco.

A questo punto, puoi passare direttamente al cinese e continuare a fare domande.

Grok-2 conosce anche "Black Myth: Wukong", un gioco che non è ancora stato rilasciato. Ha dichiarato con precisione che la data di uscita è il 20 agosto, il motore utilizzato è Unreal 5, e ha riassunto le discussioni tra gli utenti della rete.

Alla fine include anche i post dei netizen, su cui puoi fare clic per partecipare alla discussione. L'integrazione funzionale con l'intera piattaforma è già in atto.

Tuttavia, poiché esiste solo una versione mini del modello, ci sposteremo successivamente nell'arena del modello grande per il test di forza e potremo anche avere un PK con GPT-4o.

Domande popolari di recente sui test del QI"Qual è più grande, 9.9 o 9.11?"Nel test, Grok-2 (sus-column-r) supera l'ultima versione di ChatGPT.

Ma un altro test popolare"Quante r ci sono nella fragola"Sulla questione, entrambi hanno ancora fallito. (Prova alcune volte e c'è una piccola possibilità di ottenere entrambi i risultati corretti).

Domande trappola più serie"Quale delle seguenti candele verrà spenta per prima?", Grok-2 è leggermente più avanzato di ChatGPT.

Il punto di prova è che la parte rimanente della candela che viene spenta per prima è più lunga (risposta corretta 3). ChatGPT la interpreta erroneamente come la più corta. L'idea di Grok-2 è corretta, ma il numero di cui uno è il più lungo lo è non corretto.

Entrambi sembrano aver in qualche modo superato il classico problema della “maledizione dell’inversione” della debolezza dei grandi modelli. Non solo può rispondere direttamente "Chi è la madre di Tom Cruise?", ma può anche rispondere alla domanda inversa "Il figlio di Mary Lee Pfeiffer è Tom Cruise" i cui dati compaiono meno frequentemente.

(Naturalmente non si può escludere che, una volta diventato un problema classico, saranno disponibili dati più rilevanti.)

Il modello grande di Musk è stato aggiornato a spese di Tesla

Il test è giunto al termine e si può vedere che Grok-2 ha fatto grandi progressi rispetto alla generazione precedente Grok-1.5.

Dietro le quinte, Musk ha speso molte risorse e manodopera.

Ad esempio, un nuovo ricercatore che si è unito a xAI ha affermato che può essere utilizzatoGruppo di 100.000 carteFare ricerca è molto più divertente che avere scarse risorse a scuola.

Ma un gruppo di persone non è soddisfatto: gli azionisti di Tesla.

Secondo il Wall Street Journal,Musk continua a trasferire talento, dati e risorse GPU da Tesla a xAI。

Finora xAI ha assunto almeno 11 dipendenti che hanno lavorato presso Tesla, sei dei quali hanno lavorato direttamente nel team Autopilot.

Musk ha anche chiesto a Nvidia di dare priorità alla fornitura di xAI per gli ordini GPU originariamente riservati a Tesla.

Musk ha anche parlato pubblicamente della grande quantità di dati visivi raccolti da Tesla, che secondo lui possono servire come risorsa per l'addestramento dei modelli xAI.

Almeno tre azionisti di Tesla hanno citato in giudizio Musk per questa questione, sostenendo che il trasferimento di risorse a xAI ha danneggiato gli interessi degli investitori di Tesla.

Il caso è attualmente pendente in un tribunale del Delaware.

notizia

Musk ha improvvisamente rilasciato un nuovo modello di grandi dimensioni, sacrificando le risorse di Tesla per sfidare OpenAI, e un test di prima mano è qui

Introduzione

Le mie informazioni di contatto