Il muschio crea ancora problemi! Nuovo grande modello sfida GPT-4o, i netizen impazziscono

2024-08-14

Zhidongxi News il 14 agosto, questo pomeriggio, ora di Pechino, il modello di avvio su larga scala di MuskxAILancio del modello di seconda generazioneGrok-2 beta, comprese le versioni Grok-2 e Grok-2 mini.

MuschioPubblicato con passione sulla propria piattaforma socialcolonna-su-r。

Ha ritwittato il tweet di Lmsys dicendo: "Grok è la velocità di un razzo". sus-column-r ha ricevuto più di 12.000 voti nella classifica e nella sua performanceMeglio di Claude 3.5 Sonnet e GPT-4-Turbo, conGPT-4oa pari merito per il terzo posto。

In molte valutazioni come GPQA, MMLU, MMLU-Pro, MATH, MathVista, ecc.,Grok-2I punteggi superano quelli dei modelli mainstream come GPT-4 Turbo, Claude 3 Opus e Gemini Pro 1.5, ma sono comunque inferiori a GPT-4o.

Attualmente, gli utenti X Premium e Premium+ possono provare Grok-2 e Grok-2 mini e Zhixixi è stato il primo a condurre test ed esperienze reali.

Dopo qualche esperienza, la sensazione più ovvia che mi ha dato Grok-2 è che la sua logica sia molto chiara. Ad esempio, nell'esempio seguente, sebbene Grok-2 e GPT-4o abbiano entrambi dato risposte corrette, i passaggi e i calcoli di ciascun passaggio del primo sono molto chiari e più facili da comprendere. Inoltre, le capacità grafiche vincenziane di Grok-2 sono salite alle stelle con il supporto di FLUX.1, e ha mantenuto il suo coerente stile "audace".

xAI prevede inoltre di lanciare due versioni dell'API aziendale Grok-2 entro la fine del mese.

Indirizzo dell'esperienza:https://lmarena.ai/?model=sus-column-r

1. Le prestazioni raggiungono più versioni di GPT-4 e le capacità visive e logiche diventano più forti.

Nella LMSYS Chatbot Arena, una prima versione di Grok-2, sus-column-r, ha partecipato alla valutazione.Le prestazioni complessive del punteggio Elo superano Claude e diverse versioni GPT-4。

Come mostrato nella figura seguente, il punteggio di Grok-2 ha superato la versione del 18 luglio di GPT-4o-mini e la versione del 9 aprile di GPT-4-Turbo, ma il punteggio era comunque inferiore alla versione dell'8 agosto di ChatGPT-4o: l'ultima versione di GPT-4o del 15 maggio.

Internamente, il team xAI segue un processo simile per valutare i modelli, con la valutazione focalizzata sulle due capacità principali del modello: in primo luogo,Seguire le istruzioni con precisione, il secondo è fornire informazioniPrecisione e autenticità。

Vale la pena ricordare che Grok-2 lo èContenuti di ricerca dell'analisi di inferenzaEUsa gli strumentiHa compiuto progressi significativi, come la sua capacità di identificare con precisione le informazioni mancanti, eseguire ragionamenti logici attraverso sequenze di eventi ed eliminare in modo efficace i post irrilevanti.

Per i test di benchmark, il team ha utilizzato una serie di test che copronoRagionamento, comprensione della lettura, matematica, scienze e programmazioneUna valutazione completa del modello Grok-2 è stata condotta su parametri accademici in altri campi.

I risultati mostrano che Grok-2 e la sua versione semplificata Grok-2 mini sono significativamente migliorati rispetto al modello Grok-1.5 della generazione precedente.

a livello universitarioConoscenza scientifica (come GPQA), domande e risposte basate sul buon senso (come MMLU, MMLU-Pro)così comeDomande per concorsi di matematica (come MATH)In altri campi le loro prestazioni possono competere con quelle di altri modelli di punta.

Come mostrato nella figura seguente, il Grok-2 ha ottenuto buoni risultati in tutti questi test.Ha superato GPT-4 Turbo, Claude 3 Opus e Gemini Pro 1.5, ma non è ancora riuscito a battere GPT-4o。

Vale la pena ricordare che Grok-2 lo ècompiti visiviPrestazioni eccellenti, soprattutto suRagionamento matematico visivo (MathVista)ERisposte alle domande basate su documenti (DocVQA)Le prestazioni sono particolarmente eccezionali.

2. Grok-2 è stato lanciato sul

Grok-2 e Grok-2 mini sono ora disponibili per gli abbonati X, e anche i non abbonati possono provare gratuitamente la prima versione del modello Grok-2 sus-column-r nella Large Model Arena.

Ci sono un totale di 62 modelli disponibili nell'arena dei modelli di grandi dimensioni, incluso GPT-4o. Per facilitare il confronto, testiamo prima questo primo modello.

Il primo è la questione del rapporto dimensioni che ha ribaltato molti modelli qualche tempo fa: quale è più grande, 13.11 o 13.8. Sia Grok-2 che GPT-4o hanno risposto in modo accurato, ma il processo di pensiero di Grok-2 era più chiaro ed elencava passaggi di pensiero dettagliati.

Su un'altra domanda classica "Quante r ci sono in Strawberry?", Grok-2 ha risposto inizialmente in modo errato, ma poi ha dato la risposta corretta dopo essere passato all'inglese. GPT-4o ha risposto correttamente sia in cinese che in inglese. Sembra che ci sarà ancora un elemento di fortuna nei modelli di grandi dimensioni.

I modelli nell'arena dei modelli grandi non sono collegati a Internet in tempo reale Alla domanda "Quali sono le caratteristiche principali del Pixel 9 appena lanciato da Google?", entrambi i modelli hanno risposto di non avere ancora questa informazione. Grok-2 ha poi fornito previsioni basate sulle tendenze di sviluppo della tecnologia e sulle caratteristiche passate di Pixel. Un'ipotesi era abbastanza affidabile. Fotocamere, processori, intelligenza artificiale, ecc. sono tutti al centro dell'aggiornamento di Google.

GPT-4o non ha fornito una previsione, ma ha riassunto i punti salienti del passato dei telefoni Pixel.

In termini di capacità di codifica, le prestazioni dei due modelli sono comparabili e per i requisiti vengono forniti passaggi dettagliati della soluzione e codici completi.

In termini di ragionamento logico, Grok-2 mostra ancora una volta la chiarezza della logica e ogni fase del ragionamento è divisa in sottotitoli. Sebbene anche GPT-4o abbia risposto correttamente, i passaggi di riflessione non erano abbastanza chiari.

La funzionalità del grafico Vincent è l'obiettivo principale di questo aggiornamento di Grok-2. Il modello FLUX.1 a cui è collegato è stato recentemente molto popolare nella comunità open source grazie alle sue potenti prestazioni. Tuttavia, la capacità di generazione di immagini non può essere sperimentata nell'arena dei modelli di grandi dimensioni e può essere ottenuta solo tramite l'abbonamento X.

Gli utenti della rete si sono già divertiti con Grok-2 Wenshengtu, ad esempio utilizzando le sue capacità di generazione di testo per aiutare Grok-2 a tenere una conferenza stampa offline.

Oppure usa la tua immaginazione e lascia che Musk guidi un'auto su Marte.

Basandosi sul sistema di censura quasi zero di Grok, molti netizen hanno fatto battute, come chiedere a Trump di sparare e chiedere a George W. Bush di sniffare cocaina...

Oppure lascia che Trump voli in cielo su un razzo SpaceX. Di fronte alla stessa richiesta, GPT-4o ha rifiutato in modo molto deciso.

Quanto è sfacciato il sistema di censura di Grok? Alcuni netizen hanno testato un modello di grandi dimensioni per "classificare i primi 10 QI per razza", e solo Grok-2 ha dato la risposta senza esitazione,ChatGPT, Claude rifiutò direttamente e Gemini iniziò un'educazione scrupolosa.

Nel complesso, Grok-2 implementa ancora il suo stile audace. Allo stesso tempo, le prestazioni del suo modello sono paragonabili a quelle dei modelli principali come GPT-4o, la sua logica è più chiara e le sue capacità multimodali sono persino migliori di quelle di FLUX.1. Con la benedizione, si alzò in volo.

3. Lanciare una piattaforma API aziendale alla fine del mese per integrare perfettamente i sistemi aziendali

Alla fine di questo mese, xAI passerà il nuovoPiattaforma API aziendale, ha lanciato ufficialmente agli sviluppatori Grok-2 e Grok-2 mini.

Questa API adotterà una nuova architettura tecnica personalizzata per supportareDistribuzione dell'inferenza su più regioni,perutenti globaliFornisci un'esperienza fluida con bassa latenza.

Allo stesso tempo, xAI ha funzionalità di sicurezza migliorate, inclusa l'autenticazione a più fattori obbligatoria (come Yubikey, Apple TouchID o TOTP) e fornisce informazioni dettagliateStatistiche di traffico e servizi avanzati di analisi della fatturazione, supporta l'esportazione dei dati.

Inoltre, xAI ha anche lanciato un'API di gestione per supportare la perfetta integrazione delle funzioni di gestione di team, utenti e fatturazione negli strumenti e nei servizi interni esistenti.

Conclusione: il collegamento tra Grok-2 e la piattaforma X è più profondo e OpenAI e altri sono sotto forte pressione.

Grok-2 e Grok-2 mini sono ora online sulla piattaforma X. Ad esempio, l'esperienza di ricerca migliorata, l'analisi approfondita dei post X e le funzioni di risposta ottimizzate sono piuttosto interessanti. Presto xAI rilascerà anche una versione di anteprima delle sue capacità di comprensione multimodale.

Dal lancio di Grok-1 nel novembre 2023, xAI ha compiuto rapidi progressi in termini di tecnologia, prodotti e finanziamenti e il lancio di Grok-2 è la sua nuova pietra miliare. Una volta che Musk collegherà le capacità dei modelli di grandi dimensioni di Grok con la potente ecologia degli utenti di contenuti della piattaforma X, si formerà un circuito chiuso, che includeràIA apertaLa pressione sulle grandi start-up di modelli, tra cui Alibaba Cloud, è ancora maggiore.

Autore |. Li Shuiqing Vaniglia

Editore |

notizia