Grok-2 è qui, può generare immagini e riconoscere immagini e le sue prestazioni sono paragonabili a GPT-4o: si sta sviluppando come un rocket

Grok-2 è qui, può generare immagini e riconoscere immagini, e le sue prestazioni sono paragonabili a GPT-4o: si sta sviluppando come un razzo

2024-08-14

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

GPT-5 non è ancora uscito, Grok ha già raggiunto.

Nello stesso giorno in cui Google e OpenAI erano in competizione per le novità, anche xAI di Musk non era inattivo.

Mercoledì pomeriggio, ora di Pechino, xAI ha rilasciato ufficialmente il modello grande Grok 2 di nuova generazione.

Anche l'organizzazione terza di benchmark di modelli di grandi dimensioni Chatbot Arena ha immediatamente aggiornato l'elenco dei punteggi dell'elenco LMSYS. Il primo modello di Grok 2 (sus-column-r) può essere classificato al quarto posto dopo GPT-4o (versione 0513), superando Claude 3.5 Sonnet e GPT-4-Turbo.

Eccelle nella codifica, nei problemi complessi e nella matematica.

Musk non poteva fare a meno di vantarsi: "La velocità di propulsione di Grok è come un razzo".

Tieni presente che questo è solo il punteggio della prima versione di Chatbot Arena che testerà la versione ufficiale in futuro.

Musk ha affermato che Grok-2 è un modello linguistico avanzato con capacità di ragionamento all’avanguardia. La nuova generazione comprende due versioni: Grok-2 e Grok-2 mini. Entrambi i modelli sono ora rilasciati agli utenti Grok sulla piattaforma X. Attualmente, gli utenti X Premium e Premium+ possono già provare i modelli Grok-2 e Grok-2 mini.

Rispetto al precedente Grok-1.5, la prima versione di anteprima di Grok-2 ha ottenuto progressi significativi, dimostrando capacità leader nella chat, nel ragionamento, nella codifica, ecc. xAI afferma che Grok-2 e Grok-2 mini sono attualmente in versione beta su X e saranno disponibili tramite un'API aziendale alla fine di questo mese.

Meno di mezz'ora dopo il rilascio del nuovo modello, un netizen stava già mostrando i risultati. Ha usato Grok 2 mini per generare un'immagine di "Io e Musk che mangiamo hot dog".

Provane un altro per generare un ritratto di Washington.

Alcune persone hanno anche provato Grok 2 mini per generare un gatto volante.

Qualcun altro ha costruito una Tesla Model Y, sembra simile?

Grok-2 prestazioni PK

Quando xAI ha inserito una prima versione di Grok-2, "sus-column-r", in Chatbot Arena, abbiamo visto le sue prestazioni rispetto ad altri popolari modelli open source e chiusi.

In termini di punteggio Elo complessivo, Grok-2 offre prestazioni migliori rispetto ai modelli della serie Claude e alla maggior parte delle versioni di GPT-4. Naturalmente, il primo della lista è GPT-4o (versione 8 agosto), che OpenAI ha appena rilasciato in questi giorni.

L'immagine sotto mostra il confronto del tasso di vincita tra Grok-2 e altri modelli popolari.

L'immagine qui sotto mostra un confronto basato sui fatti sulla percentuale di vincita tra le due versioni di Grok 1.5 e Grok 2.

xAI adotta questo processo per valutare il modello Grok 2, utilizzando i tutor AI per interagire veramente con il modello in varie attività. Durante ogni interazione, Grok 2 fornisce due risposte ai Tutor dell'IA, che seleziona poi la risposta migliore in base a criteri specifici elencati nella guida.

xAI si concentra sulla valutazione delle prestazioni del modello in due aree chiave: seguire le istruzioni e fornire informazioni accurate e veritiere. I risultati mostrano miglioramenti significativi nella capacità di Grok 2 di ragionare a partire dai contenuti recuperati e di utilizzare strumenti come identificare correttamente le informazioni mancanti, ragionare attraverso sequenze di eventi, scartare post irrilevanti, ecc.

Punteggi di riferimento

xAI ha valutato il modello Grok-2 attraverso una serie di parametri accademici, tra cui ragionamento, comprensione della lettura, matematica, scienze e programmazione.

Sia il Grok-2 che il Grok-2 mini rappresentano miglioramenti significativi rispetto al precedente modello Grok-1.5. Le prestazioni sono paragonabili ad altri modelli all'avanguardia in aree quali la conoscenza scientifica di livello universitario (GPQA), la conoscenza generale (MMLU, MMLU-Pro) e i problemi di competizione matematica (MATH).

Inoltre, Grok-2 si comporta bene anche nei compiti basati sulla visione, con prestazioni notevoli nel ragionamento matematico visivo (MathVista) e nella risposta a domande basate su documenti (DocVQA).

Interfaccia e funzioni di Grok 2 "grande restyling"

Negli ultimi mesi, xAI ha migliorato continuamente l'esperienza di Grok sulla piattaforma x. Ora, con il lancio della prossima generazione Grok 2, xAI ha ridisegnato l'interfaccia, come mostrato di seguito.

Naturalmente, xAI fornisce alcune nuove funzionalità, come una semplice implementazione di "Game of Life" di Conway.

Un altro esempio è la capacità di comprensione multimodale (guardare immagini e parlare).

Tra questi, Grok-2 è l'assistente AI più avanzato di xAI, con capacità di comprensione testuale e visiva e informazioni integrate in tempo reale dalla piattaforma X, a cui è possibile accedere tramite la scheda Grok nell'applicazione X.

Grok-2 mini è un modello piccolo ma potente che raggiunge un buon equilibrio tra velocità e qualità della risposta.

Grok-2 è più intuitivo, più controllabile e più flessibile rispetto al suo predecessore, rendendolo adatto a una varietà di attività, sia che tu stia cercando risposte, scrittura collaborativa o risoluzione di attività di codifica.

Inoltre, xAI sta lavorando con la startup Black Forest Labs per sperimentare il loro modello FLUX.1 per espandere le capacità di Grok su X.

Alla fine di questo mese, xAI rilascerà anche Grok-2 e Grok-2 mini agli sviluppatori attraverso una nuova piattaforma API aziendale. La prossima API si basa su un nuovo stack tecnologico personalizzato, consentendo l'implementazione dell'inferenza multi-regione per l'accesso globale a bassa latenza.

Naturalmente, xAI offre anche alcune funzionalità di sicurezza avanzate, come l'autenticazione a più fattori obbligatoria (ad esempio utilizzando Yubikey, Apple TouchID o TOTP).

Si può vedere che dal lancio di Grok-1 nel novembre 2023, xAI ha fatto avanzare questa serie di modelli a un ritmo allarmante. Presto rilasceranno una versione di anteprima con comprensione multimodale. L’obiettivo dopo xAI sarà quello di migliorare le capacità di ragionamento fondamentali del modello attraverso nuovi cluster di calcolo.

Indirizzo del blog: https://x.ai/blog/grok-2

notizia

Grok-2 è qui, può generare immagini e riconoscere immagini, e le sue prestazioni sono paragonabili a GPT-4o: si sta sviluppando come un razzo

Introduzione

Le mie informazioni di contatto