Si fa dura, GPT-4o è stato sconfitto dal nuovo modello di Google, l'account ufficiale ChatGPT: tutti un bel respiro

È feroce, GPT-4o è stato sconfitto dal nuovo modello di Google, l’account ufficiale ChatGPT: tutti facciano un bel respiro

2024-08-02

Andiamo, GPT-4o è stato superato dal nuovo modello di Google!

In una settimana, più di 12.000 persone hanno votato in modo anonimo.Gemini 1.5 Pro（0801） Rappresentando Google ha vinto per la prima volta il primo posto nell'arena lmsys. (Anche il compito cinese è al primo posto)

E questa volta è doppia corona oltre alla classifica generale (l'unico punteggio è 1300), inClassifica visivaÈ anche il numero uno.

Simon Tokumine, figura chiave del team Gemini, ha postato un messaggio per festeggiare:

(Questo nuovo modello) è il Gemini più potente e intelligente che abbiamo mai realizzato.

Un utente di Reddit ha anche definito il modello "molto buono" e ha espresso la speranza che la sua funzionalità non venga ridotta.

Altri netizen hanno espresso entusiasmo per il fatto che OpenAI sia stato finalmente sfidato e rilascerà una nuova versione per reagire!

Anche l'account ChatGPT ufficiale è venuto fuori per implicare qualcosa.

In mezzo all'entusiasmo, il responsabile del prodotto presso Google AI Studio ha annunciato che il modello è entrato nel mercatoFase di test gratuita：

Disponibile gratuitamente in AI Studio

Netizen: Google è finalmente arrivato!

A rigor di termini, Gemini 1.5 Pro (0801) non è in realtà un nuovo modello.

Dovrebbeversione sperimentaleBasandosi sul Gemini 1.5 Pro rilasciato da Google a febbraio, la serie 1.5 ha successivamente ampliato la finestra di contesto a 2 milioni.

Man mano che il modello viene aggiornato, il nome diventa sempre più lungo, il che provoca anche lamentele da parte delle persone.

No, un dipendente di OpenAI si è congratulato con lui senza dimenticare di essere strano:

Naturalmente, anche se il nome è difficile da ricordare, questa volta Gemini 1.5 Pro (0801) si è comportato bene nella valutazione ufficiale.

La mappa termica del tasso di vincita complessivo mostra che è migliore del 54% rispetto a GPT-4o e del 59% rispetto a Claude 3.5 Sonnet.

esisterecapacità multilingueNei test benchmark, si colloca al primo posto in cinese, giapponese, tedesco e russo.

Tuttavia, in Coding e Hard Prompt Arena, non riesce ancora a battere avversari come Claude 3.5 Sonnet, GPT-4o e Llama 405B.

Ciò è stato criticato anche dai netizen, che si è tradotto in:

La codifica è ciò che conta, ma lì non funziona bene.

Tuttavia, alcune persone hanno lanciato Amway Gemini 1.5 Pro (0801)Funzionalità di estrazione di immagini e PDF。

Elvis, co-fondatore di DAIR.AI, condusse personalmente una serie completa di test sull'oleodotto e concluse:

Le capacità visive sono molto vicine a GPT-4o。

Inoltre, qualcuno ha utilizzato Gemini 1.5 Pro (0801) per risolvere il problema a cui Claude 3.5 Sonet non aveva risposto bene prima.

I risultati hanno mostrato che non solo ha funzionato meglio, ma ha anche sconfitto il suo piccolo amico Gemini 1.5 Flash.

Ma alcuniTest classico di conoscenza generaleAncora non riesce a capirlo, come "Scrivi dieci frasi che finiscono con le mele".

Un'altra cosa

Nel frattempo, la serie Gemma 2 di Google accoglie una novitàModello da 2 miliardi di parametri。

Gemma 2 (2B)Pronto fuori dalla scatola, può essere eseguito sulla GPU T4 gratuita di Google Colab.

Nella classifica dell'arena, essoSupera tutti i modelli GPT-3.5, superando addirittura Mixtral-8x7b.

Di fronte all’ultima serie di nuove classifiche di Google, ArenaAutorevolezza della listaInterrogato di nuovo da tutti.

Il co-fondatore di Nous Research, Teknium (un noto attore nel campo del post-allenamento perfezionato) ha rilasciato un promemoria:

Sebbene Gemma 2 (2B) abbia un punteggio superiore a GPT-3.5 Turbo su Arena, è molto inferiore a quest'ultimo su MMLU.
Questa discrepanza sarebbe preoccupante se si utilizzasse la classificazione dell’arena come unico indicatore delle prestazioni del modello.

Bindu Reddy, CEO di Abacus.AI, ha addirittura fatto appello direttamente:

Per favore, smetti immediatamente di usare questa classifica classificata per esseri umani!
Claude 3.5 Sonnet è molto meglio di GPT-4o-mini.
Punteggi simili di Gemelli/Gemma non dovrebbero essere così in alto in questa classifica.

Quindi, pensi che questo metodo di voto anonimo da parte degli umani sia ancora affidabile?

notizia

È feroce, GPT-4o è stato sconfitto dal nuovo modello di Google, l’account ufficiale ChatGPT: tutti facciano un bel respiro

introduzione

le mie informazioni di contatto