Google finalmente vince su OpenAI: la versione sperimentale Gemini 1.5 Pro supera GPT-4o

2024-08-02

Rapporto sul cuore della macchina

Redattore: Chen Chen, Xiaozhou

Con un modello così potente, Google offre a tutti una prova gratuita.

Negli ultimi due giorni, Google ha pubblicato le ultime ricerche. Dopo il rilascio ieri del più potente modello piccolo Gemma 2 2B end-side, è stata appena lanciata la versione sperimentale Gemini 1.5 Pro (0801).

Gli utenti possono testare e fornire feedback tramite Google AI Studio e l'API Gemini.

Dato che è gratuito, ti aiutiamo a testare il problema del rapporto dimensioni recentemente popolare. Quando abbiamo chiesto al Gemini 1.5 Pro (0801) quale numero fosse più grande, 9.9 o 9.11, il modello ha risposto correttamente la prima volta e ha fornito una motivazione.

Quando abbiamo continuato a chiedere "quante r ci sono nella parola Strawberry", il Gemini 1.5 Pro (0801) si è ribaltato. Applicando passo dopo passo un "incantesimo" nei prompt, l'analisi del modello è andata storta nel quarto passaggio.

Indirizzo di prova di Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

Tuttavia, a giudicare dalla valutazione ufficiale, il Gemini 1.5 Pro (0801) è ancora molto capace sotto vari aspetti. Il nuovo modello ha rapidamente raggiunto la vetta della prestigiosa classifica LMSYS Chatbot Arena e vanta un impressionante punteggio ELO di 1300.

Questo risultato pone Gemini 1.5 Pro (0801) davanti a GPT-4o di OpenAI(ELO: 1286) e Claude-3.5 Sonnet di Anthropic (ELO: 1271) e altri forti concorrenti, questo potrebbe annunciare un cambiamento nel panorama dell’intelligenza artificiale.

Simon Tokumine, un membro chiave del team Gemini, definisce Gemini 1.5 Pro (0801) il Gemini (modello) più potente e intelligente che Google abbia mai realizzato.

Oltre a occupare il primo posto nella Chatbot Arena, Gemini 1.5 Pro (0801) si è comportato molto bene anche in aree come attività multilingue, matematica, Hard Prompt e codifica.

Nello specifico, il Gemini 1.5 Pro (0801) si è comportato per primo in cinese, giapponese, tedesco e russo.

Ma nel campo della codifica e dell'Hard Prompt, Claude 3.5 Sonnet, GPT-4o, Llama 405B sono ancora in testa.

Sulla mappa termica della percentuale di vincita: Gemini 1.5 Pro (0801) ha una percentuale di vincita del 54% contro GPT-4o e una percentuale di vincita del 59% contro Claude-3.5-Sonnet.

Anche Gemini 1.5 Pro (0801) è al primo posto nella classifica Vision!

I Netizens hanno affermato che questa volta Google ha davvero superato le aspettative di tutti, improvvisamente ha aperto il test del modello più potente senza alcun annuncio ufficiale in anticipo. Questa volta la pressione era su OpenAI.

Sebbene il Gemini 1.5 Pro (0801) raggiunga risultati elevati, è ancora in fase sperimentale. Ciò significa che il modello potrà subire ulteriori modifiche prima di essere ampiamente utilizzato.

Commenti dei netizen

Alcuni utenti della rete hanno testato le capacità di estrazione dei contenuti di Gemini 1.5 Pro (0801), le capacità di generazione di codice, le capacità di ragionamento, ecc. Diamo un'occhiata ai risultati dei suoi test.

Fonte: https://x.com/omarsar0/status/1819162249593840110

Prima di tutto, Gemini 1.5 Pro (0801) ha una potente funzione di estrazione delle informazioni sulle immagini. Ad esempio, inserisci un'immagine della fattura e scrivi i dettagli della fattura in formato JSON:

Diamo un'occhiata alla funzione di estrazione del contenuto del documento PDF di Gemini 1.5 Pro (0801). Prendendo come esempio il classico documento "L'attenzione è tutto ciò che serve", estrai la directory dei capitoli del documento:

Lascia che Gemini 1.5 Pro (0801) generi un gioco Python che aiuta ad apprendere la conoscenza del modello LLM (Large Language Model), che genera direttamente un intero codice:

Vale la pena ricordare che Gemini 1.5 Pro (0801) fornisce anche spiegazioni dettagliate sul codice, incluso il ruolo delle funzioni nel codice, come giocare al gioco Python, ecc.

Questo programma può essere eseguito direttamente in Google AI Studio e può essere provato, ad esempio facendo domande a scelta multipla sulla definizione di tokenizzazione:

Se ritieni che le domande a scelta multipla siano troppo semplici e noiose, puoi lasciare che Gemini 1.5 Pro (0801) generi un gioco più complesso:

Ottieni un gioco di riempimento degli spazi vuoti con frasi di competenza LLM:

Per testare la capacità di ragionamento di Gemini 1.5 Pro (0801), i netizen hanno posto una domanda "soffiare una candela", ma il modello ha risposto in modo errato:

Nonostante alcuni difetti, Gemini 1.5 Pro (0801) mostra capacità visive vicine a GPT-4o, così come capacità di generazione di codice e comprensione e ragionamento di PDF vicine a Claude 3.5 Sonnet, che vale la pena aspettarsi.

https://www.youtube.com/watch?v=lUA9elNdpoY

notizia

Google finalmente vince su OpenAI: la versione sperimentale Gemini 1.5 Pro supera GPT-4o

introduzione

le mie informazioni di contatto