notizia

GPT-4o mini raggiunge il vertice dell'arena dei modelli di grandi dimensioni, Ultraman: messa a punto gratuita entro due mesi

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy proviene dal Tempio Aofei
    Qubit |. Account pubblico QbitAI

Proprio ora, la versione mini di GPT-4o ha inaugurato il suo “momento clou”——

Hai scalato l'arena dei modelli di grandi dimensioni lmsys, a pari merito con la versione in piena salute, lasciandosi alle spalle Claude 3.5.



A differenza della valutazione generale del set di dati, l'arena del modello di grandi dimensioni è il risultato degli utenti che impostano le proprie domande e votano con i piedi. Le scorciatoie non possono essere prese "sfiorando le domande", quindi è più reale.

Non appena è uscito questo risultato, anche il CEO Altman si è emozionato:

Di fronte ai risultati della valutazione inizialmente abbiamo cercato di essere riservati, ma quando abbiamo visto che GPT-4o mini aveva le stesse prestazioni della versione full-health, ma il prezzo era solo 1/20, eravamo comunque molto emozionati.



I netizen hanno detto che andava bene dopo averlo visto, ma erano più preoccupati riguardo a quando la "Her" dimostrata alla conferenza stampa del GPT-4o sarebbe stata online.



Allo stesso tempo, OpenAI ha inviato anche un'altra buona notizia, che porterà vantaggi agli sviluppatori:

GPT-4ominiLa messa a punto verrà gradualmente aperta, attualmente aperto agli utenti di livello 4 e 5, e ne amplierà gradualmente l'ambito.

EDa oggi fino al 23 settembre potrai utilizzare gratuitamente 2 milioni di gettoni allenamento ogni giorno



La versione mini è alla pari con la versione full-health

Dopo milioni di round di competizione 1v1 con più di 80 modelli, il punteggio di GPT-4o mini nell'elenco lmsys è di soli 7 punti indietro rispetto alla versione in piena salute.

Secondo la disposizione della lista lmsys, questo divario di 7 punti non influisce sulla classifica e i due modelli vengono conteggiati a pari merito per il primo posto.

Seguono da vicino le famiglie Claude 3.5 e Gemini, oltre ad altre due versioni di GPT-4.



Se osserviamo i dati grezzi di GPT-4o mini, scopriremo che il suo tasso di vincita medio di 0,6 è secondo solo alla versione in piena salute.



Guardando i risultati della competizione tra i due soli, sono pari.



Il motivo per cui le prestazioni di lmsys hanno attirato l'attenzione è che dispone di una serie unica di metodi di competizione:

Invece di utilizzare un set di dati,Consenti agli utenti di formulare le proprie domande e di estrarre casualmente due modelli in una battaglia 1 contro 1., quindi scegli quale modello ha le prestazioni migliori.

Prima di dare una scelta, la modella è anonima e l'utente non sa quali due modelle sono in competizione. Se la modella lascia trapelare qualcosa, il voto non sarà valido.



I punteggi ottenuti in questo modo sono più realistici, il che non solo evita la possibilità di ottenere punteggi artificialmente alti "correggendo domande", ma è anche più vicino all'esperienza dell'utente.

Questa grande arena modello, di recenteHo partecipato alla conferenza più importante sul machine learning ICML2024



Inoltre, anche la valutazione di lmsysMolto popolare con OpenAI, la prima versione di GPT-4o mini prima del lancio ufficiale era elencata con lo pseudonimo di gpt-mini.

A quel tempo era già al 4° posto, allo stesso livello del GPT4-Turbo.



In precedenza, prima che GPT-4o fosse online, era stato testato anche con lo pseudonimo gpt2-chatbot su lmsys.



Tuttavia, alcune persone hanno messo in dubbio che, sebbene GPT-4o mini funzioni molto bene, è esagerato affermare che supera il sonetto di Claude 3.5.



Alcune persone hanno addirittura affermato senza mezzi termini che l'integrità del metodo lmsys ha iniziato a crollare e deve essere modificata, altrimenti non sarà più un utile punto di riferimento per i test.



Anche il "modello piccolo" è arrotolato

Il lancio della versione mini si concentra sul rapporto costo-efficacia.

Per milione di token input/output i prezzi sono rispettivamente di 15 centesimi e 60 centesimi (circa 1,09/4,36 RMB), che non è nemmeno la metà del 3,5 Turbo.



Se confrontato con la versione text-davinci-003 del GPT-3 di due anni fa (il miglior modello dell'epoca), il prezzo è sceso del 99%.

Oltre ad aprire piccoli modelli agli utenti, OpenAI ha anche escogitato nuovi modi di giocare——

In un lavoro postumo del team "Super Alignment", per ottimizzare il modello grande è stato utilizzato un modello piccolo con un millesimo o un centesimo dei parametri del modello grande.

Nell'esperimento, il modello grande e quello piccolo si "giocano" a vicenda. Il modello grande deve ottimizzare e adattare continuamente il proprio output per far credere al modello piccolo che sta dicendo la verità.

Nel corso di questo "gioco", le capacità del modello grande sono state migliorate e la comprensibilità è stata notevolmente migliorata senza una significativa perdita di precisione.



Oltre a OpenAI, anche altre aziende hanno lanciato piccoli modelli.

Ad esempio, prima di GPT-4o mini, Google e Anthropic lanciavano rispettivamente Gemini Flash e Claude 3-Haiku.

Si può addirittura dire che GPT-4o mini è il contrattacco di OpenAI contro i due modelli, superandoli in termini di prestazioni e prezzo.



Nella stessa settimana in cui è stato rilasciato GPT-4o mini, Hugging Face e "European OpenAI" Mistral hanno lanciato entrambi modelli piccoli.

Anche Apple ha lanciato il proprio modello 7B e ha reso open source tutti i processi e le risorse di formazione contemporaneamente.

Insomma, a patto che le prestazioni siano sufficienti a soddisfare le esigenze di utilizzo, il modello piccolo è senza dubbio una scelta più economica.

Allo stesso tempo, la scala più piccola significa anche che è possibile operare sul lato terminale, mostrando vantaggi nella protezione della privacy e in altri aspetti.

In questo modo non è difficile capire perché i modelli “piccoli” siano sempre più arricciati.

Link di riferimento:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015