notizia

valanga mini classifica gpt-4o, regole dell'arena modello grande aggiornate, suggerimenti per l'aumento dei punti ultraman non validi

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

aggiornate le regole dell'arena modello grande,la classifica di gpt-4o mini è crollata immediatamente ed è uscita dalla top 10

la nuova lista risponde all'iacaratteristiche come la lunghezza e lo stile sono state declassate., assicurando che il punteggio rifletta la reale capacità del modello di risolvere il problema.

cercare di utilizzare formati belli, aumentare il numero di sottotitoli e altre tecniche per accontentare gli utenti e aumentare il posizionamento sono tutti inutili ora.

secondo le nuove regole, ultraman'smini gpt-4o, muskserie grok-2calo significativo del posizionamento, googlegemelli-1.5-flashanche i modelli piccoli sono indietreggiati.

serie claudiolama-3.1-405bi punteggi dei modelli di grandi dimensioni sono aumentati uno dopo l'altro.

quando vengono calcolate solo le attività difficili (hard prompt), il vantaggio dei modelli di grandi dimensioni nell'elenco di controllo dello stile è ancora più evidente.

in precedenza, il modello mini gpt-4o raggiungeva una volta la vetta, raggiungendo il primo posto con la versione completa gpt-4o, il che era ovviamente incoerente con l'esperienza fisica dei netizen.

anche lmsys large model arena, uno standard di valutazione una volta raccomandato da karpathy, è arrivato al punto in cui "può solo riflettere le preferenze dell'utente piuttosto che le capacità del modello".

l'organizzazione lmsys ha tratto insegnamento dall'esperienza e ha inizialmente divulgato i dati di 1.000 battaglie a cui ha partecipato gpt-4o mini, analizzando così il tasso di rifiuto del modello, la lunghezza del contenuto generato e la formattazione come diversi fattori che influenzano i risultati della votazione.

inoltre, prima del rilascio di gpt-4o mini, ultraman ha lasciato intendere che è stato ottimizzato in base alle preferenze umane.

ora lmsys ha fatto un ulteriore passo avanti e ha lanciato un nuovo algoritmo per controllare questi fattori, e questo è solo il primo passo nella pianificazione.

come controllare l'influenza dello stile?

supponiamo che ci siamodello aè bravo a generare codice, fatti, risposte imparziali, ecc., ma il suo output è molto conciso.

modello bnon è molto buono in termini di sostanza (come la correttezza), ma il suo output è lungo, dettagliato e ben formattato.

quindi qual è il migliore?

la risposta non è univoca, lmsys cerca di scoprire matematicamente in che misura il contenuto o lo stile contribuiscono al punteggio di un modello.

inoltre, studi recenti lo hanno dimostratogli esseri umani potrebbero preferire le risposte dell’intelligenza artificiale che sono ben formattate e più dettagliate.

entrobradley-terry ritornaaggiungi caratteristiche di stile come la lunghezza della risposta, il numero di sottotitoli ribassati, gli elenchi e il numero di testo in grassetto come argomenti.

questa è una tecnica comune in statistica ed è stata recentemente utilizzata per la valutazione di modelli di grandi dimensioni da alpacaeval lc e altri.

includere eventuali variabili di confusione (come la lunghezza della risposta) nella regressione consente di attribuire l'aumento dei punteggi alle variabili di confusione piuttosto che alla potenza del modello stesso.

il relativo codice è stato reso pubblico su google colab.

inoltre, il team ha anche condotto esperimenti di ablazione sul “solo controllo della lunghezza” e sul “solo controllo del formato”. i punteggi delle serie gpt-4o mini e google gemini sono maggiormente influenzati dal formato.

esistono tuttavia limitazioni a questo approccio, come la possibilità di fattori di confusione non osservati, come una correlazione positiva tra lunghezza e qualità della risposta, che non vengono presi in considerazione (ad esempio, suggerimenti della catena di pensiero).

molti cittadini della rete hanno affermato che l'elenco modificato delle attività difficili è più coerente con le loro impressioni soggettive.

alcune persone pensano anche che sia il gioco avanti e indietro tra la lista e le grandi aziende modello che competono per la lista che può far progredire insieme l'intero campo.

scegli ancora i modelli in base ai risultati della grande arena dei modelli? oppure se hai metodi di valutazione migliori, condividili nell'area commenti.