Specializzato nella risoluzione di problemi per modelli di grandi dimensioni! Il nuovo benchmark del team di Jia Jiaya consente al modello di rilevare solo gli errori e non di risolvere i problemi

Specializzato nella risoluzione di problemi per modelli di grandi dimensioni!Il nuovo benchmark del team Jiajiaya consente al modello di rilevare solo gli errori e non di risolvere i problemi

2024-07-18

Contributo del team MR-Ben
Qubit |. Account pubblico QbitAI

È stato risolto il problema di ottenere punteggi elevati nei test su modelli di grandi dimensioni ma prestazioni scarse negli scenari reali.

Il team di Jiajiaya ha collaborato con una serie di rinomate università per proporre un nuovo metodo di valutazione, consentendo ad alcuni modelli di emergere immediatamente come prototipi.

Ora non devi preoccuparti che il modello di grandi dimensioni abbia troppe “domande” e che il set di test non sia in grado di riflettere il livello reale.

Questo nuovo set di dati di valutazione si chiama MR-Ben e utilizza domande esistenti in GSM8K, MMLU e altri set di dati.

Tuttavia, l'identità del grande modello nel test è cambiata da "studente che risponde" a "insegnante che valuta", e il compito è quello diEvidenziare gli errori nei passaggi della soluzione esistente。

In questo modo, il modello non può più rispondere alle domande recitandole o indovinandole, e non è necessario preoccuparsi della fuga di domande del test.

Utilizzando MR-Ben, il team di Jiajiaya ha valutato molti modelli open source e closed source come GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, ecc.

Attualmente, tutto il codice e i dati coinvolti in questo set di dati sono open source.

Domande di test familiari, compiti nuovi di zecca

Al momento, la direzione principale del testing di modelli di grandi dimensioni è quella di utilizzare test umani standardizzati, domande a scelta multipla e domande a riempimento di spazi vuoti per condurre la valutazione di modelli di grandi dimensioni.

I vantaggi di questo metodo di test sono standard chiari, indicatori intuitivi e i risultati quantitativi sono naturalmente di attualità.

Tuttavia, l'autore ritiene che, poiché gli attuali modelli di grandi dimensioni generalmente utilizzano un metodo di catena di pensiero passo passo per generare la risposta finale, questo metodo non è "affidabile".

Il modello di pre-formazione ha già visto trilioni di token durante la pre-formazione.È difficile dire se il modello in fase di valutazione abbia già visto i dati corrispondenti, in modo da rispondere correttamente alle domande “memorizzando le domande”.

E poiché il metodo di valutazione si basa principalmente sulla verifica della risposta finale, il modelloNon è inoltre noto se l'opzione corretta venga selezionata in base alla corretta comprensione e ragionamento.。

Sebbene la comunità accademica continui ad aggiornare e trasformare set di dati come GSM8K e MMLU, ad esempio introducendo una versione multilingue del set di dati MGSM su GSM8K e introducendo domande più difficili basate su MMLU, non riesce ancora a liberarsi dello stereotipo di selezionando o riempiendo gli spazi vuoti.

Inoltre, questi set di dati hanno affrontato graviproblema di saturazione, i valori dei grandi modelli linguistici su questi indicatori hanno raggiunto il picco e hanno gradualmente perso la loro distinzione.

A tal fine, il team di Jiajiaya ha collaborato con molte università rinomate come MIT, Tsinghua e Cambridge e ha collaborato con società nazionali di annotazione per annotare un set di dati di valutazione MR-Ben per il processo di ragionamento di problemi complessi.

MR-Ben si basa sulle domande di GSM8K, MMLU, LogiQA, MHPP e altri set di dati di test richiesti prima dell'addestramento di grandi modelli.La trasformazione del paradigma del “grading”, il nuovo set di dati generato è più difficile e differenziato e può riflettere in modo più fedele la capacità di ragionamento del modello!

Non è necessario ritrovare le domande o deformarle per testare la robustezza del modello. MR-Ben cambia direttamente il modello da "risposta" a "marcatore" e valuta il processo di risposta esistente nel set di dati modello essere l'insegnante per testare la sua padronanza dei punti di conoscenza!

Nello specifico, il team di Jiajiaya ha organizzato i principali set di dati di valutazione sul mercato come GSM8K, MMLU, LogiQA, MHPP e altri set di dati e li ha suddivisi in più categorie come matematica, fisica, chimica, biologia, codice, logica, medicina, ecc., e distingueva anche diversi livelli di difficoltà.

Per ciascuna categoria e ciascuna domanda raccolta, il team ha raccolto attentamente il corrispondente processo di risoluzione dei problemi passo dopo passo ed è stato formato e annotato da annotatori di master e dottorato professionisti.

Durante il processo di annotazione, se il processo di risoluzione del problema è corretto, la posizione dell'errore e il motivo dell'errore verranno indicati in dettaglio confrontando i risultati di valutazione del modello di grandi dimensioni e i risultati di valutazione di esperti umani. puoi sapere quanto bene il modello padroneggia i punti di conoscenza.

Dal metodo di valutazione, il metodo proposto da MR-Ben richiede che il modello conduca un'analisi dettagliata delle premesse, dei presupposti e della logica di ogni fase del processo di risoluzione del problema e preveda il processo di ragionamento per determinare se la fase corrente può portare alla risposta corretta.

Questo metodo di valutazione "segnando" è molto più difficile del metodo di valutazione che consiste semplicemente nel rispondere alle domande, ma può efficacemente evitare il problema di punteggi falsamente alti causati dalla memorizzazione delle domande da parte del modello. È difficile per uno studente che sa solo memorizzare le domande diventare un insegnante di correzione qualificato.

GPT4-Turbo offre le migliori prestazioni

Il team di Jiajiaya ha valutato diversi modelli di grandi dimensioni ben noti e alcuni modelli avevano più versioni partecipanti al test.

Si può vedere che tra i modelli closed source, GPT4-Turbo ha le prestazioni migliori (sebbene non siano stati riscontrati errori di calcolo durante la "valutazione"). Nella maggior parte delle materie, ci sono demo (k = 1) e nessuna demo (k = 0). sono avanti rispetto ad altri modelli.

Le prestazioni del modello GLM del team Zhipu sono al secondo posto nella lista, superando l'ultimo 3,5-Sonnet di Claude.

Tuttavia, la differenza tra i diversi modelli è relativamente ampia. Il GPT4-Turbo più potente ha ottenuto un punteggio inferiore a 50 punti nel set di dati MR-Ben. Si può vedere che le sue prestazioni non sono ancora sature.

Inoltre, alcuni modelli open source con ottime prestazioni hanno già raggiunto alcuni modelli commerciali.

Inoltre, il team di MR-Ben ha scoperto anche alcuni fenomeni interessanti durante il proprio lavoro, come ad esempio:

In scenari con risorse limitate, anche i modelli piccoli hanno molti punti salienti Nella valutazione MR-Ben, Phi-3-mini si è distinto tra i modelli piccoli, addirittura superiore o uguale ai modelli grandi con decine di miliardi di parametri, dimostrando la validità. importanza della messa a punto dei dati sul sesso.
La scena MR-Ben contiene un'analisi logica complessa e un'inferenza passo passo. Un contesto troppo lungo nella modalità a pochi scatti confonderà il modello e causerà un calo delle prestazioni.
MR-Ben ha valutato molti esperimenti di ablazione di generazione-riflessione-rigenerazione per verificare le differenze tra le diverse strategie di suggerimento e ha scoperto che non aveva alcun effetto sui modelli di basso livello e che l'effetto sui modelli di alto livello come GPT4-Turbo non era evidente. . Al contrario, per i modelli di livello intermedio, l’effetto è leggermente migliorato perché vengono sempre corretti quelli sbagliati e quelli giusti.
Dopo aver suddiviso approssimativamente gli argomenti valutati da MR-Ben in tipi basati sulla conoscenza, logici, computazionali e algoritmici, diversi modelli presentano vantaggi e svantaggi nei diversi tipi di ragionamento.

Il team Jiajiaya ha caricato su github un metodo di valutazione con un clic. La quantità di token consumati in un test è di circa 12 milioni. Gli sviluppatori possono valutare e inviare i propri modelli e il team MR-Ben aggiornerà tempestivamente la classifica corrispondente. maniera.

Indirizzo cartaceo:
https://arxiv.org/abs/2406.13975
Home page del progetto:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Repository Github:
https://github.com/dvlab-research/Mr-Ben

notizia

Specializzato nella risoluzione di problemi per modelli di grandi dimensioni!Il nuovo benchmark del team Jiajiaya consente al modello di rilevare solo gli errori e non di risolvere i problemi

Domande di test familiari, compiti nuovi di zecca

GPT4-Turbo offre le migliori prestazioni

introduzione

le mie informazioni di contatto