notizia

ACL 2024 |. Nella valutazione matematica di 25 modelli open e closed source, GPT-3.5-Turbo ha superato a malapena

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Gli autori di questo articolo provengono dall'Università di Hong Kong e Tencent. Elenco degli autori: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Tra questi, il primo autore Li Qintong è uno studente di dottorato presso il Laboratorio di elaborazione del linguaggio naturale dell'Università di Hong Kong. I suoi interessi di ricerca riguardano la generazione del linguaggio naturale e il ragionamento testuale. Lui e lo studente di dottorato Zhao Xueliang sono sotto la tutela del professor Kong Lingpeng . Leyang Cui e Wei Bi sono ricercatori senior della Tencent.

Prefazione

La straordinaria capacità dei modelli linguistici di grandi dimensioni (LLM) nella risoluzione dei problemi è sempre più evidente. Recentemente, un fenomeno degno di attenzione è che questi modelli hanno ottenuto risultati sorprendenti in molteplici test benchmark di ragionamento matematico. Prendendo come esempio GPT-4, si comporta bene nel difficile set di test di domande delle applicazioni della scuola primaria GSM8K [1], con un tasso di precisione superiore al 90%. Allo stesso tempo, anche molti modelli open source hanno mostrato prestazioni impressionanti, con tassi di precisione superiori all’80%.

Tuttavia, durante l'uso, spesso troviamo che quando i problemi matematici vengono leggermente modificati, gli LLM possono causare alcuni errori di basso livello, come mostrato nella figura seguente:



Figura 1: GPT-3.5-Turbo ha risposto correttamente a un problema matematico (a sinistra), ma quando è stato aggiunto un vincolo al problema originale (a destra), Turbo non ha distinto correttamente tra le direzioni di "uscita" e di "ritorno". Errore.

Non possiamo fare a meno di chiederci: i modelli linguistici su larga scala colgono davvero l’essenza della conoscenza matematica? Come fanno ad ottenere punteggi così alti in questi test? Si tratta semplicemente di imitare schemi di ragionamento superficiali in grandi quantità di dati di addestramento? Se gli LLM comprendano veramente i concetti matematici è ancora una questione che vale la pena esplorare.

Per esplorare questo problema, gli autori di questo articolo hanno progettato un benchmark di valutazioneGSM Plus . Questo test è progettato per eseguire 8 diverse trasformazioni matematiche a grana fine su un problema per valutare sistematicamente la capacità degli attuali LLM nell'affrontare problemi di applicazione della matematica di base. In questo nuovo benchmark, il documento valuta rigorosamente 25 diversi LLM, inclusi modelli open source e closed source nel settore.

I risultati sperimentali mostrano che GSM-Plus è un punto di riferimento impegnativo per la maggior parte degli LLM. Anche su GSM8K, GPT-3.5-Turbo è riuscito a raggiungere una precisione del 73,62%, ma su GSM-Plus può raggiungere solo una precisione del 61,19%. Questo lavoro è stato accettato da ACL2024 con punteggi di 4, 4 e 4,5.



Titolo della discussione: GSM-Plus: un benchmark completo per valutare la robustezza degli LLM come risolutori di problemi matematici

Indirizzo del documento: https://arxiv.org/pdf/2402.19255

Home page del documento: https://qtli.github.io/GSM-Plus/

sfondo

Il ragionamento matematico è una prova importante dello sviluppo dell'intelligenza artificiale. Richiede una rigorosa comprensione dei problemi, sviluppo di strategie e capacità di esecuzione computazionale. Negli ultimi anni sono stati utilizzati numerosi set di dati pubblicamente disponibili per valutare le capacità di ragionamento matematico dei sistemi di intelligenza artificiale. I primi set di dati matematici si concentravano su problemi matematici basati su equazioni. Successivamente, sono stati introdotti set di dati più difficili che coprivano problemi di matematica a livello di scuola elementare, superiore e universitaria.

Poiché la difficoltà dei dati valutativi continua ad aumentare, anche lo sviluppo degli LLM è diventato molto rapido. Al fine di migliorare le prestazioni dei LLM nel campo della matematica, è possibile utilizzare la messa a punto supervisionata (SFT) per aiutare rapidamente i LLM ad adattarsi al campo della matematica formandosi su diversi dati di attività. Nella fase di ragionamento, le abilità matematiche degli LLM possono anche essere stimolate efficacemente attraverso suggerimenti di input progettati in modo intelligente (ad esempio, Catena di pensiero e Programma di pensiero).

Per la maggior parte degli LLM, c'è ancora molto margine di miglioramento per quanto riguarda i problemi di matematica alle scuole superiori e superiori. Tuttavia, nella matematica della scuola primaria, gli LLM hanno mostrato un grande potenziale.Questo ci fa chiedere: gli LLM possono ancora mantenere prestazioni elevate in ambienti reali?

Set di dati di valutazione contraddittoria GSM-Plus

Questo studio mira a lanciare un test benchmark completo GSM-Plus per esaminare sistematicamente la robustezza degli LLM nella risoluzione di problemi matematici di base. Ispirato dalla tassonomia delle capacità matematiche di risoluzione dei problemi nei principi Polya [2], questo articolo identifica cinque principi guida per la costruzione del set di dati GSM-Plus:

Per facilitare la comprensione, ecco "L'anatra di Janet depone 16 uova ogni giorno. Mangia tre uova a colazione ogni mattina e usa quattro uova per cuocere i muffin per i suoi amici. Paga ogni giorno $ 2 per ogni uovo di anatra. Vendi le uova avanzate al mercato del contadino. Quanti dollari guadagna al giorno al mercato del contadino?

(1) Variazioni numeriche: Si riferisce alla modifica dei dati numerici o del loro tipo. Questo articolo definisce tre sottocategorie:

Sostituzione del valore: sostituisci i valori con le stesse cifre e tipi, ad esempio sostituisci "16" nella domanda con "20".

Espansione cifre: aumento del numero di cifre in un valore, ad esempio sostituendo "16" con "1600".

Conversione di numeri interi - decimali - frazioni: sostituisci i numeri interi con decimali o frazioni, ad esempio converti "2" in "2,5".

(2) Cambiamenti aritmetici: Si riferisce all'introduzione di operazioni aggiuntive o inversioni a problemi matematici, ma è limitato alle operazioni di addizione, sottrazione, moltiplicazione e divisione:

Espansione computazionale: aggiungi vincoli in base al problema originale. Ad esempio, aggiungi una nuova condizione "Usa anche due uova per preparare ogni giorno maschere per capelli fatte in casa".

Inversione dell'operazione: convertire una condizione nota del problema originale nelle variabili da risolvere per il problema della variante GSM-Plus. Ad esempio, la frase della domanda originale nella Figura 2 "2 dollari USA per uovo di anatra" viene convertita nella frase interrogativa della nuova domanda "Qual è il prezzo di ogni uovo di anatra?", mentre la frase interrogativa della domanda originale "Quanti dollari guadagni ogni giorno al mercato agricolo?" viene convertito in Condizioni note per la nuova domanda "Guadagna 18 dollari al giorno al mercato agricolo"

(3) Comprensione del problema: Si riferisce alla riformulazione di un problema matematico con parole diverse senza cambiarne il significato, ad esempio "Janet alleva un gruppo di anatre, che depongono 16 uova di anatra ogni giorno. Lei consuma tre uova di anatra a colazione, e poi consuma quattro uova di anatra per cuocere i waffle ." Alla sua amica. Janet vende tutte le uova di anatra rimanenti al mercato del contadino per $ 2 ciascuna. Quanti soldi guadagna ogni giorno vendendo uova di anatra al mercato del contadino?

(4) Inserimento di elementi di interferenza: Si riferisce all'inserimento di frasi correlate all'argomento e contenenti valori numerici ma che sono inutili per risolvere il problema nel problema originale, ad esempio "Janet voleva anche dare da mangiare al suo pappagallo domestico con due uova di anatra. Fortunatamente, la sua vicina le ha dato le sue due uova di anatra ogni giorno per nutrire il pappagallo".

(5) Pensiero critico: Si concentra sulla capacità dei LLM di mettere in discussione o dubitare quando ai problemi matematici mancano le condizioni necessarie, come ad esempio "L'anatra di Janet depone le uova ogni giorno. Mangia tre uova a colazione ogni mattina e usa quattro uova per preparare muffin per il suo amico di tutti i giorni . Vende le uova rimanenti al mercato del contadino per $ 2 al giorno. Quanti dollari guadagna ogni giorno al mercato del contadino?

Sulla base delle 1.319 domande del test di GSM8K, questo documento crea otto varianti per ciascuna domanda, risultando in un set di dati GSM-Plus contenente 10.552 varianti di domande (questo documento fornisce anche un sottoinsieme di test contenente 2.400 varianti di domande impostate per una rapida revisione). . Testando i LLM utilizzando ciascun problema e le sue otto varianti, GSM-Plus può aiutare i ricercatori a valutare in modo completo la robustezza dei LLM nella risoluzione dei problemi matematici.



Figura 2: 8 varianti del problema di generazione delle perturbazioni utilizzando 5 angoli basati su un problema di matematica iniziale. Le principali modifiche sono evidenziate in verde.

Utilizzando GSM-Plus per valutare 25 LLM di diverse dimensioni, diversi metodi di pre-formazione e diverse ottimizzazioni delle attività e combinando 4 tecniche di prompt comunemente utilizzate, questo documento ha rilevato che gli LLM possono risolvere accuratamente il problema GSM8K nel suo complesso, ma nel rispondere alle domande in GSM-Plus Evidenti difficoltà sorgono con problemi diversi. I risultati principali sono i seguenti:

L'ottimizzazione specifica dell'attività, ovvero la messa a punto di set di dati matematicamente rilevanti, può spesso migliorare l'accuratezza dell'attività a valle, mentre il livello di robustezza dipende maggiormente dalla scelta del modello di base e dalla messa a punto del set di dati.

Quando è richiesto il "pensiero critico", sono coinvolti "cambiamenti aritmetici" e "inserimento di fattori di interferenza", le prestazioni degli LLM diminuiranno rapidamente ma per le perturbazioni dei "cambiamenti numerici" e della "comprensione dei problemi", le prestazioni degli LLM sono relativamente; stabile.

Le precedenti tecniche di suggerimento (ad esempio, CoT, PoT, LtM e CoT basate sulla complessità) non hanno migliorato significativamente la robustezza, in particolare per i "cambiamenti aritmetici" e il "pensiero critico". Sulla base del lavoro precedente, questo documento esplora ulteriormente un metodo rapido combinato che può migliorare contemporaneamente le prestazioni degli LLM su GSM8K e GSM-Plus generando e verificando in modo iterativo ogni pensiero argomentativo.

Funzionalità GSM Plus

garanzia di qualità : utilizzare due fasi per generare domande di valutazione GSM-Plus. Innanzitutto, le funzionalità di riscrittura delle domande di GPT-4 vengono utilizzate per generare varianti di domande, quindi vengono generate le risposte dei candidati per queste varianti. Per garantire la qualità dei dati, tutte le varianti di domande e le risposte generate da GPT-4 vengono rigorosamente controllate dal team di annotazione manuale. Il team di annotazione manuale ha risolto il 18,85% dei problemi di riscrittura di GPT-4.

Valutazione a grana fine: Per ciascuna domanda del test nel set di dati di valutazione mainstream GSM8K, GSM-Plus fornisce 8 domande varianti nella direzione della perturbazione, testando completamente la capacità del modello di grandi dimensioni di risolvere in modo flessibile problemi di applicazione matematica in diversi contesti.

sfida : Rispetto al GSM8K la variante problematica del GSM-Plus è più impegnativa e le prestazioni di tutti gli LLM partecipanti alla valutazione sono significativamente peggiorate. Nella seguente analisi, questo articolo analizzerà specificamente la robustezza nella risoluzione dei problemi degli LLM in diversi tipi di disturbi.

Confronto con altri dati sui problemi di parole di matematica della scuola primaria



Tabella 1: Colori diversi rappresentano diversi tipi di disturbo:



Come si può vedere dalla tabella sopra, studi precedenti hanno utilizzato diverse perturbazioni per testare la robustezza del ragionamento matematico, ma le impostazioni di valutazione coprono solo alcuni tipi di perturbazioni e la maggior parte di essi introducono perturbazioni attraverso la costruzione di metodi automatici, quindi la qualità è difficile da valutare. garanzia. Al contrario, GSM-Plus utilizza otto diverse capacità di ragionamento matematico per risolvere un singolo problema, con una copertura più completa e un rigoroso controllo di qualità.

analisi dell'esperimento

Indicatori di valutazione

Tasso di degrado delle prestazioni (PDR): Il grado di degrado delle prestazioni degli LLM sul problema perturbato rispetto al problema originale.

Percentuale di coppie di problemi risolte simultaneamente (ASP): la percentuale di risposte corrette sia alla domanda originale che alla variante di domanda corrispondente da parte dei LLM.

prestazioni complessive

Come mostrato nella tabella seguente, le prestazioni della maggior parte degli LLM su GSM-Plus sono significativamente ridotte rispetto a GSM8K.

GPT-4 mostra la massima robustezza, con il PDR più piccolo di solo l'8,23%. CodeLlama ha il PDR più grande, tra cui i modelli 7B, 13B e 34B sono rispettivamente 40,56%, 39,71% e 34,27%, superando il modello base LLaMA-2-7B (39,49%), così come il modello matematico SFT ottimizzato su di esso, come SEGO-7B (34,91%). Ciò dimostra che il ragionamento che utilizza solo linguaggi procedurali è vulnerabile alle perturbazioni.

Di fronte alle perturbazioni matematiche, maggiore è la dimensione del modello, più stabile è la prestazione. Sebbene la messa a punto supervisionata possa migliorare la precisione delle attività a valle, non migliora in modo significativo la robustezza del modello alle perturbazioni (ovvero, PDR inferiore). I dati che supervisionano la messa a punto sono importanti per la robustezza. È inoltre ottimizzato in base a LLaMA-2 e l'utilizzo di dati diversi porterà a grandi differenze nell'accuratezza e nella robustezza del modello.



Tabella 2: prestazioni complessive

Analisi sperimentale a grana fine

Prestazioni di LLM in diversi disturbi

Questo documento valuta ulteriormente la stabilità delle prestazioni dei LLM in 8 varianti del problema. Rispetto alla linea di base umana per il pensiero critico (viola), l'espansione dell'operazione e l'inversione dell'operazione (blu), l'inserimento del distrattore (rosa) e la perturbazione della conversione di frazione decimale intera (arancione), le prestazioni degli LLM diminuiscono in modo significativo. Per quanto riguarda la "sostituzione numerica" ​​e la "comprensione dei problemi", la performance dei LLM è stabile o addirittura leggermente migliorata.



Figura 3: analisi sperimentale a grana fine

Trasferibilità delle capacità di ragionamento matematico

L’analisi precedente si basa principalmente sull’intero set di dati. Successivamente, questo articolo suddivide i due set di dati a seconda che alle domande di matematica venga data risposta correttamente e analizza se quando gli LLM risolvono con successo il problema GSM8K, significa che la probabilità di rispondere correttamente alla domanda sulla variante GSM-Plus diventa più elevata (ovvero, una valore ASP elevato). Se questa affermazione è vera, si può considerare che gli LLM abbiano prestazioni stabili su questo specifico sottoinsieme di problemi matematici, anche se questo non è il caso sull'intero set di dati. Nel contesto sperimentale, ciascun problema GSM8K e la sua variante in GSM-Plus vengono trasformati in 8 coppie di problemi e i risultati sono mostrati nella Figura 4.



Figura 4: trasferibilità dell'inferenza degli LLM tra coppie problematiche GSM8K e GSM-Plus. Le barre viola (entrambe corrette) e blu (entrambe errate) indicano un comportamento coerente del modello, mentre le barre rosse (GSM8K corretto e GSM-Plus errato) e gialle (GSM8K errato e GSM-Plus corretto) indicano un comportamento incoerente del modello. La somma delle altezze delle barre viola e rosse rappresenta il numero di LLM che risolvono correttamente il problema GSM8K.

La presenza di barre rosse (LLM che rispondono correttamente alla domanda originale, ma non risolvono la domanda variante), indica che la maggior parte dei modelli ha una trasferibilità delle prestazioni limitata. Sebbene le prestazioni degli LLM differiscano nel problema GSM8K (altezza delle barre viola e rosse), la trasferibilità delle prestazioni è simile (altezza della barra rossa). Ciò significa che i parametri di riferimento esistenti non possono valutare con precisione le reali capacità di un modello nel ragionamento matematico. L’elevata precisione non equivale a una forte robustezza dell’inferenza.

Suggerimenti per aiutare con la robustezza delle prestazioni dei LLM

Il lavoro precedente ha dimostrato che istruzioni tempestive e corrette sono importanti per stimolare le capacità matematiche dei modelli linguistici. Questo articolo seleziona 4 modelli rappresentativi e testa le loro prestazioni nella risoluzione dei problemi con diverse istruzioni tempestive. Come mostrato nella figura seguente, di fronte alle interferenze, i LLM funzionano in modo più stabile quando si utilizzano esempi complessi come dimostrazioni contestuali (CoT basato sulla complessità), al contrario, utilizzando solo il linguaggio del programma per rappresentare il ragionamento intermedio (Programma di pensiero); sono più suscettibili alle interferenze. Nel complesso, questi suggerimenti e trucchi non sono sufficienti affinché gli LLM mantengano le stesse prestazioni di GSM8K su GSM-Plus.



Figura 5: impatto dei suggerimenti sulla robustezza delle prestazioni degli LLM

Le combinazioni di istruzioni funzionano?

Come migliorare la robustezza dei LLM basati sui metodi di richiesta esistenti? Questo articolo rileva che i LLM spesso ignorano condizioni importanti o commettono errori di calcolo durante il processo di risoluzione dei problemi. A tal fine, questo articolo esplora Comp, un metodo di prompt combinato. Questo metodo richiede innanzitutto agli LLM di estrarre le condizioni necessarie relative ai valori numerici nel problema (Prompt1). Quindi, in base al problema e alle condizioni chiave, agli LLM viene chiesto di generare in modo iterativo obiettivi di inferenza (Prompt2) e obiettivi di calcolo (Prompt3) e di consentire loro di fornire feedback per i passaggi storici di risoluzione dei problemi generati per determinare se è stata ottenuta la risposta finale ( Prompt4). L'implementazione specifica è mostrata nella Figura 6.



Figura 6: diagramma schematico del metodo di richiesta dell'iterazione della computazione

Si può vedere che Comp può migliorare le prestazioni dei LLM in vari tipi di variazione del problema attraverso la generazione iterativa e l'autoverifica, ma non è ancora in grado di colmare il divario prestazionale dei LLM tra set di test standard e set di test contraddittori. Questa ricerca attende con interesse ulteriori metodi in futuro per migliorare ulteriormente la robustezza del modello e promuovere l'ulteriore sviluppo dei LLM nel campo del ragionamento matematico.



Tabella 3: prestazioni dei suggerimenti di calcolo

Genera esempio

La figura seguente mostra le prestazioni di GPT-3.5-Turbo con diverse tecnologie di prompt sul problema GSM8K e sul problema di riscrittura GSM-Plus basato sull'"inversione dell'operazione". Mentre tutte le richieste motivano Turbo a rispondere accuratamente alle domande GSM8K, solo Comp aiuta Turbo a generare risposte corrette alle domande sulla variante GSM-Plus.



Figura 7: esempi di modelli che rispondono a domande di matematica con diverse impostazioni di prompt

Conclusione

Questo articolo introduce GSM-Plus, un set di valutazione dei problemi di applicazione della matematica nella scuola primaria, con l'obiettivo di analizzare sistematicamente la robustezza degli LLM nella risoluzione dei problemi di applicazione della matematica. L'analisi sperimentale ha rilevato che, di fronte a perturbazioni, le prestazioni della maggior parte degli LLM sono diminuite in modo significativo rispetto alle loro prestazioni su parametri di riferimento standard, risultando ben al di sotto dei livelli di prestazione umana. Il ricercatore spera che il lavoro di questo articolo possa promuovere ulteriori ricerche future, incluse ma non limitate a: (1) valutazione sistematica delle competenze matematiche dei LLM; (2) costruzione di modelli in grado di eseguire in modo flessibile il ragionamento matematico.

[1] Cobbe, Karl, et al. "Addestramento di verificatori per risolvere problemi matematici". Preprint arXiv arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Come risolverlo: un nuovo aspetto del metodo matematico, volume 85. Princeton University Press.