Le prestazioni di inferenza LLM sono influenzate dal formato di output, JSON è la notizia più seria

Le prestazioni di inferenza LLM sono influenzate dal formato di output, JSON è il più grave

2024-08-16

Diversi formati di output possono effettivamente influenzare le prestazioni di modelli di grandi dimensioni? !

Lascia che i modelli linguistici di grandi dimensioni (LLM) risolvano lo stesso problema matematico sotto due suggerimenti. Il problema è il seguente:

La paga oraria di Eliza per le prime 40 ore di lavoro settimanali è di $ 10 e la retribuzione per gli straordinari è pari a x1,2 l'ora. Se Eliza ha lavorato 45 ore questa settimana, quanto ha guadagnato questa settimana?

Prompt della catena di pensiero: "Fornire output, ragionamento passo passo, nel seguente formato: ...Risposta: La risposta finale è...".

Richiesta di restrizione del formato: "Fornisci l'output nel seguente formato JSON valido: ... (vedi figura per il formato JSON specifico)".

La risposta corretta è460, si può vedere che la catena di pensiero (lascia che il modello pensi passo dopo passo) funziona, ma la restrizione del formato ("output in formato JSON") fallisce! !

Questa è una scena tratta da un nuovo studio della National Taiwan University e dell'Appier AI Research. Hanno scoperto che——.

Le restrizioni sul formato ridurranno la capacità di ragionamento dei LLM e quanto più severe saranno le restrizioni, tanto peggiore sarà il ragionamento. (con un personaggio ribelle)

Ma la buona notizia è che può essere curata.

Hanno trovato,migliore soluzioneSi tratta di una "conversione secondaria" (esatto), ovvero i LLM prima rispondono alle domande in linguaggio naturale e poi convertono le risposte nel formato di destinazione.

Nel processo, hanno confrontato le differenze di prestazioni di diversi modelli come GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash, ecc. durante la generazione di dati in diversi formati.Si è scoperto che：

A GPT piace YAML, a Claude piace XML e a Gemini/Gemma piace JSON. (Principalmente ognuno ha le proprie preferenze)

Dopo aver letto la ricerca, alcuni netizen hanno sottolineato che lo èBilanciare la generazione strutturata e il ragionamento sui compitiSenso:

Le restrizioni sul formato riducono le capacità di ragionamento dei LLM

La ricerca sopra menzionata è stata pubblicata su arXiv. L'articolo rivela principalmente che, in presenza di vincoli di formato, la capacità di ragionamento dei LLM diminuisce in modo significativo.Soprattutto in modalità JSON。

Da sempre,Incorporazione degli LLM nelle applicazioni industrialiUno dei maggiori ostacoli è la loro mancanza di aderenza ai formati di output standardizzati.

Una soluzione comune è la generazione strutturata, in cui i vincoli di formato consentono ai LLM di fornire output in un formato standardizzato come JSON o XML.

Detto questo, sebbene esistano molti modi per ottenere questa restrizione, gli effetti conseguenti non sono stati studiati. (La restrizione influisce sulle prestazioni del modello?)

Fallo e basta, i ricercatori adottano3 metodi comuniPer valutare l'impatto delle diverse restrizioni di formato sulle prestazioni downstream:

Modalità JSON: limita l'output di LLM con uno spazio tag predefinito
VEN: guida i LLM a generare risposte in formato standardizzato conformi a modelli specifici
NL-to-Format: un processo in due fasi che prima risponde alle domande in linguaggio naturale e poi si converte nel formato di destinazione

A proposito, devo aggiungereLinguaggio naturale (NL), che è il formato più illimitato e consente ai modelli di rispondere liberamente alle domande in linguaggio naturale.

Gli oggetti di valutazione sono GSM8K (contenente problemi matematici in un ambiente di linguaggio naturale) e Last Letter Concatenation (l'attività di connessione dell'ultima lettera), due set di dati che richiedono risposte esatte, nonché Shuffled Objects (attività di tracciamento di oggetti mescolati).

Hanno scoperto che segnali più sciolti generalmente portavano a risultati migliori in questi compiti che coinvolgevano il ragionamento.

allo stesso tempo,Lo schema JSON ha prestazioni peggiori nella maggior parte dei casi, seguito dalle istruzioni di restrizione del formato (FRI), quindi dalla conversione dal linguaggio naturale al formato (da NL al formato) e dai prompt del linguaggio naturale (NL).

Lo studio ha inoltre rilevato che diversi LLM rispondono a diversi formati di datimostrare preferenze diverse。

Ad esempio, GPT preferisce il formato YAML, Claude preferisce il formato XML e Gemini/Gemma preferisce il formato JSON.

Tuttavia, nei compiti di classificazione,Le restrizioni sul formato potrebbero aver migliorato la precisione, perché riduce le possibili scelte di risposta, abbassando così il tasso di errore.

Hanno inoltre concluso che le restrizioni sul formato possono ridurre le capacità di inferenza del modello.motivo, tra cui principalmente:

Limita la capacità del modello di generare i passaggi di inferenza intermedi necessari.
I requisiti di formattazione imposti potrebbero essere incompatibili con il modo in cui il modello genera naturalmente le risposte.
Errori di formattazione potrebbero far sì che la risposta venga giudicata errata a causa di problemi di formattazione anche se il ragionamento è corretto.

Buone notizie: si può curare

In risposta a questo problema, hanno proposto diverse contromisure:

Innanzitutto, come accennato in precedenza, la modalità JSON ha le prestazioni peggiori nella maggior parte dei casi e infine la conversione dal linguaggio naturale al formato (NL in formato).

Quindi, al contrario,La soluzione migliore per risolvere le limitazioni del formato è NL to Format, ovvero i LLM rispondono prima alle domande in linguaggio naturale e quindi convertono le risposte nel formato di destinazione. Questo approccio consente prestazioni migliori disaccoppiando il ragionamento dalla conformità del formato.

Inoltre, l'output strutturatoordine chiaveAvere un impatto importante sul modo in cui rispondono i LLM.

Ad esempio, quando si utilizzava GPT-3.5 Turbo, il 100% delle risposte in modalità JSON posizionava erroneamente il tasto "risposta" prima di "ragionamento", il che faceva sì che il modello fornisse direttamente la risposta invece di mostrare il processo di pensiero.

La ricerca mostra anche che le limitazioni del formato portano aErrore di analisiNon è il motivo principale della differenza di prestazioni.

Ad esempio, nel modello LLaMA 3 8B, il tasso di errore di analisi del formato JSON per l'attività Ultima lettera è solo dello 0,15%, ma rispetto alla risposta in linguaggio naturale, il divario prestazionale raggiunge il 38,15%.

e puòMitigare questi errori con suggerimenti correttivi, ad esempio, per il modello Claude-3-Haiku, nell'attività Ultima Lettera, attraverso la fase di correzione, la precisione dei formati JSON e YAML è aumentata rispettivamente del +2,8% e del +44,8%.

Quanto sopra significa anche che quando si applicano gli LLM, è necessario trovare un equilibrio tra un formato facilmente analizzabile e il mantenimento delle capacità di ragionamento intrinseche.

Infine, i ricercatori hanno ricordato nel documento:

Rispetto alle espressioni regolari, gli LLM come parser di risposta possono fornire una comprensione del testo più approfondita e accurata. Non si limitano alla corrispondenza superficiale dei modelli, ma possono veramente comprendere il significato e il contesto della risposta.

notizia

Le prestazioni di inferenza LLM sono influenzate dal formato di output, JSON è il più grave

Introduzione

Le mie informazioni di contatto