OpenAI Weng Li ha proposto un grande modello di "allucinazione esterna": una spiegazione dettagliata di diecimila parole delle ragioni per cui i metodi di resistenza producono allucinazioni...

2024-07-15

Il vento dell'ovest proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

L'illusione dei modelli di grandi dimensioni si divide anche in interni ed esterni——

L’ultimo blog dello scienziato cinese OpenAI Weng Li proponeAllucinazione esterna LLM(allucinazione estrinseca).

Diversamente dal contenuto generato dal modello referenziale che è incoerente con la realtà, fittizio, incoerente o privo di significato, Weng Li ha definito il problema dell'"illusione" LLM comeIl contenuto dell'output del modello è fittizio e non si basa sul contesto o sulla conoscenza del mondo fornita。

Da questo, ci sono due tipi di allucinazioni:

Allucinazioni nel contesto: un modelloL'output dovrebbe essere coerente con il contenuto originale nel contesto(Quando si verifica un'allucinazione nel contesto, l'output non è coerente con il contenuto originale).
Illusione estrinseca: l'output del modello dovrebbe essere basato su un set di dati pre-addestrato. Tuttavia, data la dimensione del set di dati di pre-addestramento, il recupero e l’identificazione di ogni conflitto generato ha costi proibitivi.Se pensiamo al set di dati pre-allenamento comeconoscenza del mondo , quindi tenta essenzialmente di garantire che l'output del modello sia reale e possa essere verificato mediante la conoscenza del mondo esterno. Altrettanto importante è,Quando il modello non conosce un fatto, dovrebbe dichiarare esplicitamente che non lo sa

In precedenza, Weng Li aveva anche proposto la formula dell'Agente: Agente = modello di grandi dimensioni + memoria + pianificazione attiva + utilizzo dello strumento, che è stata definita "il miglior articolo sull'Agente che abbia mai visto" da alcuni netizen.

Anche questo blog sull'illusione dei modelli di grandi dimensioni è un "lavoro pesante". L'articolo è molto lungo, con un totale di 24 riferimenti:

Weng Li si è concentrato sulle allucinazioni esterne e ha discusso tre domande: qual è la causa delle allucinazioni? Rilevazione delle allucinazioni, metodi per resistere alle allucinazioni.

Qubits ha compilato e organizzato il testo originale senza modificarne il significato originale.

Qubits è stato tradotto e ristampato con il permesso dell'autore originale.

Il testo originale è qui:

https://lilianweng.github.io/posts/2024-07-07-allucinazione/

Cosa causa le allucinazioni?

Considerando che un LLM implementabile standard deve essere pre-addestrato e messo a punto per l'allineamento e il miglioramento, l'analisi delle cause inizia da queste due fasi.

Problema con i dati pre-allenamento

Il set di dati pre-formazione è progettato per rappresentare tutta la conoscenza mondiale disponibile in forma scritta ed è quindi enorme.

L'eliminazione dei dati dall'Internet pubblica è l'opzione più comune, ma ciò può comportare la presenza di informazioni obsolete, mancanti o errate. Poiché il modello potrebbe ricordare erroneamente queste informazioni semplicemente massimizzando la probabilità di log, il modello potrebbe commettere errori.

Affinare nuove conoscenze

L'ottimizzazione dell'LLM pre-addestrato tramite la messa a punto supervisionata (SFT) e l'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica comune per migliorare alcune funzionalità del modello (come il monitoraggio delle istruzioni). La fase di perfezionamento introduce inevitabilmente nuove conoscenze.

Sebbene la messa a punto di solito consumi meno risorse di elaborazione,È discutibile se sia possibile acquisire nuove conoscenze in modo affidabile mettendo a punto un modello su piccola scala.。

In uno studio di quest'anno, Gekhman et al hanno discusso la questione se la messa a punto del LLM con nuove conoscenze favorirà il verificarsi di allucinazioni.

Hanno scoperto che il LLM apprende più lentamente da esempi perfezionati con nuove conoscenze che da esempi coerenti con la conoscenza preesistente del modello; una volta appresi questi esempi con nuove conoscenze, la tendenza del modello ad avere allucinazioni aumenta.

Nello specifico, dato un set di dati di domande e risposte chiuso (ovvero EntityQuestions) = (,), Correct(,;,) è definito come una stima della probabilità che il modello M generi accuratamente la risposta corretta, quando si utilizzano esempi casuali e determinate decodifiche Quando richiesto con la temperatura, la risposta corretta alla domanda è.

Hanno diviso gli esempi in 4 categorie in base alle diverse condizioni di Correct(,;,): Gruppo noto (inclusi tre sottogruppi: Altamente conosciuto, Forse conosciuto, Debole conosciuto) e Gruppo sconosciuto.

Alcune osservazioni interessanti dagli esperimenti, in cui la precisione sul set di sviluppo è considerata un indicatore simbolico dell'illusione:

La velocità di adattamento sconosciuta è significativamente più lenta di quella nota;
Le migliori prestazioni si ottengono quando LLM si adatta alla maggior parte degli esempi di formazione conosciuti ma solo a pochi esempi sconosciuti;
Quando viene appresa la maggior parte degli esempi sconosciuti, il modello inizia ad avere allucinazioni

Questi risultati di Gekhman et al sottolineano i rischi derivanti dall’utilizzo del perfezionamento supervisionato per aggiornare la conoscenza LLM.

Rilevazione di allucinazioni

Cerca una valutazione avanzata

Per quantificare il fenomeno delle allucinazioni del modello, Lee et al hanno introdotto un nuovo set di dati di riferimento nel 2022FattualitàPrompt, questo set di dati contiene suggerimenti fattuali e non fattuali, utilizzando documenti o frasi di Wikipedia come base di conoscenza fattuale di base.

I documenti di Wikipedia sono informazioni vere e conosciute dal set di dati FEVER, mentre le frasi vengono selezionate tramite tf-idf o somiglianza in base agli incorporamenti delle frasi.

Sono stati presi in considerazione due parametri per la valutazione delle allucinazioni, data la continuazione del modello e un testo Wikipedia accoppiato:entità nominate allucinazione(NE)Tasso di errore、Rapporto di implicazione(Percentuali di impegno).

Tassi di errore NE più elevati e rapporti di implicazione più bassi indicano una maggiore fattualità. È stato riscontrato che entrambi i parametri sono correlati alle annotazioni umane, con modelli più grandi che ottengono risultati migliori su questo benchmark.

Inoltre, Min et al. 2023 hanno propostoPunteggio di fatto , scomporre la generazione di articoli lunghi in più fatti atomici e verificare ogni fatto individualmente rispetto a basi di conoscenza come Wikipedia. È quindi possibile misurare il rapporto (accuratezza) delle frasi supportate dalle fonti di conoscenza generate da ciascun modello, dove FActScore rappresenta l'accuratezza media generata dal modello su una serie di segnali.

Questo articolo ha testato una varietà di metodi di verifica fattuale sul compito di generazione biografica e lo ha scopertoL'utilizzo del recupero fornisce una migliore coerenza rispetto al LLM privo di contesto . Nei metodi di miglioramento del recupero, la scelta del miglior stimatore dipende dal modello.

LLM senza contesto: utilizza direttamente "Vero o falso?" per richiedere LLM senza contesto aggiuntivo
Recupero → LLM: prompt con passaggi rilevanti recuperati da fonti di conoscenza come contesto
Probabilità non parametrica (NP): calcola la probabilità media dei tag nei fatti atomici tramite LM mascherato e utilizzala per fare previsioni
Cerca→LLM+NP: Integrazione di due metodi

Alcune osservazioni interessanti sul comportamento allucinatorio del modello:

Le entità rare hanno tassi di errore più elevati nelle attività di generazione della biografia
Anche i fatti menzionati più avanti nel contenuto generato hanno tassi di errore più elevati
L'utilizzo del recupero per fornire una base per la generazione del modello può aiutare in modo significativo a ridurre i fenomeni di allucinazioni

Wei et al. nel 2024 hanno anche proposto un metodo per valutare la fattualità a lungo termine del LLM, denominatoSICURO(Valutatore di fattualità con ricerca aumentata)

Rispetto a FActScore, la differenza principale è che SAFE utilizza un modello linguistico come agente.Emetti in modo iterativo le query di ricerca di Google attraverso un processo in più fasie valutare se i risultati della ricerca supportano o meno tale fatto.

Ad ogni passaggio, l'agente genera una query di ricerca basata sui fatti da verificare e sui risultati di ricerca ottenuti in precedenza. Dopo diversi passaggi, il modello esegue l'inferenza per determinare se il fatto è supportato dai risultati della ricerca.

Secondo gli esperimenti,Sebbene il metodo SAFE costi 20 volte meno dell’annotazione umana, offre prestazioni migliori dell’annotazione umana: Il tasso di accordo con gli esseri umani era del 72%, mentre il tasso di risultati migliori rispetto agli umani in disaccordo era del 76%.

L'indice di valutazione SAFE è F1@K. Per le risposte lunghe del modello fattuale, idealmente dovrebbero essere raggiunti sia la precisione che il richiamo, poiché la risposta dovrebbe soddisfare contemporaneamente:

effettivo: misurata in base all'accuratezza, ovvero la percentuale di fatti supportati nell'intera risposta.
lungo : misurato in base al ricordo, ovvero la percentuale di fatti forniti rispetto a tutti i fatti rilevanti che dovrebbero apparire nella risposta. Pertanto, viene considerato il numero massimo di fatti supportati.

Data la risposta del modello, la metrica F1@K è definita come:

Inoltre, Chern et al. 2023 hanno proposto un flusso di lavoro di verifica dei fatti che segue gli standardStrumento di Fac . È progettato per rilevare errori fattuali in una varietà di attività, tra cui la risposta a domande basate sulla conoscenza, la generazione di codici, la risoluzione di problemi matematici e la revisione della letteratura scientifica. I passaggi includono:

Estrazione delle attestazioni: estrae tutte le attestazioni verificabili richiedendo LLM.
Generazione di query: converti ciascuna istruzione in una serie di query adatte a strumenti esterni, come query di motori di ricerca, casi di test unitari, frammenti di codice e titoli di documenti.
Query con strumenti e raccolta di prove: interroga strumenti esterni, come motori di ricerca, interpreti di codice e Google Scholar, e ottieni risultati restituiti.
Verifica della coerenza: a ciascuna affermazione viene assegnata un'etichetta fattuale binaria in base al grado di supporto delle prove fornito da strumenti esterni.

Rilevamento basato sul campionamento

Manakul et al. 2023 hanno proposto un controllo di coerenza che si basa su più campioni da un LLM a scatola nera -AutocontrolloGPT, per identificare errori di fatto.

Considerando che le misurazioni di verifica dei fatti in scatola grigia richiedono l'accesso al logprob a livello di token di LLM, SelfCheckGPTUtilizzare semplicemente esempi che non si basano su basi di conoscenza esterne, quindi l'accesso tramite scatola nera è sufficiente, non è richiesta alcuna base di conoscenza esterna.

Questo metodo utilizza metriche diverse per misurare la coerenza tra la risposta del modello e altri campioni di modelli casuali, inclusi BERTScore, NLI, prompt (chiedere sì/no), ecc. SelfCheckGPT utilizzando i suggerimenti sembra funzionare meglio quando si conducono ispezioni sperimentali dei passaggi WikiBio generati da GPT-3.

Calibrazione della conoscenza sconosciuta

Chiedere a un modello di generare risposte a domande senza risposta o sconosciute può indurre allucinazioni.VeritieroQA(Lin et al., 2021) eConsapevole di sé(Yin et al., 2023) sono due parametri di riferimento che misurano la capacità di un modello di generare risposte realistiche in tali situazioni, il primo è costruito in modo contraddittorio per enfatizzare l'errore umano e il secondo include domande senza risposta.

Di fronte a questi problemi,Il modello dovrebbe rifiutarsi di rispondere o fornire informazioni pertinenti。

In TruthfulQA, le domande del test sono progettate in modo contraddittorio sulla base di malintesi o errori umani comuni. Il benchmark contiene 817 domande che coprono 38 argomenti tra cui salute, diritto, finanza e politica.

Quando testato, il miglior LLM ha raggiunto una precisione del 58%, mentre gli esseri umani hanno potuto raggiungere il 94%. Il gruppo di ricerca lo ha scopertoA causa di un malinteso comune, i modelli più grandi sono meno realistici, ma questa tendenza non si riflette in altri standard(non conflittuale)base fattuale。

Ecco un esempio della risposta errata di GPT-3 su TruthfulQA:

Yin et al. 2023 hanno studiatoConsapevole di séIl concetto di si riferisce al fatto che i modelli linguistici sappiano ciò che sanno o non sanno.

SelfAware contiene 1032 domande senza risposta e 2337 domande con risposta in cinque categorie. Le domande senza risposta provengono da forum online con annotazioni umane, mentre le domande con risposta provengono da SQuAD, HotpotQA e TriviaQA.

Una domanda può essere senza risposta per una serie di ragioni, come l’assenza di consenso scientifico, l’immaginazione del futuro, la completa soggettività, ragioni filosofiche che possono generare risposte multiple, ecc.

Lo studio tratta la distinzione tra domande con risposta e senza risposta come un compito di classificazione binaria e utilizza il punteggio F1 o l'accuratezza per valutare le prestazioni del modello. Gli esperimenti mostrano che i modelli più grandi ottengono risultati migliori in questo compito.

Un altro modo per valutare quanto bene un modello comprende la conoscenza sconosciuta è misurare l’incertezza nell’output del modello. Quando un problema si trova tra il noto e l’ignoto, il modello dovrebbe mostrare il corretto livello di confidenza.

L'esperimento del 2022 di Kadavath et al. ha mostrato che in una varietà di opzioni di risposta multidimensionali con lettere visibili,Selezione dell'argomentoformati (MMLU, TruthfulQA, QuALITY, LogiQA), LLM si comporta bene nella stima della probabilità che una risposta sia corretta, il che significa che la probabilità prevista è coerente con la frequenza con cui tale risposta è vera.

La regolazione fine dell'RLHF comporta una calibrazione del modello peggiore, ma temperature di campionamento più elevate portano a risultati di calibrazione migliori.

Lin et alMatematica calibrata Kit di missione. CalibrateMath è un insieme di problemi matematici generati a livello di codice con diversi livelli di difficoltà che mettono alla prova la calibrazione delle probabilità di output del modello.

Per ogni domanda, il modello deve fornire una risposta numerica e la confidenza in tale risposta. Vengono considerati tre tipi di probabilità:

Un numero o una parola letterale (come "il più basso", "basso", "medio", "alto", "il più alto"), ad esempio "Fiducia: 60%/Moderata".
La probabilità logaritmica normalizzata del token di risposta. Si noti che questo parametro non è stato utilizzato negli esperimenti di messa a punto.
Logprob per il flag indiretto "Vero/Falso" dopo la risposta originale. Gli esperimenti si concentrano sulla calibratura della generalizzazione in base a cambiamenti distributivi nella difficoltà o nel contenuto del compito. Ogni punto dati di regolazione fine è una domanda, la risposta del modello (che potrebbe essere sbagliata) e la confidenza della calibrazione. In entrambi i casi, le probabilità testuali si sono generalizzate bene e tutte le impostazioni hanno funzionato bene nei compiti di moltiplicazione e divisione. In termini di confidenza della previsione del modello, il modello a pochi colpi è più debole del modello ottimizzato. È utile includere più esempi, la versione da 50 colpi è buona quasi quanto la versione ottimizzata.

interrogazione indiretta

Agrawal et al. (2023) hanno studiato specificamente casi di citazioni allucinatorie nella generazione LLM, inclusi titoli fittizi di libri, articoli e articoli. Hanno utilizzato due metodi basati sulla coerenza per rilevare le allucinazioni, vale a dire la query diretta e la query indiretta. Entrambi i metodi eseguono il controllo più volte quando T > 0 e verificano la coerenza.

Le query dirette richiedono che il modello determini se esiste il materiale di riferimento generato, mentre le query indirette richiedono dettagli ausiliari, comeChi è l'autore del riferimento?。

L'ipotesi è che, per un riferimento allucinato, la coerenza di generare lo stesso autore più volte è inferiore alla probabilità che più risposte a una domanda diretta rivelino la presenza del riferimento.

Gli esperimenti lo dimostranoI metodi di query indiretta funzionano meglio, i modelli più grandi sono più potenti e ci sono meno allucinazioni。

Modi per combattere le allucinazioni

Successivamente, esamineremo una serie di metodi per migliorare l'autenticità delle risposte LLM, compreso il recupero da basi di conoscenza esterne, metodi di campionamento speciali e messa a punto dell'allineamento. Alcuni metodi di interpretabilità per ridurre le allucinazioni attraverso l'editing neuronale non verranno discussi qui.

RAG → Modifica e attribuzione

RAG (Retrieval Augmented Generation) è un metodo molto comune per fornire informazioni di base recuperando documenti rilevanti e quindi generandoli utilizzando ulteriori documenti rilevanti come contesto.

Raramente(Retrofit Attribution using Research and Revision) è un framework proposto da Gao et al nel 2022, che consente a LLM di supportare retroattivamente l'attribuzione di prove esterne attraverso l'attribuzione editoriale.

Dato un testo generato dal modello, RARR lo elabora in due passaggi, producendo un testo rivisto e un rapporto di attribuzione:

1. Fase di ricerca: trovare documenti rilevanti come prova.

Viene innanzitutto utilizzato un modello di generazione di query (tramite suggerimenti "pochi colpi", →1,..., ) per costruire una serie di query di ricerca 1,..., per convalidare vari aspetti di ciascuna frase.
Eseguendo una ricerca su Google, ogni query = 5 risultati.
Per assegnare i punteggi di pertinenza viene utilizzato un modello di pertinenza query-documento preaddestrato e per ogni query viene conservato solo il più pertinente = 1 documento 1,….

2. Fase di revisione: modificare l'output per correggere il contenuto non supportato dalle prove, mantenendo quanto più possibile il contenuto originale.Inizializza il testo rivisto =.

Secondo (,), il modello di protocollo (tramite suggerimenti di pochi colpi + CoT, (,,) → 0,1) verifica se le prove sono incoerenti con l'attuale testo rivisto.

Solo quando viene rilevata un'incoerenza, il modello di modifica (tramite pochi suggerimenti + CoT, (,,)→ new ) produce una nuova versione, progettata per essere modificata minimamente contemporaneamente alle prove.

Infine, solo un numero limitato di prove = 5 viene inserito nel rapporto di attribuzione.

Sia l'attribuzione che la conservazione sono importanti quando si valuta il testo rivisto.

L'attribuzione utilizza il punteggio AIS (Attributed to Identified Source) per misurare la quantità di contenuto che può essere attribuita. È possibile raccogliere annotazioni umane oppure utilizzare modelli NLI per approssimare il punteggio AIS automatico.

La conservazione si riferisce al grado in cui il testo originale viene preservato, misurato come Previntent × PrevLev, dove Previntent richiede l'annotazione manuale e PrevLev si basa sulla distanza di modifica Levenshtein a livello di carattere. Rispetto alle due linee di base, RARR porta a risultati meglio bilanciati, soprattutto in termini di parametri di fidelizzazione.

Simile a RARR che utilizza ricerca+modifica, proposto da Mishra et al 2024FAVA (Factuality Verification with Augmented Knowledge) recupera anche la documentazione pertinente e quindi modifica l'output del modello per evitare errori illusori. Il modello FAVA è costituito da un retriever e da un editor.

Dato un prompt e un output del modello, recuperare i documenti più rilevanti:

L'editor genera un output migliorato:

RARR non richiede formazione, ma la modifica del modello di editor in FAVA richiede una messa a punto. Classificando i diversi tipi di errori di allucinazione in modo più dettagliato, è possibile generare dati di addestramento sintetici per i modelli modificati inserendo errori casuali nella generazione del modello.

Ogni esempio è una tripletta (,,∗), dove è il passaggio originale di Wikipedia come contesto aureo, è l'output LM con errori e ∗ è l'output con etichette di errore e modifiche corrette.

Proposto da He et alRRAnche l'approccio (Rethinking with retrieval) si basa sul recupero di conoscenze esterne rilevanti, ma non comporta ulteriori modifiche.

Piuttosto che utilizzare un modello di generazione di query di ricerca, il recupero di RR si basa su suggerimenti CoT scomposti.

Dato un suggerimento di input, RR utilizza i suggerimenti CoT per generare più percorsi di inferenza 1,…, a temperatura > 0, dove ciascun percorso di inferenza contiene una spiegazione (ovvero la parte di inferenza), seguita da una previsione (ovvero l'output effettivo del modello) . Recuperare la conoscenza esterna 1,…, per supportare ogni spiegazione. Quindi, viene selezionata la risposta più fedele in base al grado di adattamento con la conoscenza recuperata 1,…,.

recupero della conoscenza: Gli esperimenti di RR applicano il recupero sparso BM25 alla ricerca su Wikipedia, seguito da una riclassificazione incorporando la somiglianza del coseno fornita da un modello MPNet pre-addestrato.
Punteggio di fedeltà : La fedeltà di ciascun percorso di inferenza è stimata da una combinazione di punteggio di implicazione, punteggio di contraddizione e somiglianza MPNet. Sia il punteggio di implicazione che quello di contraddizione sono forniti dal modello NLI pre-addestrato.

Auto-RAG(Asai et al., 2024) addestra un modello linguistico end-to-end in modo che impari a riflettere sulla propria produzione producendo risultati dei compiti e indicatori di riflessione speciali intermittenti.

Il team di ricerca ha creato un set di dati supervisionato per giudicare e generare modelli utilizzando GPT-4, quindi lo ha distillato in un modello interno per ridurre il costo dell’inferenza.

Dato un prompt di input, l'output generato è costituito da più parti (ad esempio, un segmento è una frase). Esistono quattro tipi di indicatori di riflessione, uno per il recupero e tre per la valutazione:

Recupera: determina se eseguire il recupero in parallelo per ottenere una serie di valori di output: {sì, no, continua}.
IsRel: determina se il prompt è rilevante per il documento recuperato valore di output: {rilevante, irrilevante}.
IsSup: determina se il testo di output è supportato; valore di output: {completamente supportato, parzialmente supportato, nessun supporto}.
IsUse: determina se il testo di output è utile; valore di output: {5, 4, 3, 2, 1}.

Self-RAG genera un segmento alla volta. In base alla generazione data e precedente < , il modello decodifica il token Retrieve:

Se Recupera==no, genera direttamente;
Se Retrieve==yes, il modello recupera più paragrafi in parallelo e utilizza il token IsRel per verificare se i documenti recuperati sono rilevanti. Se pertinente, genera e utilizza altri token di valutazione per ottenere un punteggio, classificare e selezionare il risultato migliore tra più output.

catena d'azione

Senza la conoscenza del recupero esterno, è possibile progettare aSfruttare il modello stesso per la convalida e la revisioneprocesso per ridurre le allucinazioni.

Dhuliawala et al hanno proposto un metodo per la verifica della pianificazione e dell'esecuzione basato su catene di azioni nel 2023, denominatoCatena di verifica (Baia). CoVe si compone di quattro fasi fondamentali:

risposta di base: Il modello genera una bozza di risposta iniziale, denominata "baseline".
Verifica della pianificazione: Sulla base di questa generazione grezza, il modello progetta domande di verifica senza modello per il controllo dei fatti; ciò può essere ottenuto con un numero limitato di suggerimenti di esempio (risposte alle domande di verifica).
Esegui la verifica : Il modello risponde in modo indipendente a queste domande. Esistono diverse varianti di configurazione:

1) Unione: combinata con il passaggio 2, dove la struttura di esempio a pochi scatti è (risposta, domanda di verifica, risposta di verifica); lo svantaggio è che la risposta originale è nel contesto e il modello può ripetere illusioni simili.

2) Approccio in due fasi: separare le fasi di pianificazione e di esecuzione della verifica, se non influiscono sulla risposta originale.

3) Scomposizione: rispondi a ciascuna domanda di verifica separatamente. Ad esempio, se una build di base lunga comporta più domande di convalida, a ciascuna domanda verrà data risposta una per una.

4) Scomposizione + revisione: aggiungere un passaggio di "controllo incrociato" dopo aver eseguito la verifica della scomposizione per condizionare e rilevare incoerenze in base alle risposte di base e alle domande e risposte di verifica.

uscita finale : genera un output finale rifinito. Se vengono rilevate incoerenze, l'output viene modificato in questo passaggio.

CoVe è progettato in questo modo perché l'utilizzo di una lunga catena di verifica può portare a ripetute allucinazioni, poiché la risposta allucinante iniziale è ancora nel contesto e può essere esaminata durante i processi di nuova generazione, mentreÈ stato riscontrato che rispondere individualmente a ciascuna domanda di convalida porta a risultati migliori rispetto alla generazione di moduli lunghi。

Ecco alcune osservazioni interessanti dagli esperimenti CoVe:

Gli aggiustamenti dei comandi e il CoT non hanno ridotto le allucinazioni.
La scomposizione e il CoVe in due passaggi migliorano le prestazioni e aiuta anche un ulteriore ragionamento esplicito per il rilevamento delle incoerenze (approccio "scomposizione+revisione").
Le domande di verifica in formato breve hanno suscitato risposte più accurate rispetto alle domande in formato lungo.
LLM in formato libero genera domande di verifica migliori delle domande euristiche (ad esempio, X ha risposto alla domanda?) e le domande che richiedono una generazione a risposta aperta sono migliori delle domande sì/no.

Inoltre, Sun et alRECITAREmetodo, si basa sulle prove come passaggio intermedio per migliorare la correttezza fattuale della generazione del modello e ridurre le allucinazioni.

La motivazione è utilizzare la memoria di Transformer come modello di recupero delle informazioni. Nello schema di rivisitazione e risposta di RECITE, al LLM viene prima chiesto di ripetere le informazioni rilevanti e quindi di generare output.

Nello specifico, è possibile utilizzare alcuni suggerimenti contestuali per insegnare al modello a parafrasare e quindi generare risposte basate sulla parafrasi. Inoltre, può essere combinato con metodi di ensemble autoconsistenti che utilizzano più campioni e può essere esteso per supportare la risposta a domande multi-hop.

Le parafrasi generate sono paragonabili al modello di recupero basato su BM25, ma entrambi presentano lacune quando si utilizzano passaggi reali. Secondo l'analisi degli errori condotta dal gruppo di ricerca, circa il 7-10% delle domande sono state recitate correttamente ma non hanno potuto generare la risposta corretta, circa il 12% delle domande sono state recitate in modo errato ma è stato comunque possibile rispondere correttamente;

Metodo di campionamento

Lee et al. 2022 hanno scoperto che il campionamento del kernel (campionamento superiore) ha ottenuto risultati peggiori del campionamento greedy sul benchmark FactorityPrompt, sebbene il campionamento del kernel abbia aggiunto ulteriore casualità, ottenendo una migliore diversità e meno ripetizioni.

Pertanto, hanno proposto un algoritmo di campionamento del kernel dei fatti basato su ipotesi,Questa ipotesi afferma che la casualità del campionamento ha un impatto maggiore sulla fattualità della seconda metà della frase rispetto all'inizio della frase. . Il campionamento dei fatti mira a regolare dinamicamente la probabilità delle parole campionate in ogni frase. Per l'esimo token in una frase, c'è =max(,⋅−1), che viene utilizzato per evitare che il campionamento ricada in un campionamento avido che danneggia la qualità e la diversità della generazione.

Li et alIntervento in tempo di inferenza(ITI), indaga se determinate teste di attenzione sono più rilevanti per la fattualità sondando linearmente le attivazioni su ciascun livello per distinguere gli output reali da quelli falsi.

Hanno scoperto che per molti punti di attenzione il rilevatore non ha funzionato meglio della selezione casuale, mentre alcuni hanno mostrato prestazioni elevate. Dopo aver identificato un gruppo di teste di attenzione sparse con elevata precisione nel rilevamento lineare dell'autenticità, ITI regolerà l'attivazione delle teste di attenzione selezionate in alto lungo la direzione "reale" durante l'inferenza.

Messa a punto fattuale

Lee et al. 2022 hanno proposto due idee per l'addestramento di rinforzo:

Presentazione di TopicPrefix per una migliore comprensione dei fatti: aggiungi un argomento (ad esempio il titolo del documento di Wikipedia) prima di ogni frase del documento.
Prendi la perdita nel completamento della frase come obiettivo formativo: aggiorna la perdita formativa per concentrarti sulla seconda metà della frase, presupponendo che la seconda metà della frase contenga più conoscenze fattuali. L'implementazione è molto semplice, decidi un punto pivot e applica una maschera zero a tutti i token prima del primo token. Nei loro esperimenti, il punto di rotazione ottimale è stato scelto pari a 0,5 volte la lunghezza della frase.

Lin et al hanno proposto nel 2024 di condurre una formazione sull'allineamento SFT+RLHF incentrata sulla fattualità, denominataFIAMMA。

Fase SFT (SFT factuality-aware): l'obiettivo è generare dati di addestramento che siano più concreti del modello stesso (misurati da FActScore).
Fase RLHF (DPO factuality-aware): due metodi sono stati testati con scarsi risultati e il metodo 2 ha funzionato bene, probabilmente perché il metodo 1 ha tentato di distillare nuove conoscenze nel modello senza una formazione sufficiente.

Come accennato in precedenza, ci sono prove che la messa a punto di nuove conoscenze può causare allucinazioni e la supervisione RAG contiene informazioni sconosciute a LLM.

Metodo 1: utilizzare campioni di dati RAG come campioni positivi e generazione di modelli originali come campioni negativi come dati RM.

Metodo 2: utilizzare FActScore come segnale di ricompensa di fatto.

Per evitare di distillare accidentalmente conoscenze sconosciute nel modello durante l’addestramento all’allineamento, propongono di utilizzare le risposte generate dal modello per costruire il set di dati SFT/DPO.

Proposto da Tian&Mitchell et alMessa a punto della fattualità Si basa anche sulla messa a punto dei modelli linguistici per migliorare la fattualità. Hanno sperimentato diversi metodi per stimare la veridicità delle affermazioni atomiche in ciascun campione del modello e poi hanno eseguito il DPO.

Processo di adeguamento fattuale:

1. Coppie di esempi di completamento del modello per un determinato set di suggerimenti (ad esempio "Scrivi una biografia di Yo-Yo Ma")

2. Contrassegnarne l'autenticità secondo due metodi che non richiedono intervento manuale:

Basato su riferimenti: controlla se l'affermazione del modello è supportata da una base di conoscenza esterna, simile alla sezione di valutazione delle allucinazioni basata sul recupero sopra. (a) estrarre una serie di dichiarazioni atomiche; (b) cercare riferimenti su Wikipedia (c) utilizzare un piccolo modello NLI ottimizzato per verificare se il testo di riferimento supporta dichiarazioni atomiche;

Non basato su riferimenti: utilizza la fiducia del modello come simbolo della sua autenticità, simile ai metodi di query indiretta. (a) convertire ogni affermazione in una domanda corrispondente/richiede un'attenta riformulazione per garantire che la domanda sia chiara; (b) campionare più volte dal modello per rispondere alla domanda (c) calcolare un punteggio/utilizzo aggregato; caratteri Corrispondenza di stringhe o richiesta a GPT di determinare se due risposte sono semanticamente equivalenti.

3. Costruisci un set di dati di addestramento generando più campioni dal modello e assegnando preferenze in base ai punteggi di autenticità. Quindi utilizzare DPO per ottimizzare il modello su questo set di dati.

Messa a punto per l'attribuzione

Attribuire attribuzioni è un buon modo per ridurre le illusioni quando si genera l'output del modello che dipende dai risultati di ricerca. Esiste un corpo di lavoro volto a formare LLM per utilizzare meglio i contenuti recuperati e assegnare attribuzioni di alta qualità.

Proposto da Nakano et alWebGPT, combina la ricerca sul Web per il recupero di documenti con modelli GPT ottimizzati, progettati per rispondere a domande di lunga durata per ridurre le allucinazioni e migliorare l'accuratezza dei fatti.

Il modello interagisce con le ricerche su Internet in un browser web basato su testo e impara a citare pagine web per rispondere alle domande. Durante la navigazione del modello, un'azione che può eseguire è fare riferimento a un estratto della pagina corrente. Quando lo fai, il titolo della pagina, il nome di dominio e l'estratto vengono registrati per riferimento futuro.Il nucleo di WebGPT è utilizzare materiali di riferimento per aiutare le persone a giudicare la correttezza dei fatti。

Il modello è stato inizialmente sottoposto a una messa a punto supervisionata per la clonazione comportamentale su dimostrazioni di esseri umani che utilizzano un ambiente di navigazione web per rispondere alle domande.

I dati comparativi vengono raccolti tra due risposte generate dal modello alla stessa domanda, ciascuna con il proprio set di riferimento, dove le risposte vengono giudicate in base alla loro accuratezza fattuale, coerenza e utilità complessiva. I modelli di ricompensa vengono utilizzati per la formazione RL e il campionamento del rifiuto al meglio di n. Al contrario, RL ha effetti limitati e quando viene utilizzato il campionamento del rifiuto, gli effetti sono ancora più limitati.

Menick et alGopherCita , è molto simile a WebGPT nell'uso dei motori di ricerca per creare materiali di supporto e insegnare modelli per fornire materiali di riferimento. Entrambi eseguono la messa a punto supervisionata della guida ed entrambi applicano la formazione RLHF.

A differenza di WebGPT, che si basa su dimostrazioni umane per la clonazione comportamentale, GopherCiteGenera demo tramite istruzioni di pochi scattie ogni generazione viene popolata con il contesto tratto dai documenti pertinenti, quindi viene utilizzato un modello di ricompensa per valutare quali sono i migliori.

Un altro trucco per evitare risposte di bassa qualità è configurare il modello per rifiutare le risposte utilizzando la risposta predefinita "Non lo so", determinata da una soglia RM globale, chiamata previsione selettiva.

I risultati empirici di RL sono simili a quelli di WebGPT, ovvero RL apporta solo miglioramenti limitati o nessun miglioramento se combinato con il campionamento del rifiuto.

Chi è Weng Li?

Weng Li è uno scienziato cinese di OpenAI e uno dei contributori di ChatGPT. Si è laureato all'Università di Pechino.

È responsabile della ricerca sulle applicazioni di intelligenza artificiale di OpenAI. È entrata in OpenAI nel 2018 e si occupa principalmente di pre-addestramento, apprendimento e allineamento per rinforzo e sicurezza dei modelli nel progetto GPT-4.

Nel team di consulenza sulla sicurezza istituito da OpenAI alla fine dello scorso anno, guida il team dei sistemi di sicurezza per risolvere problemi come la riduzione dell'abuso dei modelli esistenti come ChatGPT.

notizia