notizia

La formazione sugli assiomi consente al LLM di apprendere il ragionamento causale: il modello da 67 milioni di parametri è paragonabile al livello di trilioni di parametri GPT-4

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapporto sul cuore della macchina

Editore: Panda

Mostra la catena causale a LLM e potrà apprendere gli assiomi.

L'intelligenza artificiale sta già aiutando matematici e scienziati a condurre ricerche. Ad esempio, il famoso matematico Terence Tao ha più volte condiviso la sua esperienza di ricerca ed esplorazione con l'aiuto di strumenti di intelligenza artificiale come GPT. Affinché l’intelligenza artificiale possa competere in questi campi, sono essenziali capacità di ragionamento causale forti e affidabili.

La ricerca presentata in questo articolo ha scoperto che un modello Transformer addestrato sulle dimostrazioni dell'assioma di transitività causale su piccoli grafici può generalizzare all'assioma di transitività su grafici di grandi dimensioni.

In altre parole, se il Transformer impara a eseguire ragionamenti causali semplici, può essere utilizzato per ragionamenti causali più complessi. Il quadro di formazione sugli assiomi proposto dal team è un nuovo paradigma per l'apprendimento del ragionamento causale basato su dati passivi, che può essere utilizzato per apprendere assiomi arbitrari purché la dimostrazione sia sufficiente.

introduzione

Il ragionamento causale può essere definito come un insieme di processi di ragionamento conformi ad assiomi o regole predefiniti che affrontano specificamente la causalità. Ad esempio, le regole della d-separazione (separazione diretta) e del do-calcolo possono essere viste come assiomi, mentre le specifiche di un set di collisori o di un set cortile possono essere viste come regole derivate dagli assiomi.

In genere, l'inferenza causale utilizza dati che corrispondono a variabili in un sistema. Assiomi o regole possono essere integrati nei modelli di machine learning sotto forma di pregiudizi induttivi attraverso la regolarizzazione, l'architettura del modello o la selezione di variabili specifiche.

La "scala causale" di Judea Pearl definisce possibili tipi di inferenza causale sulla base delle differenze nei tipi di dati disponibili (dati di osservazione, dati di intervento, dati controfattuali).

Poiché gli assiomi sono la pietra angolare della causalità, non possiamo fare a meno di chiederci se possiamo utilizzare direttamente i modelli di apprendimento automatico per apprendere gli assiomi. Cioè, cosa accadrebbe se il modo per apprendere gli assiomi non fosse apprendere i dati ottenuti attraverso un processo di generazione di dati, ma apprendere direttamente dimostrazioni simboliche degli assiomi (e quindi apprendere il ragionamento causale)?

Rispetto ai modelli causali specifici per attività costruiti utilizzando distribuzioni di dati specifiche, tale modello presenta un vantaggio: può consentire l’inferenza causale in una varietà di diversi scenari a valle. Questa domanda diventa importante man mano che i modelli linguistici acquisiscono la capacità di apprendere dati simbolici espressi nel linguaggio naturale.

In effetti, alcune ricerche recenti hanno valutato se i modelli linguistici di grandi dimensioni (LLM) possono eseguire l'inferenza causale creando parametri di riferimento che codificano i problemi di inferenza causale nel linguaggio naturale.

Anche un gruppo di ricerca di Microsoft, MIT e dell’Indian Institute of Technology Hyderabad (IIT Hyderabad) ha fatto un passo importante in questa direzione: proporre unMetodi per l'apprendimento del ragionamento causale attraverso la formazione assiomatica



  • Titolo dell'articolo: Insegnare il ragionamento causale dei trasformatori attraverso la formazione assiomatica
  • Indirizzo del documento: https://arxiv.org/pdf/2407.07612

Formazione sugli assiomi

Hanno ipotizzato che l'assioma causale possa essere espresso come la seguente tupla simbolica ⟨premessa, ipotesi, risultato . Tra questi, l'ipotesi si riferisce all'ipotesi, cioè una premessa causale è la premessa, che si riferisce a qualsiasi informazione rilevante utilizzata per determinare se l'affermazione è "vera"; Il risultato può essere un semplice "sì" o "no".

Ad esempio, l'assioma del collisore dell'articolo "I modelli linguistici di grandi dimensioni possono dedurre la causalità dalla correlazione?" può essere espresso come: e la conclusione è "sì".



Sulla base di questo modello, è possibile generare un gran numero di tuple sintetiche modificando i nomi delle variabili, i numeri delle variabili, l'ordine delle variabili, ecc.

Per utilizzare Transformer per apprendere assiomi causali e implementare l'addestramento sugli assiomi, il team ha utilizzato i seguenti metodi per costruire set di dati, funzioni di perdita e incorporamenti di posizione.

Addestramento assiomatico: set di dati, funzioni di perdita e compilazione posizionale

dati di allenamento

Sulla base di un assioma specifico, l'"ipotesi" può essere mappata sull'etichetta appropriata (Sì o No) in base alla "premessa". Per creare il set di dati di addestramento, il team enumera tutte le possibili tuple {(P, H, L)}_N sotto specifiche impostazioni delle variabili X, Y, Z, A, dove P è la premessa e H è l'ipotesi, L è l'etichetta (Sì o no).

Data una premessa P basata su un diagramma causale, se l'ipotesi P può essere derivata utilizzando un assioma specifico (una o più volte), allora l'etichetta L è Sì altrimenti è No;

Ad esempio, supponiamo che il grafico causale reale sottostante di un sistema abbia una topologia a catena: X_1 → X_2 → X_3 →・・・→ X_n. Allora, la possibile premessa è X_1 → X_2 ∧ X_2 → X_3, quindi assumiamo che X_1 → Gli assiomi di cui sopra possono essere utilizzati induttivamente molte volte per generare tuple di addestramento più complesse.

Per l'impostazione dell'addestramento, un set di dati sintetico D viene costruito utilizzando N istanze dell'assioma generate dall'assioma di transitività. Ogni istanza in D è costruita nella forma (P_i, H_ij, L_ij), dove n è il numero di nodi in ciascuna i-esima premessa. P è la premessa, cioè un'espressione in linguaggio naturale di una certa struttura causale (come X causa Y, Y causa Z seguita dalla domanda H (come X causa Y?); o no). Questa forma copre effettivamente tutte le coppie di nodi per ciascuna catena unica in un dato grafo causale.



funzione di perdita

Dato un set di dati, la funzione di perdita è definita in base all'etichetta di verità fondamentale di ciascuna tupla, espressa come: L'analisi mostra che l'utilizzo di questa perdita può dare risultati promettenti rispetto alla previsione del token successivo.



codifica della posizione

Oltre alle funzioni di allenamento e perdita, un altro fattore importante è la scelta della codifica della posizione. La codifica posizionale può fornire informazioni chiave sulla posizione assoluta e relativa del token nella sequenza.

Il famoso articolo "L'attenzione è tutto ciò che serve" propone una strategia di codifica della posizione assoluta che utilizza una funzione periodica (funzione seno o coseno) per inizializzare questi codici.

La codifica della posizione assoluta fornisce valori deterministici per tutte le posizioni di qualsiasi lunghezza di sequenza. Tuttavia, alcune ricerche mostrano che la codifica della posizione assoluta è difficile da gestire con il compito di generalizzazione della lunghezza di Transformer. Nella variante APE apprendibile, ogni incorporamento di posizione viene inizializzato e addestrato in modo casuale utilizzando il modello. Questo metodo ha problemi con sequenze più lunghe di quelle durante l'addestramento perché i nuovi incorporamenti di posizione non sono ancora addestrati e non inizializzati.

È interessante notare che recenti scoperte suggeriscono che la rimozione degli incorporamenti posizionali dai modelli autoregressivi migliora le capacità di generalizzazione della lunghezza del modello e che il meccanismo di attenzione durante la decodifica autoregressiva è sufficiente per codificare le informazioni posizionali. Il team ha utilizzato diverse codifiche di posizione per comprenderne l'impatto sulla generalizzazione nei compiti causali, tra cui la codifica di posizione apprendibile (LPE), la codifica di posizione sinusoidale (SPE) e nessuna codifica di posizione (NoPE).

Per migliorare la capacità di generalizzazione del modello, il team ha utilizzato anche perturbazioni dei dati, comprese perturbazioni di lunghezza, nome del nodo, ordine della catena e condizioni di ramificazione.

sperimentare

La domanda si pone nuovamente: se un modello viene addestrato utilizzando questi dati, può imparare ad applicare l’assioma a nuovi scenari?

Per rispondere a questa domanda, il team ha addestrato da zero un modello Transformer utilizzando una dimostrazione simbolica di questo assioma causalmente indipendente.

Per valutare le loro prestazioni di generalizzazione, si sono allenati su semplici catene di assiomi causalmente indipendenti di nodi di dimensione 3-6 e poi hanno testato diversi aspetti diversi delle prestazioni di generalizzazione, comprese le prestazioni di generalizzazione della lunghezza (catene di dimensione 7-15), la generalizzazione dei nomi (nomi di variabili più lunghi), generalizzazione sequenziale (catene con bordi invertiti o nodi mescolati), generalizzazione strutturale (grafi con rami). La Figura 1 mostra un modo per valutare la generalizzazione strutturale di Transformer.



Nello specifico, hanno addestrato un modello basato su decoder con 67 milioni di parametri basati sull'architettura GPT-2. Il modello ha 12 livelli di attenzione, 8 teste di attenzione e 512 dimensioni di incorporamento. Hanno addestrato il modello da zero su ciascun set di dati di addestramento. Per comprendere l'impatto dell'incorporamento della posizione, hanno anche studiato tre impostazioni di incorporamento della posizione: codifica della posizione sinusoidale (SPE), codifica della posizione apprendibile (LPE) e nessuna codifica della posizione (NoPE).

I risultati sono mostrati nella Tabella 1, Figura 3 e Figura 4.



La tabella 1 presenta l'accuratezza di diversi modelli valutati su catene causali più ampie non osservate durante l'addestramento. Si può vedere che le prestazioni del nuovo modello TS2 (NoPE) sono paragonabili a quelle del GPT-4 con una scala di trilioni di parametri.

La Figura 3 mostra i risultati della valutazione della capacità di generalizzazione su sequenze causali con nomi di nodi più lunghi (più lunghi di quelli nel set di addestramento) e l'impatto di diversi incorporamenti di posizione.



La Figura 4 valuta la capacità di generalizzazione di sequenze causali più lunghe e invisibili.



Hanno scoperto che i modelli addestrati su catene semplici si generalizzavano a molteplici applicazioni di assiomi su catene più grandi, ma non riuscivano a generalizzare a scenari più complessi come la generalizzazione sequenziale o strutturale. Tuttavia, se il modello viene addestrato su un set di dati misto costituito da catene semplici e catene con bordi inversi casuali, il modello si generalizza bene a vari scenari di valutazione.

Estendendo i risultati sulla generalizzazione della lunghezza nei compiti di PNL, hanno scoperto l'importanza degli incorporamenti posizionali nel garantire la generalizzazione causale attraverso la lunghezza e altre dimensioni. Il loro modello con le migliori prestazioni non prevedeva alcuna codifica posizionale, ma hanno anche scoperto che la codifica sinusoidale funzionava bene in alcune situazioni.

Questo metodo di formazione sugli assiomi può anche essere generalizzato a un problema più difficile, come mostrato nella Figura 5. Cioè, sulla base di premesse contenenti affermazioni di indipendenza statistica, l’obiettivo del compito è discernere la correlazione dalla causalità. La risoluzione di questo compito richiede la conoscenza di diversi assiomi, tra cui la separazione d e le proprietà di Markov.



Il team ha generato dati di addestramento sintetici utilizzando lo stesso metodo di cui sopra, quindi ha addestrato un modello e ha scoperto che il Transformer addestrato su una dimostrazione di attività contenente 3-4 variabili poteva imparare a risolvere un'attività grafica contenente 5 variabili. E in questo compito, la precisione di questo modello è superiore a quella di LLM più grandi come GPT-4 e Gemini Pro.



Il team ha affermato: "La nostra ricerca fornisce un nuovo paradigma per insegnare modelli per apprendere il ragionamento causale attraverso dimostrazioni simboliche di assiomi, che chiamiamo formazione assiomatica". espresso nel formato di una tupla simbolica, può essere appreso utilizzando questo metodo.