Das Axiom-Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4

2024-07-16

Maschinenherzbericht

Herausgeber: Panda

Zeigen Sie LLM die Kausalkette und es kann die Axiome lernen.

KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich.

Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf Demonstrationen des kausalen Transitivitätsaxioms auf kleinen Graphen trainiert wurde, auf das Transitivitätsaxiom auf großen Graphen verallgemeinern kann.

Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Das vom Team vorgeschlagene Axiom-Trainings-Framework ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, das zum Erlernen beliebiger Axiome verwendet werden kann, sofern die Demonstration ausreichend ist.

Einführung

Kausales Denken kann als eine Reihe von Denkprozessen definiert werden, die vordefinierten Axiomen oder Regeln entsprechen, die sich speziell mit der Kausalität befassen. Beispielsweise können die d-Trennung (gerichtete Trennung) und die Do-Kalkül-Regeln als Axiome betrachtet werden, während die Spezifikationen eines Collider-Sets oder eines Backyard-Sets als aus den Axiomen abgeleitete Regeln betrachtet werden können.

Typischerweise werden bei der Kausalinferenz Daten verwendet, die Variablen in einem System entsprechen. Axiome oder Regeln können in Form von induktiven Verzerrungen durch Regularisierung, Modellarchitektur oder spezifische Variablenauswahl in Modelle des maschinellen Lernens integriert werden.

Die „Kausalleiter“ von Judea Pearl definiert mögliche Arten kausaler Schlussfolgerungen basierend auf Unterschieden in den verfügbaren Datentypen (Beobachtungsdaten, Interventionsdaten, kontrafaktische Daten).

Da Axiome der Eckpfeiler der Kausalität sind, müssen wir uns fragen, ob wir Modelle des maschinellen Lernens direkt verwenden können, um Axiome zu lernen. Das heißt, was wäre, wenn der Weg, Axiome zu lernen, nicht darin besteht, Daten zu lernen, die durch einen Datengenerierungsprozess gewonnen wurden, sondern direkt darin, symbolische Demonstrationen von Axiomen zu lernen (und damit kausales Denken zu lernen)?

Im Vergleich zu aufgabenspezifischen Kausalmodellen, die auf der Grundlage spezifischer Datenverteilungen erstellt wurden, hat ein solches Modell einen Vorteil: Es kann kausale Schlussfolgerungen in einer Vielzahl verschiedener nachgelagerter Szenarien ermöglichen. Diese Frage wird wichtig, da Sprachmodelle die Fähigkeit erlangen, in natürlicher Sprache ausgedrückte symbolische Daten zu lernen.

Tatsächlich wurde in einigen neueren Untersuchungen untersucht, ob große Sprachmodelle (LLMs) kausale Inferenzen durchführen können, indem sie Benchmarks erstellen, die kausale Inferenzprobleme in natürlicher Sprache kodieren.

Ein Forschungsteam von Microsoft, MIT und dem Indian Institute of Technology Hyderabad (IIT Hyderabad) hat ebenfalls einen wichtigen Schritt in diese Richtung unternommen: den Vorschlag einesMethoden zum Erlernen des kausalen Denkens durch axiomatisches Training。

Titel der Arbeit: Vermittlung des kausalen Denkens von Transformern durch axiomatisches Training
Papieradresse: https://arxiv.org/pdf/2407.07612

Axiom-Training

Sie stellten die Hypothese auf, dass das kausale Axiom als folgendes symbolisches Tupel „Prämisse, Hypothese, Ergebnis“ ausgedrückt werden kann. Unter ihnen bezieht sich Hypothese auf die Hypothese, das heißt, eine kausale Aussage ist die Prämisse, die sich auf alle relevanten Informationen bezieht, die verwendet werden, um zu bestimmen, ob die Aussage „wahr“ ist. Das Ergebnis kann ein einfaches „Ja“ oder „Nein“ sein.

Beispielsweise kann das Collider-Axiom aus dem Artikel „Können große Sprachmodelle aus Korrelation auf Kausalität schließen?“ ausgedrückt werden als: und die Schlussfolgerung lautet „Ja“.

Basierend auf dieser Vorlage kann eine große Anzahl synthetischer Tupel generiert werden, indem Variablennamen, Variablennummern, Variablenreihenfolge usw. geändert werden.

Um Transformer zum Erlernen kausaler Axiome und zum Implementieren eines Axiomtrainings zu verwenden, verwendete das Team die folgenden Methoden zum Erstellen von Datensätzen, Verlustfunktionen und Positionseinbettungen.

Axiomatisches Training: Datensätze, Verlustfunktionen und Positionskompilierung

Trainingsdaten

Basierend auf einem bestimmten Axiom kann die „Hypothese“ auf der Grundlage der „Prämisse“ der entsprechenden Bezeichnung (Ja oder Nein) zugeordnet werden. Um den Trainingsdatensatz zu erstellen, zählt das Team alle möglichen Tupel {(P, H, L)}_N unter bestimmten Variableneinstellungen X, Y, Z, A auf, wobei P die Prämisse und H die Hypothese ist und L die Bezeichnung ist (Ja oder nein).

Wenn eine Prämisse P auf einem Kausaldiagramm basiert und die Hypothese P unter Verwendung eines bestimmten Axioms (einmal oder mehrmals) abgeleitet werden kann, lautet die Bezeichnung L „Ja“, andernfalls lautet sie „Nein“.

Nehmen wir zum Beispiel an, dass der zugrunde liegende reale Kausalgraph eines Systems eine Kettentopologie hat: X_1 → X_2 → X_3 →・・・→ X_n. Dann ist die mögliche Prämisse X_1 → X_2 ∧ X_2 → X_3, dann nehmen wir an, dass X_1 → Die oben genannten Axiome können mehrfach induktiv verwendet werden, um komplexere Trainingstupel zu erzeugen.

Für die Trainingseinstellung wird ein synthetischer Datensatz D unter Verwendung von N Axiominstanzen erstellt, die durch das Transitivitätsaxiom generiert werden. Jede Instanz in D besteht aus der Form (P_i, H_ij, L_ij), wobei n die Anzahl der Knoten in jeder i-ten Prämisse ist. P ist die Prämisse, das heißt ein natürlichsprachlicher Ausdruck einer bestimmten Kausalstruktur (z. B. X verursacht Y, Y verursacht Z); gefolgt von der Frage H (z. B. verursacht X Y?); oder Nein). Dieses Formular deckt effektiv alle Knotenpaare für jede eindeutige Kette in einem bestimmten Kausalgraphen ab.

verlustfunktion

Bei einem gegebenen Datensatz wird die Verlustfunktion basierend auf der Grundwahrheitsbezeichnung jedes Tupels definiert und ausgedrückt als: Die Analyse zeigt, dass die Verwendung dieses Verlusts im Vergleich zur Vorhersage des nächsten Tokens vielversprechende Ergebnisse liefern kann.

Positionskodierung

Neben Trainings- und Verlustfunktionen ist die Wahl der Positionskodierung ein weiterer wichtiger Faktor. Die Positionskodierung kann wichtige Informationen über die absolute und relative Position des Tokens in der Sequenz liefern.

Der berühmte Artikel „Aufmerksamkeit ist alles, was Sie brauchen“ schlägt eine Codierungsstrategie für absolute Positionen vor, die eine periodische Funktion (Sinus- oder Cosinusfunktion) verwendet, um diese Codes zu initialisieren.

Die absolute Positionskodierung liefert deterministische Werte für alle Positionen beliebiger Sequenzlänge. Einige Untersuchungen zeigen jedoch, dass die absolute Positionscodierung die Längenverallgemeinerungsaufgabe von Transformer nur schwer bewältigen kann. In der lernbaren APE-Variante wird jede Positionseinbettung zufällig initialisiert und mithilfe des Modells trainiert. Diese Methode hat Probleme mit Sequenzen, die länger sind als diejenigen während des Trainings, da die neuen Positionseinbettungen noch nicht trainiert und nicht initialisiert sind.

Interessanterweise deuten neuere Erkenntnisse darauf hin, dass das Entfernen von Positionseinbettungen aus autoregressiven Modellen die Längengeneralisierungsfähigkeiten des Modells verbessert und dass der Aufmerksamkeitsmechanismus während der autoregressiven Dekodierung ausreicht, um Positionsinformationen zu kodieren. Das Team verwendete verschiedene Positionskodierungen, um deren Einfluss auf die Generalisierung bei kausalen Aufgaben zu verstehen, darunter lernbare Positionskodierung (LPE), sinusförmige Positionskodierung (SPE) und keine Positionskodierung (NoPE).

Um die Generalisierungsfähigkeit des Modells zu verbessern, verwendete das Team auch Datenstörungen, einschließlich Störungen der Länge, des Knotennamens, der Kettenreihenfolge und der Verzweigungsbedingungen.

Experiment

Es stellt sich erneut die Frage: Wenn ein Modell anhand dieser Daten trainiert wird, kann das Modell dann lernen, das Axiom auf neue Szenarien anzuwenden?

Um diese Frage zu beantworten, trainierte das Team ein Transformer-Modell von Grund auf anhand einer symbolischen Demonstration dieses kausal unabhängigen Axioms.

Um ihre Generalisierungsleistung zu bewerten, trainierten sie mit einfachen kausal unabhängigen Axiomketten der Knotengröße 3–6 und testeten dann verschiedene Aspekte der Generalisierungsleistung, darunter Längengeneralisierungsleistung (Kettengröße 7–15), Namensgeneralisierung (längere Variablennamen), sequentielle Generalisierung (Ketten mit umgekehrten Kanten oder gemischten Knoten), strukturelle Generalisierung (Graphen mit Verzweigungen). Abbildung 1 zeigt eine Möglichkeit zur Bewertung der strukturellen Verallgemeinerung von Transformer.

Konkret trainierten sie ein Decoder-basiertes Modell mit 67 Millionen Parametern basierend auf der GPT-2-Architektur. Das Modell verfügt über 12 Aufmerksamkeitsebenen, 8 Aufmerksamkeitsköpfe und 512 Einbettungsdimensionen. Sie trainierten das Modell für jeden Trainingsdatensatz von Grund auf. Um die Auswirkungen der Positionseinbettung zu verstehen, untersuchten sie außerdem drei Einstellungen für die Positionseinbettung: sinusförmige Positionskodierung (SPE), erlernbare Positionskodierung (LPE) und keine Positionskodierung (NoPE).

Die Ergebnisse sind in Tabelle 1, Abbildung 3 und Abbildung 4 dargestellt.

Tabelle 1 zeigt die Genauigkeit verschiedener Modelle bei der Auswertung größerer Kausalketten, die während des Trainings nicht beobachtet wurden. Es ist ersichtlich, dass die Leistung des neuen Modells TS2 (NoPE) mit der von GPT-4 mit einer Billionen-Parameterskala vergleichbar ist.

Abbildung 3 zeigt die Bewertungsergebnisse der Generalisierungsfähigkeit für kausale Sequenzen mit längeren Knotennamen (länger als die im Trainingssatz) und die Auswirkungen unterschiedlicher Positionseinbettungen.

Abbildung 4 bewertet die Generalisierungsfähigkeit auf längere, unsichtbare kausale Sequenzen.

Sie fanden heraus, dass Modelle, die auf einfachen Ketten trainiert wurden, auf mehrere Anwendungen von Axiomen auf größeren Ketten verallgemeinert wurden, jedoch keine Verallgemeinerung auf komplexere Szenarien wie sequentielle oder strukturelle Verallgemeinerung gelang. Wenn das Modell jedoch auf einem gemischten Datensatz trainiert wird, der sowohl aus einfachen Ketten als auch aus Ketten mit zufälligen umgekehrten Kanten besteht, lässt sich das Modell gut auf verschiedene Bewertungsszenarien verallgemeinern.

Sie erweiterten die Ergebnisse zur Längengeneralisierung auf NLP-Aufgaben und entdeckten die Bedeutung von Positionseinbettungen für die Sicherstellung einer kausalen Generalisierung über die Länge und andere Dimensionen hinweg. Ihr leistungsstärkstes Modell hatte keine Positionskodierung, aber sie stellten auch fest, dass die Sinuskodierung in manchen Situationen gut funktionierte.

Diese Axiom-Trainingsmethode kann auch auf ein schwierigeres Problem verallgemeinert werden, wie in Abbildung 5 dargestellt. Das heißt, das Ziel der Aufgabe besteht darin, auf der Grundlage von Prämissen, die Aussagen über statistische Unabhängigkeit enthalten, Korrelation und Kausalität zu unterscheiden. Die Lösung dieser Aufgabe erfordert die Kenntnis mehrerer Axiome, einschließlich d-Trennung und Markov-Eigenschaften.

Das Team generierte synthetische Trainingsdaten mit der gleichen Methode wie oben, trainierte dann ein Modell und stellte fest, dass der Transformer, der anhand einer Aufgabendemonstration mit 3–4 Variablen trainiert wurde, lernen konnte, eine Diagrammaufgabe mit 5 Variablen zu lösen. Und bei dieser Aufgabe ist die Genauigkeit dieses Modells höher als die größerer LLMs wie GPT-4 und Gemini Pro.

Das Team sagte: „Unsere Forschung liefert ein neues Paradigma für das Lehren von Modellen zum Erlernen des kausalen Denkens durch symbolische Demonstrationen von Axiomen, was wir als axiomatisches Training bezeichnen. Der Datengenerierungs- und Trainingsprozess dieser Methode ist universell: So lange ein Axiom sein kann.“ ausgedrückt im Format eines symbolischen Tupels, kann es mit dieser Methode gelernt werden.

Belegung

Das Axiom-Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4

Einführung

meine Kontaktdaten