La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres. GPT-4

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4.

2024-07-16

Rapport sur le cœur de la machine

Editeur : Panda

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes.

L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles.

La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur des démonstrations de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes.

En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation aux axiomes proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, qui peut être utilisé pour apprendre des axiomes arbitraires tant que la démonstration est suffisante.

introduction

Le raisonnement causal peut être défini comme un ensemble de processus de raisonnement conformes à des axiomes ou à des règles prédéfinies qui traitent spécifiquement de la causalité. Par exemple, les règles de séparation d (séparation dirigée) et de calcul peuvent être considérées comme des axiomes, tandis que les spécifications d'un ensemble de collisionneurs ou d'un ensemble d'arrière-cour peuvent être considérées comme des règles dérivées des axiomes.

En règle générale, l'inférence causale utilise des données qui correspondent aux variables d'un système. Des axiomes ou des règles peuvent être intégrés dans des modèles d'apprentissage automatique sous la forme de biais inductifs via la régularisation, l'architecture du modèle ou la sélection de variables spécifiques.

L'« échelle causale » de Judea Pearl définit les types possibles d'inférence causale basés sur les différences dans les types de données disponibles (données d'observation, données d'intervention, données contrefactuelles).

Puisque les axiomes sont la pierre angulaire de la causalité, nous ne pouvons nous empêcher de nous demander si nous pouvons directement utiliser des modèles d’apprentissage automatique pour apprendre des axiomes. Autrement dit, que se passerait-il si la manière d'apprendre des axiomes n'était pas d'apprendre des données obtenues via un processus de génération de données, mais directement d'apprendre des démonstrations symboliques d'axiomes (et donc d'apprendre le raisonnement causal) ?

Comparé aux modèles causals spécifiques à une tâche construits à l’aide de distributions de données spécifiques, un tel modèle présente un avantage : il peut permettre une inférence causale dans une variété de scénarios en aval différents. Cette question devient importante à mesure que les modèles linguistiques acquièrent la capacité d’apprendre des données symboliques exprimées en langage naturel.

En fait, certaines recherches récentes ont évalué si les grands modèles de langage (LLM) pouvaient effectuer une inférence causale en créant des références codant pour les problèmes d'inférence causale en langage naturel.

Une équipe de recherche de Microsoft, du MIT et de l'Institut indien de technologie d'Hyderabad (IIT Hyderabad) a également franchi une étape importante dans cette direction : en proposant unMéthodes d'apprentissage du raisonnement causal grâce à la formation axiomatique。

Titre de l'article : Enseigner le raisonnement causal aux transformateurs grâce à la formation axiomatique
Adresse papier : https://arxiv.org/pdf/2407.07612

Formation Axiome

Ils ont émis l’hypothèse que l’axiome causal peut être exprimé sous la forme du tuple symbolique suivant ⟨prémisse, hypothèse, résultat　. Parmi eux, l'hypothèse fait référence à l'hypothèse, c'est-à-dire qu'une prémisse causale est la prémisse, qui fait référence à toute information pertinente utilisée pour déterminer si la déclaration est « vraie » ; Le résultat peut être un simple « oui » ou « non ».

Par exemple, l'axiome du collisionneur issu de l'article « Les grands modèles de langage peuvent-ils déduire une causalité à partir d'une corrélation ? » peut être exprimé comme suit : et la conclusion est « oui ».

Sur la base de ce modèle, un grand nombre de tuples synthétiques peuvent être générés en modifiant les noms de variables, les numéros de variables, l'ordre des variables, etc.

Afin d'utiliser Transformer pour apprendre les axiomes causals et mettre en œuvre la formation aux axiomes, l'équipe a utilisé les méthodes suivantes pour construire des ensembles de données, des fonctions de perte et des intégrations de positions.

Formation axiomatique : ensembles de données, fonctions de perte et compilation positionnelle

données d'entraînement

Sur la base d'un axiome spécifique, « l'hypothèse » peut être mappée à l'étiquette appropriée (Oui ou Non) en fonction de la « prémisse ». Pour créer l'ensemble de données d'entraînement, l'équipe énumère tous les tuples possibles {(P, H, L)}_N sous des paramètres de variables spécifiques X, Y, Z, A, où P est la prémisse et H est l'hypothèse, L est l'étiquette (Oui ou non).

Étant donné une prémisse P basée sur un diagramme causal, si l'hypothèse P peut être dérivée en utilisant un axiome spécifique (une ou plusieurs fois), alors l'étiquette L est Oui, sinon elle est Non ;

Par exemple, supposons que le graphe causal réel sous-jacent d'un système ait une topologie en chaîne : X_1 → X_2 → X_3 →・・・→ X_n. Alors, la prémisse possible est X_1 → X_2 ∧ X_2 → X_3, alors supposons que X_1 → Les axiomes ci-dessus peuvent être utilisés de manière inductive plusieurs fois pour générer des tuples de formation plus complexes.

Pour le cadre de formation, un ensemble de données synthétiques D est construit à l'aide de N instances d'axiome générées par l'axiome de transitivité. Chaque instance de D est construite sous la forme (P_i, H_ij, L_ij), où n est le nombre de nœuds dans chaque i-ième prémisse. P est la prémisse, c'est-à-dire une expression en langage naturel d'une certaine structure causale (telle que X provoque Y, Y provoque Z) suivie de la question H (telle que X provoque Y ? L est l'étiquette (Oui) ; ou pas). Ce formulaire couvre effectivement toutes les paires de nœuds pour chaque chaîne unique dans un graphe causal donné.

fonction de perte

Étant donné un ensemble de données, la fonction de perte est définie en fonction de l'étiquette de vérité terrain de chaque tuple, exprimée comme suit : L'analyse montre que l'utilisation de cette perte peut donner des résultats prometteurs par rapport à la prédiction du prochain jeton.

codage de position

Outre les fonctions d’entraînement et de perte, le choix du codage de position est un autre facteur important. Le codage positionnel peut fournir des informations clés sur la position absolue et relative du jeton dans la séquence.

Le célèbre article « Attention is all you need » propose une stratégie de codage de position absolue qui utilise une fonction périodique (fonction sinus ou cosinus) pour initialiser ces codes.

Le codage de position absolue fournit des valeurs déterministes pour toutes les positions de n'importe quelle longueur de séquence. Cependant, certaines recherches montrent que le codage de position absolue est difficile à réaliser avec la tâche de généralisation de longueur de Transformer. Dans la variante APE apprenable, chaque intégration de position est initialisée et entraînée de manière aléatoire à l'aide du modèle. Cette méthode a du mal avec les séquences plus longues que celles de l'entraînement car les nouvelles intégrations de positions ne sont toujours pas entraînées et non initialisées.

Il est intéressant de noter que des découvertes récentes suggèrent que la suppression des intégrations positionnelles des modèles autorégressifs améliore les capacités de généralisation de la longueur du modèle et que le mécanisme d'attention lors du décodage autorégressif est suffisant pour coder les informations de position. L’équipe a utilisé différents codages de position pour comprendre leur impact sur la généralisation dans les tâches causales, notamment le codage de position apprenable (LPE), le codage de position sinusoïdale (SPE) et l’absence de codage de position (NoPE).

Afin d'améliorer la capacité de généralisation du modèle, l'équipe a également utilisé des perturbations de données, notamment des perturbations de longueur, de nom de nœud, d'ordre de chaîne et de conditions de branchement.

expérience

La question se pose à nouveau : si un modèle est entraîné à l’aide de ces données, le modèle peut-il apprendre à appliquer l’axiome à de nouveaux scénarios ?

Pour répondre à cette question, l’équipe a formé un modèle Transformer à partir de zéro en utilisant une démonstration symbolique de cet axiome causalement indépendant.

Pour évaluer leurs performances de généralisation, ils se sont entraînés sur des chaînes d'axiomes simples, causalement indépendantes, de taille 3 à 6 nœuds, puis ont testé plusieurs aspects différents des performances de généralisation, notamment les performances de généralisation de longueur (chaînes de taille 7 à 15), la généralisation de noms (noms de variables plus longs), généralisation séquentielle (chaînes à bords inversés ou nœuds mélangés), généralisation structurelle (graphes avec branches). La figure 1 montre une manière d'évaluer la généralisation structurelle de Transformer.

Plus précisément, ils ont formé un modèle basé sur un décodeur avec 67 millions de paramètres basés sur l'architecture GPT-2. Le modèle comporte 12 couches d'attention, 8 têtes d'attention et 512 dimensions d'intégration. Ils ont formé le modèle à partir de zéro sur chaque ensemble de données de formation. Pour comprendre l'impact de l'intégration de position, ils ont également étudié trois paramètres d'intégration de position : le codage de position sinusoïdale (SPE), le codage de position apprenable (LPE) et l'absence de codage de position (NoPE).

Les résultats sont présentés dans le tableau 1, la figure 3 et la figure 4.

Le tableau 1 présente la précision de différents modèles lorsqu'ils sont évalués sur des chaînes causales plus larges non observées lors de la formation. On peut constater que les performances du nouveau modèle TS2 (NoPE) sont comparables à celles du GPT-4 avec une échelle de paramètres d'un billion de milliards.

La figure 3 montre les résultats de l'évaluation de la capacité de généralisation sur des séquences causales avec des noms de nœuds plus longs (plus longs que ceux de l'ensemble d'apprentissage) et l'impact de différentes intégrations de positions.

La figure 4 évalue la capacité de généralisation à des séquences causales plus longues et invisibles.

Ils ont constaté que les modèles formés sur des chaînes simples se généralisaient à de multiples applications d'axiomes sur des chaînes plus grandes, mais ne parvenaient pas à se généraliser à des scénarios plus complexes tels que la généralisation séquentielle ou structurelle. Cependant, si le modèle est formé sur un ensemble de données mixte composé de chaînes simples ainsi que de chaînes avec des bords inversés aléatoires, le modèle se généralise bien à divers scénarios d'évaluation.

En étendant les résultats sur la généralisation de la longueur aux tâches de PNL, ils ont découvert l'importance des plongements positionnels pour assurer la généralisation causale sur la longueur et d'autres dimensions. Leur modèle le plus performant ne comportait aucun codage de position, mais ils ont également constaté que le codage sinusoïdal fonctionnait bien dans certaines situations.

Cette méthode de formation aux axiomes peut également être généralisée à un problème plus difficile, comme le montre la figure 5. Autrement dit, sur la base de prémisses contenant des déclarations d'indépendance statistique, l'objectif de la tâche est de discerner la corrélation de la causalité. La résolution de cette tâche nécessite la connaissance de plusieurs axiomes, notamment la séparation d et les propriétés de Markov.

L'équipe a généré des données de formation synthétiques en utilisant la même méthode que ci-dessus, puis a formé un modèle et a découvert que le transformateur formé sur une démonstration de tâche contenant 3 à 4 variables pouvait apprendre à résoudre une tâche graphique contenant 5 variables. Et sur cette tâche, la précision de ce modèle est supérieure à celle des LLM plus grands tels que GPT-4 et Gemini Pro.

L'équipe a déclaré : « Notre recherche fournit un nouveau paradigme pour les modèles d'enseignement permettant d'apprendre le raisonnement causal à travers des démonstrations symboliques d'axiomes, que nous appelons formation axiomatique. Le processus de génération de données et de formation de cette méthode est universel : tant qu'un axiome peut être. » exprimé sous la forme d'un tuple symbolique, il peut être appris grâce à cette méthode.

nouvelles

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4.

Introduction

mes coordonnées