noticias

El entrenamiento de axiomas permite a LLM aprender el razonamiento causal: el modelo de 67 millones de parámetros es comparable al nivel de billones de parámetros GPT-4

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Informe del corazón de la máquina

Editor: Panda

Muestre la cadena causal a LLM y podrá aprender los axiomas.

La IA ya está ayudando a matemáticos y científicos a realizar investigaciones. Por ejemplo, el famoso matemático Terence Tao ha compartido repetidamente su experiencia de investigación y exploración con la ayuda de herramientas de IA como GPT. Para que la IA pueda competir en estos campos, son esenciales capacidades de razonamiento causal sólidas y confiables.

La investigación presentada en este artículo encontró que un modelo Transformer entrenado en demostraciones del axioma de transitividad causal en gráficos pequeños puede generalizarse al axioma de transitividad en gráficos grandes.

En otras palabras, si el Transformador aprende a realizar un razonamiento causal simple, puede usarse para un razonamiento causal más complejo. El marco de entrenamiento de axiomas propuesto por el equipo es un nuevo paradigma para aprender razonamiento causal basado en datos pasivos, que puede usarse para aprender axiomas arbitrarios siempre que la demostración sea suficiente.

introducción

El razonamiento causal se puede definir como un conjunto de procesos de razonamiento que se ajustan a axiomas o reglas predefinidas que abordan específicamente la causalidad. Por ejemplo, las reglas de separación d (separación dirigida) y cálculo do pueden verse como axiomas, mientras que las especificaciones de un conjunto de colisionadores o de un conjunto de patio trasero pueden verse como reglas derivadas de los axiomas.

Normalmente, la inferencia causal utiliza datos que corresponden a variables de un sistema. Los axiomas o reglas se pueden integrar en modelos de aprendizaje automático en forma de sesgos inductivos mediante regularización, arquitectura de modelo o selección de variables específicas.

La "escalera causal" de Judea Pearl define posibles tipos de inferencia causal basados ​​en diferencias en los tipos de datos disponibles (datos de observación, datos de intervención, datos contrafactuales).

Dado que los axiomas son la piedra angular de la causalidad, no podemos evitar preguntarnos si podemos utilizar directamente modelos de aprendizaje automático para aprender axiomas. Es decir, ¿qué pasa si la forma de aprender axiomas no es aprender datos obtenidos a través de algún proceso de generación de datos, sino aprender directamente demostraciones simbólicas de axiomas (y, por tanto, aprender razonamiento causal)?

En comparación con los modelos causales para tareas específicas creados utilizando distribuciones de datos específicas, dicho modelo tiene una ventaja: puede permitir la inferencia causal en una variedad de escenarios posteriores diferentes. Esta pregunta adquiere importancia a medida que los modelos lingüísticos adquieren la capacidad de aprender datos simbólicos expresados ​​en lenguaje natural.

De hecho, algunas investigaciones recientes han evaluado si los modelos de lenguaje grandes (LLM) pueden realizar inferencia causal mediante la creación de puntos de referencia que codifican problemas de inferencia causal en lenguaje natural.

Un equipo de investigación de Microsoft, el MIT y el Instituto Indio de Tecnología de Hyderabad (IIT Hyderabad) también ha dado un paso importante en esta dirección: proponer unaMétodos para aprender el razonamiento causal mediante el entrenamiento axiomático.



  • Título del artículo: Enseñar el razonamiento causal a los transformadores mediante el entrenamiento axiomático
  • Dirección del artículo: https://arxiv.org/pdf/2407.07612

entrenamiento de axiomas

Plantearon la hipótesis de que el axioma causal se puede expresar como la siguiente tupla simbólica ⟨premisa, hipótesis, resultado . Entre ellos, la hipótesis se refiere a la hipótesis, es decir, una declaración causal es la premisa, que se refiere a cualquier información relevante utilizada para determinar si la declaración es "verdadera" o el resultado; El resultado puede ser un simple "sí" o "no".

Por ejemplo, el axioma del colisionador del artículo "¿Pueden los modelos de lenguaje grandes inferir la causalidad a partir de la correlación?" se puede expresar como:, y la conclusión es "sí".



Con base en esta plantilla, se puede generar una gran cantidad de tuplas sintéticas modificando nombres de variables, números de variables, orden de variables, etc.

Para utilizar Transformer para aprender axiomas causales e implementar entrenamiento de axiomas, el equipo utilizó los siguientes métodos para construir conjuntos de datos, funciones de pérdida e incrustaciones de posiciones.

Entrenamiento axiomático: conjuntos de datos, funciones de pérdida y compilación posicional

datos de entrenamiento

Con base en un axioma específico, la "hipótesis" se puede asignar a la etiqueta apropiada (Sí o No) según la "premisa". Para crear el conjunto de datos de entrenamiento, el equipo enumera todas las tuplas posibles {(P, H, L)}_N bajo configuraciones de variables específicas X, Y, Z, A, donde P es la premisa y H es la hipótesis, L es la etiqueta. (Sí o no).

Dada una premisa P basada en algún diagrama causal, si la hipótesis P se puede derivar utilizando un axioma específico (una o más veces), entonces la etiqueta L es Sí; de lo contrario, es No;

Por ejemplo, supongamos que el gráfico causal real subyacente de un sistema tiene una topología en cadena: X_1 → X_2 → X_3 →・・・→ X_n. Entonces, la posible premisa es X_1 → X_2 ∧ X_2 → X_3, luego supongamos que X_1 → Los axiomas anteriores se pueden utilizar de forma inductiva muchas veces para generar tuplas de entrenamiento más complejas.

Para el entorno de entrenamiento, se construye un conjunto de datos sintético D utilizando N instancias de axioma generadas por el axioma de transitividad. Cada instancia en D se construye con la forma (P_i, H_ij, L_ij), donde n es el número de nodos en cada i-ésima premisa. P es la premisa, es decir, una expresión en lenguaje natural de una determinada estructura causal (como X causa Y, Y causa Z seguida de la pregunta H (como ¿X causa Y?); o no). Este formulario cubre efectivamente todos los pares de nodos para cada cadena única en un gráfico causal determinado.



función de pérdida

Dado un conjunto de datos, la función de pérdida se define en función de la etiqueta de verdad fundamental de cada tupla, expresada como: El análisis muestra que el uso de esta pérdida puede dar resultados prometedores en comparación con la predicción del siguiente token.



codificación de posición

Además de las funciones de entrenamiento y pérdida, la elección de la codificación de posición es otro factor importante. La codificación posicional puede proporcionar información clave sobre la posición absoluta y relativa del token en la secuencia.

El famoso artículo "La atención es todo lo que necesitas" propone una estrategia de codificación de posición absoluta que utiliza una función periódica (función seno o coseno) para inicializar estos códigos.

La codificación de posición absoluta proporciona valores deterministas para todas las posiciones de cualquier longitud de secuencia. Sin embargo, algunas investigaciones muestran que la codificación de posición absoluta es difícil de hacer frente a la tarea de generalización de longitud de Transformer. En la variante APE que se puede aprender, cada inserción de posición se inicializa y entrena aleatoriamente utilizando el modelo. Este método tiene problemas con secuencias que son más largas que las del entrenamiento porque las nuevas incorporaciones de posiciones aún no están entrenadas ni inicializadas.

Curiosamente, hallazgos recientes sugieren que eliminar las incrustaciones posicionales de los modelos autorregresivos mejora las capacidades de generalización de longitud del modelo y que el mecanismo de atención durante la decodificación autorregresiva es suficiente para codificar información posicional. El equipo utilizó diferentes codificaciones de posición para comprender su impacto en la generalización en tareas causales, incluida la codificación de posición aprendible (LPE), la codificación de posición sinusoidal (SPE) y la codificación sin posición (NoPE).

Para mejorar la capacidad de generalización del modelo, el equipo también utilizó perturbaciones de datos, incluidas perturbaciones de longitud, nombre de nodo, orden de cadena y condiciones de ramificación.

experimento

La pregunta surge nuevamente: si un modelo se entrena utilizando estos datos, ¿puede el modelo aprender a aplicar el axioma a nuevos escenarios?

Para responder a esta pregunta, el equipo entrenó un modelo Transformer desde cero mediante una demostración simbólica de este axioma causalmente independiente.

Para evaluar su rendimiento de generalización, entrenaron en cadenas de axiomas causalmente independientes simples de tamaño 3-6 nodos y luego probaron varios aspectos diferentes del rendimiento de generalización, incluido el rendimiento de generalización de longitud (cadenas de tamaño 7-15), generalización de nombres (nombres de variables más largos), generalización secuencial (cadenas con aristas invertidas o nodos mezclados), generalización estructural (gráficos con ramas). La Figura 1 muestra una forma de evaluar la generalización estructural de Transformer.



Específicamente, entrenaron un modelo basado en decodificador con 67 millones de parámetros basados ​​en la arquitectura GPT-2. El modelo tiene 12 capas de atención, 8 cabezales de atención y 512 dimensiones de incrustación. Entrenaron el modelo desde cero en cada conjunto de datos de entrenamiento. Para comprender el impacto de la incrustación de posición, también estudiaron tres configuraciones de incrustación de posición: codificación de posición sinusoidal (SPE), codificación de posición aprendible (LPE) y sin codificación de posición (NoPE).

Los resultados se muestran en la Tabla 1, Figura 3 y Figura 4.



La Tabla 1 presenta la precisión de diferentes modelos cuando se evalúan en cadenas causales más grandes que no se ven durante el entrenamiento. Se puede ver que el rendimiento del nuevo modelo TS2 (NoPE) es comparable al del GPT-4 con una escala de parámetros de un billón.

La Figura 3 muestra los resultados de la evaluación de la capacidad de generalización en secuencias causales con nombres de nodos más largos (más largos que los del conjunto de entrenamiento) y el impacto de diferentes incrustaciones de posiciones.



La Figura 4 evalúa la capacidad de generalización a secuencias causales más largas e invisibles.



Descubrieron que los modelos entrenados en cadenas simples se generalizaban a múltiples aplicaciones de axiomas en cadenas más grandes, pero no lograban generalizarse a escenarios más complejos, como la generalización secuencial o estructural. Sin embargo, si el modelo se entrena en un conjunto de datos mixto que consta de cadenas simples y cadenas con bordes inversos aleatorios, el modelo se generaliza bien a varios escenarios de evaluación.

Al ampliar los resultados sobre la generalización de la longitud en tareas de PNL, descubrieron la importancia de las incrustaciones posicionales para garantizar la generalización causal en la longitud y otras dimensiones. Su modelo de mejor rendimiento no tenía codificación posicional, pero también descubrieron que la codificación sinusoidal funcionaba bien en algunas situaciones.

Este método de entrenamiento de axiomas también se puede generalizar a un problema más difícil, como se muestra en la Figura 5. Es decir, basándose en premisas que contienen declaraciones de independencia estadística, el objetivo de la tarea es discernir la correlación de la causalidad. Resolver esta tarea requiere conocimiento de varios axiomas, incluida la separación d y las propiedades de Markov.



El equipo generó datos de entrenamiento sintéticos utilizando el mismo método anterior, luego entrenó un modelo y descubrió que el Transformer entrenado en una demostración de tarea que contenía 3-4 variables podía aprender a resolver una tarea gráfica que contenía 5 variables. Y en esta tarea, la precisión de este modelo es mayor que la de LLM más grandes como GPT-4 y Gemini Pro.



El equipo dijo: "Nuestra investigación proporciona un nuevo paradigma para que los modelos de enseñanza aprendan el razonamiento causal a través de demostraciones simbólicas de axiomas, lo que llamamos entrenamiento axiomático. El proceso de generación de datos y entrenamiento de este método es universal: siempre que un axioma pueda ser". expresado en el formato de una tupla simbólica, se puede aprender utilizando este método.