O treinamento Axiom permite que o LLM aprenda o raciocínio causal: o modelo de 67 milhões de parâmetros é comparável ao nível de trilhões de parâmetros GPT-4

2024-07-16

Relatório do coração da máquina

Editor: Panda

Mostre a cadeia causal ao LLM e ele poderá aprender os axiomas.

A IA já está ajudando matemáticos e cientistas a realizar pesquisas. Por exemplo, o famoso matemático Terence Tao compartilhou repetidamente sua experiência de pesquisa e exploração com a ajuda de ferramentas de IA como o GPT. Para que a IA possa competir nestes domínios, são essenciais capacidades de raciocínio causal fortes e fiáveis.

A pesquisa apresentada neste artigo descobriu que um modelo Transformer treinado em demonstrações do axioma da transitividade causal em gráficos pequenos pode generalizar para o axioma da transitividade em gráficos grandes.

Em outras palavras, se o Transformer aprender a realizar raciocínios causais simples, ele poderá ser usado para raciocínios causais mais complexos. A estrutura de treinamento de axiomas proposta pela equipe é um novo paradigma para o aprendizado do raciocínio causal baseado em dados passivos, que pode ser usado para aprender axiomas arbitrários, desde que a demonstração seja suficiente.

introdução

O raciocínio causal pode ser definido como um conjunto de processos de raciocínio que estão em conformidade com axiomas ou regras predefinidas que abordam especificamente a causalidade. Por exemplo, as regras de separação d (separação direcionada) e cálculo podem ser vistas como axiomas, enquanto as especificações de um conjunto colisor ou de quintal podem ser vistas como regras derivadas dos axiomas.

Normalmente, a inferência causal utiliza dados que correspondem a variáveis em um sistema. Axiomas ou regras podem ser integrados em modelos de aprendizado de máquina na forma de vieses indutivos por meio de regularização, arquitetura de modelo ou seleção de variáveis específicas.

A “escada causal” de Judea Pearl define possíveis tipos de inferência causal com base nas diferenças nos tipos de dados disponíveis (dados de observação, dados de intervenção, dados contrafactuais).

Como os axiomas são a base da causalidade, não podemos deixar de nos perguntar se podemos usar modelos de aprendizado de máquina diretamente para aprender axiomas. Isto é, e se a maneira de aprender axiomas não for aprender dados obtidos através de algum processo de geração de dados, mas aprender diretamente demonstrações simbólicas de axiomas (e, portanto, aprender raciocínio causal)?

Comparado com modelos causais específicos de tarefas construídos usando distribuições de dados específicas, tal modelo tem uma vantagem: pode permitir inferência causal em uma variedade de cenários downstream diferentes. Esta questão torna-se importante à medida que os modelos de linguagem ganham a capacidade de aprender dados simbólicos expressos em linguagem natural.

Na verdade, algumas pesquisas recentes avaliaram se grandes modelos de linguagem (LLMs) podem realizar inferência causal criando benchmarks que codificam problemas de inferência causal em linguagem natural.

Uma equipe de pesquisa da Microsoft, do MIT e do Instituto Indiano de Tecnologia de Hyderabad (IIT Hyderabad) também deu um passo importante nessa direção: propor umMétodos para aprender raciocínio causal por meio de treinamento axiomático。

Título do artigo: Ensinando raciocínio causal de transformadores por meio de treinamento axiomático
Endereço do artigo: https://arxiv.org/pdf/2407.07612

Treinamento de axiomas

Eles levantaram a hipótese de que o axioma causal pode ser expresso como a seguinte tupla simbólica ⟨premissa, hipótese, resultado　. Entre eles, a hipótese refere-se à hipótese, ou seja, uma afirmação causal é a premissa, que se refere a qualquer informação relevante usada para determinar se o resultado da afirmação é “verdadeiro”; O resultado pode ser um simples “sim” ou “não”.

Por exemplo, o axioma do colisor do artigo "Os grandes modelos de linguagem podem inferir causalidade a partir da correlação" pode ser expresso como: e a conclusão é "sim".

Com base neste modelo, um grande número de tuplas sintéticas pode ser gerado modificando nomes de variáveis, números de variáveis, ordem de variáveis, etc.

Para usar o Transformer para aprender axiomas causais e implementar o treinamento de axiomas, a equipe usou os seguintes métodos para construir conjuntos de dados, funções de perda e incorporações de posição.

Treinamento Axiomático: Conjuntos de Dados, Funções de Perda e Compilação Posicional

dados de treinamento

Com base em um axioma específico, a “hipótese” pode ser mapeada para o rótulo apropriado (Sim ou Não) com base na “premissa”. Para criar o conjunto de dados de treinamento, a equipe enumera todas as tuplas possíveis {(P, H, L)}_N sob configurações de variáveis específicas X, Y, Z, A, onde P é a premissa e H é a hipótese, L é o rótulo (Sim ou não).

Dada uma premissa P baseada em algum diagrama causal, se a hipótese P puder ser derivada usando um axioma específico (uma ou mais vezes), então o rótulo L é Sim, caso contrário é Não;

Por exemplo, suponha que o gráfico causal real subjacente de um sistema tenha uma topologia em cadeia: X_1 → X_2 → X_3 →・・・→ X_n. Então, a premissa possível é X_1 → X_2 ∧ X_2 → X_3, então assuma que X_1 → Os axiomas acima podem ser usados indutivamente muitas vezes para gerar tuplas de treinamento mais complexas.

Para o cenário de treinamento, um conjunto de dados sintético D é construído usando instâncias do axioma N geradas pelo axioma da transitividade. Cada instância em D é construída na forma (P_i, H_ij, L_ij), onde n é o número de nós em cada i-ésima premissa. P é a premissa, ou seja, uma expressão em linguagem natural de uma determinada estrutura causal (como X causa Y, Y causa Z seguida pela pergunta H (como X causa Y?); L é o rótulo (Sim). ou não). Este formulário cobre efetivamente todos os pares de nós para cada cadeia única em um determinado gráfico causal.

função de perda

Dado um conjunto de dados, a função de perda é definida com base no rótulo verdadeiro de cada tupla, expresso como: A análise mostra que o uso dessa perda pode fornecer resultados promissores em comparação com a próxima previsão do token.

codificação de posição

Além das funções de treinamento e perda, a escolha da codificação de posição é outro fator importante. A codificação posicional pode fornecer informações importantes sobre a posição absoluta e relativa do token na sequência.

O famoso artigo "Atenção é tudo que você precisa" propõe uma estratégia de codificação de posição absoluta que utiliza uma função periódica (função seno ou cosseno) para inicializar esses códigos.

A codificação de posição absoluta fornece valores determinísticos para todas as posições de qualquer comprimento de sequência. No entanto, algumas pesquisas mostram que a codificação de posição absoluta é difícil de lidar com a tarefa de generalização de comprimento do Transformer. Na variante APE que pode ser aprendida, cada incorporação de posição é inicializada aleatoriamente e treinada usando o modelo. Este método luta com sequências que são mais longas do que aquelas durante o treinamento porque os novos encaixes de posição ainda não foram treinados e não foram inicializados.

Curiosamente, descobertas recentes sugerem que a remoção de incorporações posicionais de modelos autoregressivos melhora as capacidades de generalização de comprimento do modelo e que o mecanismo de atenção durante a decodificação autoregressiva é suficiente para codificar informações posicionais. A equipe usou diferentes codificações de posição para compreender seu impacto na generalização em tarefas causais, incluindo codificação de posição aprendível (LPE), codificação de posição sinusoidal (SPE) e sem codificação de posição (NoPE).

Para melhorar a capacidade de generalização do modelo, a equipe também usou perturbações de dados, incluindo perturbações de comprimento, nome do nó, ordem da cadeia e condições de ramificação.

experimentar

A questão surge novamente: se um modelo for treinado usando esses dados, o modelo poderá aprender a aplicar o axioma a novos cenários?

Para responder a esta pergunta, a equipe treinou um modelo Transformer do zero usando uma demonstração simbólica deste axioma causalmente independente.

Para avaliar seu desempenho de generalização, eles treinaram em cadeias de axiomas simples causalmente independentes de nós de tamanho 3-6 e, em seguida, testaram vários aspectos diferentes do desempenho de generalização, incluindo desempenho de generalização de comprimento (cadeias de tamanho 7-15), generalização de nomes (nomes de variáveis mais longos), generalização sequencial (cadeias com arestas invertidas ou nós embaralhados), generalização estrutural (gráficos com ramificações). A Figura 1 mostra uma forma de avaliar a generalização estrutural do Transformer.

Especificamente, eles treinaram um modelo baseado em decodificador com 67 milhões de parâmetros baseados na arquitetura GPT-2. O modelo possui 12 camadas de atenção, 8 cabeças de atenção e 512 dimensões de incorporação. Eles treinaram o modelo do zero em cada conjunto de dados de treinamento. Para entender o impacto da incorporação de posição, eles também estudaram três configurações de incorporação de posição: codificação de posição sinusoidal (SPE), codificação de posição aprendível (LPE) e sem codificação de posição (NoPE).

Os resultados são mostrados na Tabela 1, Figura 3 e Figura 4.

A Tabela 1 apresenta a precisão de diferentes modelos quando avaliados em cadeias causais maiores não observadas durante o treinamento. Pode-se observar que o desempenho do novo modelo TS2 (NoPE) é comparável ao do GPT-4 com uma escala de trilhões de parâmetros.

A Figura 3 mostra os resultados da avaliação da capacidade de generalização em sequências causais com nomes de nós mais longos (mais longos que aqueles no conjunto de treinamento) e o impacto de diferentes incorporações de posição.

A Figura 4 avalia a capacidade de generalização para sequências causais invisíveis mais longas.

Eles descobriram que os modelos treinados em cadeias simples generalizavam para múltiplas aplicações de axiomas em cadeias maiores, mas não conseguiam generalizar para cenários mais complexos, como generalização sequencial ou estrutural. No entanto, se o modelo for treinado em um conjunto de dados misto que consiste em cadeias simples, bem como em cadeias com arestas reversas aleatórias, o modelo generaliza bem para vários cenários de avaliação.

Ampliando os resultados sobre generalização de comprimento em tarefas de PNL, eles descobriram a importância dos embeddings posicionais para garantir a generalização causal em comprimento e outras dimensões. Seu modelo de melhor desempenho não tinha codificação posicional, mas eles também descobriram que a codificação senoidal funcionava bem em algumas situações.

Este método de treinamento de axiomas também pode ser generalizado para um problema mais difícil, conforme mostrado na Figura 5. Isto é, com base em premissas que contêm declarações de independência estatística, o objetivo da tarefa é discernir a correlação da causalidade. Resolver esta tarefa requer conhecimento de vários axiomas, incluindo separação d e propriedades de Markov.

A equipe gerou dados de treinamento sintéticos usando o mesmo método acima, depois treinou um modelo e descobriu que o Transformer treinado em uma demonstração de tarefa contendo 3-4 variáveis poderia aprender a resolver uma tarefa gráfica contendo 5 variáveis. E nesta tarefa, a precisão deste modelo é maior do que a de LLMs maiores, como GPT-4 e Gemini Pro.

A equipe disse: “Nossa pesquisa fornece um novo paradigma para modelos de ensino para aprender raciocínio causal por meio de demonstrações simbólicas de axiomas, que chamamos de treinamento axiomático. O processo de geração de dados e treinamento deste método é universal: desde que um axioma possa ser”. expresso no formato de uma tupla simbólica, pode ser aprendido usando este método.

notícias

O treinamento Axiom permite que o LLM aprenda o raciocínio causal: o modelo de 67 milhões de parâmetros é comparável ao nível de trilhões de parâmetros GPT-4

Introdução

minhas informações de contato