notícias

O discurso do ICML2024 se tornou viral! Meta Zhu Zeyuan revela o mundo interior dos grandes modelos: diferente do raciocínio humano!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Como um modelo de linguagem grande (LLM) resolve problemas matemáticos? É através da memória modelo ou é realmente aprender a raciocinar? Qual é o processo aritmético mental do modelo? Que habilidades de raciocínio podem ser aprendidas? Igual aos humanos ou além dos humanos? Aprender apenas um tipo de problema matemático ajudará no desenvolvimento da inteligência geral? Por que os LLMs cometem erros de raciocínio? Quanta profundidade de LLM é necessária para raciocinar?



Endereço do artigo: https://arxiv.org/abs/2407.20311

Recentemente, uma equipe de quatro pessoas da Meta FAIR, CMU e MBZUAI, incluindo Ye Tian, ​​​​Xu Zicheng, Li Yuanzhi e Zhu Zeyuan, lançou o último artigo arXiv "Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes "usando experimentos controlados para responder perguntas inteligentes sobre as questões acima. O usuário do Twitter @xlr8harder comentou: "Este resultado encerrará de uma vez por todas o debate sobre se o LLM tem capacidade de raciocínio ou é apenas um papagaio aleatório."

Nota do editor: Toda a série de "Language Model Physics" foi convidada a apresentar um relatório especial de duas horas na ICML 2024 International Machine Learning Top Conference em 22 de julho. a cena. Aqui apresento a vocês a Parte 2.1 da série.



figura 1

Explicação detalhada do artigo

Em primeiro lugar, de acordo com a convenção desta série, o autor acredita que não se deve adivinhar a forma de pensar conversando com modelos grandes como o GPT-4. Embora seja viável, não é. rigoroso o suficiente para revelar cientificamente o pensamento interno do processo GPT-4.

Além disso, do ponto de vista dos dados, somente acessando totalmente os dados de pré-treinamento do modelo podemos saber quais questões o modelo viu e quais foram aprendidas por inferência. Mesmo que um modelo obtenha pontuações altas no GSM8k, um conjunto de referência de 8.000 questões de matemática do ensino fundamental, é difícil dizer se ele viu variações dessas questões (como variações em diferentes idiomas ou reescritas do GPT-4).

Para tanto, o autor criou o iGSM, um conjunto sintético de questões mentais que simula o nível de matemática do ensino fundamental, e permitiu que o modelo fosse pré-treinado no iGSM do zero para controlar os tipos de questões às quais o modelo está exposto. Vale ressaltar que o iGSM não contém informações de bom senso, apenas adição, subtração e multiplicação dentro da faixa mod 23, e todos os cálculos são realizados passo a passo usando CoT. Com o iGSM, podem ser conduzidos experimentos controlados que estudam especificamente as capacidades de inferência do modelo, ignorando outros fatores (como aritmética de números inteiros grandes). A Figura 2 mostra um exemplo simples.



Figura 2

Usando este conjunto de dados, o autor primeiro testou o desempenho do GPT2 (versão RoPE). Usando op para representar o número de etapas de operação matemática necessárias para resolver o problema, o autor descobriu que quando treinado em questões com op≤21, o modelo pode não apenas atingir 99% de precisão, mas também obter melhor desempenho em questões mais difíceis (como como op=32 ), mantendo uma taxa de precisão de 83% (ver Figura 3). Isso mostra que o modelo aprendeu algumas habilidades de raciocínio, afinal nunca viu questões com op>21. (A propósito, GPT-4o só pode lidar com questões com op = 10 neste conjunto de dados. Qualquer coisa além dessa dificuldade é como uma adivinhação cega. Discutiremos esse assunto no final do artigo.)

Então, que tipo de habilidades de raciocínio o modelo aprendeu? Existem pelo menos duas maneiras de pensar na resolução dos problemas matemáticos do iGSM. Um deles é o que o autor chama de "Raciocínio de nível 0 ", isto é, "o cálculo violento pode ser calculado". Como as variáveis ​​em questão podem ter dependências complexas, algumas podem ser calculadas diretamente, enquanto outras precisam ser calculadas primeiro. Por exemplo, se Xiao Zhang tem 3 vezes mais frutas que Xiao Wang, então ele deve primeiro calcular quantas maçãs e peras. Xiao Wang sim. E só depois de resumir podemos começar a calcular o número de frutas para Xiao Zhang. "Raciocínio de nível 0" é enumerar todas as variáveis ​​​​tanto quanto possível, encontrar aleatoriamente uma variável calculável a cada vez, calcular o resultado e continuar.

Correspondente a isso é "Raciocínio de nível 1 ": Por meio da classificação topológica, comece a partir do problema e trabalhe de trás para frente para determinar quais variáveis ​​precisam ser calculadas e, em seguida, comece a partir dos nós folha e calcule para cima para buscar a "resposta mais curta". As soluções comuns de problemas matemáticos geralmente usam raciocínio de nível 1 e não calculam "variáveis ​​desnecessárias". Por exemplo, Xiao Zhang tem três vezes mais frutas do que Xiao Wang. Se você perguntar a Xiao Zhang quantas frutas ele tem, então o número de maçãs de Xiao Li é uma variável desnecessária, enquanto o número de maçãs e peras de Xiao Wang são necessários.

Conforme mostrado na Figura 3, o autor descobriu que o GPT-2 pode aprender o raciocínio de nível 1 e dar a resposta mais curta quase sempre. Isto é muito simples! Porque antes de o modelo gerar a primeira sentença, toda a classificação topológica deve ter sido feita em sua mente - caso contrário, como ele saberia quais variáveis ​​são desnecessárias? Se o modelo gerar “Xiao Li tem 7 maçãs” desde o início, não há como voltar atrás e a resposta mais curta não pode ser obtida.



imagem 3

Então, como o modelo aprende o “raciocínio de nível 1”? Para tanto, o autor realizou um estudo de sondagem sobre os parâmetros internos do modelo (ver Figura 4). A conclusão mostra (veja o artigo para detalhes sobre o método de sondagem) que antes de o modelo gerar a primeira sentença, ele já determinou qual variável A é "necessária" através da aritmética mental (nece (A) = Verdadeiro). Ao mesmo tempo, após cada frase ser falada, o modelo também calcula mentalmente todas as variáveis ​​"computáveis" subsequentes A (cannext (A)=True). Portanto, o modelo só precisa executar continuamente operações lógicas AND em nece e cannext, e o processo de cálculo completo pode ser dado passo a passo a partir dos nós folha.

Notavelmente, essas complexas habilidades aritméticas mentais não apareceram no conjunto de treinamento. O modelo foi exposto apenas aos dados iGSM e viu apenas a parte da "linguagem" (perguntas e respostas), mas aprendeu de forma independente um processo de pensamento semelhante ao humano (processo mental) e chegou à solução ideal!Em outras palavras, esta pesquisa refuta nosso relatório de uma semana atrás em "Linguagem ≠ Pensamento, grandes modelos não conseguem aprender o raciocínio: um artigo da Nature fez a comunidade de IA explodir" e provou isso usando métodos científicos.Grandes modelos podem realmente aprender a pensar através da linguagem

O que é ainda mais surpreendente é que o modelo aprende mais do que isso. Na Figura 4, o autor também constatou que o modelo calcula mentalmente muitas informações que são inúteis para a resolução do problema. Por exemplo, depois de a relação entre variáveis ​​ter sido descrita, ou mesmo antes de a pergunta ser feita, o modelo já sabe se existe uma dependência recursiva entre quaisquer duas variáveis ​​A e B - mesmo que estas variáveis ​​sejam irrelevantes para a resolução do problema. Para humanos, geralmente começamos a partir da pergunta e trabalhamos de trás para frente, ignorando variáveis ​​desnecessárias, mas um modelo de linguagem como o GPT-2 examinará todo o gráfico de relacionamento para lidar com quaisquer perguntas que possam ser feitas no futuro. O autor chama essa habilidade de "Raciocínio de nível 2」。

Embora o Raciocínio de Nível 2 não seja necessário para a resolução de problemas, é certamente uma habilidade mais geral. O modelo aproveita recursos paralelos para realizar uma grande quantidade de classificação de causa e efeito de informações. Essa habilidade é dominada pelo modelo de linguagem quando ele aprende a resolver problemas. Ninguém (dados) o ensinou a fazer isso. O autor especula que esta pode ser a origem potencial do termo “universal” na inteligência artificial geral (AGI), ou seja, os modelos de linguagem podem aprender habilidades mais gerais além das habilidades ensinadas pelo conjunto de dados.



Figura 4

A seguir, os autores analisaram por que o modelo cometeu o erro. Em resumo, no conjunto de dados iGSM, o modelo comete quase apenas dois tipos de erros: um é calcular variáveis ​​desnecessárias e o outro é calcular variáveis ​​que atualmente são incalculáveis, conforme mostrado na Figura 5.

Em relação ao primeiro, o autor descobriu que se o modelo cometer um erro de cálculo mental antes de gerar a resposta e acreditar erroneamente que uma determinada variável A é “necessária” (nece (A) = Verdadeira), então o modelo provavelmente calculará A à força. ao gerar a resposta. Isso produz uma solução não mais curta. Esta descoberta é muito interessante e sugere que muitos dos erros são sistemáticos e que o modelo está convencido de que cometerá um erro (por meio de sondagens) antes mesmo de abrir a boca, antes mesmo do primeiro token ser gerado. Este tipo de erro não tem nada a ver com aleatoriedade no processo de geração do modelo ou busca de feixe.

Quanto a este último, o autor também o atribui a erros aritméticos mentais e usará todo um artigo de acompanhamento da Parte 2.2 para melhorar especificamente a capacidade aritmética mental do modelo, de modo a, em última análise, melhorar a precisão da resolução de problemas. O papel ainda não foi divulgado e continuaremos atentos e reportando nas contas públicas.



Figura 5

A próxima conclusão é que o autor refutou o “só o grande” enfatizado na lei de escala dos modelos grandes, ou seja, o desempenho do modelo está relacionado apenas ao número de parâmetros, e nada tem a ver com a largura ou profundidade. Esta visão foi proposta pela primeira vez no documento Scaling Law da OpenAI e foi seguida em quase todas as pesquisas subsequentes.

O autor conduziu um experimento controlado através do conjunto de dados iGSM, conforme mostrado na Figura 6. Ao comparar modelos menores e mais profundos com modelos maiores e mais amplos, descobrimos que para resolver problemas matemáticos no iGSM,A profundidade do modelo é obviamente mais importante que a largura . Por exemplo, um modelo de 20 camadas e 9 cabeças tem um desempenho muito melhor do que um modelo de 4 camadas e 30 cabeças, embora este último tenha o dobro de parâmetros.

Indo além, o autor encontrouA confiança na profundidade surge da complexidade da aritmética mental do modelo . Através de estudos de sondagem em diferentes profundidades do modelo, o autor descobriu que para as variáveis ​​A que estão longe do problema, a aritmética mental necessária (A) muitas vezes requer mais camadas. Especificamente, se a distância entre a variável A e a variável do problema for t, então são necessários t passos de aritmética mental para saber que nece (A)=Verdadeiro. Quanto maior for t, mais camadas o modelo requer, conforme mostrado na Figura 6.

O autor enfatiza que a dependência do modelo em profundidade não pode ser compensada pela Cadeia de Pensamento (CoT). Na verdade, a resolução de problemas matemáticos no iGSM tem utilizado o CoT tanto quanto possível, ou seja, todos os cálculos são divididos passo a passo. Mesmo assim, o modelo ainda precisa fazer aritmética mental para planejar qual deveria ser o primeiro passo do CoT - e esse processo aritmético mental ainda pode exigir múltiplas etapas. Isso explica a dependência do modelo em relação à profundidade.



Figura 6

Resumindo, ao contrário de mais de 99% dos artigos que estudam o processo comportamental do LLM, o autor deste artigo faz uma nova abordagem e revela o processo mental do LLM na resolução de problemas matemáticos, o que fornece novos insights sobre a inteligência do LLM. perspectiva.

Ao final do artigo, o autor ressalta que mesmo o GPT-4 só consegue realizar até 10 etapas de raciocínio no conjunto de dados iGSM. Isto mostra que mesmo os modelos atuais mais poderosos, que aproveitam supostamente todos os dados da Internet, ainda são incapazes de completar com precisão mais de 10 passos de inferência. Isto implica que os dados de pré-treinamento utilizados pelos grandes modelos existentes ainda podem ter muito espaço para melhorias. Através do método deste artigo, pode ser uma nova possibilidade estabelecer dados sintetizados artificialmente para melhorar a capacidade de raciocínio e a capacidade de classificação de informações do modelo.