Os dois modelos pequenos podem verificar-se mutuamente e comparar diretamente com o modelo grande? O rStar da Microsoft nem usa CoT

2024-08-16

Relatório do coração da máquina

Editor: Panda

Verifiquem uns com os outros para que modelos pequenos possam resolver grandes problemas.

O LLM é conhecido por ser poderoso, mas não o suficiente para realizar raciocínios complexos.

Por exemplo, no conjunto de dados GSM8K, o Mistral-7B só consegue atingir uma precisão de 36,5%, mesmo usando tecnologias como Chain of Thought (CoT). Embora o ajuste fino possa de fato melhorar efetivamente as capacidades de raciocínio, a maior parte do LLM depende de dados de ajuste fino que foram destilados por modelos mais poderosos, como o GPT-4, ou podem até ter sido sintetizados por esses modelos poderosos.

Ao mesmo tempo, os pesquisadores também estão desenvolvendo ativamente um método auxiliar, mas mais difícil: usar um LLM de professor melhor para melhorar a capacidade de raciocínio.

Para melhorar a capacidade de raciocínio sem um modelo melhor, um paradigma promissor é utilizar o conhecimento do próprio LLM. Por exemplo, um método denominado RAP adota uma solução de autoexploração, ou seja, melhora iterativamente o desempenho do raciocínio do LLM por meio de feedback auto-recompensador. Infelizmente, a investigação mostra que este paradigma tem dois problemas fundamentais.

Primeiro, o LLM muitas vezes tem dificuldade para explorar com eficiência o espaço de soluções ao realizar inferências. Essa abordagem autoexploratória muitas vezes fica presa em um espaço de solução devido a etapas de raciocínio de baixa qualidade, mesmo após diversas tentativas.

Em segundo lugar, mesmo que a autoexploração encontre etapas de inferência de alta qualidade, é difícil para uma versão pequena do modelo de linguagem grande (SLM) discernir quais etapas de inferência são de maior qualidade e determinar se a resposta final está correta, tornando-a difícil orientar eficazmente a autoexploração. A pesquisa mostra que a autoexploração guiada baseada em recompensas regulares básicas não produz resultados melhores do que suposições aleatórias.

Ainda mais problemático é que versões pequenas de modelos de linguagem grandes (SLMs) são mais propensas aos dois problemas acima porque são menos capazes. Por exemplo, o GPT-4 pode melhorar os resultados de saída por meio da auto-otimização, mas é difícil para o SLM fazer isso e pode até fazer com que a qualidade dos resultados de saída diminua. Isto irá dificultar seriamente a popularização e aplicação de modelos de linguagem neural.

Em resposta a esses problemas, uma equipe de pesquisa da Microsoft Research Asia e da Universidade de Harvard propôs o Self-play muTuAl Reasoning, ou rStar, para abreviar. Simplificando, esse método é semelhante a pedir a dois alunos medíocres que verifiquem as respostas um do outro nas provas e, por fim, melhorem suas notas a ponto de poderem competir com os melhores acadêmicos. A equipe afirma que o rStar “pode melhorar as capacidades de inferência do SLM sem ajustes finos ou modelos melhores”.

Título do artigo: Raciocínio mútuo torna LLMs menores solucionadores de problemas mais fortes
Endereço do artigo: https://arxiv.org/pdf/2408.06195
Endereço do código: https://github.com/zhentingqi/rStar (ainda a ser divulgado)

método

Para resolver os problemas acima, o rStar divide o processo de raciocínio em duas partes: geração de soluções e verificação mútua, conforme mostrado na Figura 2.

Enfrentando o primeiro desafio, a equipe introduziu uma coleção de ações ricas de raciocínio humano que exploram minuciosamente um espaço diversificado de tarefas de raciocínio.

Para o segundo problema, eles projetaram uma função de recompensa especificamente para SLM, que pode avaliar etapas intermediárias, evitando assim depender de sua autoavaliação, muitas vezes não confiável.

Além disso, a equipe também utilizou outro SLM como discriminador para aprimorar o processo MCTS, verificando mutuamente a correção de cada trajetória com o discriminador SLM.

Use o MCTS Rollout para gerar você mesmo trajetórias de inferência

Uma rica coleção de ações de raciocínio semelhantes às humanas. O núcleo da geração do MCTS está no espaço de ação, que define o escopo da exploração da árvore. A maioria dos métodos baseados em MCTS usa um único tipo de ação ao construir a árvore. Por exemplo, a ação no RAP é fazer a próxima subquestão, enquanto a ação no AlphaMath e no MindStar é gerar o próximo passo de raciocínio. No entanto, depender de um único tipo de ação pode facilmente levar a uma exploração espacial deficiente.

Para resolver este problema, a equipe analisou a forma como os humanos raciocinam. Pessoas diferentes resolvem problemas de maneiras diferentes: algumas pessoas dividem o problema em subproblemas, outras resolvem o problema diretamente e outras ainda reformulam o problema de outra perspectiva. Além disso, as pessoas também ajustarão seus métodos de acordo com o estado atual e escolherão diferentes ações de acordo com as necessidades.

Inspirada no processo de raciocínio humano, a equipe construiu um conjunto de dados mais rico contendo 5 tipos de ações para maximizar o potencial do SLM para resolver corretamente problemas de raciocínio complexos.

Ação 1: Sugira uma etapa de pensamento. Para um determinado problema, esta ação fará com que o LLM gere o próximo passo de ideias com base nas etapas de raciocínio existentes.

Ação 2: Sugira as etapas restantes do pensamento. Esta ação, como o CoT padrão, permite o “pensamento rápido” para resolver problemas simples com apenas alguns passos. Dadas as etapas de inferência geradas, permitirá que o LLM gere diretamente as etapas restantes até que a resposta final seja obtida.

Ação 3: Proponha a próxima subquestão e sua resposta.

Ação 4: Responda esta subquestão novamente. Considerando que a ação 3 pode não responder corretamente à subquestão correspondente, o papel desta ação é respondê-la novamente.

Ação 5: Reformular o problema/subproblema. Este novo movimento consiste em reformular o problema de uma forma mais simples. Especificamente, o objetivo aqui é fazer com que o LLM liste claramente todas as condições na definição do problema.

As cinco ações acima definem um espaço de ação altamente diversificado {A1, A2, A3, A4, A5}.

A cada passo i, MCTS seleciona uma ação a_i deste espaço. Então, com base no estado atual (ou seja, a trajetória gerada anteriormente x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), use esta ação a_i para permitir que o LLM gere a próxima etapa de inferência s_i. Observe que algumas ações precisam ser executadas em ordem. A Figura 3 dá um exemplo.

Conforme mostrado na Tabela 1, cada ação desempenha um papel importante na melhoria da precisão da inferência final.

função de recompensa

Outro componente chave do MCTS é a função de recompensa, que avalia o valor de cada ação e fornece instruções para a expansão da árvore. Para SLM, a equipe desenvolveu uma função de recompensa simples, mas eficaz. A abordagem deles, inspirada no AlphaGo, pontua cada nó intermediário com base em sua contribuição para a resposta correta final. Desta forma, as ações que muitas vezes levam a respostas corretas receberão recompensas mais altas e terão maior probabilidade de serem selecionadas em futuras expansões da árvore MCTS.

Aqui, o valor de recompensa do nó s gerado após a execução da ação a é definido como Q(s, a). Inicialmente, todos os nós inexplorados recebem Q (s_i, a_i) = 0, alcançando assim a expansão aleatória da árvore. Ao atingir o primeiro nó final n_d, uma pontuação de recompensa Q (s_d, a_d) é calculada com base na obtenção da resposta correta.

Essa pontuação é então retropropagada para cada nó intermediário ao longo da trajetória t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Especificamente, para cada s_i, seu valor Q é atualizado da seguinte forma: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Para calcular Q(s_d, a_d) para um nó final, o valor da recompensa usado aqui é a probabilidade (confiança) de uma votação majoritária autoconsistente.

Use o lançamento do MCTS para gerar soluções

O seguinte descreve a maneira como o MCTS gera trajetórias de inferência candidatas. A partir do nó raiz inicial s_0, são realizadas várias pesquisas, incluindo seleção, expansão, simulação e retropropagação. Especificamente, a simulação utiliza a estratégia Rollout padrão. Para obter uma estimativa de recompensa mais precisa, a equipe realizará vários lançamentos. Para equilibrar exploração e exploração, eles usam o conhecido UCT (limite de confiança superior da árvore) para selecionar cada nó. A forma matemática deste processo de seleção é:

Onde N(s, a) é o número de visitas ao nó s na iteração anterior e N_parent(s) representa o número de visitas ao nó pai de s. Q(s, a) é o valor estimado da recompensa, que é atualizado durante a retropropagação. c é uma constante que equilibra exploração e aproveitamento.

Uma vez que a busca atinge um nó final (que pode ser um estado terminal, ou pode atingir uma profundidade máxima predefinida da árvore d), uma trajetória da raiz até o nó final pode ser obtida. Todas as trajetórias obtidas pela iteração Rollout são coletadas como soluções candidatas. Em seguida, eles precisam ser verificados.

Usando reciprocidade para selecionar trajetórias de inferência

Com base em todas as trajetórias coletadas, a equipe propôs o uso da coerência inferencial para selecionar as respostas.

Alcançando coerência de inferência por meio de SLM discriminador

Conforme mostrado na Figura 2, além do SLM alvo, a equipe também introduziu um SLM discriminador, cuja função é fornecer feedback externo não supervisionado para cada trajetória candidata.

Especificamente, para t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, mascare as etapas de inferência começando em alguma etapa i amostrada aleatoriamente. Em seguida, a trajetória de inferência anterior t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} é fornecida ao discriminador SLM como um prompt para deixá-lo completar as etapas restantes. Como as etapas de raciocínio i-1 anteriores são usadas como dicas, a dificuldade é reduzida e o discriminador SLM tem maior probabilidade de dar a resposta correta.

A Figura 4 compara se a resposta de conclusão do SLM do discriminador corresponde à trajetória original t. Se os dois forem consistentes, t é considerado uma trajetória verificada que pode ser finalmente selecionada.

A trajetória final é selecionada pelo SLM alvo. Depois de aplicar a coerência de inferência a todas as trajetórias candidatas, retorne ao SLM alvo e deixe-o selecionar a trajetória final a partir das trajetórias verificadas. Para calcular a pontuação final de cada trajetória, a equipe multiplicou sua recompensa pela pontuação de confiança de seu nó final obtida por meio do Rollout. A trajetória com maior pontuação final é selecionada como solução.

experimentar

Configuração experimental

O rStar é adequado para uma variedade de tarefas de LLM e inferência. A equipe avaliou 5 SLMs: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Foram testadas 5 tarefas de raciocínio, incluindo 4 tarefas matemáticas (GSM8K, GSM-Hard, MATH, SVAMP) e 1 tarefa de bom senso (StrategyQA).

Por favor, visite o artigo original para obter detalhes experimentais.

Principais resultados

A equipe avaliou primeiro a eficácia do rStar em benchmarks de inferência geral. A Tabela 2 compara a precisão do rStar e de outros métodos de última geração em diferentes conjuntos de dados de SLM e inferência. Para demonstrar a eficácia do novo gerador, a equipe também fornece a precisão do rStar (gerador @maj), que não utiliza discriminador e apenas utiliza a votação por maioria para verificar a resposta.

A equipe observou três resultados principais:

1. SLM desenvolvido pela rStar tem recursos mais fortes de resolução de problemas. Por exemplo, no conjunto de dados GSM8K, a precisão do LLaMA2-7B usando CoT de poucas amostras é de apenas 12,51%. Mas com a ajuda do rStar, sua precisão aumentou para 63,91%, o que está próximo da precisão obtida pelo ajuste fino, conforme mostrado na Figura 1. Da mesma forma, o desempenho do Mistral usando o rStar é até 4,18% superior ao da versão ajustada do MetaMath. Tal melhoria mostra que o próprio SLM já possui fortes capacidades de raciocínio, mas necessita de orientação para gerar e selecionar respostas corretas.

2. O rStar pode melhorar de forma estável a precisão da inferência de vários SLMs avaliados em diferentes tarefas até o melhor nível atual. Em comparação, outros métodos de comparação não conseguem alcançar consistentemente um bom desempenho em todos os quatro benchmarks. Por exemplo, embora o SC (autoconsistência) seja bom em três tarefas matemáticas, não consegue resolver eficazmente a tarefa de raciocínio lógico do StrategyQA.

3. Mesmo sem o discriminador recentemente proposto para verificar as trajetórias de inferência, o gerador MCTS recentemente proposto ainda funciona bem na melhoria da precisão da inferência do SLM. Por exemplo, no conjunto de dados GSM8K, a precisão do rStar (gerador @maj) é 2,88% -16,39% maior que o RAP, 10,60% -38,37% maior que o ToT e 1,69% -7,34% maior que o SC.

Resultados em conjuntos de dados matemáticos difíceis

A equipe também avaliou o rStar em um conjunto de dados matemáticos mais difíceis. Para este propósito, eles selecionaram conjuntos de dados GSM-Hard e MATH. Seguindo a convenção de estudos semelhantes, utilizaram o MATH-500, um subconjunto de problemas representativos do conjunto de dados MATH. Isso é feito para melhorar a velocidade da avaliação. Conforme mostrado nas Tabelas 2 e 3, o rStar pode melhorar significativamente a precisão da inferência do SLM nesses difíceis conjuntos de dados matemáticos.

estudo de ablação

Eficácia de diferentes implementações

rStar usa a estratégia Rollout para realizar a expansão da árvore MCTS. Mais implementações gerarão mais trajetórias de soluções candidatas, mas também aumentarão o custo da inferência. A Figura 5 compara a precisão de SC, RAP e rStar ao usar diferentes implementações no GSM8K.

Duas observações importantes são feitas aqui:

1. Mesmo com apenas 2 implementações, o rStar pode melhorar significativamente a precisão da inferência do SLM, o que mostra sua eficácia;

2. Mais lançamentos são benéficos tanto para o rStar quanto para o SC, enquanto o RAP tende a ficar saturado ou até mesmo diminuir após 4 lançamentos. Uma razão é que o espaço de ação de tipo único do RAP limitará a eficácia da exploração do MCTS.

Eficácia do Gerador MCTS

A equipe comparou o desempenho do gerador MCTS com três outros geradores. Conforme mostrado na Tabela 4, o gerador MCTS recentemente proposto supera de forma abrangente outros geradores. Além disso, é demonstrada a eficácia das funções de recompensa ajustadas para SLM, uma vez que a autoavaliação reduz a precisão de novos geradores.

A eficácia do discriminador

A equipe montou dois experimentos de avaliação.

O primeiro experimento compara o método discriminativo com a votação por maioria e métodos de autovalidação. Os resultados são apresentados na Tabela 5 (esquerda). Pode-se observar que as vantagens do método de discriminação são muito significativas.

O segundo experimento é estudar o impacto de diferentes modelos discriminadores. Os resultados são mostrados na Tabela 5 (à direita). Pode-se observar que a escolha de diferentes modelos discriminadores geralmente não afeta o efeito do método de coerência de inferência para verificar a resposta. Vale ressaltar que mesmo utilizando o poderoso GPT-4 como discriminador, o desempenho melhora apenas ligeiramente (de 91,13% para 92,57%). Isso mostra que o método de coerência inferencial pode usar efetivamente o SLM para verificar as respostas.

notícias

Os dois modelos pequenos podem verificar-se mutuamente e comparar diretamente com o modelo grande? O rStar da Microsoft nem usa CoT

Introdução

Minhas informações de contato