Llama 8B pesquisa 100 vezes e ultrapassa GPT-4o! A pesquisa inferencial pode melhorar o desempenho, nova "Lei de Escala"

2024-08-15

Novo Relatório de Sabedoria

Editor: Qiao Yang

[Introdução à Nova Sabedoria]Artigos recentes mostraram que modelos generativos como o LLM podem ser dimensionados com pesquisa e alcançar melhorias de desempenho muito significativas. Outro experimento de recorrência também descobriu que se o modelo Llama 3.1 com apenas 8B parâmetros for pesquisado 100 vezes, ele poderá atingir o mesmo nível do GPT-4o na tarefa de geração de código Python.

Rich Sutton, pioneiro em aprendizagem por reforço e professor do Departamento de Ciência da Computação da Universidade de Alberta, no Canadá, escreveu um post no blog chamado "The Bitter Lesson" em 2019, que se tornou uma das discussões clássicas no campo da IA.

Na verdade, a intuição de Rich Sutton refletida nas entrelinhas é bastante semelhante à Lei da Escala.

Endereço original: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

O artigo analisa brevemente o caminho de desenvolvimento da IA nas áreas de xadrez, Go, reconhecimento de fala e visão, e apresenta esta visão:

Uma das lições difíceis que devemos aprender é perceber o poder de uma abordagem universal. Essa abordagem pode continuar a crescer à medida que a quantidade de computação aumenta devido a um aumento no poder de computação disponível. Os dois métodos que parecem escalar arbitrariamente dessa forma são a pesquisa e o aprendizado.

Contudo, esta visão não é exactamente a mesma que a Lei da Escala, e não podemos usá-la como base para acreditar que pequenos modelos estão destinados a ser irrelevantes.

Como descreve Sutton, existem dois grandes desafios no caminho para a expansão: aprendizagem e pesquisa.

A Lei de Escala proposta pela OpenAI enfatiza a primeira. Ceteris paribus, modelos maiores têm melhor desempenho porque mais conhecimento e padrões podem ser aprendidos com o conjunto de treinamento.

Mas o que muitas vezes ignoramos é o último. Os métodos de pesquisa também podem ser escalonados suavemente à medida que o poder de computação aumenta durante a fase de inferência para gerar mais respostas candidatas ou de maior qualidade.

Um artigo recente publicado por estudiosos de Stanford, Oxford, DeepMind e outras instituições focou neste ponto.

Endereço do artigo: https://arxiv.org/abs/2407.21787

Com o aumento do número de amostras repetidas na fase de inferência, o desempenho (ou seja, cobertura do problema) do modelo nas áreas de matemática, raciocínio e código como GSM8K, MATH, MiniF2F-Math e SWE-bench Lite foi significativamente melhorado.

Mesmo assim, parece haver uma relação linear exponencial entre os dois, e pode ser modelada por uma lei de potência exponencial, o que parece explicar a existência da lei de escala na fase de raciocínio.

Inspirados por este artigo, os dois engenheiros começaram a tentar reproduzi-lo - o resultado foi que, pesquisando em 100 pequenos modelos de Llama, eles poderiam alcançar ou até mesmo vencer o GPT-4o em tarefas de programação Python.

Os dois autores usaram uma metáfora vívida: antes, era necessário um pato do tamanho de um cavalo para obter capacidades de fronteira; mas agora podemos optar por usar 100 cavalos do tamanho de um pato (ou, mais precisamente, alpacas Llama).

O código-fonte usado no experimento foi carregado no GitHub e o custo de reprodução é bastante baixo.

https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Para tentar maior desempenho, o autor utilizou a biblioteca vLLM para implementar inferência em lote e estendeu as condições de hardware para 10 GPUs A100-40GB, com velocidade de saída atingindo 40k token/s.

Métricas e resultados de avaliação

O autor escolheu um teste de benchmark não abordado no artigo do Large Language Monkeys mencionado acima - HumanEval.

O benefício deste conjunto de dados é que o código gerado pode ser avaliado usando testes em execução sem o envolvimento do LLM como juiz ou avaliação humana, permitindo uma medida mais objetiva de correção.

O desempenho do modelo é medido por dois indicadores: pass@k e fail@k. De acordo com os resultados do relatório do PapersWithCode, na inferência de amostra zero, a pontuação pass@1 do GPT-4o é de 90,2%.

https://paperswithcode.com/sota/code-generação-on-humaneval

Usando o método proposto no artigo acima, além de uma quantidade mínima de ajuste fino imediato (sem ajustar outros hiperparâmetros), a pontuação pass@k do Llama 3.1 8B foi significativamente melhorada.

Quando o número de amostras repetidas k é 100, o desempenho é equivalente ao GPT-4o (90,5% vs. 90,2%) quando k atinge 1000, a pontuação é 95,1%, o que é significativamente melhor que o GPT-4o;

Se você usar o indicador fail@k (equivalente a 1-pass@k) e transformar logaritmicamente os dois eixos coordenados na figura acima, poderá ver a curva mostrada na figura abaixo, que parece obedecer perfeitamente à "lei de escala ".

É importante notar que este pequeno experimento não é uma reprodução estrita do artigo, mas apenas extrai o método central.

No entanto, esses resultados enfatizam ainda mais que modelos menores podem superar previsivelmente modelos "big Mac" como GPT-4o ao usar métodos de pesquisa para aumento do estágio de inferência.

O futuro da pesquisa

A razão pela qual o método de pesquisa é poderoso é que ele pode se expandir "transparentemente" à medida que a quantidade de cálculo aumenta e também pode transferir o consumo de recursos da memória para o cálculo para alcançar maior equilíbrio de recursos.

As recentes grandes conquistas da IA em matemática, como o nível de IA e IA, são inseparáveis da pesquisa nela utilizada.

No entanto, a implementação da pesquisa requer primeiro uma avaliação de alta qualidade dos resultados. O modelo da DeepMind traduz problemas matemáticos expressos em linguagem natural em expressões formais, recebendo assim supervisão detalhada de um compilador/verificador como o Lean.

, o que pode melhorar muito o grau de paralelismo e automação.

De acordo com a correspondência Curry-Howard-Lambek, seria relativamente fácil usar programas de computador para automatizar a identificação e avaliação de provas matemáticas e resultados de geração de código.

Mas abordagens semelhantes podem falhar em outras áreas que não a matemática e a programação. Por exemplo, para tarefas abertas de PNL, como “resumir e-mails”, é difícil realizar pesquisas eficazes.

Nesta perspectiva, a pesquisa está a jusante da avaliação. Podemos esperar aproximadamente que a melhoria do desempenho dos modelos generativos em campos específicos será diretamente proporcional às capacidades de avaliação e pesquisa.

Para atingir este propósito, os agentes em ambientes digitais repetíveis parecem ser uma direção promissora.

Referências:

https://modal.com/blog/llama-human-eval

notícias

Llama 8B pesquisa 100 vezes e ultrapassa GPT-4o! A pesquisa inferencial pode melhorar o desempenho, nova "Lei de Escala"

Introdução

Minhas informações de contato