Qual a importância do pós-treinamento? O longo artigo do pesquisador AI2 explica em detalhes os segredos pós-treinamento de modelos de ponta

Qual a importância do pós-treinamento? Pesquisador AI2 explica detalhadamente os segredos pós-treinamento de modelos de ponta em um longo artigo

2024-08-19

Novo Relatório de Sabedoria

Editor: Qiao Yang

[Introdução à Nova Sabedoria]Mais e mais estudos descobriram que o pós-treinamento é igualmente importante para modelar o desempenho. Nathan Lambert, pesquisador de aprendizado de máquina da Allen AI, publicou recentemente uma postagem técnica no blog resumindo as receitas de treinamento pós-modelo usadas por gigantes da tecnologia.

Com o rápido desenvolvimento dos círculos acadêmicos e industriais do LLM, não apenas o poder de computação e os dados usados para o pré-treinamento estão sendo lançados loucamente, mas os métodos de alinhamento e ajuste fino do pós-treinamento também são constantemente atualizados.

Modelos lançados anteriormente, como InstructGPT e WebGPT, usam métodos RLHF padrão, e o estilo e a escala de gerenciamento de dados neles parecem estar desatualizados.

Nos últimos meses, gigantes da IA como Meta, Google e NVIDIA lançaram modelos de código aberto, acompanhados de documentos ou relatórios detalhados, incluindo , , , e o relatório do modelo básico da Apple Intellegence.

A partir dessas informações divulgadas, podemos ver algumas tendências de ponta nos métodos pós-treinamento. O cientista pesquisador da Allen AI, Nathan Lambert, publicou recentemente um artigo sobre este tópico.

Endereço original: https://www.interconnects.ai/p/frontier-model-post-training

Nathan Lambert se formou na UC Berkeley, liderou a equipe RLHF na HuggingFace e atualmente é pesquisador de aprendizado de máquina na Allen AI.

Em seu artigo, ele destaca que dados sintéticos, treinamento iterativo, rótulos de preferência humana e filtragem extensiva são características comuns dos métodos pós-treinamento usados nesses modelos. Especificamente, a nova receita pós-treino é baseada nas seguintes predefinições:

-Os dados sintéticos podem ser de qualidade superior aos dados humanos, especialmente para tarefas desafiadoras

- RLHF pode escalar para escalas maiores do que o ajuste fino de instrução

- São necessárias múltiplas rodadas de treinamento e geração para obter o melhor modelo

- A filtragem de dados é a parte mais importante do treinamento

Estas suposições estão amplamente interligadas para formar um regime de treinamento que pode ser dimensionado para grandes equipes, tornando-o ideal para gigantes da tecnologia. O conteúdo específico do artigo fornece uma explicação detalhada dos quatro pontos acima.

O novo Pipeline padrão

Se considerarmos que a pontuação do ChatBot Arena mede o desempenho pós-treinamento do modelo, que está amplamente relacionado ao estilo e à robustez, quase todos os grandes laboratórios obtiveram ganhos significativos por meio do treinamento iterativo.

Ainda não vimos o lançamento do Gemini 2 ou GPT-5, que poderá redefinir o atual paradigma pós-treinamento e potencialmente desbloquear um controle mais profundo sobre nossos modelos.

Mas do ponto de vista actual, os métodos utilizados por vários laboratórios de topo estão obviamente a convergir, e esta tendência é muito mais clara do que o esperado.

Dados de preferência humana

O pipeline inicial do RLHF concentra-se em dados humanos, que vêm em duas formas principais: 1) dados humanos para instruções de ajuste fino para tarefas especializadas; 2) dados de preferência humana sobre a conclusão de tarefas;

Esses conjuntos de dados de ajuste fino são caros e estritamente protegidos. Pelo que eu sei, o único público é o No Robots, que Lambert lançou quando fazia parte da equipe HuggingFace.

Endereço do armazém: https://huggingface.co/datasets/HuggingFaceH4/no_robots

Os dados de preferência humana estão em grande parte relacionados com melhorias em modelos específicos. Mas mesmo quando os dados podem ser abertos, não há certeza de que as preferências de um modelo possam ser transferidas para outro.

Lambert e sua equipe fizeram uma tentativa semelhante no HuggingFace, mas falhou em um pequeno contrato de dados pagos.

No momento, o único aspecto em que os dados humanos são usados são os dados de preferência. A julgar pelos dados revelados pelo Llama 2 e outros rumores, a Meta pode ter gasto entre US$ 10 milhões e 20 milhões em dados de preferência, ou até mais. Isto também se limita ao modelo final publicado e não inclui experiências e avaliações mais amplas.

Nemotron usa uma grande quantidade de dados sintéticos para substituir dados humanos, mas relativamente falando, o ajuste fino deste modelo não é tão bom.

Existe um desafio urgente, mas também uma oportunidade, para a comunidade aberta: descobrir a extensão da intervenção humana neste tipo de dados e se esta pode ser substituída por métodos como o LLM-as-a-Judge ou modelos de recompensa.

RLHF estendido

Thomas Scialom, chefe de alinhamento do Llama 3, disse no podcast Latent Space:

RLHF é muito mais escalável. É mais barato, mais fácil de operar e geralmente resulta em melhor desempenho.

Ele também disse que usaria “100% do orçamento de dados de alinhamento para os dados de alinhamento necessários na fase RL, em vez de gastar mais tempo com instruções”.

A maioria dos esforços de alinhamento de código aberto concentra-se no ajuste fino de instruções estendidas (IFT ou SFT). O IFT é fácil de operar, adequado para uma variedade de tarefas e fácil de usar com dados sintéticos.

Mas está claro que a indústria só utiliza o IFT como ponto de partida para expandir o RLHF. Os dados do OFVM centram-se principalmente em áreas específicas que os modelos anteriores não conseguiram cobrir e depois alargam o RLHF nesta base.

RLHF é um processo iterativo e o processo de geração de modelo permite que ele continue a melhorar. O treinamento de 5 rodadas é detalhado nos artigos Llama 2 e Nemotron, mas não sabemos se existe um limite máximo para esse número.

O Llama 3.1 foi treinado com 6 rodadas de dados de preferência, o Llama 2 foi treinado com 5 rodadas, o Nemotron foi treinado com 4 rodadas e houve várias rodadas de ajuste fino de instrução antes.

Para dados de preferência humana, múltiplas iterações podem ser conduzidas principalmente por considerações de viabilidade:

1. Os dados são transferidos da empresa de anotação para o laboratório em lotes

2. A realização de múltiplas rodadas de treinamento em pequena escala pode reduzir o risco de entrega do produto final. Em vez de esperar que todos os dados estejam disponíveis antes de iniciar o treinamento, deixe o modelo entrar no caminho certo gradualmente

Tais factores práticos podem parecer inconsequentes, mas muitas vezes desencadeiam certas normas da indústria.

A imagem abaixo é do artigo Llama 2, que registra dados relacionados a 5 rodadas de amostragem de rejeição e PPO.

Nemotron também faz acabamento SFT de 2 rodas e alinhamento de 4 rodas. Entre eles, o RPO é um modelo de recompensa ponderado pelo otimizador DPO.

Métodos RLHF iterativos semelhantes podem ser rastreados até a "Inteligência Artificial Constitucional" proposta pela Anthropic, mas a comunidade de código aberto não parece ter reproduzido este resultado em grande escala.

Atualmente, a comunidade acadêmica está atenta ao “treinamento on-line de DPO”, que tem direção semelhante, mas não dá tanta atenção aos dados entre as rodadas. Esta abordagem ainda requer muito trabalho manual, mas uma vez automatizado o processo, o DPO online será o futuro.

Na verdade, a seleção do algoritmo de cada equipe para a fase pós-treinamento não deve ser tão rígida. DPO e PPO têm suas próprias vantagens e desvantagens. O primeiro é mais fácil de escalar, mas os métodos inspirados em PPO (como RL online) têm um limite superior de desempenho mais alto.

Atualmente, essas abordagens são motivadas principalmente pela simplicidade, já que essas equipes ainda são relativamente novas e estão construindo sistemas modulares, e um membro da equipe de pós-treinamento do Llama 3 confirmou essa abordagem à simplicidade da engenharia.

O Llama 3 possui um loop pós-treinamento simples: amostragem de rejeição, SFT e DPO. Isto não só resulta num desempenho ideal a nível empírico, mas também permite a reprodutibilidade. Além disso, as equipes podem explorar muitos fluxos de trabalho diferentes (por exemplo, codificação, matemática) de forma assíncrona, reunindo os dados no mesmo loop simples.

dados sintéticos

Uma parte importante deste novo ciclo RLHF são os dados de comando sintéticos que excedem as capacidades humanas na maioria das tarefas.

Se você puder melhorar um pouco o modelo e gerar instruções melhores, então "comece de novo" e atualize os pontos de verificação.

Meta afirma explicitamente no artigo que eles “usam o modelo 405B para melhorar a qualidade pós-treinamento de nossos modelos menores”; o Google faz isso destilando o Gemini Flash, mas na verdade a maioria dos modelos de ponta provavelmente inclui algumas etapas semelhantes.

Ouvi dizer que a OpenAI está usando 50 trilhões de tokens de dados para treinar o modelo da próxima geração, a maioria dos quais são dados sintéticos. Houve um boato no ano passado de que a Anthropic tinha um “corpus de IA de Constituição em escala de pré-treinamento”, o que agora parece razoável.

Essas empresas de IA perceberam a importância dos dados sintéticos há 12 a 18 meses, quando não usavam mais os resultados do modelo para treinamento de autoiteração. Mas o Meta é diferente porque se beneficia de outros modelos abertos melhores.

Uma olhada no pós-treinamento de hoje deixa claro que o problema de falhas de modelos em dados sintéticos é muito exagerado. O colapso do modelo só ocorre quando os dados originais são descartados e apenas os novos dados gerados são deixados em um ambiente configurado artificialmente.

A qualidade dos dados é fundamental

Grande parte do relatório Llama 3.1 trata dos detalhes da gestão de dados, com cada subárea relevante exigindo instruções de gestão amplas e específicas.

Isso é consistente com o que sei da equipe de pós-treinamento liderada por John Schulman na OpenAI e outras equipes semelhantes – especifique um domínio específico, obtenha dados relevantes e o modelo ficará melhor.

Mas sem filtragem e gerenciamento extensivos de dados, nenhum dos métodos RLHF acima funcionará.

Na Allen AI, começamos a priorizar mais os dados no processo pós-treinamento, e você pode sentir imediatamente a mudança na velocidade de melhoria do modelo.

Estudo de caso - Nemotron e Llama

O processo pós-treinamento do Llama é o seguinte:

Esta imagem do Nemotron é relativamente simples:

Juntos, podemos ver o que a maioria dos métodos tem em comum.

Mas o gráfico abaixo e a maioria dos artigos de pesquisa do setor ignoram os dados.

Modelos como o Llama 3.1 mencionaram muitos detalhes no relatório, como regularização, ajuste da função de perda, média do modelo, etc., mas estes são ganhos marginais no desempenho do modelo e estão muito além do escopo do ciclo principal de ajuste fino .

Num determinado momento, esses detalhes se tornarão insignificantes.

Referências:

https://www.interconnects.ai/p/frontier-model-post-training

notícias

Qual a importância do pós-treinamento? Pesquisador AI2 explica detalhadamente os segredos pós-treinamento de modelos de ponta em um longo artigo

Introdução

Minhas informações de contato