Após 4 rodadas de treinamento violento, o Llama 7B derrotou o GPT-4! Meta e outros permitem que o “triângulo de atuação” do LLM se autoavalie e evolua

Após 4 rodadas de treinamento violento, o Llama 7B derrotou o GPT-4! Meta e outros permitem que o "triângulo de atuação" do LLM se autoavalie e evolua

2024-07-31

Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]Meta, UC Berkeley e NYU propuseram conjuntamente um modelo de linguagem de meta-recompensa para fornecer um caminho claro para o "superalinhamento": deixe a IA ser seu próprio árbitro, melhore o alinhamento e o efeito será mais rápido do que a auto-recompensa modelo.

O LLM consome muitos dados, não apenas no corpus pré-treinamento, mas também nas etapas de alinhamento como RLHF e DPO.

Este último não só depende de dados de anotação manual caros, mas também provavelmente limitará o desenvolvimento do LLM ao nível humano.

Em janeiro deste ano, equipes da Meta e da NYU propuseram um mecanismo de auto-recompensa para modelos de linguagem, usando o mecanismo de prompt LLM-as-a-Judge para permitir que o modelo forneça autofeedback durante o treinamento.

Endereço do artigo: https://arxiv.org/abs/2401.10020

O artigo descobriu que mesmo sem depender de anotadores humanos, o LLM pode obter melhorias de desempenho avaliando as suas próprias respostas.

Recentemente, esta equipe publicou outro estudo que elevou a questão da “auto-recompensa” do LLM a um nível superior.

Endereço do artigo: https://arxiv.org/abs/2407.19594

Afinal, você está pontuando a si mesmo, então não pode se concentrar apenas em como o modelo como ator se otimiza a partir do feedback. Você também precisa garantir que o modelo como juiz tenha excelentes capacidades de autoavaliação.

Pesquisas anteriores focaram demais no primeiro e ignoraram o segundo, resultando em uma saturação muito rápida do desempenho durante o treinamento iterativo.

É até possível causar algo pior do que a saturação, ou seja, overfitting ao sinal de recompensa (reward hacking).

Portanto, pesquisadores da Meta, NYU, UC Berkeley e outras instituições propuseram que uma etapa de "meta-recompensa" fosse adicionada - permitindo que o modelo avaliasse sua própria avaliação, melhorando assim as capacidades de avaliação.

Embora pareça um pouco complicado, na verdade é razoável. E o experimento descobriu que adicionar essa camada de aninhamento tem um efeito de melhoria significativo.

Por exemplo, a taxa de vitórias do Llama-3-8B-Instruct aumentou de 22,9% para 39,4% no AlpacaEval 2, que é melhor que o GPT-4 no Arena-Hard, aumentou de 20,6% para 29,1%.

Se a pesquisa publicada em janeiro deste ano foi LLM-como-Juiz, então a “meta-recompensa” proposta neste artigo é equivalente ao LLM-como-Meta-Juiz.

O Juiz não apenas não requer humanos, mas o Meta-Juiz também é autossuficiente, o que parece ser mais uma prova de que o autoaperfeiçoamento do modelo pode eliminar a dependência da supervisão humana.

O metacientista Yann LeCun também encaminhou este estudo e fez um trocadilho——

Meta-Juiz proposto por Meta, o FAIR pode alcançar justiça?

A pesquisa não é importante, o importante é que a exposição do Meta FAIR seja total.

Meta-recompensador

Para ser mais direto, o método da “meta-recompensa” consiste em introduzir o meta-juiz na interação original ator-juiz, e o mesmo modelo “decora o triângulo” sem a participação de dados humanos adicionais.

Entre eles, o ator é responsável por gerar uma resposta a uma determinada solicitação; o juiz é responsável por avaliar e pontuar sua própria resposta e o metajuiz compara a qualidade de suas próprias pontuações;

O objetivo final da otimização é esperar que o ator consiga gerar melhores respostas, mas a eficiência do treinamento depende da precisão do juiz.

Portanto, o metajuiz desempenha o papel de juiz formador e pode melhorar o desempenho do modelo como ator e juiz ao mesmo tempo.

O modelo de treinamento iterativo composto por essas três funções é mostrado na Figura 1. Na t-ésima etapa, a resposta do modelo M_t ao prompt x é primeiro coletada e, em seguida, M_t é solicitado a se avaliar, obtendo assim as preferências para os atores de treinamento . dados.

Posteriormente, dado o mesmo conteúdo de resposta y, deixe M_t gerar diversas variantes de diferentes avaliações, que são pontuadas e classificadas pelo meta-juiz, obtendo assim os dados de preferência utilizados para treinar o juiz.

Combinando os dois tipos de dados de preferência acima, o método DPO é usado para otimizar a preferência do modelo M_t, e uma rodada de iteração é concluída para obter o modelo M_(t+1).

preferência de comprimento

Trabalhos anteriores descobriram que o modelo que atua como juiz preferirá respostas mais longas, o que levará a uma "explosão de comprimento" de respostas após múltiplas rodadas de iterações.

Portanto, o autor introduz um mecanismo simples de "controle de comprimento" - usando o parâmetro ρ∈[0,1] para pesar a pontuação do juiz e o comprimento do texto de resposta.

Por exemplo, para a resposta do modelo com pontuação no primeiro escalão, ou seja, o intervalo de pontuação é [(1-ρ)Smax+ρSmin, Smax], selecione a resposta mais curta como a resposta ótima.

Criação de dados de preferência do Juiz

Primeiro, seleciona-se a resposta do modelo para a qual o juiz está menos confiante, e a certeza do juiz é medida pela variância fracionária. Para cada resposta selecionada y, temos no máximo N avaliações de modelo correspondentes {j1,…, jN}.

Posteriormente, cada par (jm, jn) é avaliado aos pares, usando o modelo de prompt do meta-juiz mostrado na Figura 2.

Além de fornecer resultados de avaliação, o metajuiz também precisa gerar um processo de raciocínio CoT.

A fim de reduzir a possível preferência de posição do metajuiz (que pode tender a escolher o Julgamento A que aparece primeiro), a ordem do mesmo par de dados (jm, jn) será trocada para permitir que o metajuiz avalie duas vezes, e um único resultado rmn será obtido:

Os parâmetros w1 e w2 são introduzidos para caracterizar possíveis preferências de posição:

Dentre eles, win1st e win2nd indicam quantas vezes as avaliações dos dois cargos conquistaram durante todo o processo de avaliação do metajuiz.

Use as variáveis acima para construir uma “matriz de batalha” B para registrar o resultado final de cada vez:

Usando a pontuação Elo, a pontuação da meta-recompensa atribuída pelo meta-juiz a cada juiz pode ser calculada a partir da matriz B.

O autor descobriu que o metajuiz, assim como o juiz, também exibe “preferência de comprimento” e tende a escolher opiniões de avaliação mais longas.

Para evitar que o modelo final treinado fosse muito detalhado, medidas de filtragem também foram tomadas na construção do conjunto de dados dos juízes. Se as opiniões de avaliação selecionadas pelo meta-juiz excederem um determinado comprimento, todo o par de dados será descartado diretamente.

Experimento de avaliação

Preparação do experimento

O experimento usa Llama-3-8B-Instruct como modelo inicial, e outras configurações experimentais são consistentes com o artigo publicado anteriormente "Modelos de linguagem auto-recompensadores".

Antes do treinamento de meta-recompensa, o experimento realizou primeiro o ajuste fino supervisionado (SFT) no modelo inicial no conjunto de dados EFT (Ajuste Fino de Avaliação).

O conjunto de dados EFT é construído com base no Open Assistant e fornece dados iniciais de treinamento LLM como juiz, contendo respostas humanas classificadas para treinar o modelo para atuar como juiz.

Para a iteração de meta-recompensa, o experimento utiliza 20.000 prompts, gerados pelo Llama-2-70B-Chat por meio de prompts de 8 disparos.

Conforme mostrado na figura acima, as dicas usadas para treinamento estão mais próximas em distribuição do conjunto de dados AlpacaEval, enquanto as dicas do Arena-Hard estão concentradas em um subconjunto de dicas de treinamento.

Para cada iteração, o experimento amostrou 5.000 pistas desse conjunto inicial, para um total de quatro iterações.

O processo iterativo é o seguinte:

- Iter 1: A partir do modelo SFT inicial, use DPO (Direct Preference Optimization) para treinar os pares de preferência gerados de ator e juiz para obter M1.

- Iter 2: Use DPO para treinar os pares de preferências de ator e juiz gerados por M1 para obter M2.

- Iter 3/4: Use DPO para treinar apenas os pares de preferências de atores gerados por M2/M3 e obter M3/M4.

Cada prompt faz com que o modelo gere K = 7 respostas, totalizando 35.000 respostas por iteração. Em seguida, filtramos as respostas idênticas (geralmente removendo no máximo 50 duplicatas).

Em seguida, N = 11^2 julgamentos diferentes são gerados para cada resposta usando os mesmos parâmetros de amostragem.

Método de avaliação

O objetivo do modelo de meta-recompensa é permitir que o modelo “aja” e “avalie” por conta própria, portanto, os experimentos também devem avaliar o desempenho do modelo nessas duas funções.

O modelo básico é o modelo de auto-recompensa proposto no artigo citado, com o mesmo mecanismo de "controle de comprimento", que pode comparar diretamente os ganhos de desempenho trazidos pelo mecanismo de meta-recompensa.

Primeiro, vamos ver como avaliar quão bem é a “atuação”.

O experimento utiliza três benchmarks de avaliação automática baseados em GPT4-as-a-Judge, incluindo AlpacaEval 2, Arena-Hard e MT-Bench, cada um focando em diferentes aspectos do modelo.

Por exemplo, AlpacaEval concentra-se em cenários de bate-papo e o conjunto de prompts cobre uma variedade de problemas diários.

Em contraste, Arena-Hard contém problemas mais complexos ou desafiadores que atendem a mais critérios em 7 áreas predefinidas (criatividade, complexidade, resolução de problemas, etc.).

O MT-Bench possui 8 categorias de perguntas diferentes, que avaliam principalmente as capacidades de diálogo multivoltas do modelo.

Por outro lado, para avaliar o quão bem os juízes do LLM “avaliam”, o experimento mediu a correlação entre as pontuações atribuídas pelo LLM e as preferências humanas. Se não houver dados rotulados por humanos disponíveis, um juiz de IA mais forte será usado.

instrução seguir avaliação

A Figura 3 mostra a taxa de vitórias do método meta-recompensa (com mecanismo de controle de comprimento) no benchmark AlpacaEval em função das iterações de treinamento.

No geral, a taxa de vitórias de meta recompensas aumentou significativamente de 22,9% para 39,4%, ultrapassando o GPT-4 e aproximando-se do modelo Claude Opus.

Considerando que o tamanho do parâmetro do modelo inicial é de apenas 8B, e nenhum dado artificial adicional é introduzido, exceto para o conjunto de dados EFT usado no estágio SFT, este é um resultado excelente.

Além disso, os resultados também comprovam a importância dos mecanismos de meta-juiz e controle de comprimento.

Quando o modelo de auto-recompensa é treinado por mais de 3 épocas, ele começa a mostrar sinais de saturação, mas o modelo com meta-recompensa não o faz e ainda mantém o crescimento de desempenho até a 4ª época.

Isto demonstra a importância de treinar capacidades de avaliação de modelos e a eficácia do papel de meta-juiz.

Conforme mostrado na Tabela 1, após 4 rodadas de iteração, o comprimento médio da resposta (em caracteres) não aumentou significativamente, seja no modelo de auto-recompensa ou no modelo de meta-recompensa, comprovando a eficácia do mecanismo de controle de comprimento.

O mecanismo de recompensa em yuans tem as três melhorias óbvias a seguir.

Primeiro, ao subdividir as 805 categorias do AlpacaEval em 18 categorias para análise detalhada, podemos ver que a meta-recompensa melhora as respostas em quase todas as categorias (Figura 4), incluindo disciplinas que exigem muito conhecimento e raciocínio, como Ciências), jogos, literatura, etc.

Vale ressaltar que nas duas categorias Viagens e Matemática os modelos não obtiveram melhorias significativas.

Em segundo lugar, as meta-recompensas melhoram as respostas a questões complexas e difíceis.

O experimento usa ainda o Arena-Hard para avaliar o desempenho do método de meta-recompensa na resposta a questões complexas e desafiadoras.

Os resultados da avaliação na Tabela 2 mostram que as meta-recompensas podem melhorar as pontuações em 4 iterações, uma melhoria significativa de 8,5% em comparação com o modelo inicial (20,6%).

Terceiro, a meta-recompensa não sacrifica a capacidade de múltiplas rodadas de diálogo, mesmo quando se treina apenas uma única rodada de diálogo.

O artigo conduz uma avaliação do MT-Bench para examinar a perda de capacidades de diálogo de múltiplas rodadas ao treinar apenas com dados de rodada única.

Os resultados são mostrados na tabela abaixo. 4 iterações do modelo de meta-recompensa melhoraram significativamente a pontuação do diálogo da primeira rodada de 8,319 (modelo semente) para 8,738, enquanto a pontuação do diálogo da segunda rodada caiu apenas em não mais do que 0,1.

Esta é uma grande melhoria em relação à auto-recompensação + controle de comprimento (auto-recompensação + LC) no modelo de linha de base, já que este último normalmente caiu mais de 0,2 na pontuação da conversa da segunda rodada sem melhorar a pontuação da conversa da primeira rodada.

Avaliação do modelo de recompensa

O experimento avaliou a precisão do modelo em julgar a resposta gerada pelo modelo semente Llama3-8B-Instruct.

Na ausência de anotação manual, os autores optaram por medir a correlação de pontuação entre o modelo de meta-recompensa e o atual modelo de julgamento mais forte, gpt-4-1106-preview.

A análise usa duas configurações ligeiramente diferentes, a principal diferença é como elas lidam com os empates dados pelo modelo de julgamento, portanto, duas métricas são usadas: uma pontuação de concordância que conta os empates como 0,5 e uma concordância que descarta a fração dos resultados dos empates.

Os resultados mostraram que a capacidade de julgamento do modelo melhorou após o treinamento.

A análise na Tabela 3 mostra que a correlação entre meta-recompensas e o poderoso modelo de julgamento GPT-4 é significativamente melhorada em comparação com o modelo de linha de base em ambos os ambientes de avaliação.

Esses resultados mostram que o método de meta-recompensa pode melhorar a capacidade de julgamento do modelo, tornando seus resultados de avaliação mais próximos dos do modelo de linguagem mais complexo GPT-4.

Além disso, os experimentos compararam a correlação entre os resultados do julgamento do modelo e as classificações das respostas humanas no conjunto de dados do Open Assistant (Tabela 7) e descobriram que o treinamento com meta-recompensa melhorou a correlação com os julgamentos humanos.

No entanto, esta melhoria não persistiu nas iterações de treino subsequentes, possivelmente devido a diferenças de distribuição entre as respostas geradas pelo modelo e as respostas humanas.

analisar

mecanismo de controle de comprimento

Os mecanismos de controle de comprimento são essenciais para manter um equilíbrio entre a abrangência e a simplicidade das respostas do modelo.

O experimento comparou os resultados de diferentes parâmetros de controle de comprimento ρ na última iteração de treinamento, conforme mostrado na Tabela 4:

ρ = 0, o que equivale a nenhum controle de comprimento na seleção de dados preferenciais.

Como esperado, este método de treinamento faz com que as respostas geradas pelo modelo se tornem muito demoradas e a taxa de ganho de LC diminua.

Treinamento usando modelos de recompensa externos

O mecanismo de meta-recompensa permite que o modelo atue como um juiz para avaliar sua própria resposta; o experimento tentou usar o poderoso modelo de recompensa externa Starling-RM-34B como comparação.

No entanto, descobriu-se que StarlingRM-34B não conseguiu melhorar a taxa de vitórias LC do AlpacaEval na primeira iteração (24,63% vs. 27,85%), possivelmente devido ao seu viés de comprimento.

viés do meta-juiz

Após a primeira iteração do treinamento de meta-recompensa, o meta-juiz quase sempre prefere julgamentos com pontuações mais altas, conforme mostrado na Tabela 5.

Este viés de pontuação inclina significativamente a distribuição das pontuações de julgamento em direção a uma pontuação perfeita de 5. Para o viés posicional, também vemos uma tendência de aumento durante o treinamento, principalmente quando comparamos dois julgamentos de mesma pontuação.

Mudanças na pontuação de julgamento: Para investigar mudanças na distribuição da pontuação de julgamento durante as iterações de treinamento de meta-recompensa, os experimentos usaram os mesmos prompts de validação que a avaliação da modelagem de recompensa.

Use Llama-3-8B-Instruct para gerar 7 respostas em cada prompt e depois 11 julgamentos para cada resposta. A Figura 5 é uma visualização da distribuição de pontuação e a densidade é estimada usando a densidade do kernel gaussiano.

Pode-se observar que o uso do julgamento de treinamento de metajuízes aumenta ainda mais a possibilidade de gerar pontuações altas.

No entanto, as duas primeiras iterações do treinamento de julgamento tenderam a atribuir pontuações de 4,5, 4,75 e 4,9, que foram instruídas como números inteiros.

Embora sejam pontuações altas, elas fornecem uma capacidade mais refinada para diferenciar respostas de diferentes qualidades.

para concluir

O experimento propõe um novo mecanismo para melhorar a capacidade de julgamento do modelo usando meta-juiz para alocar meta-recompensas ao modelo como juiz.

Isto resolve uma limitação importante da estrutura de auto-recompensação, que é a falta de treinamento na capacidade de julgamento do modelo.

Para tornar o treinamento meta-recompensador mais eficaz, o experimento também introduziu uma nova tecnologia de controle de comprimento para aliviar o problema de explosão de comprimento que ocorre ao usar feedback de IA para treinamento.

A eficácia do método de meta-recompensa também foi verificada através dos benchmarks de avaliação automática AlpacaEval, Arena-Hard e MT-Bench.

Notavelmente, este método melhora significativamente o Llama-3-8B-Instruct mesmo sem feedback humano adicional e supera os fortes métodos de base Self-Rewarding e SPPO que dependem de grandes quantidades de feedback humano.

Além disso, quando a capacidade de julgamento do modelo foi avaliada, ele mostrou melhorias significativas na correlação com juízes humanos e juízes de IA poderosos, como o gpt-4-1106-preview.

No geral, as descobertas fornecem fortes evidências de que modelos de autoaperfeiçoamento sem qualquer feedback humano são uma direção promissora para alcançar o superalinhamento.

Referências:

https://arxiv.org/pdf/2407.19594

notícias

Após 4 rodadas de treinamento violento, o Llama 7B derrotou o GPT-4! Meta e outros permitem que o "triângulo de atuação" do LLM se autoavalie e evolua

Introdução

minhas informações de contato