notícias

O "último" papel de superalinhamento da OpenAI: jogo de modelos grandes e pequenos, legibilidade de saída aumentada

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Crecy vem do Templo Aofei
Qubits | Conta pública QbitAI

deixarModelos grandes e pequenos competem entre si, você pode melhorar a legibilidade do conteúdo gerado!

Esta é uma pesquisa séria da OpenAI. O objetivo é tornar o resultado do modelo mais fácil de entender e, ao mesmo tempo, garantir a precisão.

Após o treinamento com este método, a precisão do julgamento humano da saída do modelo aumentou significativamente e a velocidade também se tornou mais rápida.



A pesquisa, da extinta equipe “Hyper-Alignment” da OpenAI, imita um estudo de 2021 realizado por acadêmicos da Universidade de Toronto.Jogo "Prover-Verificador"

Durante o processo de treinamento, o OpenAI permite que o modelo grande sirva como “provador” e o modelo pequeno como “verificador”, permitindo que essas duas identidades concorram entre si.

No final, os resultados do modelo grande não são apenasÉ mais fácil de entender e não há perda óbvia de precisão., o nível de julgamento do modelo pequeno também melhorou.

Até mesmo um dos autores do artigo, o pesquisador da OpenAI Yining Chen, disse que esta abordagem “tem o potencial de tornar os modelos futuros mais inteligentes que os humanos”.

Vale ressaltar que o ex-chefe do Super Alignment Team e autor do RLHFJan LeikeEle também participou desta pesquisa Ao deixar o emprego, criticou a OpenAI por não prestar atenção à segurança.

No entanto, no final do tweet de Jan Leike apresentando este artigo, ele estava anunciando a Anthropic (fabricante Claude), onde está agora para recrutar pessoas.



Outro autor do artigo, o pesquisador da OpenAI Nat McAleese, revelou em um tweet que este será o último artigo (final) de superalinhamento da OpenAI.



Essa notícia deixou alguns internautas muito entusiasmados, dizendo que esse não deve ser o último artigo Nat, você continuará fazendo super alinhamento, certo?



Deixe os modelos jogarem uns contra os outros

A pesquisa da OpenAI descobriu que o conteúdo gerado por grandes modelos tem alguns freios e contrapesos nas duas dimensões de precisão e legibilidade——

Se você otimizar tendo sua própria precisão como objetivo, isso levará a uma diminuição na legibilidade; se você tomar a legibilidade como objetivo, sua própria precisão será perdida;

Mesmo em tarefas simples de matemática do ensino fundamental, é fácil ver a lacuna, que a OpenAI chama de “imposto de compreensibilidade”.



No entanto, se os humanos conseguem compreender o conteúdo gerado pelo modelo é um pré-requisito importante para fazer julgamentos precisos e, portanto, também tem um impacto importante na segurança.

Mesmo deixando isso de lado, a compreensibilidade do conteúdo determina diretamente se o modelo pode trazer ajuda útil aos humanos.

Esta pesquisa foi inspirada no jogo “certificador-verificador” proposto por acadêmicos da Universidade de Toronto em 2021, e treinou o modelo por meio do jogo.

provadorPossuindo poderoso poder computacional e capacidade de realizar cálculos complexos e gerar provas, a tarefa é tentar convencer o verificador de que determinada afirmação está correta.

validadorAssim, apenas cálculos relativamente simples podem ser realizados e é necessário um processo interactivo para determinar se a prova fornecida pelo provador é credível.

Por exemplo, existe um problema matemático que requer a resolução da expressão de uma função. O provador conhece a expressão (mas não necessariamente correta) e deseja que o verificador acredite que sua resposta está correta.

O verificador conhece os valores da função correspondentes a algumas variáveis ​​​​independentes e pode usar essas informações para testar o provador e julgar se ele conhece a função correta, verificando se sua resposta é precisa.

Desta forma, a OpenAI se esforça para alcançar um equilíbrio entre precisão e legibilidade, trocando relativamente pouca perda de precisão por maior legibilidade.

Neste projeto, a equipe OpenAI usou um conjunto de dados contendo problemas de matemática do ensino fundamental, soluções e respostas corretas.

Para o modelo foram selecionados modelos da série GPT-4 de diferentes tamanhos, sendo que os maiores serviram como provadores e os menores serviram como verificadores.

O conjunto de dados é dividido aleatoriamente em dois subconjuntos de tamanhos iguais, que são usados ​​para o treinamento do provador e do verificador, respectivamente.

Ao provador são atribuídas duas funções: útil e sorrateira, respectivamente, gerando soluções corretas e incorretas, respectivamente.

Mas o que eles têm em comum é que ambos precisam que suas soluções recebam pontuações altas do verificador.


△A evolução do provador astuto em múltiplas rodadas de treinamento

Estas duas funções não são fixas e o provador precisaFaz voltas, são recompensados ​​quando os comportamentos são consistentes com o papel desempenhado.

O treinamento é dividido em múltiplas rodadas. Em cada rodada, a equipe extrairá um lote de amostras corretas e incorretas das soluções geradas pelos dois provadores na rodada anterior.

Essas amostras serão usadas como dados de treinamento do validador para a rodada atual. O validador é treinado por meio de aprendizado supervisionado para melhorar a correção de seu julgamento e permitir que o validador obtenha uma pontuação mais alta nas soluções corretas do que nas soluções incorretas.

Nesse processo, o provador astuto incentiva constantemente o verificador a melhorar a precisão de seu julgamento, e o verificador também torna o conteúdo gerado pelo provador mais consistente com as preferências de pontuação. Os dois alcançam progresso comum por meio de jogos mútuos.



Um pré-requisito importante para obter pontuações altas é que o conteúdo gerado possa ser compreendido pelo verificador. Desta forma, desde que as preferências humanas sejam introduzidas no verificador, a interpretabilidade do conteúdo de saída do modelo pode ser melhorada.

Equilíbrio entre precisão e legibilidade

Em última análise, esse método de treinamento baseado em jogo alcança um bom equilíbrio entre alta precisão e alta compreensão.

O método de treinamento tradicional concentra-se apenas na precisão do próprio modelo. À medida que o processo de treinamento avança, a precisão das respostas aumenta, mas os julgamentos feitos pelos humanos tornam-se cada vez mais imprecisos e mais lentos.



Como a equipe OpenAI introduziu preferências humanas no verificador, a precisão do julgamento do verificador está, até certo ponto, relacionada ao ser humano.

Os resultados finais também confirmaram que o modelo (provador) treinado usando este método de jogo permite que os humanos façam julgamentos mais rápidos e precisos à medida que o número de rodadas de treinamento aumenta, sem perda significativa de precisão.

Depois de comparar o método de linha de base, não é difícil descobrir que a precisão do julgamento humano excede 82% após 5 rodadas, mas a linha de base é inferior a 75% após 7.000 etapas de treinamento;

Em termos de tempo, o tempo inicial de julgamento humano é próximo de 27 segundos, e o novo método é apenas um pouco mais de 26 segundos.



Além disso, para o verificador, à medida que o treinamento continua, sua robustez aumenta gradativamente, podendo identificar respostas erradas com maior precisão.



Além da avaliação da eficácia deste método de treinamento baseado em jogos, a equipe da OpenAI também fez algumas outras descobertas durante o processo de pesquisa:

  • O impacto do tamanho do validador: muito pequeno levará a um treinamento instável, e muito grande tornará difícil melhorar a robustez em múltiplas rodadas de treinamento. Um milésimo a um centésimo do provador tem o melhor efeito.
  • Os erros em soluções maliciosas tornam-se cada vez mais sutis e localizados com o treinamento, indicando que o validador pressiona o provador traiçoeiro a gerar exemplos adversários mais próximos da verdadeira solução.
  • À medida que o número de épocas de treinamento aumenta, a precisão dos avaliadores humanos no provador traiçoeiro diminui.
Mais uma coisa

Desde que a equipe do Super Alignment que produziu esta pesquisa foi dissolvida e agora é responsável pelas questões de segurança, a estratégia de segurança da OpenAI recebeu mais uma vez ampla atenção.

Com relação a esta questão, Mira Murati, CTO da OpenAI, aceitou uma entrevista exclusiva na Universidade Johns Hopkins no início deste mês.

Mira disse durante este período que a OpenAI não “colocou o produto (prioridade) antes da segurança”, como acusou Jan Leike, ex-chefe da Super Alignment Team.

Ao mesmo tempo, ela também disse que embora a equipe do Super Alignment tenha sido dissolvida, o Super Alignment é na verdade apenas uma das múltiplas equipes de segurança da OpenAI, e muitas pessoas na empresa ainda estão envolvidas no trabalho de segurança.



Links de referência:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542