minhas informações de contato
Correspondência[email protected]
2024-07-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Crecy vem do Templo Aofei
Qubits | Conta pública QbitAI
deixarModelos grandes e pequenos competem entre si, você pode melhorar a legibilidade do conteúdo gerado!
Esta é uma pesquisa séria da OpenAI. O objetivo é tornar o resultado do modelo mais fácil de entender e, ao mesmo tempo, garantir a precisão.
Após o treinamento com este método, a precisão do julgamento humano da saída do modelo aumentou significativamente e a velocidade também se tornou mais rápida.
A pesquisa, da extinta equipe “Hyper-Alignment” da OpenAI, imita um estudo de 2021 realizado por acadêmicos da Universidade de Toronto.Jogo "Prover-Verificador"。
Durante o processo de treinamento, o OpenAI permite que o modelo grande sirva como “provador” e o modelo pequeno como “verificador”, permitindo que essas duas identidades concorram entre si.
No final, os resultados do modelo grande não são apenasÉ mais fácil de entender e não há perda óbvia de precisão., o nível de julgamento do modelo pequeno também melhorou.
Até mesmo um dos autores do artigo, o pesquisador da OpenAI Yining Chen, disse que esta abordagem “tem o potencial de tornar os modelos futuros mais inteligentes que os humanos”.
Vale ressaltar que o ex-chefe do Super Alignment Team e autor do RLHFJan LeikeEle também participou desta pesquisa Ao deixar o emprego, criticou a OpenAI por não prestar atenção à segurança.
No entanto, no final do tweet de Jan Leike apresentando este artigo, ele estava anunciando a Anthropic (fabricante Claude), onde está agora para recrutar pessoas.
Outro autor do artigo, o pesquisador da OpenAI Nat McAleese, revelou em um tweet que este será o último artigo (final) de superalinhamento da OpenAI.
Essa notícia deixou alguns internautas muito entusiasmados, dizendo que esse não deve ser o último artigo Nat, você continuará fazendo super alinhamento, certo?
A pesquisa da OpenAI descobriu que o conteúdo gerado por grandes modelos tem alguns freios e contrapesos nas duas dimensões de precisão e legibilidade——
Se você otimizar tendo sua própria precisão como objetivo, isso levará a uma diminuição na legibilidade; se você tomar a legibilidade como objetivo, sua própria precisão será perdida;
Mesmo em tarefas simples de matemática do ensino fundamental, é fácil ver a lacuna, que a OpenAI chama de “imposto de compreensibilidade”.
No entanto, se os humanos conseguem compreender o conteúdo gerado pelo modelo é um pré-requisito importante para fazer julgamentos precisos e, portanto, também tem um impacto importante na segurança.
Mesmo deixando isso de lado, a compreensibilidade do conteúdo determina diretamente se o modelo pode trazer ajuda útil aos humanos.
Esta pesquisa foi inspirada no jogo “certificador-verificador” proposto por acadêmicos da Universidade de Toronto em 2021, e treinou o modelo por meio do jogo.
provadorPossuindo poderoso poder computacional e capacidade de realizar cálculos complexos e gerar provas, a tarefa é tentar convencer o verificador de que determinada afirmação está correta.
validadorAssim, apenas cálculos relativamente simples podem ser realizados e é necessário um processo interactivo para determinar se a prova fornecida pelo provador é credível.
Por exemplo, existe um problema matemático que requer a resolução da expressão de uma função. O provador conhece a expressão (mas não necessariamente correta) e deseja que o verificador acredite que sua resposta está correta.
O verificador conhece os valores da função correspondentes a algumas variáveis independentes e pode usar essas informações para testar o provador e julgar se ele conhece a função correta, verificando se sua resposta é precisa.
Desta forma, a OpenAI se esforça para alcançar um equilíbrio entre precisão e legibilidade, trocando relativamente pouca perda de precisão por maior legibilidade.
Neste projeto, a equipe OpenAI usou um conjunto de dados contendo problemas de matemática do ensino fundamental, soluções e respostas corretas.
Para o modelo foram selecionados modelos da série GPT-4 de diferentes tamanhos, sendo que os maiores serviram como provadores e os menores serviram como verificadores.
O conjunto de dados é dividido aleatoriamente em dois subconjuntos de tamanhos iguais, que são usados para o treinamento do provador e do verificador, respectivamente.
Ao provador são atribuídas duas funções: útil e sorrateira, respectivamente, gerando soluções corretas e incorretas, respectivamente.
Mas o que eles têm em comum é que ambos precisam que suas soluções recebam pontuações altas do verificador.
△A evolução do provador astuto em múltiplas rodadas de treinamento
Estas duas funções não são fixas e o provador precisaFaz voltas, são recompensados quando os comportamentos são consistentes com o papel desempenhado.
O treinamento é dividido em múltiplas rodadas. Em cada rodada, a equipe extrairá um lote de amostras corretas e incorretas das soluções geradas pelos dois provadores na rodada anterior.
Essas amostras serão usadas como dados de treinamento do validador para a rodada atual. O validador é treinado por meio de aprendizado supervisionado para melhorar a correção de seu julgamento e permitir que o validador obtenha uma pontuação mais alta nas soluções corretas do que nas soluções incorretas.
Nesse processo, o provador astuto incentiva constantemente o verificador a melhorar a precisão de seu julgamento, e o verificador também torna o conteúdo gerado pelo provador mais consistente com as preferências de pontuação. Os dois alcançam progresso comum por meio de jogos mútuos.
Um pré-requisito importante para obter pontuações altas é que o conteúdo gerado possa ser compreendido pelo verificador. Desta forma, desde que as preferências humanas sejam introduzidas no verificador, a interpretabilidade do conteúdo de saída do modelo pode ser melhorada.
Em última análise, esse método de treinamento baseado em jogo alcança um bom equilíbrio entre alta precisão e alta compreensão.
O método de treinamento tradicional concentra-se apenas na precisão do próprio modelo. À medida que o processo de treinamento avança, a precisão das respostas aumenta, mas os julgamentos feitos pelos humanos tornam-se cada vez mais imprecisos e mais lentos.
Como a equipe OpenAI introduziu preferências humanas no verificador, a precisão do julgamento do verificador está, até certo ponto, relacionada ao ser humano.
Os resultados finais também confirmaram que o modelo (provador) treinado usando este método de jogo permite que os humanos façam julgamentos mais rápidos e precisos à medida que o número de rodadas de treinamento aumenta, sem perda significativa de precisão.
Depois de comparar o método de linha de base, não é difícil descobrir que a precisão do julgamento humano excede 82% após 5 rodadas, mas a linha de base é inferior a 75% após 7.000 etapas de treinamento;
Em termos de tempo, o tempo inicial de julgamento humano é próximo de 27 segundos, e o novo método é apenas um pouco mais de 26 segundos.
Além disso, para o verificador, à medida que o treinamento continua, sua robustez aumenta gradativamente, podendo identificar respostas erradas com maior precisão.
Além da avaliação da eficácia deste método de treinamento baseado em jogos, a equipe da OpenAI também fez algumas outras descobertas durante o processo de pesquisa:
Desde que a equipe do Super Alignment que produziu esta pesquisa foi dissolvida e agora é responsável pelas questões de segurança, a estratégia de segurança da OpenAI recebeu mais uma vez ampla atenção.
Com relação a esta questão, Mira Murati, CTO da OpenAI, aceitou uma entrevista exclusiva na Universidade Johns Hopkins no início deste mês.
Mira disse durante este período que a OpenAI não “colocou o produto (prioridade) antes da segurança”, como acusou Jan Leike, ex-chefe da Super Alignment Team.
Ao mesmo tempo, ela também disse que embora a equipe do Super Alignment tenha sido dissolvida, o Super Alignment é na verdade apenas uma das múltiplas equipes de segurança da OpenAI, e muitas pessoas na empresa ainda estão envolvidas no trabalho de segurança.
Links de referência:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542