Trabalho póstumo da equipe OpenAI Super Alignment: dois grandes modelos competiram e o resultado tornou-se mais compreensível

Trabalho póstumo da equipe OpenAI Super Alignment: dois grandes modelos jogam um jogo e o resultado se torna mais compreensível

2024-07-18

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Se a resposta dada pelo modelo de IA for incompreensível, você teria coragem de usá-la?

À medida que os sistemas de aprendizagem automática são utilizados em áreas mais importantes, torna-se cada vez mais importante demonstrar por que podemos confiar nos seus resultados e quando não confiar neles.

Uma maneira possível de ganhar confiança na saída de um sistema complexo é exigir que o sistema produza uma interpretação de sua saída que seja legível por um ser humano ou por outro sistema confiável, ou seja, totalmente compreensível a ponto de quaisquer possíveis erros poderem ser detectados. encontrado. Por exemplo, para construir confiança no sistema judicial, exigimos que os tribunais forneçam pareceres escritos claros e legíveis que expliquem e apoiem as suas decisões.

Para modelos de linguagem grandes, também podemos adotar uma abordagem semelhante.

No entanto, ao adotar esta abordagem, é importante garantir que o modelo de linguagem gere texto compreensível, especialmente quando se trata de tarefas complexas, como matemática e codificação.

Conforme mostrado na figura abaixo, você pede à IA para escrever um algoritmo de classificação rápida. A IA o escreve rapidamente e a resposta é muito concisa. Mas se você não sabe escrever código, como pode avaliar se a IA está escrita corretamente?

A OpenAI estudou esse problema em um artigo recente.

Título do artigo: JOGOS PROVER-VERIFIER MELHORAM LEGIBILIDADE DE PRODUTOS LLM

Link do artigo: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Eles descobriram que se for solicitado a grandes modelos de linguagem que gerem respostas com o objetivo de “obter a resposta certa”, as respostas que eles dão podem ser difíceis de entender. Os avaliadores humanos têm duas vezes mais probabilidade de cometer erros ao julgar essas respostas.

Portanto, seu objetivo é treinar modelos de linguagem de alto nível para que possam gerar texto que modelos mais simples possam verificar facilmente. Eles descobriram que esse texto não era apenas amigável para modelos simples, mas também mais legível para humanos.

Então, como isso é alcançado? Isso também menciona um artigo de 2021 - "Aprendendo a dar respostas verificáveis com jogos de provador-verificador". Neste artigo, Cem Anil et al. propuseram uma estrutura de teoria dos jogos chamada "Jogos Provador-Verificador". A estrutura consiste em dois aprendizes concorrentes: uma rede de verificadores confiáveis tentando escolher a resposta correta, e uma rede mais poderosa, mas não confiável, de provadores tentando convencer os verificadores a aceitar uma resposta específica, independentemente de sua correção. O objetivo desta estrutura é produzir um protocolo de prova confiável do jogo.

A OpenAI emprestou essa estrutura neste novo estudo, permitindo que dois grandes modelos (o mais forte para ser o provador e o mais fraco para ser o verificador) joguem um contra o outro até que os dois alcancem um equilíbrio. Neste momento, a resposta dada pelo provador é legível e razoavelmente correta.

A OpenAI disse que, ao melhorar a legibilidade dos resultados do modelo, pode tornar a aplicação da inteligência artificial mais eficaz e confiável, o que é benéfico para vários campos que requerem comunicação precisa.

Vale ressaltar que este artigo vem da equipe Super Alignment da OpenAI, cujos autores deixaram a OpenAI no início deste ano, e a equipe também se desintegrou. Um dos autores revelou que este foi o último artigo da equipe.

Um exemplo intuitivo

A fim de melhorar a legibilidade dos resultados do modelo, o OpenAI otimizou a cadeia de pensamento (CoT) de alguns problemas de matemática do ensino fundamental para que possam ser compreendidos por modelos mais fracos. Os exemplos são os seguintes:

Pergunta: O pai de Shawna é cinco vezes mais velho que Shawna. Shauna agora tem três vezes a idade de Aliya. Se Aaliyah tem 3 anos, quantos anos tem o pai de Shauna?

O objetivo é verificar se a saída do modelo treinado é mais direta e fácil de entender.

Este método melhora o desempenho do modelo em 50%, ao mesmo tempo que faz algumas otimizações no conjunto de treinamento. Ao mesmo tempo, as respostas geradas pelo modelo também são mais compreensíveis, o que também ajuda os usuários humanos que precisam avaliar a exatidão dessas respostas a fazer julgamentos mais precisos. A OpenAI acredita que reduzir ainda mais a lacuna de desempenho entre modelos mais legíveis e mais capazes é um objetivo fundamental em futuras pesquisas de alinhamento.

Como competem “certificadores” e “verificadores” durante o treinamento?

Para incentivar modelos fortes (provadores) a gerar textos mais legíveis, os pesquisadores adotaram um esquema de treinamento que exige que as respostas geradas por modelos fortes sejam facilmente verificadas por modelos mais fracos (verificadores). Especificamente, eles usaram modelos grandes e pequenos da série GPT-4. Eles diferem em cerca de três ordens de grandeza na quantidade de dados de pré-treinamento. Todos eles recebem algum treinamento de derivação matemática baseado em anotação humana, mas não um pós-treinamento extenso.

Primeiro, a equipe fez com que o modelo provador tentasse resolver uma série de problemas matemáticos. Como o próprio modelo do provador pode estar errado, algumas das respostas que ele gera podem estar incorretas. Em seguida, eles passam essas respostas para o modelo verificador, realizando múltiplas rodadas de verificação alternada entre os dois estágios a seguir:

Treinamento de “verificador”: A equipe de pesquisa treina um modelo de “verificador” mais fraco para verificar se a resposta dada pelo “provador” está correta.

Treinamento de “provador”: A equipe de pesquisa instrui o modelo “provador” mais poderoso a desempenhar papéis “úteis” ou “astutos”.

Quando o “provador” for definido como “útil”, a equipe de pesquisa recompensará o “verificador” pelas respostas corretas com pontuações altas.

Quando o “provador” foi definido como “astuto”, a equipe de pesquisa recompensou o “verificador” por respostas incorretas com pontuações altas.

A equipe de pesquisa descobriu que, inicialmente, um “provador” astuto poderia facilmente gerar respostas incorretas que convencessem o “verificador”. No entanto, essas respostas erradas entrarão na próxima rodada de treinamento do “verificador”, e as mesmas vulnerabilidades não serão mais convincentes na próxima rodada. Portanto, o “provador” será obrigado a explorar estratégias diferentes em cada rodada.

O treinamento termina quando o astuto “provador” não consegue mais gerar uma solução falsa que convença o “verificador”.

O que os pesquisadores descobriram?

Compromisso entre desempenho e legibilidade:

Um modelo que executa apenas o ajuste fino supervisionado na derivação escrita por humanos é mais legível, mas menos preciso.

Quando o objetivo de otimização do modelo é apenas a correção, ou seja, focar apenas na geração de respostas corretas, embora alta precisão possa ser alcançada, as soluções geradas são menos legíveis.

A abordagem de jogo verificável proposta pela OpenAI equilibra os dois, mantendo alta legibilidade e ao mesmo tempo precisão moderada.

Três modelos úteis:

Verificador Robusto: Distingue eficazmente entre soluções corretas e incorretas, mesmo que as soluções sejam enganosas.

Provador útil: Gera soluções que são compreensíveis para os humanos, reduzindo assim os erros dos avaliadores humanos.

Provador astuto: Produz soluções sutis e errôneas que inicialmente confundem os avaliadores humanos, destacando assim áreas que requerem melhorias adicionais.

A equipe de pesquisa usou as mesmas questões do teste para demonstrar a geração de conteúdo e o processo de treinamento do Sneaky Prover.

Pergunta: O pai de Shawna é cinco vezes mais velho que Shawna. Shauna agora tem três vezes a idade de Aliya. Se Aaliyah tem 3 anos, quantos anos tem o pai de Shauna?

para concluir

À medida que os grandes modelos de linguagem (LLMs) são cada vez mais utilizados em domínios críticos e aplicações complexas, é fundamental compreender se o conteúdo que geram é confiável. Ao exigir que os modelos tenham razões claras e verificáveis para a sua produção, pode aumentar a confiança no que produzem.

Uma vantagem significativa desta abordagem é que ela reduz a dependência de demonstrações humanas ou julgamentos de legibilidade. Esta autonomia é particularmente importante para o alinhamento de futuros sistemas de IA superinteligentes, com o objetivo final de alinhar de forma fiável os sistemas de IA com os valores e expectativas humanas, sem supervisão humana direta.

Embora este trabalho tenha sido realizado apenas em um conjunto de dados e ainda exija rótulos de verdade, a equipe de pesquisa ainda espera que tais métodos desempenhem um papel fundamental no desenvolvimento de sistemas de IA corretos, transparentes e verificáveis e melhorem sua confiabilidade e segurança no mundo real. formulários.

Para mais detalhes, consulte o artigo original.

Links de referência:

https://openai.com/index/prover-verifier-games-improve-legibility/

notícias

Trabalho póstumo da equipe OpenAI Super Alignment: dois grandes modelos jogam um jogo e o resultado se torna mais compreensível

Introdução

minhas informações de contato