notícias

O artigo mais recente da OpenAI permite que modelos superpoderosos se expliquem

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O artigo mais recente da OpenAI permite que modelos superpoderosos se expliquem

Autor do Guia Futuro de Texto/AI, Hao Boyang

Editor/Zhou Xiaoyan

Hoje a OpenAI lançou um novo artigo, que é o "trabalho póstumo" da extinta equipe OpenAI Super Alignment. Propõe uma nova forma de melhorar a interpretabilidade do modelo, que consiste em deixar o modelo explicar a sua própria lógica, e quanto mais fácil for de explicar, melhor.

Na verdade, essa ideia não é nova, mas todo mundo já usou o prompt word project para fazer isso antes. Use instruções como cadeias de pensamento para forçar a IA a explicar suas respostas. Mas não seria melhor se o modelo explicasse melhor em primeiro lugar? Então você terá que fazer alguns ajustes durante o processo de treinamento do modelo. Para atingir esse objetivo, a OpenAI propôs um método denominado “treinamento de inspecionabilidade”. Um método chamado “jogo certificador-verificador” é usado para melhorar a capacidade do modelo de se explicar. Finalmente descobri que este método é realmente útil.

Como exatamente eles fizeram isso?

Queremos treinar uma IA muito inteligente (vamos chamá-la de “provador”) para resolver problemas matemáticos. Esperamos que esta IA possa não apenas dar a resposta correta, mas também explicá-la claramente e facilitar a compreensão das pessoas. No entanto, se deixarmos a IA buscar a resposta correta, ela poderá desenvolver uma forma muito complexa e difícil de entender de resolver problemas.

Por exemplo, no exemplo abaixo, a resposta dada pelo modelo está correta, mas o método de prova é muito indizível. Isto torna difícil para os usuários comuns, incluindo clientes em indústrias que exigem alta precisão, avaliar se suas ideias estão corretas.

Então, para evitar essa situação, os pesquisadores criaram um método inteligente:

1. Eles criam uma IA de “árbitro” (chamada de “validador”). Este árbitro não é tão inteligente quanto a IA de resolução de problemas, mas seu trabalho é julgar se a resposta da IA ​​de resolução de problemas está correta e clara.

2. Em seguida, eles pediram à IA solucionadora de problemas que desempenhasse dois papéis: um “bom aluno” (IA prestativa), tentando dar respostas corretas e claras e um “aluno travesso” (IA astuta), tentando dar respostas que; parecem corretos, mas na verdade estão sutilmente errados.

3. Ambos os “alunos” tentam convencer a IA do árbitro de que sua resposta está correta.

4. Com o tempo, a IA do árbitro torna-se cada vez melhor na identificação de respostas corretas e incorretas. Ao mesmo tempo, a IA do “bom aluno” aprendeu a explicar os problemas com mais clareza, enquanto a IA do “aluno travesso” aprendeu a cometer erros mais sutis.

5. O processo se repete como um jogo contínuo.

Este processo é o “jogo certificador-verificador”. Dessa forma, após diversas rodadas de treinamento, as explicações do modelo tornam-se cada vez mais claras. Por exemplo, após uma rodada desse tipo de treinamento, a interpretação do modelo fica muito melhor.

(Os resultados da primeira rodada de treinamento já estão detalhados)

Depois de cinco rodadas, o modelo pode basicamente explicar o assunto para você no tom de um professor de escola primária.

(Resultados da quinta rodada de treinamento)

E esse “verificador” de IA do árbitro também evoluiu sob a pressão da IA ​​astuta. Tornando-se melhor em discernir se as respostas são verdadeiras ou falsas. Mesmo que a astuta IA faça afirmações fantásticas, será mais fácil encontrar lacunas nela.

(Esta é a resposta da Cunning AI, parece bastante decente)

(Com o passar do tempo, o nível de IA astuta também melhora)

No processo, os pesquisadores da OpenAI também descobriram um método chamadoO fenômeno da “taxa de compreensibilidade”, em que quanto mais compreensível for o resultado da IA, maior será a probabilidade de sacrificar um certo nível de desempenho ou precisão.

Eles fizeram um diagrama para representar esse fenômeno.

Na foto, Eixo X: representa a precisão do gerador do modelo, Eixo Y: representa a precisão dos avaliadores humanos, aqui utilizado como medida de legibilidade. Um modelo que executa diretamente a aprendizagem por reforço (RL) sem "treinamento de inspecionabilidade" tem fortes capacidades, mas pouca interpretabilidade. Os modelos que passaram por “treinamento de inspecionabilidade” podem melhorar a precisão, mantendo a mesma interpretabilidade. Mas há um limite. A “taxa de compreensibilidade” marcada com uma seta vermelha na figura é o desempenho que deve ser sacrificado sem perder a interpretabilidade.

O que exatamente esta pesquisa faz? Também podemos ver nos exemplos acima que um método de explicação que é mais fácil de ser entendido pela IA do árbitro também é mais fácil de ser entendido por nós, humanos.esse Isso mostra que podemos usar modelos menores e mais fáceis de treinar para substituir o feedback de anotação humana (como RHLF) para melhorar a compreensão de resultados de modelos grandes. O artigo dá grandes expectativas para este método. Eles argumentam que “tal autonomia será particularmente importante para o alinhamento de futuros sistemas de IA superinteligentes, com o objetivo de garantir que os sistemas de IA se alinhem de forma confiável com os valores e expectativas humanas, sem supervisão humana direta”.

Vale lembrar que o trabalho pioneiro da equipe do Super Alignment foi a ideia de usar modelos fracos para supervisionar modelos fortes. Parece que, diante do ideal original de superalinhamento, eles estão realmente tentando utilizar vários métodos para alcançá-lo. É uma pena que as coisas tenham mudado, a equipe tenha ido embora e tudo o que podemos ouvir agora é a última reverberação.