OpenAI Weng Li propôs um grande modelo de "alucinação externa": uma explicação detalhada de dez mil palavras das razões pelas quais os métodos de resistência produzem alucinações...

2024-07-15

O vento oeste vem do Templo Aofei
Qubits | Conta pública QbitAI

A ilusão de grandes modelos também é dividida em interna e externa——

O último blog do cientista chinês OpenAI Weng Li propõeAlucinação externa LLM（alucinação extrínseca）。

Diferente do conteúdo gerado pelo modelo referencial que é inconsistente com a realidade, fictício, inconsistente ou sem sentido, Weng Li especificou o problema da "ilusão" do LLM comoO conteúdo de saída do modelo é fictício e não baseado no contexto ou no conhecimento mundial fornecido。

A partir disso, existem dois tipos de alucinações:

Alucinações contextualizadas: um modeloA saída deve ser consistente com o conteúdo de origem no contexto(Quando ocorre uma alucinação no contexto, a saída é inconsistente com o conteúdo de origem).
Ilusão extrínseca: a saída do modelo deve ser baseada em um conjunto de dados pré-treinado. No entanto, dado o tamanho do conjunto de dados pré-treinamento, recuperar e identificar cada conflito gerado tem um custo proibitivo.Se pensarmos no conjunto de dados pré-treinamento comoconhecimento mundial , então, essencialmente, tenta garantir que o resultado do modelo seja factual e possa ser verificado pelo conhecimento do mundo exterior. Igualmente importante é,Quando o modelo não conhece um fato, ele deve declarar explicitamente que não conhece

Anteriormente, Weng Li também propôs a fórmula do Agente: Agente = modelo grande + memória + planejamento ativo + uso de ferramenta, que foi chamada de "o melhor artigo sobre Agente que já vi" por alguns internautas.

Este blog sobre a ilusão de modelos grandes também é “um trabalho pesado”. O artigo é muito longo, com um total de 24 referências:

Weng Li concentrou-se nas alucinações externas e discutiu três questões: Qual é a causa das alucinações? Detecção de alucinações, métodos para resistir às alucinações.

Qubits compilou e organizou o texto original sem alterar o significado original.

Qubits foi traduzido e reimpresso com permissão do autor original.

O texto original está aqui:

https://lilianweng.github.io/posts/2024-07-07-alucinação/

O que causa alucinações?

Considerando que um LLM implantável padrão precisa ser pré-treinado e ajustado para alinhamento e melhoria, a análise de causa começa nessas duas etapas.

Problema de dados pré-treinamento

O conjunto de dados pré-formação foi concebido para representar todo o conhecimento mundial disponível em formato escrito e, portanto, é enorme.

A extração de dados da Internet pública é a opção mais comum, mas pode resultar em algumas informações desatualizadas, ausentes ou erradas. Como o modelo pode lembrar incorretamente essas informações simplesmente maximizando a probabilidade logarítmica, o modelo pode cometer erros.

Aperfeiçoe novos conhecimentos

O ajuste fino do LLM pré-treinado por meio do ajuste fino supervisionado (SFT) e aprendizagem por reforço com feedback humano (RLHF) é uma técnica comum para melhorar certas capacidades do modelo (como rastreamento de instruções). A fase de ajuste fino introduz inevitavelmente novos conhecimentos.

Embora o ajuste fino geralmente consuma menos recursos computacionais,Se novos conhecimentos podem ser aprendidos de forma confiável através do ajuste fino de um modelo em pequena escala é uma questão em aberto.。

Num estudo realizado este ano, Gekhman et al. discutiram a questão de saber se o ajuste fino do LLM com novos conhecimentos promoverá a ocorrência de alucinações.

Eles descobriram que o LLM aprende mais lentamente com exemplos ajustados com novos conhecimentos do que com exemplos que são consistentes com o conhecimento pré-existente do modelo, uma vez que esses exemplos com novos conhecimentos são aprendidos, a tendência do modelo a alucinar aumenta;

Especificamente, dado um conjunto de dados de perguntas e respostas fechadas (ou seja, EntityQuestions) = (,), Correct(,;,) é definido como uma estimativa da probabilidade de que o modelo M gere com precisão a resposta correta, ao usar exemplos aleatórios e certa decodificação. solicitado com temperatura, a resposta correta para a pergunta é.

Eles dividiram os exemplos em 4 categorias de acordo com diferentes condições de Correto (,;,): Grupo conhecido (incluindo três subgrupos: Altamente conhecido, Talvez conhecido, Fraco conhecido) e Grupo desconhecido.

Algumas observações interessantes dos experimentos, onde a precisão do conjunto de desenvolvimento é considerada um indicador simbólico de ilusão:

A velocidade de ajuste desconhecida é significativamente mais lenta que a conhecida;
O melhor desempenho é alcançado quando o LLM se ajusta à maioria dos exemplos de treinamento conhecidos, mas apenas a alguns exemplos desconhecidos;
Quando a maioria dos exemplos desconhecidos são aprendidos, o modelo começa a ter alucinações

Esses resultados de Gekhman et al. apontam os riscos do uso do ajuste fino supervisionado para atualizar o conhecimento do LLM.

Detecção de alucinações

Avaliação aprimorada de pesquisa

Para quantificar o fenômeno de alucinação do modelo, Lee et al. introduziram um novo conjunto de dados de referência em 2022.FactualidadePrompt, este conjunto de dados contém dicas factuais e não factuais, usando documentos ou frases da Wikipédia como base de conhecimento factual básico.

Os documentos da Wikipédia são informações verdadeiras conhecidas do conjunto de dados FEVER, enquanto as frases são selecionadas via tf-idf ou similaridade com base em incorporações de frases.

Duas métricas para avaliar alucinações foram consideradas, dada uma continuação do modelo e um texto da Wikipedia emparelhado:alucinação entidades nomeadas(NE)Taxa de erro、Razão de implicação（Taxas de envolvimento）。

Taxas de erro NE mais altas e taxas de implicação mais baixas indicam maior factualidade. Ambas as métricas se correlacionam com anotações humanas, com modelos maiores apresentando melhor desempenho neste benchmark.

Além disso, Min et al.Pontuação de Fato , decompor a geração de artigos longos em vários fatos atômicos e verificar cada fato individualmente em bases de conhecimento como a Wikipedia. A proporção (precisão) de sentenças apoiadas por fontes de conhecimento geradas por cada modelo pode então ser medida, sendo FactScore a precisão média gerada pelo modelo em um conjunto de pistas.

Este artigo testou uma variedade de métodos de verificação factual na tarefa de geração biográfica e descobriu queUsar a recuperação fornece melhor consistência do que o LLM sem contexto . Nos métodos de aprimoramento de recuperação, a escolha do melhor estimador depende do modelo.

LLM sem contexto: use diretamente "Verdadeiro ou Falso?"
Recuperação → LLM: Prompt com passagens relevantes recuperadas de fontes de conhecimento como contexto
Probabilidade Não Paramétrica (NP): Calcule a probabilidade média de tags em fatos atômicos via LM mascarado e use-a para fazer previsões
Pesquisa→LLM+NP: Integração de dois métodos

Algumas observações interessantes sobre o comportamento alucinatório do modelo:

Entidades raras apresentam taxas de erro mais altas em tarefas de geração de biografias
Os fatos mencionados posteriormente no conteúdo gerado também apresentam taxas de erro mais altas
Usar a recuperação para fornecer uma base para a geração de modelos pode ajudar significativamente a reduzir os fenômenos de alucinação

Wei et al. em 2024 também propuseram um método para avaliar a factualidade de formato longo do LLM, denominadoSEGURO（Avaliador de Factualidade Aumentada por Pesquisa）。

Comparado com o FActScore, a principal diferença é que o SAFE usa um modelo de linguagem como Agente.Emita iterativamente consultas de pesquisa do Google por meio de um processo de várias etapase raciocinar se os resultados da pesquisa apoiam ou não esse fato.

A cada etapa, o agente gera uma consulta de pesquisa com base nos fatos a serem verificados e nos resultados da pesquisa obtidos anteriormente. Após várias etapas, o modelo realiza inferência para determinar se o fato é suportado pelos resultados da pesquisa.

De acordo com experimentos,Embora o método SAFE custe 20 vezes menos que a anotação humana, ele tem um desempenho melhor que a anotação humana: A taxa de concordância com humanos foi de 72%, e a taxa de superação de humanos em desacordo foi de 76%.

O índice de avaliação SAFE é F1@K. Para respostas longas de modelos factuais, idealmente tanto a precisão quanto a recuperação devem ser alcançadas, uma vez que a resposta deve satisfazer simultaneamente:

factual: Medido pela precisão, que é a porcentagem de fatos comprovados em toda a resposta.
longo : Medido por recall, que é o percentual de fatos fornecidos entre todos os fatos relevantes que deveriam aparecer na resposta. Portanto, considera-se o número máximo de fatos sustentados.

Dada a resposta do modelo, a métrica F1@K é definida como:

Além disso, Chern et al. 2023 propuseram um fluxo de trabalho de verificação de fatos que segue padrões.Ferramenta de Fac . Ele foi projetado para detectar erros factuais em uma variedade de tarefas, incluindo resposta a perguntas com base em conhecimento, geração de código, resolução de problemas matemáticos e revisão de literatura científica. As etapas incluem:

Extração de reivindicação: Extraia todas as reivindicações verificáveis solicitando o LLM.
Geração de consulta: converta cada instrução em uma série de consultas adequadas para ferramentas externas, como consultas de mecanismos de pesquisa, casos de teste unitários, trechos de código e títulos de artigos.
Consulta de ferramentas e coleta de evidências: consulte ferramentas externas, como mecanismos de pesquisa, intérpretes de código e Google Acadêmico, e obtenha os resultados retornados.
Verificação de consistência: Cada afirmação recebe um rótulo factual binário com base no grau de suporte de evidências fornecido por ferramentas externas.

Detecção baseada em amostragem

Manakul et al. 2023 propuseram uma verificação de consistência que depende de múltiplas amostras de um LLM de caixa preta -AutoVerificaçãoGPT, para identificar erros factuais.

Considerando que as medições de verificação de fatos da caixa cinza exigem acesso ao logprob em nível de token do LLM, SelfCheckGPTBasta usar amostras que não dependam de bases de conhecimento externas, para que o acesso à caixa preta seja suficiente, nenhuma base de conhecimento externa é necessária.

Este método usa métricas diferentes para medir a consistência entre a resposta do modelo e outras amostras aleatórias do modelo, incluindo BERTScore, NLI, prompts (pedir sim/não), etc. O SelfCheckGPT usando dicas parece ter melhor desempenho ao conduzir inspeções experimentais de passagens do WikiBio geradas pelo GPT-3.

Calibrando conhecimento desconhecido

Pedir a um modelo que gere respostas para perguntas sem resposta ou desconhecidas pode induzir alucinações.TruthfulQA(Lin et al., 2021) eAutoconsciente(Yin et al., 2023) são dois benchmarks que medem a capacidade de um modelo de gerar respostas realistas em tais situações, o primeiro é construído de forma adversa para enfatizar o erro humano, e o último inclui perguntas sem resposta.

Ao se deparar com esses problemas,O modelo deve recusar-se a responder ou fornecer informações relevantes。

No TruthfulQA, as perguntas do teste são elaboradas de forma adversária com base em mal-entendidos ou erros humanos comuns. O benchmark contém 817 questões cobrindo 38 tópicos, incluindo saúde, direito, finanças e política.

Quando testado, o melhor LLM alcançou uma precisão de 58%, enquanto os humanos conseguiram atingir 94%. A equipe de pesquisa descobriu queDevido a um equívoco comum, os modelos maiores são menos realistas, mas esta tendência não se reflete em outros padrões(sem confronto)base factual。

Aqui está um exemplo de resposta incorreta do GPT-3 no TruthfulQA:

Yin et al. 2023 estudaramAutoconscienteO conceito de refere-se a se os modelos de linguagem sabem o que sabem ou não.

SelfAware contém 1.032 perguntas sem resposta e 2.337 perguntas respondíveis em cinco categorias. As perguntas sem resposta são provenientes de fóruns on-line com anotações humanas, e as perguntas com resposta são provenientes de SQuAD, HotpotQA e TriviaQA.

Uma pergunta pode ser irrespondível por diversas razões, como falta de consenso científico, imaginação do futuro, subjetividade completa, razões filosóficas que podem gerar respostas múltiplas, etc.

O estudo trata a distinção entre perguntas respondíveis e não respondidas como uma tarefa de classificação binária e usa a pontuação ou precisão F1 para avaliar o desempenho do modelo. Os experimentos mostram que modelos maiores têm melhor desempenho nesta tarefa.

Outra forma de avaliar quão bem um modelo compreende o conhecimento desconhecido é medir a incerteza na saída do modelo. Quando um problema está entre o conhecido e o desconhecido, o modelo deve apresentar o nível correto de confiança.

O experimento de 2022 de Kadavath et al. mostrou que em uma variedade de opções de resposta multidimensionais com letras visíveis,Seleção de tópicoformatos (MMLU, TruthfulQA, QuALITY, LogiQA), o LLM tem um bom desempenho na estimativa da probabilidade de uma resposta estar correta, o que significa que a probabilidade prevista é consistente com a frequência com que essa resposta é verdadeira.

O ajuste fino do RLHF resulta em uma calibração pior do modelo, mas temperaturas de amostragem mais altas levam a melhores resultados de calibração.

Lin et al.Matemática Calibrada Kit Missão. CalibrateMath é um conjunto de problemas matemáticos gerados programaticamente com vários níveis de dificuldade que testam a calibração das probabilidades de saída do modelo.

Para cada questão, o modelo deve fornecer uma resposta numérica e sua confiança nessa resposta. Três tipos de probabilidades são considerados:

Um número ou palavra literal (como "mais baixo", "baixo", "médio", "alto", "mais alto"), como "Confiança: 60% / Moderado".
A probabilidade logarítmica normalizada do token de resposta. Observe que este parâmetro não foi usado nos experimentos de ajuste fino.
Logprob para o sinalizador indireto "Verdadeiro/Falso" após a resposta original. Os experimentos se concentram na calibração da generalização sob mudanças distributivas na dificuldade ou no conteúdo da tarefa. Cada ponto de dados de ajuste fino é uma pergunta, a resposta do modelo (que pode estar errada) e a confiança da calibração. Em ambos os casos, as probabilidades textuais generalizaram bem e todas as configurações tiveram um bom desempenho nas tarefas de multiplicação e divisão. Em termos de confiança na previsão do modelo, o modelo de poucos disparos é mais fraco do que o modelo ajustado. Ajuda incluir mais exemplos, a versão de 50 fotos é quase tão boa quanto a versão ajustada.

consulta indireta

Agrawal et al. (2023) estudaram especificamente casos de citações alucinadas na geração de LLM, incluindo livros, artigos e títulos de artigos fictícios. Eles usaram dois métodos baseados em consistência para detectar alucinações, nomeadamente consulta direta e consulta indireta. Ambos os métodos executam a verificação várias vezes quando T > 0 e verificam a consistência.

As consultas diretas exigem que o modelo determine se o material de referência gerado existe, enquanto as consultas indiretas requerem detalhes auxiliares, comoQuem é o autor da referência?。

A hipótese é que, para uma referência alucinada, a consistência de gerar o mesmo autor múltiplas vezes é menor do que a probabilidade de múltiplas respostas a uma consulta direta revelarem a presença da referência.

Experimentos mostram queOs métodos de consulta indireta têm melhor desempenho, modelos maiores são mais poderosos e há menos alucinações。

Maneiras de combater as alucinações

A seguir, revisamos um conjunto de métodos para melhorar a autenticidade das respostas LLM, incluindo recuperação de bases de conhecimento externas, métodos especiais de amostragem e ajuste fino de alinhamento. Alguns métodos de interpretabilidade para reduzir alucinações através da edição de neurônios não serão discutidos aqui.

RAG → Edição e Atribuição

RAG (Retrieval Augmented Generation) é um método muito comum de fornecer informações básicas, recuperando documentos relevantes e gerando-os usando documentos relevantes adicionais como contexto.

RARR(Retrofit Attribution using Research and Revision) é uma estrutura proposta por Gao et al em 2022, que permite ao LLM apoiar retroativamente a atribuição de evidências externas por meio de atribuição editorial.

Dado um texto gerado por modelo, o RARR o processa em duas etapas, gerando um texto revisado e um relatório de atribuição:

1. Fase de pesquisa: Encontre documentos relevantes como prova.

Um modelo de geração de consulta é usado primeiro (por meio de dicas rápidas, →1,…, ) para construir um conjunto de consultas de pesquisa 1,…, para validar vários aspectos de cada frase.
Executando uma pesquisa no Google, cada consulta = 5 resultados.
Um modelo de relevância de documento de consulta pré-treinado é utilizado para atribuir pontuações de relevância, e apenas um mais relevante = 1 documento 1,…, é retido para cada consulta.

2. Fase de revisão: Edite o resultado para corrigir o conteúdo que não é apoiado pelas evidências, mantendo ao mesmo tempo o máximo possível do conteúdo original.Inicialize o texto revisado =.

De acordo com (,), o modelo de protocolo (através de dicas de poucos disparos + CoT, (,,) → 0,1) verifica se a evidência é inconsistente com o texto revisado atual.

Somente quando uma inconsistência é detectada, o modelo de edição (através de algumas dicas + CoT, (,,)→ new ) gera uma nova versão, projetada para ser minimamente alterada ao mesmo tempo que a evidência.

Finalmente, apenas uma quantidade limitada de =5 evidências vai para o relatório de atribuição.

Tanto a atribuição como a retenção são importantes na avaliação do texto revisado.

A atribuição usa a pontuação AIS (Atribuído à fonte identificada) para medir quanto do conteúdo pode ser atribuído. Anotações humanas podem ser coletadas ou modelos NLI podem ser usados para aproximar a pontuação automática do AIS.

Preservação refere-se ao grau em que o texto original é preservado, medido como Previntent × PrevLev, onde Previntent requer anotação manual e PrevLev é baseado na distância de edição de Levenshtein em nível de caractere. Comparado com as duas linhas de base, o RARR leva a resultados mais equilibrados, especialmente em termos de métricas de retenção.

Semelhante ao RARR usando pesquisa+edição, proposto por Mishra et al.FAVA (Verificação de factualidade com conhecimento aumentado) também recupera documentação relevante e, em seguida, edita a saída do modelo para evitar erros ilusórios. O modelo FAVA consiste em um recuperador e um editor.

Dado um prompt e um modelo de saída, recupere os documentos mais relevantes:

O editor gera resultados aprimorados:

RARR não requer treinamento, mas a edição do modelo do editor no FAVA requer ajuste fino. Ao classificar diferentes tipos de erros de alucinação com mais detalhes, é possível gerar dados de treinamento sintéticos para modelos editados, inserindo erros aleatórios na geração do modelo.

Cada exemplo é um trio (,,∗), onde é a passagem original da Wikipedia como contexto dourado, é a saída LM com erros e ∗ é a saída com rótulos de erro e edições corretas.

Proposto por He et al.RRA abordagem (Repensar com recuperação) também se baseia na recuperação de conhecimento externo relevante, mas não envolve edição adicional.

Em vez de utilizar um modelo de geração de consulta de pesquisa, a recuperação de RR é baseada em dicas CoT decompostas.

Dada uma dica de entrada, RR usa dicas CoT para gerar múltiplos caminhos de inferência 1,…, em temperatura > 0, onde cada caminho de inferência contém uma explicação (ou seja, a parte de inferência), seguida por uma previsão (ou seja, a saída real do modelo) . Recuperar conhecimento externo 1,…, para apoiar cada explicação. Então, a resposta mais fiel é selecionada com base no grau de adequação com o conhecimento recuperado 1,…,.

recuperação de conhecimento: Os experimentos de RR aplicam a recuperação esparsa BM25 para pesquisar na Wikipedia, seguida de reclassificação pela incorporação de similaridade de cosseno fornecida por um modelo MPNet pré-treinado.
Pontuação de fidelidade : A fidelidade de cada caminho de inferência é estimada por uma combinação de pontuação de implicação, pontuação de contradição e similaridade MPNet. Tanto a pontuação de implicação quanto a pontuação de contradição são fornecidas pelo modelo NLI pré-treinado.

Auto-RAG(Asai et al., 2024) treina um modelo de linguagem de ponta a ponta para que ele aprenda a refletir sobre sua própria produção, exibindo resultados de tarefas e marcadores de reflexão especiais intermitentes.

A equipe de pesquisa criou um conjunto de dados supervisionado para julgar e gerar modelos solicitando o GPT-4 e, em seguida, destilou-o em um modelo interno para reduzir o custo de inferência.

Dado um prompt de entrada, a saída gerada consiste em múltiplas partes (por exemplo, um segmento é uma frase). Existem quatro tipos de marcadores de reflexão, um para recuperação e três para avaliação:

Recuperar: Determina se a recuperação deve ser executada em paralelo para obter um conjunto de valores de saída: {sim, não, continuar}.
IsRel: Determine se o prompt é relevante para o valor de saída do documento recuperado: {relevante, irrelevante}.
IsSup: Determine se o texto de saída é suportado. Valor de saída: {totalmente suportado, parcialmente suportado, sem suporte}.
IsUse: Determine se o texto de saída é útil. Valor de saída: {5, 4, 3, 2, 1}.

O Self-RAG gera um segmento por vez. Com base na geração anterior e fornecida < , o modelo decodifica o token Retrieve:

Se Retrieve==no, gere diretamente;
Se Retrieve==yes, o modelo recupera vários parágrafos em paralelo e usa o token IsRel para verificar se os documentos recuperados são relevantes. Se for relevante, gere e use outros tokens de classificação para pontuar, classificar e selecionar o melhor resultado entre vários resultados.

cadeia de ação

Sem conhecimento de recuperação externa, é possível projetar umAproveite o próprio modelo para validação e revisãoprocesso para reduzir alucinações.

Dhuliawala et al. propuseram um método para verificação de planejamento e execução baseado em cadeias de ação em 2023, denominadoCadeia de Verificação (Enseada). CoVe consiste em quatro etapas principais:

resposta inicial: o modelo gera um rascunho de resposta inicial, denominado "linha de base".
Verificação de planejamento: Com base nesta geração bruta, o modelo projeta perguntas de verificação não padronizadas para verificação de fatos; isso pode ser alcançado com um pequeno número de prompts de exemplo (respostas a perguntas de verificação).
Realizar verificação : O modelo responde a essas perguntas de forma independente. Existem diversas variações de configuração:

1) União: Combinada com a etapa 2, onde está a estrutura do exemplo de poucas tentativas (resposta, pergunta de verificação, resposta de verificação); a desvantagem é que a resposta original está no contexto e o modelo pode repetir ilusões semelhantes.

2) Abordagem em duas etapas: Separe as etapas de planejamento e execução da verificação, se não afetar a resposta original.

3) Decomposição: Responda cada questão de verificação separadamente. Por exemplo, se uma construção de base longa resultar em múltiplas perguntas de validação, cada pergunta será respondida uma por uma.

4) Decomposição + Revisão: Adicione uma etapa de "verificação cruzada" após a verificação da decomposição ser realizada para condicionar e detectar inconsistências com base nas respostas da linha de base e nas perguntas e respostas de verificação.

resultado final : Gere resultados finais refinados. Se alguma inconsistência for encontrada, a saída é modificada nesta etapa.

CoVe foi projetado desta forma porque o uso de geração de cadeia de verificação longa pode levar a alucinações repetidas, porque a resposta alucinante inicial ainda está no contexto e pode ser atendida durante processos de nova geração, enquantoDescobriu-se que responder cada pergunta de validação individualmente leva a melhores resultados do que a geração de formato longo。

Aqui estão algumas observações interessantes dos experimentos CoVe:

Os ajustes de comando e o CoT não reduziram as alucinações.
A decomposição e o CoVe em duas etapas melhoram o desempenho e o raciocínio explícito adicional para detecção de inconsistências também ajuda (abordagem de "decomposição + revisão").
Perguntas de verificação curtas geraram respostas mais precisas do que perguntas longas.
O LLM de formato livre gera perguntas de verificação melhores do que perguntas heurísticas (por exemplo, X respondeu à pergunta?), e perguntas que exigem geração aberta são melhores do que perguntas de sim/não.

Além disso, Sun et al.RECITARmétodo, depende do ensaio como uma etapa intermediária para melhorar a correção factual da geração do modelo e reduzir as alucinações.

A motivação é utilizar a memória do Transformer como modelo de recuperação de informação. No esquema de recontagem e resposta do RECITE, o LLM é primeiro solicitado a recontar a informação relevante e depois gera resultados.

Especificamente, algumas dicas contextuais podem ser usadas para ensinar o modelo a parafrasear e então gerar respostas com base na paráfrase. Além disso, ele pode ser combinado com métodos de conjunto autoconsistentes que usam múltiplas amostras e pode ser estendido para suportar respostas a perguntas multi-hop.

As paráfrases geradas são comparáveis ao modelo de recuperação baseado em BM25, mas ambos apresentam lacunas ao usar passagens reais. De acordo com a análise de erros realizada pela equipe de pesquisa, cerca de 7 a 10% das questões foram recitadas corretamente, mas não conseguiram gerar a resposta correta; cerca de 12% das questões foram recitadas incorretamente, mas ainda assim puderam ser respondidas corretamente;

Método de amostragem

Lee et al. 2022 descobriram que a amostragem de kernel (amostragem superior) teve um desempenho pior do que a amostragem gananciosa no benchmark FactorityPrompt, embora a amostragem de kernel tenha acrescentado aleatoriedade adicional, alcançando melhor diversidade e menos repetição.

Portanto, eles propuseram um algoritmo de amostragem de kernel de fatos baseado em hipóteses,Esta hipótese afirma que a aleatoriedade da amostragem tem um impacto maior na factualidade da segunda metade da frase do que no início da frase. . A amostragem central de fatos visa ajustar dinamicamente a probabilidade das palavras amostradas em cada frase. Para o décimo token em uma frase, existe =max(,⋅−1), que é usado para evitar que a amostragem volte a ser uma amostragem gananciosa que prejudica a qualidade e a diversidade da geração.

Li et al.Intervenção de Inferência-Tempo(ITI), investiga se certas cabeças de atenção são mais relevantes para a factualidade, sondando linearmente as ativações em cada camada para distinguir resultados reais de falsos.

Eles descobriram que, para muitos chefes de atenção, o detector não teve um desempenho melhor do que a seleção aleatória, enquanto alguns mostraram um desempenho forte. Depois de identificar um grupo de cabeças de atenção esparsas com alta precisão na detecção linear de autenticidade, o ITI ajustará a ativação das cabeças de atenção selecionadas ao longo da direção "real" durante a inferência.

Ajuste fino factual

Lee et al. 2022 propuseram duas ideias para treinamento de reforço:

Apresentando TopicPrefix para melhor compreensão dos fatos: adicione um tópico (ou seja, título do documento da Wikipedia) antes de cada frase do documento.
Tome a perda de conclusão da frase como meta de treinamento: atualize a perda de treinamento para focar na segunda metade da frase, assumindo que a segunda metade da frase contém mais conhecimento factual. A implementação é muito simples, decida um ponto de pivô e aplique uma máscara zero a todos os tokens antes do primeiro token. Em seus experimentos, o ponto de articulação ideal foi escolhido como sendo 0,5x o comprimento da frase.

Lin et al. propuseram em 2024 realizar treinamento de alinhamento SFT+RLHF com foco na factualidade, denominado.CHAMA。

Estágio SFT (SFT com reconhecimento de factualidade): O objetivo é gerar dados de treinamento que sejam mais factuais do que o próprio modelo (medido pelo FActScore).
Estágio RLHF (DPO consciente dos fatos): Dois métodos foram testados. O método 1 teve um desempenho ruim e o método 2 teve um desempenho bom, provavelmente porque o método 1 tentou destilar novos conhecimentos no modelo sem treinamento suficiente.

Conforme mencionado anteriormente, há algumas evidências de que o ajuste fino de novos conhecimentos pode causar alucinações, e a supervisão do RAG contém informações desconhecidas do LLM.

Método 1: Use amostras de dados RAG como amostras positivas e geração de modelo original como amostras negativas como dados RM.

Método 2: Use FActScore como um sinal de recompensa de fato.

Para evitar destilar acidentalmente conhecimento desconhecido no modelo durante o treinamento de alinhamento, eles propõem usar as respostas geradas pelo modelo para construir o conjunto de dados SFT/DPO.

Proposto por Tian&Mitchell et al.Ajuste de factualidade Também depende do ajuste fino de modelos de linguagem para melhorar a factualidade. Eles experimentaram diferentes métodos para estimar a veracidade das afirmações atômicas em cada amostra do modelo e então executaram o DPO.

Processo de ajuste factual:

1. Pares de exemplos de conclusão de modelo para um determinado conjunto de prompts (por exemplo, “Escreva uma biografia de Yo-Yo Ma”)

2. Marque sua autenticidade de acordo com dois métodos que não requerem intervenção manual:

Baseado em referência: verifica se a afirmação do modelo é apoiada por uma base de conhecimento externa, semelhante à seção de avaliação de alucinação baseada em recuperação acima. (a) extrair uma série de declarações atômicas; (b) procurar referências na Wikipédia; (c) usar um pequeno modelo NLI ajustado para verificar se o texto de referência suporta declarações atômicas.

Não baseado em referência: utiliza a confiança do próprio modelo como símbolo de sua autenticidade, semelhante aos métodos de consulta indireta. (a) converter cada afirmação em uma pergunta correspondente/requer reformulação cuidadosa para garantir que a pergunta seja clara; (b) obter amostras múltiplas do modelo para responder à pergunta; (c) calcular uma pontuação/uso agregado; caracteres Correspondência de strings ou solicitação ao GPT para determinar se duas respostas são semanticamente equivalentes.

3. Construa um conjunto de dados de treinamento gerando múltiplas amostras do modelo e atribuindo preferências com base nas pontuações de autenticidade. Em seguida, use o DPO para ajustar o modelo neste conjunto de dados.

Ajuste fino para atribuição

Atribuir atribuições é uma boa maneira de reduzir ilusões ao gerar resultados de modelos que dependem dos resultados da pesquisa. Há um conjunto de trabalhos que visa treinar LLM para melhor utilizar o conteúdo recuperado e atribuir atribuições de alta qualidade.

Proposto por Nakano et al.WebGPT, combina pesquisa na web para recuperação de documentos com modelos GPT ajustados, projetados para responder a perguntas longas para reduzir alucinações e melhorar a precisão factual.

O modelo interage com pesquisas na Internet em um navegador baseado em texto e aprende a citar páginas da web para responder perguntas. Enquanto o modelo está navegando, uma ação que ele pode realizar é fazer referência a um trecho da página atual. Ao fazer isso, o título da página, o nome do domínio e o trecho são registrados para referência posterior.O núcleo do WebGPT é usar materiais de referência para ajudar as pessoas a julgar a correção dos fatos。

O modelo foi primeiro submetido a ajustes supervisionados para clonagem comportamental em demonstrações de humanos usando um ambiente de navegação na web para responder perguntas.

Os dados comparativos são recolhidos entre duas respostas geradas por modelos à mesma pergunta, cada uma com o seu próprio conjunto de referências, onde as respostas são julgadas pela sua precisão factual, coerência e utilidade global. Modelos de recompensa são usados para treinamento de RL e amostragem de rejeição melhor de n. Em contraste, RL tem efeitos limitados, e quando a amostragem de rejeição é utilizada, os efeitos são ainda mais limitados.

Menick et al.GopherCite , é muito semelhante ao WebGPT no uso de mecanismos de busca para criar materiais de suporte e ensinar modelos para fornecer materiais de referência. Ambos realizam o ajuste fino supervisionado da orientação e aplicam o treinamento RLHF.

Ao contrário do WebGPT, que depende de demonstrações humanas para clonagem comportamental, o GopherCiteGere uma demonstração por meio de prompts de poucas fotos, e cada geração é preenchida com o contexto de documentos relevantes e, em seguida, um modelo de recompensa é usado para pontuar quais são os melhores.

Outro truque para evitar respostas de baixa qualidade é configurar o modelo para rejeitar respostas usando a resposta predefinida “Não sei”, que é determinada por um limite global de RM, chamado de previsão seletiva.

Os resultados empíricos do RL são semelhantes aos do WebGPT, ou seja, o RL traz apenas melhorias limitadas ou nenhuma melhoria quando combinado com amostragem de rejeição.

Quem é Weng Li?

Weng Li é um cientista chinês da OpenAI e um dos colaboradores do ChatGPT. Ele se formou na Universidade de Pequim.

Ela é responsável pela pesquisa de aplicações de inteligência artificial da OpenAI. Ela ingressou na OpenAI em 2018 e está envolvida principalmente em pré-treinamento, aprendizado de reforço e alinhamento e segurança de modelo no projeto GPT-4.

Na equipe de consultoria de segurança criada pela OpenAI no final do ano passado, ela lidera a equipe de Sistemas de Segurança para resolver problemas como a redução do abuso de modelos existentes como o ChatGPT.

notícias