nouvelles

OpenAI Weng Li a proposé un grand modèle d'« hallucination externe » : une explication détaillée de dix mille mots des raisons pour lesquelles les méthodes de résistance produisent des hallucinations...

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Le vent d'ouest vient du temple Aofei
Qubits | Compte public QbitAI

L'illusion des grands modèles est également divisée en interne et externe——

Le dernier blog du scientifique chinois Weng Li proposeHallucination externe LLM(hallucination extrinsèque)。



Différent du contenu généré par le modèle référentiel qui est incompatible avec la réalité, fictif, incohérent ou dénué de sens, Weng Li a spécifié le problème de « l'illusion » du LLM commeLe contenu de sortie du modèle est fictif et n'est pas basé sur le contexte ou les connaissances mondiales fournies.

De là, il existe deux types d’hallucinations :

  • Hallucinations en contexte : un modèleLa sortie doit être cohérente avec le contenu source dans son contexte(Lorsqu'une hallucination en contexte se produit, le résultat n'est pas cohérent avec le contenu source).
  • Illusion extrinsèque : la sortie du modèle doit être basée sur un ensemble de données pré-entraîné. Cependant, étant donné la taille de l'ensemble de données de pré-formation, la récupération et l'identification de chaque conflit généré sont d'un coût prohibitif.Si nous considérons l'ensemble de données de pré-entraînement commeconnaissance du monde , tente alors essentiellement de garantir que les résultats du modèle sont factuels et peuvent être vérifiés par la connaissance du monde extérieur. Il est tout aussi important,Lorsque le modèle ne connaît pas un fait, il doit indiquer explicitement qu’il ne le sait pas.



Auparavant, Weng Li avait également proposé la formule Agent : Agent = grand modèle + mémoire + planification active + utilisation d'outils, qui a été qualifiée de « le meilleur article sur Agent que j'ai jamais vu » par certains internautes.





Ce blog sur l'illusion des grands modèles est aussi du "gros travail". L'article est très long, avec un total de 24 références :



Weng Li s'est concentré sur les hallucinations externes et a discuté de trois questions : Quelle est la cause des hallucinations ? Détection des hallucinations, méthodes pour résister aux hallucinations.



Qubits a compilé et organisé le texte original sans en changer le sens original.

Qubits a été traduit et réimprimé avec la permission de l'auteur original.

Le texte original est ici :

https://lilianweng.github.io/posts/2024-07-07-hallucination/

Quelles sont les causes des hallucinations ?

Étant donné qu'un LLM déployable standard doit être pré-entraîné et affiné pour l'alignement et l'amélioration, l'analyse des causes commence à partir de ces deux étapes.

Problème de données de pré-entraînement

L'ensemble de données de pré-formation est conçu pour représenter toutes les connaissances mondiales disponibles sous forme écrite et est donc énorme.

La récupération de données sur l'Internet public est l'option la plus courante, mais cela peut entraîner des informations obsolètes, manquantes ou erronées. Étant donné que le modèle peut mémoriser de manière incorrecte ces informations simplement en maximisant la log-vraisemblance, le modèle peut commettre des erreurs.

Affiner de nouvelles connaissances

Le réglage fin du LLM pré-entraîné grâce au réglage fin supervisé (SFT) et à l'apprentissage par renforcement avec retour humain (RLHF) est une technique courante pour améliorer certaines capacités du modèle (telles que le suivi des instructions). La phase de mise au point introduit inévitablement de nouvelles connaissances.

Même si le réglage fin consomme généralement moins de ressources informatiques,On peut se demander si de nouvelles connaissances peuvent être acquises de manière fiable en affinant un modèle à petite échelle.

Dans une étude réalisée cette année, Gekhman et al. ont discuté de la question de savoir si le fait d'affiner le LLM avec de nouvelles connaissances favoriserait l'apparition d'hallucinations.

Ils ont constaté que LLM apprend plus lentement à partir d'exemples affinés avec de nouvelles connaissances qu'à partir d'exemples cohérents avec les connaissances préexistantes du modèle ; une fois ces exemples avec de nouvelles connaissances apprises, la tendance du modèle à halluciner augmente.

Plus précisément, étant donné un ensemble de données de questions et réponses fermées (c'est-à-dire EntityQuestions) = (,), Correct(,;,) est défini comme une estimation de la probabilité que le modèle M génère avec précision la réponse correcte, lors de l'utilisation d'exemples aléatoires et de certains décodages. invité avec la température, la bonne réponse à la question est.

Ils ont divisé les exemples en 4 catégories basées sur différentes conditions de Correct(,;,) : groupe connu (comprenant trois sous-groupes : HighlyKnown, MaybeKnown, WeakKnown) et groupe inconnu.



Quelques observations intéressantes tirées des expériences, où la précision de l'ensemble de développement est considérée comme un indicateur symbolique de l'illusion :

  • La vitesse d'ajustement inconnue est nettement plus lente que celle connue ;
  • Les meilleures performances sont obtenues lorsque LLM correspond à la plupart des exemples de formation connus mais seulement à quelques exemples inconnus ;
  • Lorsque la plupart des exemples inconnus sont appris, le modèle commence à halluciner.



Ces résultats de Gekhman et al. soulignent les risques liés à l’utilisation du réglage fin supervisé pour mettre à jour les connaissances LLM.

Détection des hallucinations

Rechercher une évaluation améliorée

Pour quantifier le phénomène d'hallucination du modèle, Lee et al. ont introduit un nouvel ensemble de données de référence en 2022.Factualité, cet ensemble de données contient des indices factuels et non factuels, utilisant des documents ou des phrases Wikipédia comme base de connaissances factuelles de base.

Les documents Wikipédia sont des informations véridiques connues à partir de l'ensemble de données FEVER, tandis que les phrases sont sélectionnées via tf-idf ou par similarité en fonction de l'incorporation de phrases.



Deux mesures pour évaluer les hallucinations ont été prises en compte à partir d'une suite de modèle et d'un texte Wikipédia couplé :hallucination entités nommées(NE)Taux d'erreurTaux d'implication(Ratios d'implication)。

Des taux d'erreur NE plus élevés et des taux d'implication plus faibles indiquent une factualité plus élevée. Les deux mesures sont en corrélation avec les annotations humaines, les modèles plus grands fonctionnant mieux sur cette référence.

De plus, Min et al. 2023 ont proposéFActScore , décomposez la génération d'articles longs en plusieurs faits atomiques et vérifiez chaque fait individuellement par rapport à des bases de connaissances telles que Wikipédia. Le rapport (précision) des phrases prises en charge par la source de connaissances générée par chaque modèle peut ensuite être mesuré, FActScore étant la précision moyenne générée par le modèle sur un ensemble d'indices.

Cet article a testé diverses méthodes de vérification factuelle sur la tâche de génération biographique et a constaté queL'utilisation de la récupération offre une meilleure cohérence que le LLM sans contexte . Dans les méthodes d’amélioration de la récupération, le choix du meilleur estimateur dépend du modèle.

  • LLM sans contexte : utilisez directement « Vrai ou Faux ? » pour inviter LLM sans contexte supplémentaire.
  • Récupération → LLM : invite avec les passages pertinents récupérés à partir de sources de connaissances comme contexte
  • Probabilité non paramétrique (NP) : calculez la probabilité moyenne des balises dans les faits atomiques via LM masqué et utilisez-la pour faire des prédictions
  • Recherche → LLM+NP : Intégration de deux méthodes

Quelques observations intéressantes sur le comportement hallucinatoire du modèle :

  • Les entités rares ont des taux d'erreur plus élevés dans les tâches de génération de biographie
  • Les faits mentionnés plus tard dans le contenu généré ont également des taux d'erreur plus élevés
  • Utiliser la récupération pour fournir une base à la génération de modèles peut contribuer de manière significative à réduire les phénomènes d’hallucination

Wei et al. ont également proposé en 2024 une méthode pour évaluer la factualité longue durée du LLM, nomméeSÛR(Évaluateur de factualité augmenté par recherche)

Par rapport à FActScore, la principale différence est que SAFE utilise un modèle de langage comme agent.Émettez de manière itérative des requêtes de recherche Google via un processus en plusieurs étapes, et expliquez si les résultats de la recherche soutiennent ou non ce fait.

A chaque étape, l'agent génère une requête de recherche basée sur les faits à vérifier et les résultats de recherche précédemment obtenus. Après plusieurs étapes, le modèle effectue une inférence pour déterminer si le fait est étayé par les résultats de la recherche.

D'après les expériences,Bien que la méthode SAFE coûte 20 fois moins cher que l’annotation humaine, elle est plus performante que l’annotation humaine.: Le taux d'accord avec les humains était de 72 %, et le taux de surperformance des humains en désaccord était de 76 %.



L'indice d'évaluation SAFE est F1@K. Pour les réponses longues du modèle factuel, idéalement, la précision et le rappel devraient être obtenus, puisque la réponse doit simultanément satisfaire :

  • factuel: Mesuré par l'exactitude, qui est le pourcentage de faits étayés dans l'ensemble de la réponse.
  • long : Mesuré par le rappel, qui est le pourcentage de faits fournis par rapport à tous les faits pertinents qui devraient apparaître dans la réponse. Par conséquent, le nombre maximum de faits étayés est pris en compte.

Compte tenu de la réponse du modèle, la métrique F1@K est définie comme :





De plus, Chern et al. 2023 ont proposé un flux de travail de vérification des faits qui suit les normes.Outil de calcul . Il est conçu pour détecter les erreurs factuelles dans diverses tâches, notamment la réponse à des questions basées sur les connaissances, la génération de codes, la résolution de problèmes mathématiques et l'examen de la littérature scientifique. Les étapes comprennent :

  • Extraction des réclamations : extrayez toutes les réclamations vérifiables en invitant LLM.
  • Génération de requêtes : convertissez chaque instruction en une série de requêtes adaptées aux outils externes, telles que les requêtes des moteurs de recherche, les cas de tests unitaires, les extraits de code et les titres d'articles.
  • Requête d'outils et collecte de preuves : interrogez des outils externes, tels que des moteurs de recherche, des interpréteurs de code et Google Scholar, et obtenez les résultats renvoyés.
  • Vérification de la cohérence : chaque allégation se voit attribuer une étiquette factuelle binaire en fonction du degré de preuve fourni par des outils externes.



Détection basée sur l'échantillonnage

Manakul et al. 2023 ont proposé un contrôle de cohérence qui s'appuie sur plusieurs échantillons provenant d'un LLM en boîte noire -AutocontrôleGPT, pour identifier les erreurs factuelles.

Considérant que les mesures de vérification des faits en boîte grise nécessitent l'accès au logprob au niveau du jeton de LLM, SelfCheckGPTUtilisez simplement des exemples qui ne reposent pas sur des bases de connaissances externes, l'accès par boîte noire est donc suffisant., aucune base de connaissances externe n'est requise.

Cette méthode utilise différentes métriques pour mesurer la cohérence entre la réponse du modèle et d'autres échantillons aléatoires du modèle, notamment BERTScore, NLI, les invites (demander oui/non), etc. SelfCheckGPT utilisant des indices semble fonctionner mieux lors de la réalisation d'inspections expérimentales de passages WikiBio générés par GPT-3.



Calibrer les connaissances inconnues

Demander à un modèle de générer des réponses à des questions sans réponse ou inconnues peut provoquer des hallucinations.HonnêtetéQA(Lin et al., 2021) etConscient de soi(Yin et al., 2023) sont deux critères qui mesurent la capacité d'un modèle à générer des réponses réalistes dans de telles situations, le premier est construit de manière contradictoire pour mettre l'accent sur l'erreur humaine, et le second inclut des questions sans réponse.

Face à ces problèmes,Le modèle doit refuser de répondre ou de fournir des informations pertinentes

Dans TruthfulQA, les questions des tests sont conçues de manière contradictoire sur la base de malentendus ou d’erreurs humaines courantes. Le benchmark contient 817 questions couvrant 38 sujets, dont la santé, le droit, la finance et la politique.

Lorsqu'il a été testé, le meilleur LLM a atteint une précision de 58 %, alors que les humains pouvaient atteindre 94 %. L'équipe de recherche a découvert queEn raison d'une idée fausse répandue, les modèles plus grands sont moins réalistes, mais cette tendance ne se reflète pas dans les autres normes.(non conflictuel)base factuelle

Voici un exemple de réponse incorrecte de GPT-3 sur TruthfulQA :



Yin et al. 2023 ont étudiéConscient de soiLe concept de , fait référence à la question de savoir si les modèles de langage savent ce qu'ils savent ou ne savent pas.

SelfAware contient 1 032 questions sans réponse et 2 337 questions auxquelles il est possible de répondre dans cinq catégories. Les questions sans réponse proviennent de forums en ligne avec des annotations humaines, et les questions auxquelles il est possible de répondre proviennent de SQuAD, HotpotQA et TriviaQA.

Une question peut être sans réponse pour diverses raisons, telles que l'absence de consensus scientifique, l'imagination du futur, une subjectivité totale, des raisons philosophiques pouvant générer des réponses multiples, etc.

L'étude traite la distinction des questions auxquelles il est possible de répondre et celles sans réponse comme une tâche de classification binaire et utilise le score ou la précision F1 pour évaluer les performances du modèle. Les expériences montrent que les modèles plus grands fonctionnent mieux dans cette tâche.



Une autre façon d’évaluer dans quelle mesure un modèle comprend les connaissances inconnues consiste à mesurer l’incertitude dans les résultats du modèle. Lorsqu’un problème se situe entre le connu et l’inconnu, le modèle doit présenter le niveau de confiance correct.

L'expérience de Kadavath et al. en 2022 a montré que dans une variété d'options de réponse multidimensionnelles avec des lettres visibles,Sélection de sujetsformats (MMLU, TruthfulQA, QuALITY, LogiQA), LLM fonctionne bien pour estimer la probabilité qu'une réponse soit correcte, ce qui signifie que la probabilité prédite est cohérente avec la fréquence à laquelle cette réponse est vraie.

Le réglage fin du RLHF entraîne un étalonnage du modèle moins bon, mais des températures d'échantillonnage plus élevées conduisent à de meilleurs résultats d'étalonnage.



Lin et al. ont proposé en 2022.CalibratedMath Trousse de missions. CalibrateMath est un ensemble de problèmes mathématiques générés par programme avec différents niveaux de difficulté qui testent l'étalonnage des probabilités de sortie du modèle.

Pour chaque question, le modèle doit fournir une réponse numérique et sa confiance dans cette réponse. Trois types de probabilités sont considérés :

  • Un nombre ou un mot littéral (tel que « le plus bas », « faible », « moyen », « élevé », « le plus élevé »), tel que « Confiance : 60 % / Modérée".
  • Probabilité de journal normalisée du jeton de réponse. Notez que ce paramètre n’a pas été utilisé dans les expériences de réglage fin.
  • Logprob pour l'indicateur indirect "Vrai/Faux" après la réponse originale. Les expériences se concentrent sur le calibrage de la généralisation en fonction des changements distributionnels dans la difficulté ou le contenu des tâches. Chaque point de données de réglage fin est une question, la réponse du modèle (qui peut être fausse) et la confiance de l'étalonnage. Dans les deux cas, les probabilités textuelles se sont bien généralisées et tous les paramètres ont bien fonctionné dans les tâches de multiplication et de division. En termes de confiance dans les prédictions du modèle, les modèles à quelques tirs sont plus faibles que les modèles affinés. Il est utile d'inclure plus d'exemples, la version à 50 plans est presque aussi bonne que la version affinée.



requête indirecte

Agrawal et al. (2023) ont spécifiquement étudié les cas de citations hallucinées dans la génération LLM, y compris les titres de livres, d'articles et d'articles fictifs. Ils ont utilisé deux méthodes basées sur la cohérence pour détecter les hallucinations, à savoir la requête directe et la requête indirecte. Les deux méthodes exécutent la vérification plusieurs fois lorsque T > 0 et vérifient la cohérence.



Les requêtes directes nécessitent que le modèle détermine si le matériel de référence généré existe, tandis que les requêtes indirectes nécessitent des détails auxiliaires, tels queQui est l'auteur de la référence ?

L’hypothèse est que, pour une référence hallucinée, la cohérence de générer plusieurs fois le même auteur est inférieure à la probabilité que plusieurs réponses à une requête directe révèlent la présence de la référence.

Les expériences montrent queLes méthodes de requêtes indirectes fonctionnent mieux, les modèles plus grands sont plus puissants et il y a moins d'hallucinations

Façons de combattre les hallucinations

Ensuite, nous passons en revue un ensemble de méthodes pour améliorer l'authenticité des réponses LLM, notamment la récupération à partir de bases de connaissances externes, des méthodes d'échantillonnage spéciales et un réglage fin de l'alignement. Certaines méthodes d’interprétabilité visant à réduire les hallucinations grâce à l’édition neuronale ne seront pas abordées ici.

RAG → Édition et attribution

RAG (Retrieval Augmented Generation) est une méthode très courante pour fournir des informations de base en récupérant des documents pertinents, puis en les générant en utilisant des documents pertinents supplémentaires comme contexte.

RARR(Retrofit Attribution using Research and Revision) est un cadre proposé par Gao et al en 2022, qui permet à LLM de prendre en charge rétroactivement l'attribution de preuves externes via l'attribution éditoriale.

Étant donné un texte généré par le modèle, RARR le traite en deux étapes, produisant un texte révisé et un rapport d'attribution :

1. Étape de recherche : trouver des documents pertinents comme preuve.

Un modèle de génération de requêtes est d'abord utilisé (via quelques indices, →1,…, ) pour construire un ensemble de requêtes de recherche 1,…, afin de valider divers aspects de chaque phrase.
Lancer une recherche Google, chaque requête = 5 résultats.
Un modèle de pertinence requête-document pré-entraîné est utilisé pour attribuer des scores de pertinence, et un seul le plus pertinent = 1 document 1,…, est conservé pour chaque requête.

2. Phase de révision : modifiez le résultat pour corriger le contenu qui n'est pas étayé par les preuves, tout en conservant autant que possible le contenu original.Initialiser le texte révisé =.

Selon (,), le modèle de protocole (via quelques indices + CoT, (,,) → 0,1) vérifie si les preuves sont incohérentes avec le texte révisé actuel.

Ce n'est que lorsqu'une incohérence est détectée que le modèle d'édition (via quelques indices + CoT, (,,) → new ) génère une nouvelle version, conçue pour être modifiée de manière minimale en même temps que la preuve.

Seule une quantité limitée de preuves = 5 finit par être incluse dans le rapport d'attribution.



L’attribution et la conservation sont toutes deux importantes lors de l’évaluation du texte révisé.

L'attribution utilise le score AIS (Attributed to Identified Source) pour mesurer la part du contenu qui peut être attribuée. Des annotations humaines peuvent être collectées ou des modèles NLI peuvent être utilisés pour se rapprocher de la notation AIS automatique.

La préservation fait référence au degré de préservation du texte original, mesuré comme Previntent × PrevLev, où Previntent nécessite une annotation manuelle et PrevLev est basé sur la distance d'édition Levenshtein au niveau des caractères. Par rapport aux deux références, le RARR conduit à des résultats mieux équilibrés, notamment en termes de mesures de rétention.

Semblable à RARR utilisant search+edit, proposé par Mishra et al.Fava (Factuality Verification with Augmented Knowledge) récupère également la documentation pertinente, puis modifie la sortie du modèle pour éviter les erreurs illusoires. Le modèle FAVA se compose d'un récupérateur et d'un éditeur.

À partir d'une invite et d'un résultat de modèle, récupérez les documents les plus pertinents :



L'éditeur génère une sortie améliorée :



RARR ne nécessite pas de formation, mais l'édition du modèle d'éditeur dans FAVA nécessite un réglage fin. En classifiant plus en détail différents types d'erreurs d'hallucination, il est possible de générer des données d'entraînement synthétiques pour les modèles édités en insérant des erreurs aléatoires dans la génération du modèle.

Chaque exemple est un triplet (,,∗) où est le passage Wikipédia original comme contexte d'or, est la sortie LM avec les erreurs et ∗ est la sortie avec les étiquettes d'erreur et les modifications correctes.



Proposé par He et al.RRL’approche (Repenser avec récupération) repose également sur la récupération de connaissances externes pertinentes, mais n’implique pas de révision supplémentaire.

Plutôt que d'utiliser un modèle de génération de requêtes de recherche, la récupération de RR est basée sur des indices CoT décomposés.

Étant donné un indice d'entrée, RR utilise des indices CoT pour générer plusieurs chemins d'inférence 1,…, à température > 0, où chaque chemin d'inférence contient une explication (c'est-à-dire la partie d'inférence), suivie d'une prédiction (c'est-à-dire la sortie réelle du modèle) . Récupérer les connaissances externes 1,…, pour étayer chaque explication. Ensuite, la réponse la plus fidèle est sélectionnée en fonction du degré d'adéquation avec les connaissances récupérées 1,…,.

  • récupération de connaissances: Les expériences de RR appliquent la récupération clairsemée BM25 à la recherche sur Wikipédia, suivie d'un reclassement en intégrant la similarité cosinus fournie par un modèle MPNet pré-entraîné.
  • Score de fidélité : La fidélité de chaque chemin d'inférence est estimée par une combinaison du score d'implication, du score de contradiction et de la similarité MPNet. Le score d'implication et le score de contradiction sont fournis par le modèle NLI pré-entraîné.



Auto-RAG(Asai et al., 2024) entraînent un modèle de langage de bout en bout afin qu'il apprenne à réfléchir sur sa propre production en produisant des résultats de tâches et des marqueurs de réflexion spéciaux intermittents.

L'équipe de recherche a créé un ensemble de données supervisé pour juger et générer des modèles en invitant GPT-4, puis l'a distillé dans un modèle interne pour réduire le coût d'inférence.



Étant donné une invite de saisie, la sortie générée se compose de plusieurs parties (par exemple, un segment est une phrase). Il existe quatre types de marqueurs de réflexion, un pour la récupération et trois pour l'évaluation :

  • Récupérer : Détermine s'il faut exécuter la récupération en parallèle pour obtenir un ensemble de valeurs de sortie : {oui, non, continuer}.
  • IsRel : déterminez si l'invite est pertinente pour le document récupéré ; valeur de sortie : {pertinent, non pertinent}.
  • IsSup : déterminez si le texte de sortie est pris en charge ; valeur de sortie : {entièrement pris en charge, partiellement pris en charge, pas de prise en charge}.
  • IsUse : Déterminez si le texte de sortie est utile ; valeur de sortie : {5, 4, 3, 2, 1}.

Self-RAG génère un segment à la fois. Sur la base de la génération < donnée et précédente, le modèle décode le jeton Retrieve :

  • Si Retrieve==no, générer directement ;
  • Si Retrieve==yes, le modèle récupère plusieurs paragraphes en parallèle et utilise le token IsRel pour vérifier si les documents récupérés sont pertinents. Le cas échéant, générez et utilisez d’autres jetons de notation pour noter, classer et sélectionner le meilleur résultat parmi plusieurs résultats.

chaîne d'action

Sans connaissances externes en matière de récupération, il est possible de concevoir unTirer parti du modèle lui-même pour la validation et la révisionprocessus pour réduire les hallucinations.

Dhuliawala et al. ont proposé une méthode de vérification de la planification et de l'exécution basée sur des chaînes d'action en 2023, nomméeChaîne de vérification (Crique). CoVe se compose de quatre étapes principales :

  • réponse de base: Le modèle génère une première ébauche de réponse, appelée « baseline ».
  • Vérification de la planification: Sur la base de cette génération brute, le modèle conçoit des questions de vérification non modélisées pour la vérification des faits ; ceci peut être réalisé avec un petit nombre d'exemples d'invites (réponses aux questions de vérification).
  • Effectuer une vérification : Le modèle répond indépendamment à ces questions. Il existe plusieurs variantes de configuration :

1) Union : combiné avec l'étape 2, où la structure d'exemple en quelques coups est (réponse, question de vérification, réponse de vérification) ; l'inconvénient est que la réponse originale est dans son contexte et que le modèle peut répéter des illusions similaires.

2) Approche en deux étapes : Séparez les étapes de planification et d'exécution de la vérification, si cela n'affecte pas la réponse initiale.

3) Décomposition : Répondez à chaque question de vérification séparément. Par exemple, si une construction de base longue aboutit à plusieurs questions de validation, chaque question recevra une réponse une par une.

4) Décomposition + Révision : ajoutez une étape de « vérification croisée » après la vérification de la décomposition pour conditionner et détecter les incohérences en fonction des réponses de base et des questions et réponses de vérification.

  • résultat final : Générez une sortie finale et raffinée. Si des incohérences sont détectées, la sortie est modifiée au cours de cette étape.

CoVe est conçu de cette façon parce que l'utilisation d'une longue chaîne de vérification peut conduire à des hallucinations répétées, car la réponse hallucinante initiale est toujours dans son contexte et peut être prise en compte au cours des processus de nouvelle génération, tandis queIl a été constaté que répondre individuellement à chaque question de validation conduisait à de meilleurs résultats que la génération de formulaires longs.



Voici quelques observations intéressantes des expériences CoVe :

  • Les ajustements de commandement et le CoT n’ont pas réduit les hallucinations.
  • La décomposition et CoVe en deux étapes améliorent les performances et un raisonnement plus explicite pour la détection des incohérences est également utile (approche "décomposition + révision").
  • Les questions de vérification abrégées ont suscité des réponses plus précises que les questions longues.
  • Le LLM de forme libre génère mieux les questions de vérification que les questions heuristiques (par exemple, X a-t-il répondu à la question ?), et les questions qui nécessitent une génération ouverte sont meilleures que les questions oui/non.

De plus, Sun et al. ont proposé en 2023.RÉCITERméthode, s'appuie sur la répétition comme étape intermédiaire pour améliorer l'exactitude factuelle de la génération du modèle et réduire les hallucinations.

La motivation est d'utiliser la mémoire de Transformer comme modèle de recherche d'informations. Dans le système de récitation et de réponse de RECITE, le LLM est d'abord invité à répéter les informations pertinentes, puis génère un résultat.

Plus précisément, quelques conseils contextuels peuvent être utilisés pour apprendre au modèle à paraphraser, puis à générer des réponses basées sur la paraphrase. En outre, il peut être combiné avec des méthodes d’ensemble auto-cohérentes qui utilisent plusieurs échantillons et peut être étendu pour prendre en charge la réponse aux questions à plusieurs sauts.



Les paraphrases générées sont comparables au modèle de récupération basé sur BM25, mais les deux présentent des lacunes lors de l'utilisation de passages réels. Selon l'analyse des erreurs effectuée par l'équipe de recherche, environ 7 à 10 % des questions ont été récitées correctement mais n'ont pas pu générer la bonne réponse ; environ 12 % des questions ont été récitées de manière incorrecte mais ont quand même pu recevoir une réponse correcte.

Méthode d'échantillonnage

Lee et al. 2022 ont constaté que l'échantillonnage par noyau (échantillonnage supérieur) était moins performant que l'échantillonnage glouton sur le benchmark FactorityPrompt, bien que l'échantillonnage par noyau ajoutait un caractère aléatoire supplémentaire, obtenant une meilleure diversité et moins de répétition.

Par conséquent, ils ont proposé un algorithme d'échantillonnage de noyau de faits basé sur des hypothèses,Cette hypothèse affirme que le caractère aléatoire de l’échantillonnage a un impact plus important sur la factualité de la seconde moitié de la phrase que sur le début de la phrase. . L'échantillonnage par carottage des faits vise à ajuster dynamiquement la probabilité des mots échantillonnés dans chaque phrase. Pour le ème jeton d'une phrase, il y a =max(,⋅−1), qui est utilisé pour empêcher l'échantillonnage de retomber vers un échantillonnage glouton qui nuit à la qualité et à la diversité de la génération.



Li et al ont proposé en 2023.Intervention en temps d'inférence(ITI), étudie si certaines têtes d'attention sont plus pertinentes par rapport à la factualité en sondant linéairement les activations à chaque couche pour distinguer les résultats réels des faux.

Ils ont constaté que pour de nombreuses têtes d’attention, le détecteur ne fonctionnait pas mieux qu’une sélection aléatoire, tandis que certains affichaient de bonnes performances. Après avoir identifié un groupe de têtes d'attention clairsemées avec une grande précision dans la détection linéaire d'authenticité, ITI ajustera l'activation des têtes d'attention les plus sélectionnées le long de la direction « réelle » pendant l'inférence.



Mise au point factuelle

Lee et al. 2022 ont proposé deux idées de formation de renforcement :

  • Présentation de TopicPrefix pour une meilleure compréhension des faits : ajoutez un sujet (c'est-à-dire le titre du document Wikipédia) avant chaque phrase du document.
  • Prenez la perte d'achèvement de phrase comme objectif d'entraînement : mettez à jour la perte d'entraînement pour vous concentrer sur la seconde moitié de la phrase, en supposant que la seconde moitié de la phrase contient plus de connaissances factuelles. La mise en œuvre est très simple, décidez d'un point pivot et appliquez un masque zéro à tous les jetons avant le premier jeton. Dans leurs expériences, le point pivot optimal a été choisi pour être 0,5 fois la longueur de la phrase.

Lin et al. ont proposé en 2024 de mener une formation d'alignement SFT+RLHF axée sur la factualité, nomméeFLAMME

  • Étape SFT (Factuality-aware SFT) : L'objectif est de générer des données d'entraînement plus factuelles que le modèle lui-même (mesuré par FActScore).
  • Étape RLHF (Factuality-aware DPO) : deux méthodes ont été testées : la méthode 1 a mal fonctionné et la méthode 2 a fonctionné correctement, probablement parce que la méthode 1 a tenté de distiller de nouvelles connaissances dans le modèle sans formation suffisante.

Comme mentionné précédemment, il existe des preuves selon lesquelles l'affinement de nouvelles connaissances peut provoquer des hallucinations, et la supervision RAG contient des informations inconnues du LLM.

Méthode 1 : utilisez les échantillons de données RAG comme échantillons positifs et la génération de modèle original comme échantillons négatifs comme données RM.

Méthode 2 : utilisez FActScore comme signal de récompense de facto.



Pour éviter de distiller accidentellement des connaissances inconnues dans le modèle lors de la formation à l'alignement, ils proposent d'utiliser les réponses générées par le modèle pour construire l'ensemble de données SFT/DPO.



Proposé par Tian&Mitchell et al.Réglage de la factualité S'appuie également sur un réglage fin des modèles linguistiques pour améliorer la factualité. Ils ont expérimenté différentes méthodes pour estimer la véracité des affirmations atomiques dans chaque échantillon modèle, puis ont exécuté DPO.



Processus d’ajustement factuel :

1. Modèle de paires d'exemples de complétion pour un ensemble d'invites donné (par exemple, « Écrivez une biographie de Yo-Yo Ma »)

2. Marquez son authenticité selon deux méthodes ne nécessitant pas d'intervention manuelle :

Basé sur une référence : vérifie si l'affirmation du modèle est soutenue par une base de connaissances externe, similaire à la section d'évaluation des hallucinations basée sur la récupération ci-dessus. (a) extraire une série de déclarations atomiques ; (b) rechercher des références Wikipédia ; (c) utiliser un petit modèle NLI affiné pour vérifier si le texte de référence prend en charge les déclarations atomiques.

Non basé sur des références : utilise la propre confiance du modèle comme symbole de son authenticité, à l'instar des méthodes de requête indirecte. (a) convertir chaque affirmation en une question correspondante/nécessite une reformulation minutieuse pour garantir que la question est claire ; (b) échantillonner plusieurs fois le modèle pour répondre à la question (c) calculer un score global/utiliser ; caractères Correspondance de chaîne ou demande à GPT de déterminer si deux réponses sont sémantiquement équivalentes.

3. Créez un ensemble de données de formation en générant plusieurs échantillons à partir du modèle et en attribuant des préférences en fonction des scores d'authenticité. Utilisez ensuite DPO pour affiner le modèle sur cet ensemble de données.



Ajustement de l'attribution

L'attribution d'attributions est un bon moyen de réduire les illusions lors de la génération de résultats de modèle qui dépendent des résultats de recherche. Il existe un ensemble de travaux visant à former LLM à mieux utiliser le contenu récupéré et à attribuer des attributions de haute qualité.

Proposé par Nakano et al.WebGPT, combine la recherche sur le Web pour la récupération de documents avec des modèles GPT affinés, conçus pour répondre à des questions longues afin de réduire les hallucinations et d'améliorer l'exactitude factuelle.

Le modèle interagit avec les recherches Internet dans un navigateur Web textuel et apprend à citer des pages Web pour répondre aux questions. Pendant que le modèle navigue, une action qu'il peut entreprendre consiste à référencer un extrait de la page actuelle. Lorsque vous faites cela, le titre de la page, le nom de domaine et l'extrait sont enregistrés pour référence ultérieure.Le cœur de WebGPT est d'utiliser des documents de référence pour aider les gens à juger de l'exactitude des faits.

Le modèle a d'abord été soumis à un réglage fin supervisé pour le clonage comportemental lors de démonstrations d'humains utilisant un environnement de navigation Web pour répondre à des questions.

Des données comparatives sont collectées entre deux réponses générées par un modèle à la même question, chacune avec son propre ensemble de référence, où les réponses sont jugées sur leur exactitude factuelle, leur cohérence et leur utilité globale. Des modèles de récompense sont utilisés pour la formation RL et l’échantillonnage des rejets best-of-n. En revanche, RL a des effets limités, et lorsque l’échantillonnage par rejet est utilisé, les effets sont encore plus limités.



Menick et al ont proposé en 2022.GopherCite , est très similaire à WebGPT dans l'utilisation de moteurs de recherche pour créer du matériel de support et des modèles pédagogiques pour fournir du matériel de référence. Tous deux effectuent un réglage fin supervisé du guidage et appliquent tous deux la formation RLHF.

Contrairement à WebGPT, qui s'appuie sur des démonstrations humaines pour le clonage comportemental, GopherCiteGénérer une démo via des invites en quelques clics, et chaque génération est renseignée avec le contexte des documents pertinents, puis un modèle de récompense est utilisé pour déterminer lesquels sont les meilleurs.



Une autre astuce pour éviter les réponses de mauvaise qualité consiste à configurer le modèle pour qu'il rejette les réponses à l'aide de la réponse standardisée « Je ne sais pas », qui est déterminée par un seuil RM global, appelé prédiction sélective.

Les résultats empiriques de RL sont similaires à ceux de WebGPT, c'est-à-dire que RL n'apporte qu'une amélioration limitée, voire aucune amélioration, lorsqu'il est combiné avec un échantillonnage de rejet.



Qui est Weng Li ?

Weng Li est un scientifique chinois d'OpenAI et l'un des contributeurs de ChatGPT. Il est diplômé de l'Université de Pékin.



Elle est responsable de la recherche sur les applications de l'intelligence artificielle d'OpenAI. Elle a rejoint OpenAI en 2018 et est principalement impliquée dans la pré-formation, l'apprentissage et l'alignement par renforcement et la sécurité des modèles dans le projet GPT-4.

Au sein de l'équipe de conseil en sécurité créée par OpenAI à la fin de l'année dernière, elle dirige l'équipe des systèmes de sécurité pour résoudre des problèmes tels que la réduction des abus des modèles existants tels que ChatGPT.