OpenAI Weng Li schlug ein großes Modell der „externen Halluzination“ vor: eine detaillierte Erklärung in zehntausend Worten über die Gründe, warum Resistenzmethoden Halluzinationen hervorrufen...

OpenAI Weng Li schlug ein großes Modell der „externen Halluzination“ vor: eine detaillierte Erklärung in zehntausend Worten über die Gründe, warum Resistenzmethoden Halluzinationen hervorrufen ...

2024-07-15

Der Westwind kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Auch die Illusion großer Modelle wird in interne und externe unterteilt –

Der neueste Blog des chinesischen OpenAI-Wissenschaftlers Weng Li schlägt vorLLM äußere Halluzination(extrinsische Halluzination).

Anders als der vom Referenzmodell generierte Inhalt, der nicht mit der Realität übereinstimmt, fiktiv, inkonsistent oder bedeutungslos ist, definierte Weng Li das LLM-„Illusions“-Problem alsDer Inhalt der Modellausgabe ist fiktiv und basiert nicht auf dem bereitgestellten Kontext oder Weltwissen。

Daraus lassen sich zwei Arten von Halluzinationen unterscheiden:

Halluzinationen im Kontext: ein ModellDie Ausgabe sollte im Kontext mit dem Quellinhalt übereinstimmen(Wenn im Kontext Halluzinationen auftreten, stimmt die Ausgabe nicht mit dem Quellinhalt überein).
Extrinsische Illusion: Die Modellausgabe sollte auf einem vorab trainierten Datensatz basieren. Angesichts der Größe des Datensatzes vor dem Training ist das Abrufen und Identifizieren jedes generierten Konflikts jedoch zu kostspielig.Wenn wir uns den Datensatz vor dem Training vorstellen als:Weltwissen , versucht dann im Wesentlichen sicherzustellen, dass die Modellausgabe sachlich ist und durch Kenntnis der Außenwelt überprüft werden kann. Ebenso wichtig ist,Wenn das Modell eine Tatsache nicht kennt, sollte es ausdrücklich angeben, dass es es nicht weiß

Zuvor schlug Weng Li auch die Agent-Formel vor: Agent = großes Modell + Speicher + aktive Planung + Werkzeugnutzung, die von einigen Internetnutzern als „der beste Artikel über Agent, den ich je gesehen habe“ bezeichnet wurde.

Auch dieser Blog über die Illusion großer Modelle ist „schwere Arbeit“. Der Artikel ist mit insgesamt 24 Referenzen sehr lang:

Weng Li konzentrierte sich auf äußere Halluzinationen und diskutierte drei Fragen: Was ist die Ursache von Halluzinationen? Erkennung von Halluzinationen, Methoden zur Bekämpfung von Halluzinationen.

Qubits hat den Originaltext zusammengestellt und organisiert, ohne die ursprüngliche Bedeutung zu ändern.

Qubits wurde mit Genehmigung des ursprünglichen Autors übersetzt und nachgedruckt.

Der Originaltext ist hier:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

Was verursacht Halluzinationen?

Wenn man bedenkt, dass ein standardmäßig einsetzbares LLM für die Ausrichtung und Verbesserung vorab trainiert und fein abgestimmt werden muss, beginnt die Ursachenanalyse in diesen beiden Phasen.

Problem mit Daten vor dem Training

Der Pre-Training-Datensatz soll das gesamte verfügbare Weltwissen in schriftlicher Form darstellen und ist daher riesig.

Das Auslesen von Daten aus dem öffentlichen Internet ist die häufigste Option, kann jedoch dazu führen, dass einige Informationen veraltet, fehlen oder fehlerhaft sind. Da sich das Modell diese Informationen möglicherweise falsch merkt, indem es einfach die Log-Wahrscheinlichkeit maximiert, kann es passieren, dass das Modell Fehler macht.

Verfeinern Sie neues Wissen

Die Feinabstimmung von vorab trainiertem LLM durch überwachte Feinabstimmung (SFT) und verstärkendes Lernen mit menschlichem Feedback (RLHF) ist eine gängige Technik zur Verbesserung bestimmter Fähigkeiten des Modells (z. B. Befehlsverfolgung). Die Feinabstimmungsphase führt unweigerlich zu neuem Wissen.

Während die Feinabstimmung normalerweise weniger Rechenressourcen verbraucht,Ob neues Wissen durch die Feinabstimmung eines Modells im kleinen Maßstab zuverlässig erlernt werden kann, ist fraglich.。

In einer diesjährigen Studie diskutierten Gekhman et al. die Frage, ob die Feinabstimmung von LLM mit neuen Erkenntnissen das Auftreten von Halluzinationen fördern wird.

Sie fanden heraus, dass LLM langsamer aus fein abgestimmten Beispielen mit neuem Wissen lernt als aus Beispielen, die mit dem bereits vorhandenen Wissen des Modells übereinstimmen. Sobald diese Beispiele mit neuem Wissen gelernt werden, nimmt die Tendenz des Modells zur Halluzination zu.

Insbesondere ist Correct(,;,) bei einem geschlossenen Frage- und Antwortdatensatz (d. h. EntityQuestions) = (,) als Schätzung der Wahrscheinlichkeit definiert, dass Modell M bei Verwendung zufälliger Beispiele und bestimmter Decodierung wann genau die richtige Antwort generiert Mit der Temperatur aufgefordert, lautet die richtige Antwort auf die Frage.

Sie teilten die Beispiele entsprechend den unterschiedlichen Bedingungen von Correct(,;,) in 4 Kategorien ein: Bekannte Gruppe (einschließlich drei Untergruppen: HighlyKnown, MaybeKnown, WeakKnown) und Unbekannte Gruppe.

Einige interessante Beobachtungen aus den Experimenten, bei denen die Genauigkeit des Entwicklungssatzes als symbolischer Indikator für Illusion angesehen wird:

Die Anpassungsgeschwindigkeit für Unbekannte ist deutlich langsamer als für Bekannte.
Die beste Leistung wird erzielt, wenn LLM zu den meisten bekannten Trainingsbeispielen passt, aber nur zu wenigen unbekannten Beispielen;
Wenn die meisten unbekannten Beispiele gelernt sind, beginnt das Modell zu halluzinieren

Diese Ergebnisse von Gekhman et al. verdeutlichen die Risiken der Verwendung überwachter Feinabstimmung zur Aktualisierung des LLM-Wissens.

Erkennung von Halluzinationen

Suchen Sie nach erweiterter Beurteilung

Um das Halluzinationsphänomen des Modells zu quantifizieren, führten Lee et al. im Jahr 2022 einen neuen Benchmark-Datensatz einSachlichkeitsaufforderungDieser Datensatz enthält sachliche und nicht sachliche Hinweise und verwendet Wikipedia-Dokumente oder -Sätze als grundlegende Faktenwissensbasis.

Wikipedia-Dokumente sind bekannte wahre Informationen aus dem FEVER-Datensatz, während Sätze über tf-idf oder Ähnlichkeit basierend auf Satzeinbettungen ausgewählt werden.

Zwei Metriken zur Bewertung von Halluzinationen wurden anhand einer Modellfortführung und eines gepaarten Wikipedia-Textes berücksichtigt:Halluzination benannter Entitäten(NE)Fehlerrate、Implikationsverhältnis(Entailment-Verhältnisse)

Höhere NE-Fehlerraten und niedrigere Entailment-Verhältnisse weisen auf eine höhere Faktizität hin. Es wurde festgestellt, dass beide Metriken mit menschlichen Anmerkungen korrelieren, wobei größere Modelle bei diesem Benchmark besser abschneiden.

Darüber hinaus schlugen Min et al. 2023 vorFaktenScore , zerlegen Sie die Generierung langer Artikel in mehrere atomare Fakten und überprüfen Sie jede Tatsache einzeln anhand von Wissensdatenbanken wie Wikipedia. Anschließend kann das Verhältnis (die Genauigkeit) der Sätze gemessen werden, die von den von jedem Modell generierten Wissensquellen unterstützt werden, wobei FActScore die durchschnittliche Genauigkeit ist, die das Modell über eine Reihe von Hinweisen hinweg generiert.

In diesem Artikel wurden verschiedene Methoden zur sachlichen Überprüfung der biografischen Generierungsaufgabe getestet und festgestellt, dass dies der Fall istDie Verwendung von Retrieval bietet eine bessere Konsistenz als kontextfreies LLM . Bei Retrieval-Enhancement-Methoden hängt die Wahl des besten Schätzers vom Modell ab.

Kontextfreies LLM: Verwenden Sie direkt „Wahr oder Falsch?“, um LLM ohne zusätzlichen Kontext aufzufordern
Retrieval → LLM: Eingabeaufforderung mit relevanten Passagen aus Wissensquellen als Kontext
Nichtparametrische Wahrscheinlichkeit (NP): Berechnen Sie die durchschnittliche Wahrscheinlichkeit von Tags in atomaren Fakten über maskiertes LM und verwenden Sie diese, um Vorhersagen zu treffen
Suche→LLM+NP: Integration zweier Methoden

Einige interessante Beobachtungen zum halluzinatorischen Verhalten des Modells:

Seltene Entitäten weisen höhere Fehlerraten bei Aufgaben zur Biografiegenerierung auf
Später in generierten Inhalten erwähnte Fakten weisen ebenfalls höhere Fehlerquoten auf
Der Einsatz von Retrieval als Grundlage für die Modellgenerierung kann erheblich dazu beitragen, Halluzinationsphänomene zu reduzieren

Wei et al. schlugen im Jahr 2024 auch eine Methode zur Bewertung der Langform-Faktizität von LLM vor, genanntSICHER（Durch Suche erweiterter Sachlichkeitsauswerter）。

Im Vergleich zu FActScore besteht der Hauptunterschied darin, dass SAFE ein Sprachmodell als Agent verwendet.Stellen Sie in einem mehrstufigen Prozess iterativ Google-Suchanfragen, und Begründung, ob die Suchergebnisse diese Tatsache unterstützen oder nicht.

Bei jedem Schritt generiert der Agent eine Suchanfrage auf Basis der zu prüfenden Sachverhalte und zuvor eingeholter Suchergebnisse. Nach mehreren Schritten führt das Modell eine Inferenz durch, um festzustellen, ob die Tatsache durch die Suchergebnisse unterstützt wird.

Experimenten zufolgeObwohl die SAFE-Methode 20-mal weniger kostet als menschliche Annotation, ist sie leistungsfähiger als menschliche Annotation: Die Übereinstimmungsrate mit Menschen betrug 72 %, und die Rate, mit der Menschen anderer Meinung waren als andere, lag bei 76 %.

Der SAFE-Bewertungsindex ist F1@K. Bei langen sachlichen Modellantworten sollten im Idealfall sowohl Präzision als auch Erinnerung erreicht werden, da die Antwort gleichzeitig Folgendes erfüllen sollte:

sachlich: Gemessen an der Genauigkeit, also dem Prozentsatz der unterstützten Fakten in der gesamten Antwort.
lang : Gemessen anhand der Erinnerung, d. h. des Prozentsatzes der bereitgestellten Fakten an allen relevanten Fakten, die in der Antwort erscheinen sollten. Daher wird die maximale Anzahl unterstützter Fakten berücksichtigt.

Angesichts der Modellantwort ist die Metrik F1@K wie folgt definiert:

Darüber hinaus schlugen Chern et al. 2023 einen Workflow zur Faktenprüfung vor, der Standards folgtFacTool . Es wurde entwickelt, um sachliche Fehler bei einer Vielzahl von Aufgaben zu erkennen, einschließlich der wissensbasierten Beantwortung von Fragen, der Codegenerierung, der Lösung mathematischer Probleme und der Überprüfung wissenschaftlicher Literatur. Zu den Schritten gehören:

Anspruchsextrahierung: Extrahieren Sie alle überprüfbaren Ansprüche, indem Sie LLM dazu auffordern.
Abfragegenerierung: Konvertieren Sie jede Anweisung in eine Reihe von Abfragen, die für externe Tools geeignet sind, z. B. Suchmaschinenabfragen, Unit-Testfälle, Codeausschnitte und Papiertitel.
Tool-Abfrage und Beweiserfassung: Fragen Sie externe Tools wie Suchmaschinen, Code-Interpreter und Google Scholar ab und erhalten Sie zurückgegebene Ergebnisse.
Konsistenzprüfung: Jedem Anspruch wird eine binäre Sachbeschriftung zugewiesen, die auf dem Grad der Beweisunterstützung basiert, die von externen Tools bereitgestellt wird.

Stichprobenbasierte Erkennung

Manakul et al. 2023 schlugen eine Konsistenzprüfung vor, die auf mehreren Proben aus einem Black-Box-LLM basiert –SelfCheckGPT, um sachliche Fehler zu erkennen.

In Anbetracht dessen, dass Gray-Box-Faktenprüfungsmessungen Zugriff auf LLMs Logprob auf Token-Ebene, SelfCheckGPT, erfordernVerwenden Sie einfach Beispiele, die nicht auf externen Wissensdatenbanken basieren, sodass der Blackbox-Zugriff ausreichend istEs ist keine externe Wissensdatenbank erforderlich.

Diese Methode verwendet verschiedene Metriken, um die Konsistenz zwischen der Modellantwort und anderen zufälligen Modellstichproben zu messen, einschließlich BERTScore, NLI, Eingabeaufforderungen (Ja/Nein-Fragen) usw. SelfCheckGPT mit Hinweisen scheint bei der Durchführung experimenteller Inspektionen von WikiBio-Passagen, die von GPT-3 generiert wurden, die beste Leistung zu erbringen.

Unbekanntes Wissen kalibrieren

Die Aufforderung an ein Modell, Antworten auf unbeantwortbare oder unbekannte Fragen zu generieren, kann Halluzinationen hervorrufen.EhrlicheQA(Lin et al., 2021) undSelbstbewusst(Yin et al., 2023) sind zwei Benchmarks, die die Fähigkeit eines Modells messen, in solchen Situationen realistische Antworten zu generieren. Ersteres ist kontradiktorisch aufgebaut, um menschliches Versagen hervorzuheben, und letzteres umfasst unbeantwortbare Fragen.

Wenn Sie mit diesen Problemen konfrontiert werden,Das Model sollte sich weigern, zu antworten oder relevante Informationen bereitzustellen。

Bei TruthfulQA werden Testfragen kontradiktorisch gestaltet und basieren auf häufigen menschlichen Missverständnissen oder Fehlern. Der Benchmark enthält 817 Fragen zu 38 Themen, darunter Gesundheit, Recht, Finanzen und Politik.

Im Test erreichte das beste LLM eine Genauigkeit von 58 %, während Menschen eine Genauigkeit von 94 % erreichen konnten. Das hat das Forschungsteam herausgefundenAufgrund eines weit verbreiteten Missverständnisses sind größere Modelle weniger realistisch, dieser Trend spiegelt sich jedoch nicht in anderen Standards wider(nicht konfrontativ)sachliche Grundlage。

Hier ist ein Beispiel für die falsche Antwort von GPT-3 auf TruthfulQA:

Yin et al. 2023 untersuchtSelbstbewusstDas Konzept von bezieht sich darauf, ob Sprachmodelle wissen, was sie wissen oder nicht.

SelfAware enthält 1032 unbeantwortbare Fragen und 2337 beantwortbare Fragen in fünf Kategorien. Unbeantwortbare Fragen stammen aus Online-Foren mit menschlichen Anmerkungen und beantwortbare Fragen stammen aus SQuAD, HotpotQA und TriviaQA.

Eine Frage kann aus verschiedenen Gründen unbeantwortet bleiben, z. B. fehlender wissenschaftlicher Konsens, Vorstellung von der Zukunft, völlige Subjektivität, philosophische Gründe, die zu mehreren Antworten führen können usw.

Die Studie behandelt die Unterscheidung beantwortbarer und unbeantwortbarer Fragen als binäre Klassifizierungsaufgabe und verwendet den F1-Score oder die Genauigkeit, um die Leistung des Modells zu bewerten. Experimente zeigen, dass größere Modelle bei dieser Aufgabe besser abschneiden.

Eine andere Möglichkeit zu beurteilen, wie gut ein Modell unbekanntes Wissen versteht, besteht darin, die Unsicherheit in der Modellausgabe zu messen. Wenn ein Problem zwischen dem Bekannten und dem Unbekannten liegt, sollte das Modell das richtige Maß an Vertrauen aufweisen.

Das Experiment von Kadavath et al. aus dem Jahr 2022 zeigte, dass in einer Vielzahl mehrdimensionaler Antwortoptionen mit sichtbaren BuchstabenThemenauswahlMithilfe verschiedener Formate (MMLU, TruthfulQA, QuALITY, LogiQA) kann LLM die Wahrscheinlichkeit, dass eine Antwort richtig ist, gut einschätzen, was bedeutet, dass die vorhergesagte Wahrscheinlichkeit damit übereinstimmt, wie oft diese Antwort wahr ist.

Die RLHF-Feinabstimmung führt zu einer schlechteren Modellkalibrierung, höhere Probentemperaturen führen jedoch zu besseren Kalibrierungsergebnissen.

Lin et al. im Jahr 2022 vorgeschlagenKalibrierte Mathematik Missionsset. Bei CalibrateMath handelt es sich um eine Reihe programmgesteuert generierter mathematischer Probleme mit unterschiedlichen Schwierigkeitsgraden, die die Kalibrierung von Modellausgabewahrscheinlichkeiten testen.

Für jede Frage muss das Modell eine numerische Antwort und sein Vertrauen in diese Antwort liefern. Es werden drei Arten von Wahrscheinlichkeiten berücksichtigt:

Eine wörtliche Zahl oder ein Wort (z. B. „am niedrigsten“, „niedrig“, „mittel“, „hoch“, „am höchsten“), z. B. „Konfidenz: 60 %/Moderat“.
Die normalisierte Protokollwahrscheinlichkeit des Antworttokens. Beachten Sie, dass dieser Parameter in den Feinabstimmungsexperimenten nicht verwendet wurde.
Logprob für das indirekte „True/False“-Flag nach der ursprünglichen Antwort. Die Experimente konzentrieren sich auf die Kalibrierung der Generalisierung unter Verteilungsänderungen der Aufgabenschwierigkeit oder des Inhalts. Jeder Feinabstimmungsdatenpunkt ist eine Frage, die Antwort des Modells (die möglicherweise falsch ist) und die Zuverlässigkeit der Kalibrierung. In beiden Fällen ließen sich Textwahrscheinlichkeiten gut verallgemeinern, und alle Einstellungen funktionierten bei Multiplikations- und Divisionsaufgaben gut. In Bezug auf die Zuverlässigkeit der Modellvorhersage ist das Wenig-Schuss-Modell schwächer als das Feinabstimmungsmodell. Es hilft, mehr Beispiele einzubeziehen, die 50-Schuss-Version ist fast so gut wie die fein abgestimmte Version.

indirekte Abfrage

Agrawal et al. (2023) untersuchten speziell Fälle halluzinierter Zitate in der LLM-Generierung, einschließlich fiktiver Buch-, Artikel- und Papiertitel. Sie verwendeten zwei konsistenzbasierte Methoden zur Erkennung von Halluzinationen, nämlich die direkte Abfrage und die indirekte Abfrage. Beide Methoden führen die Prüfung mehrmals durch, wenn T > 0 und überprüfen die Konsistenz.

Bei direkten Abfragen muss das Modell feststellen, ob das generierte Referenzmaterial vorhanden ist, während bei indirekten Abfragen zusätzliche Details erforderlich sind, zWer ist der Autor der Referenz?。

Die Hypothese ist, dass bei einer halluzinierten Referenz die Konsistenz der mehrfachen Generierung desselben Autors geringer ist als die Wahrscheinlichkeit, dass mehrere Antworten auf eine direkte Anfrage das Vorhandensein der Referenz offenbaren.

Experimente zeigen dasIndirekte Abfragemethoden sind leistungsfähiger, größere Modelle sind leistungsfähiger und es kommt zu weniger Halluzinationen。

Möglichkeiten zur Bekämpfung von Halluzinationen

Als Nächstes überprüfen wir eine Reihe von Methoden zur Verbesserung der Authentizität von LLM-Antworten, einschließlich des Abrufs aus externen Wissensdatenbanken, spezieller Stichprobenmethoden und der Feinabstimmung der Ausrichtung. Einige interpretierbare Methoden zur Reduzierung von Halluzinationen durch Neuronenbearbeitung werden hier nicht besprochen.

RAG → Bearbeitung und Namensnennung

RAG (Retrieval Augmented Generation) ist eine sehr verbreitete Methode zur Bereitstellung grundlegender Informationen durch den Abruf relevanter Dokumente und deren anschließende Generierung unter Verwendung zusätzlicher relevanter Dokumente als Kontext.

RARR(Retrofit Attribution using Research and Revision) ist ein von Gao et al. im Jahr 2022 vorgeschlagenes Framework, das es LLM ermöglicht, die Attribution externer Beweise durch redaktionelle Attribution rückwirkend zu unterstützen.

Bei einem vom Modell generierten Text verarbeitet RARR ihn in zwei Schritten und gibt einen überarbeiteten Text und einen Attributionsbericht aus:

1. Recherchephase: Relevante Dokumente als Beweismittel finden.

Zunächst wird ein Abfragegenerierungsmodell verwendet (über wenige Hinweise, →1,…, ), um eine Reihe von Suchanfragen 1,… zu erstellen, um verschiedene Aspekte jedes Satzes zu validieren.
Bei einer Google-Suche ergibt jede Suchanfrage 5 Ergebnisse.
Ein vorab trainiertes Abfrage-Dokument-Relevanzmodell wird verwendet, um Relevanzbewertungen zuzuweisen, und für jede Abfrage wird nur eines der relevantesten = 1 Dokument 1,… beibehalten.

2. Überarbeitungsphase: Bearbeiten Sie die Ausgabe, um Inhalte zu korrigieren, die nicht durch die Beweise gestützt werden, und behalten Sie dabei so viel Originalinhalt wie möglich bei.Überarbeiteten Text initialisieren =.

Gemäß (,) prüft das Protokollmodell (über Few-Shot-Hinweise + CoT, (,,) → 0,1), ob die Beweise nicht mit dem aktuellen überarbeiteten Text übereinstimmen.

Erst wenn eine Inkonsistenz festgestellt wird, gibt das Bearbeitungsmodell (über einige Hinweise + CoT, (,,)→neu) eine neue Version aus, die so konzipiert ist, dass sie gleichzeitig mit den Beweisen nur minimal geändert wird.

Schließlich geht nur eine begrenzte Menge von =5 Beweisen in den Attributionsbericht ein.

Bei der Bewertung des überarbeiteten Textes sind sowohl die Quellenangabe als auch die Aufbewahrung wichtig.

Bei der Attribution wird der AIS-Score (Attributed to Identified Source) verwendet, um zu messen, wie viel des Inhalts zugeordnet werden kann. Es können menschliche Anmerkungen gesammelt oder NLI-Modelle verwendet werden, um die automatische AIS-Bewertung anzunähern.

Unter Erhaltung versteht man den Grad der Erhaltung des Originaltextes, gemessen als Previntent × PrevLev, wobei Previntent eine manuelle Annotation erfordert und PrevLev auf der Levenshtein-Bearbeitungsentfernung auf Zeichenebene basiert. Im Vergleich zu den beiden Basislinien führt RARR zu ausgewogeneren Ergebnissen, insbesondere im Hinblick auf die Retentionsmetriken.

Ähnlich wie RARR mit Suche+Bearbeiten, vorgeschlagen von Mishra et al. 2024FAVA (Factuality Verification with Augmented Knowledge) ruft auch relevante Dokumentation ab und bearbeitet dann die Modellausgabe, um illusorische Fehler zu vermeiden. Das FAVA-Modell besteht aus einem Retriever und einem Editor.

Rufen Sie anhand einer Eingabeaufforderung und einer Modellausgabe die relevantesten Dokumente ab:

Der Editor generiert eine erweiterte Ausgabe:

RARR erfordert keine Schulung, aber die Bearbeitung des Editormodells in FAVA erfordert eine Feinabstimmung. Durch die detailliertere Klassifizierung verschiedener Arten von Halluzinationsfehlern ist es möglich, synthetische Trainingsdaten für bearbeitete Modelle zu generieren, indem zufällige Fehler in die Modellgenerierung eingefügt werden.

Jedes Beispiel ist ein Triplett (,,∗), wobei die ursprüngliche Wikipedia-Passage als goldener Kontext, die LM-Ausgabe mit Fehlern und ∗ die Ausgabe mit Fehlerbezeichnungen und korrekten Bearbeitungen ist.

Vorgeschlagen von He et al. im Jahr 2022RRDer Ansatz (Rethinking with Retrieval) setzt ebenfalls auf das Abrufen relevanten externen Wissens, erfordert jedoch keine zusätzliche Bearbeitung.

Anstatt ein Suchabfragegenerierungsmodell zu verwenden, basiert der Abruf von RR auf zerlegten CoT-Hinweisen.

Bei einem Eingabehinweis verwendet RR CoT-Hinweise, um mehrere Inferenzpfade 1,… bei einer Temperatur > 0 zu generieren, wobei jeder Inferenzpfad eine Erklärung (d. h. den Inferenzteil) enthält, gefolgt von einer Vorhersage (d. h. die tatsächliche Modellausgabe). . Rufen Sie externes Wissen 1,… ab, um jede Erklärung zu unterstützen. Anschließend wird die zutreffendste Antwort basierend auf dem Grad der Übereinstimmung mit dem abgerufenen Wissen 1,…, ausgewählt.

Wissensabruf: Die Experimente von RR wenden Sparse Retrieval BM25 an, um Wikipedia zu durchsuchen, gefolgt von einer Neubewertung durch Einbettung der Kosinusähnlichkeit, die von einem vorab trainierten MPNet-Modell bereitgestellt wird.
Treuebewertung : Die Genauigkeit jedes Inferenzpfads wird durch eine Kombination aus Entailment-Score, Widerspruchs-Score und MPNet-Ähnlichkeit geschätzt. Sowohl der Entailment-Score als auch der Widerspruchs-Score werden vom vorab trainierten NLI-Modell bereitgestellt.

Selbst-RAG(Asai et al., 2024) trainiert ein Sprachmodell durchgängig, sodass es lernt, über die eigene Produktion nachzudenken, indem es Aufgabenergebnisse und intermittierende spezielle Reflexionsmarkierungen ausgibt.

Das Forschungsteam erstellte mithilfe von GPT-4 einen überwachten Datensatz zur Beurteilung und Generierung von Modellen und destillierte ihn dann in ein internes Modell, um die Kosten für die Inferenz zu senken.

Bei einer Eingabeaufforderung besteht die generierte Ausgabe aus mehreren Teilen (z. B. ein Segment ist ein Satz). Es gibt vier Arten von Reflexionsmarkern, einen zum Abrufen und drei zur Auswertung:

Abrufen: Legt fest, ob der Abruf parallel ausgeführt werden soll, um eine Reihe von Ausgabewerten zu erhalten: {ja, nein, fortfahren}.
IsRel: Bestimmen Sie, ob die Eingabeaufforderung für das abgerufene Dokument relevant ist; {relevant, irrelevant}.
IsSup: Bestimmen Sie, ob Ausgabetext unterstützt wird; Ausgabewert: {vollständig unterstützt, teilweise unterstützt, keine Unterstützung}.
IsUse: Bestimmen Sie, ob der Ausgabetext nützlich ist; Ausgabewert: {5, 4, 3, 2, 1}.

Self-RAG generiert jeweils ein Segment. Basierend auf der gegebenen und vorherigen Generation < dekodiert das Modell das Retrieve-Token:

Wenn Retrieve==no, direkt generieren;
Wenn Retrieve==yes, ruft das Modell mehrere Absätze parallel ab und prüft mithilfe des IsRel-Tokens, ob die abgerufenen Dokumente relevant sind. Generieren und verwenden Sie gegebenenfalls andere Bewertungstoken, um das beste Ergebnis aus mehreren Ergebnissen zu bewerten, zu bewerten und auszuwählen.

Aktionskette

Ohne externes Retrieval-Wissen ist es möglich, eine zu entwerfenNutzen Sie das Modell selbst zur Validierung und ÜberarbeitungVerfahren zur Reduzierung von Halluzinationen.

Dhuliawala et al. schlugen im Jahr 2023 eine Methode zur Planungs- und Ausführungsüberprüfung vor, die auf Aktionsketten basiertVerifizierungskette (Bucht). CoVe besteht aus vier Kernschritten:

Grundreaktion: Das Modell generiert einen ersten Antwortentwurf, der als „Baseline“ bezeichnet wird.
Planungsüberprüfung: Basierend auf dieser Rohgenerierung entwirft das Modell Überprüfungsfragen ohne Vorlage zur Faktenüberprüfung; dies kann mit einer kleinen Anzahl von Beispielaufforderungen (Antworten auf Überprüfungsfragen) erreicht werden.
Führen Sie eine Verifizierung durch : Das Modell beantwortet diese Fragen selbstständig. Es gibt verschiedene Setup-Varianten:

1) Union: Kombiniert mit Schritt 2, wo die Beispielstruktur mit wenigen Schüssen lautet (Antwort, Verifizierungsfrage, Verifizierungsantwort); der Nachteil besteht darin, dass die ursprüngliche Antwort im Kontext steht und das Modell möglicherweise ähnliche Illusionen wiederholt.

2) Zweistufiger Ansatz: Trennen Sie die Schritte der Verifizierungsplanung und -ausführung, sofern sie sich nicht auf die ursprüngliche Reaktion auswirken.

3) Zerlegung: Beantworten Sie jede Verifizierungsfrage separat. Wenn beispielsweise ein langer Basisaufbau zu mehreren Validierungsfragen führt, wird jede Frage einzeln beantwortet.

4) Zerlegung + Überarbeitung: Fügen Sie einen „Gegenprüfungsschritt“ hinzu, nachdem die Zerlegungsüberprüfung durchgeführt wurde, um Inkonsistenzen basierend auf Basisantworten und Verifizierungsfragen und -antworten zu konditionieren und zu erkennen.

endgültige Ausgabe : Endgültige, verfeinerte Ausgabe generieren. Sollten Inkonsistenzen festgestellt werden, wird die Ausgabe in diesem Schritt angepasst.

CoVe ist auf diese Weise konzipiert, da die Verwendung einer langen Verifizierungskettengenerierung zu wiederholten Halluzinationen führen kann, da die anfängliche halluzinatorische Reaktion immer noch im Kontext steht und während neuer Generationsprozesse berücksichtigt werden kannEs wurde festgestellt, dass die individuelle Beantwortung jeder Validierungsfrage zu besseren Ergebnissen führte als die Erstellung langer Formulare。

Hier einige interessante Beobachtungen aus den CoVe-Experimenten:

Befehlsanpassungen und CoT reduzierten die Halluzinationen nicht.
Zerlegung und zweistufiges CoVe verbessern die Leistung und weitere explizite Begründungen für die Inkonsistenzerkennung helfen ebenfalls („Zerlegung+Revision“-Ansatz).
Kurze Verifizierungsfragen führten zu genaueren Antworten als lange Fragen.
Freiform-LLM generiert Verifizierungsfragen besser als heuristische Fragen (z. B. hat X die Frage beantwortet?), und Fragen, die eine offene Generierung erfordern, sind besser als Ja/Nein-Fragen.

Darüber hinaus schlugen Sun et al. im Jahr 2023 vorREZITIERENDie Methode basiert auf der Probe als Zwischenschritt, um die sachliche Korrektheit der Modellgenerierung zu verbessern und Halluzinationen zu reduzieren.

Die Motivation besteht darin, das Gedächtnis von Transformer als Modell zum Abrufen von Informationen zu verwenden. Beim Nacherzähl- und Antwortschema von RECITE wird der LLM zunächst gebeten, die relevanten Informationen noch einmal zu erzählen, und generiert dann eine Ausgabe.

Insbesondere können ein paar kontextbezogene Hinweise verwendet werden, um dem Modell das Paraphrasieren beizubringen und dann Antworten auf der Grundlage der Paraphrase zu generieren. Darüber hinaus kann es mit selbstkonsistenten Ensemble-Methoden kombiniert werden, die mehrere Samples verwenden, und kann erweitert werden, um die Beantwortung von Multi-Hop-Fragen zu unterstützen.

Die generierten Paraphrasen sind vergleichbar mit dem BM25-basierten Retrieval-Modell, beide weisen jedoch Lücken bei der Verwendung realer Passagen auf. Laut der vom Forschungsteam durchgeführten Fehleranalyse wurden etwa 7–10 % der Fragen richtig rezitiert, es konnte jedoch keine richtige Antwort generiert werden. Etwa 12 % der Fragen wurden falsch rezitiert, konnten aber dennoch richtig beantwortet werden.

Probenahmeverfahren

Lee et al. 2022 fanden heraus, dass Kernel-Sampling (Top-Sampling) beim FactorityPrompt-Benchmark schlechter abschneidet als Greedy-Sampling, obwohl Kernel-Sampling zusätzliche Zufälligkeit hinzufügt und so eine bessere Diversität und weniger Wiederholungen erzielt.

Daher schlugen sie einen hypothesenbasierten Fakten-Kernel-Sampling-Algorithmus vor.Diese Hypothese besagt, dass die Zufälligkeit der Stichprobe einen größeren Einfluss auf die Faktizität der zweiten Satzhälfte hat als auf den Satzanfang. . Das Ziel der Faktenkernstichprobe besteht darin, die Wahrscheinlichkeit der Stichprobenwörter in jedem Satz dynamisch anzupassen. Für das te Token in einem Satz gibt es =max(,⋅−1), das verwendet wird, um zu verhindern, dass das Sampling auf ein gieriges Sampling zurückfällt, das die Generierungsqualität und -vielfalt beeinträchtigt.

Li et al. im Jahr 2023 vorgeschlagenInferenz-Zeit-Intervention(ITI) untersucht, ob bestimmte Aufmerksamkeitsköpfe für die Faktizität relevanter sind, indem Aktivierungen auf jeder Ebene linear untersucht werden, um echte von falschen Ausgaben zu unterscheiden.

Sie fanden heraus, dass der Detektor bei vielen Aufmerksamkeitsköpfen nicht besser abschnitt als die Zufallsauswahl, während einige eine starke Leistung zeigten. Nachdem eine Gruppe spärlicher Aufmerksamkeitsköpfe mit hoher Genauigkeit bei der linearen Authentizitätserkennung identifiziert wurde, passt ITI während der Inferenz die Aktivierung der am häufigsten ausgewählten Aufmerksamkeitsköpfe entlang der „realen“ Richtung an.

Sachlicher Feinschliff

Lee et al. 2022 schlugen zwei Ideen für das Verstärkungstraining vor:

Einführung von TopicPrefix zum besseren Verständnis von Fakten: Fügen Sie vor jedem Satz des Dokuments ein Thema (z. B. den Titel des Wikipedia-Dokuments) hinzu.
Nehmen Sie den Verlust der Satzvervollständigung als Trainingsziel: Aktualisieren Sie den Trainingsverlust, um sich auf die zweite Hälfte des Satzes zu konzentrieren, vorausgesetzt, dass die zweite Hälfte des Satzes mehr Faktenwissen enthält. Die Implementierung ist sehr einfach: Legen Sie einen Drehpunkt fest und wenden Sie eine Nullmaske auf alle Token vor dem ersten Token an. In ihren Experimenten wurde als optimaler Drehpunkt das 0,5-fache der Satzlänge gewählt.

Lin et al. schlugen im Jahr 2024 vor, ein SFT+RLHF-Ausrichtungstraining durchzuführen, das sich auf die Sachlichkeit konzentriertFLAMME。

SFT-Stufe (Factuality-aware SFT): Das Ziel besteht darin, Trainingsdaten zu generieren, die sachlicher sind als das Modell selbst (gemessen durch FActScore).
RLHF-Stufe (Factuality-Aware DPO): Zwei Methoden wurden schlecht getestet und Methode 2 schnitt gut ab, wahrscheinlich weil Methode 1 versuchte, neues Wissen ohne ausreichende Schulung in das Modell zu integrieren.

Wie bereits erwähnt, gibt es Hinweise darauf, dass die Feinabstimmung neuer Erkenntnisse Halluzinationen hervorrufen kann, und die RAG-Überwachung enthält Informationen, die LLM nicht kennen.

Methode 1: Verwenden Sie RAG-Datenproben als positive Proben und die ursprüngliche Modellgenerierung als negative Proben als RM-Daten.

Methode 2: FActScore als De-facto-Belohnungssignal verwenden.

Um zu vermeiden, dass während des Alignment-Trainings versehentlich unbekanntes Wissen in das Modell destilliert wird, schlagen sie vor, die vom Modell generierten Antworten zum Erstellen des SFT/DPO-Datensatzes zu verwenden.

Vorgeschlagen von Tian&Mitchell et al. im Jahr 2024Faktizitäts-Tuning Verlässt sich außerdem auf die Feinabstimmung von Sprachmodellen, um die Faktizität zu verbessern. Sie experimentierten mit verschiedenen Methoden, um die Richtigkeit der atomaren Behauptungen in jeder Modellprobe abzuschätzen, und führten dann DPO durch.

Sachverhaltsanpassungsprozess:

1. Beispielpaare zur Modellvervollständigung für einen bestimmten Eingabeaufforderungssatz (z. B. „Schreiben Sie eine Biografie von Yo-Yo Ma“)

2. Markieren Sie die Echtheit mit zwei Methoden, die keinen manuellen Eingriff erfordern:

Referenzbasiert: Überprüft, ob die Modellbehauptung durch eine externe Wissensdatenbank gestützt wird, ähnlich dem Abschnitt zur abrufbasierten Halluzinationsbewertung oben. (a) eine Reihe atomarer Deklarationen extrahieren; (b) Wikipedia-Referenzen nachschlagen; (c) ein fein abgestimmtes kleines NLI-Modell verwenden, um zu prüfen, ob der Referenztext atomare Deklarationen unterstützt.

Nicht referenzbasiert: Verwendet die eigene Konfidenz des Modells als Symbol seiner Authentizität, ähnlich wie bei indirekten Abfragemethoden. (a) jede Aussage in eine entsprechende Frage umwandeln/erfordert eine sorgfältige Umformulierung, um sicherzustellen, dass die Frage klar ist; (b) mehrere Stichproben aus dem Modell verwenden, um die Frage zu beantworten; Zeichenkettenabgleich oder Aufforderung an GPT, festzustellen, ob zwei Antworten semantisch äquivalent sind.

3. Erstellen Sie einen Trainingsdatensatz, indem Sie mehrere Stichproben aus dem Modell generieren und Präferenzen basierend auf Authentizitätswerten zuweisen. Verwenden Sie dann DPO, um das Modell für diesen Datensatz zu optimieren.

Feinabstimmung für die Attribution

Die Zuordnung von Attributionen ist eine gute Möglichkeit, Illusionen bei der Generierung von Modellausgaben zu reduzieren, die von Suchergebnissen abhängen. Es gibt eine Reihe von Arbeiten, die darauf abzielen, LLM darin zu schulen, abgerufene Inhalte besser zu nutzen und qualitativ hochwertige Zuschreibungen zuzuweisen.

Vorgeschlagen von Nakano et al. im Jahr 2022WebGPT, kombiniert Websuche zum Abrufen von Dokumenten mit fein abgestimmten GPT-Modellen, die für die Beantwortung langer Fragen entwickelt wurden, um Halluzinationen zu reduzieren und die sachliche Genauigkeit zu verbessern.

Das Modell interagiert mit Internetsuchen in einem textbasierten Webbrowser und lernt, Webseiten zu zitieren, um Fragen zu beantworten. Während das Modell surft, kann es unter anderem auf einen Auszug der aktuellen Seite verweisen. Dabei werden der Seitentitel, der Domänenname und der Auszug zur späteren Bezugnahme aufgezeichnet.Der Kern von WebGPT besteht darin, Referenzmaterialien zu verwenden, um Menschen bei der Beurteilung der sachlichen Richtigkeit zu helfen。

Das Modell wurde zunächst einer überwachten Feinabstimmung für das Verhaltensklonen unterzogen, und zwar anhand von Demonstrationen, bei denen Menschen eine Webbrowserumgebung zur Beantwortung von Fragen nutzten.

Es werden Vergleichsdaten zwischen zwei modellgenerierten Antworten auf dieselbe Frage gesammelt, jede mit ihrem eigenen Referenzsatz, wobei die Antworten nach ihrer sachlichen Genauigkeit, Kohärenz und allgemeinen Nützlichkeit beurteilt werden. Belohnungsmodelle werden für RL-Training und Best-of-n-Ablehnungsstichproben verwendet. Im Gegensatz dazu hat RL nur begrenzte Auswirkungen, und wenn eine Zurückweisungsstichprobe verwendet wird, sind die Auswirkungen sogar noch begrenzter.

Menick et al. schlugen 2022 vorGopherCite , ist WebGPT in seiner Verwendung von Suchmaschinen zur Erstellung von Hilfsmaterialien und zum Unterrichten von Modellen zur Bereitstellung von Referenzmaterialien sehr ähnlich. Beide führen eine überwachte Feinabstimmung der Anleitung durch und beide wenden das RLHF-Training an.

Im Gegensatz zu WebGPT, das beim Verhaltensklonen auf menschliche Demonstrationen angewiesen ist, verwendet GopherCiteGenerieren Sie eine Demo über wenige Eingabeaufforderungen, und jede Generation wird mit Kontext aus relevanten Dokumenten gefüllt, und dann wird ein Belohnungsmodell verwendet, um zu bewerten, welche die besten sind.

Ein weiterer Trick zur Vermeidung minderwertiger Antworten besteht darin, das Modell so zu konfigurieren, dass Antworten mit der vorgefertigten Antwort „Ich weiß nicht“ abgelehnt werden, die durch einen globalen RM-Schwellenwert bestimmt wird, der als selektive Vorhersage bezeichnet wird.

Die empirischen Ergebnisse von RL ähneln denen von WebGPT, das heißt, RL bringt in Kombination mit der Ablehnungsstichprobe nur begrenzte oder keine Verbesserung.

Wer ist Weng Li?

Weng Li ist ein chinesischer Wissenschaftler bei OpenAI und einer der Mitwirkenden von ChatGPT. Er hat seinen Abschluss an der Peking-Universität.

Sie ist verantwortlich für die OpenAI-Anwendungsforschung im Bereich künstliche Intelligenz. Sie kam 2018 zu OpenAI und ist im GPT-4-Projekt hauptsächlich in den Bereichen Pre-Training, Reinforcement Learning & Alignment und Modellsicherheit tätig.

Im Ende letzten Jahres von OpenAI gegründeten Sicherheitsberatungsteam leitet sie das Safety Systems-Team, um Probleme wie die Reduzierung des Missbrauchs bestehender Modelle wie ChatGPT zu lösen.

Belegung