Lesen Sie alle LLM-Ausrichtungstechnologien in einem Artikel: RLHF, RLAIF, PPO, DPO...

2024-08-05

Maschinenherzbericht

Herausgeber: Panda

Um LLM in Einklang zu bringen, haben sich Forscher aus allen Bereichen clevere Tricks einfallen lassen.

LLM ist sehr leistungsfähig, aber es kann auch Fehler machen oder nutzlose oder sogar schädliche Ergebnisse liefern. Beispielsweise hat jemand herausgefunden, dass ChatGPT den Leuten das Stehlen beibringen kann.

Lassen Sie ChatGPT den Leuten beibringen, wie man Geschäfte stiehlt. Auf der rechten Seite weigert sich ChatGPT, zu antworten

Zu diesem Zeitpunkt ist die Ausrichtung von entscheidender Bedeutung. Ihre Aufgabe besteht darin, das LLM mit den menschlichen Werten in Einklang zu bringen.

Reinforcement Learning basierend auf menschlichem Feedback (RLHF) ist eine bahnbrechende Technologie zur Ausrichtung von LLM. Diese Methode hat zu leistungsstarken Modellen wie GPT-4, Claude und Gemini geführt. Nach RLHF haben die Menschen auch verschiedene Methoden zur Ausrichtung des LLM erforscht. Bisher hat jedoch niemand die Methoden zur Anpassung des LLM an menschliche Vorlieben umfassend zusammengefasst.

Salesforce hat beschlossen, diese Lücke zu schließen und hat kürzlich einen 37-seitigen Überprüfungsbericht veröffentlicht, der die vorhandene Forschungsliteratur nach Kategorien zusammenfasst und jeden Artikel im Detail analysiert.

Titel des Papiers: Eine umfassende Übersicht über LLM-Ausrichtungstechniken: RLHF, RLAIF, PPO, DPO und mehr
Papieradresse: https://arxiv.org/pdf/2407.16216

Dieses Papier ist in vier Hauptthemen unterteilt: Belohnungsmodell, Feedback, Reinforcement Learning (RL) und Optimierung. Jedes Thema enthält weitere Unterthemen, wie in Abbildung 1 dargestellt.

Zu den Unterthemen des Belohnungsmodells gehören: 1. Explizites Belohnungsmodell und implizites Belohnungsmodell; 3. Belohnungen auf Antwortebene und Belohnungen auf Tokenebene;

Zu den Unterthemen des Feedbacks gehören: 1. Präferenz-Feedback und binäres Feedback; 2. Gepaartes Feedback und Listen-Feedback; 3. Menschliches Feedback und KI-Feedback;

Zu den Unterthemen des Verstärkungslernens gehören: 1. Referenzbasiertes Verstärkungslernen und referenzfreies Verstärkungslernen; 3. Verschiedene Zweige des Verstärkungslernens;

Zu den Unterthemen der Optimierung gehören: 1. Online-/iterative Präferenzoptimierung und Offline-/nicht-iterative Präferenzoptimierung 2. Trennung von SFT und Alignment und Zusammenführung von SFT und Alignment.

Tabelle 1 listet die Klassifizierung aller in diesem Review-Bericht analysierten Arbeiten zu diesen 13 Bewertungsindikatoren auf.

Forschungsunterlagen

In diesem Abschnitt wird jedes Papier im Detail vorgestellt, damit die Leser diese wichtigen Neuerungen verstehen können, ohne das Originalpapier lesen zu müssen. „The Heart of the Machine“ wird verschiedene Forschungsrichtungen kurz vorstellen und repräsentative Arbeiten auflisten.

1. RLHF/PPO

Das Vortraining von LLM erfordert die Verwendung einer großen Anzahl von Korpora aus verschiedenen Quellen, was an sich die Qualität dieser Datensätze nicht gewährleisten kann. Darüber hinaus besteht das Hauptziel von LLM darin, den nächsten Token vorherzusagen, was nicht mit dem Ziel vereinbar ist, „Benutzeranweisungen sinnvoll und sicher zu befolgen“. Infolgedessen gibt LLM möglicherweise Inhalte aus, die unwahr, schädlich oder für Benutzer nicht nützlich sind. Im Wesentlichen sind diese Modelle nicht auf die Benutzerabsicht ausgerichtet. Das Hauptziel von RLHF/PPO besteht darin, Sprachmodelle an die Benutzerabsichten für eine Vielzahl von Aufgaben anzupassen, indem menschliches Feedback zur Feinabstimmung des Modells genutzt wird. Es gibt viele Studien zu diesem Thema.

InstructGPT

InstructGPT stammt von OpenAI, das die Grundlage für Trainingsmodelle wie ChatGPT und GPT-4 bildet. Weitere Informationen finden Sie im „GPT-4 Technical Report“ und im Heart of the Machine-Bericht „GPT-4 Shocking Release: Multimodales großes Modell“. , ChatGPT, Bing direkt aktualisieren, API öffnen, Game Over? 》《Lernen Sie die Technologie hinter ChatGPT von Li Mu: Lesen Sie das InstructGPT-Papier in 67 Minuten gründlich durch》.

Durch die Einbeziehung menschlicher Präferenzen wird das schwierige Problem der Bewertung der durch LLM generierten Antworten gelöst. Herkömmliche Bewertungsmetriken zur Bewertung von LLM, wie BLEU, ROUGE und BERTScore, können keine Übereinstimmung mit menschlichen Präferenzen garantieren. Um dieses Problem zu lösen, haben Forscher menschliche Vorlieben direkt in LLM integriert, um dessen Leistung zu verbessern. Dieser Prozess umfasst typischerweise zwei Hauptschritte: Lernen des Belohnungsmodells und Training der Strategie des verstärkenden Lernens.

Während der Lernphase des Belohnungsmodells wird eine explizite punktuelle Belohnungsfunktion mithilfe von Eingabeaufforderungen und gepaarten Antworten trainiert.

Danach beginnt die Trainingsphase der Reinforcement-Learning-Richtlinie. In dieser Phase dienen das LLM und das vorab trainierte Belohnungsmodell als Agent bzw. Umgebung in einem Reinforcement-Learning-Framework.

Zum Trainieren von InstructGPT werden drei Datensätze verwendet: 1. SFT-Datensatz: Enthält Annotator-Demonstrationen, die zum Trainieren des SFT-Modells verwendet werden. 2.RM-Datensatz (Belohnungsmodell): besteht aus der Rangfolge der Modellausgaben durch menschliche Annotatoren und wird zum Trainieren von Belohnungsmodellen verwendet. 3.PPO-Datensatz: besteht aus Eingabeaufforderungen, die als Eingabe für die RLHF-Feinabstimmung verwendet werden.

Der geschulte InstructGPT wird in drei Aspekten bewertet: Nützlichkeit, Glaubwürdigkeit und Schädlichkeit.

Den Ergebnissen zufolge zeigt die menschliche Auswertung, dass „Menschen die Ausgabe der 1,3B-Parameterversion des InstructGPT-Modells gegenüber der 175B-GPT-3-Version bevorzugen, obwohl letztere mehr als 100-mal weniger Parameter hat.“ InstructGPT hat eine bessere Leistung als GPT-3 sowohl bei Nützlichkeits- als auch bei Toxizitätsaufgaben, die für die Ausrichtung von entscheidender Bedeutung sind.

Anthropics RLHF

Anthropic hat sich ebenfalls mit dem gleichen Thema befasst und der Artikel lautet „Schulung eines hilfreichen und harmlosen Assistenten durch verstärkendes Lernen aus menschlichem Feedback“.

OpenAI hat herausgefunden, dass RLHF die Ausrichtung unterstützt, bei einigen NLP-Benchmarks jedoch auch zu einer Verschlechterung der Modellleistung führen kann, ein Phänomen, das als „Ausrichtungssteuer“ bekannt ist. Das von ihm entwickelte InstructGPT-Modell verfügt über 1,3B Parameter. Stattdessen bewerteten Anthropic-Forscher sieben verschiedene Modelle mit einer Größe von 13M bis 52B, die geometrisch um den Faktor 4 wuchsen.

Sie kamen zu dem Schluss, dass die Ausrichtung für kleinere Modelle eine „Steuer“ darstellt, für größere Modelle jedoch nur Vorteile bringt, insbesondere für Modelle mit Parametergrößen zwischen 13B und 52B.

Angesichts dieses Vorteils der Ausrichtung experimentierten sie auch mit der Verwendung von Datensätzen der Programmiertechnologie, um die Fähigkeiten von LLM zu verbessern. Die RLHF-Methode von OpenAI umfasst PPO und PPO-ptx, wobei das Designziel von PPO-ptx darin besteht, die Ausrichtungssteuer auf den NLP-Benchmark zu reduzieren. Die RLHF-Studie von Anthropic ergab, dass PPO selbst Ausrichtungsvorteile für nachgelagerte NLP-Aufgaben bringen kann, solange das Modell groß genug ist. Sie stellten außerdem fest, dass der optimale Parameter der KL-Divergenz beim Training der Reinforcement-Learning-Strategie β = 0,001 beträgt.

Online/iteratives RLHF

Traditionell sind RLHF-Techniken zur Ausrichtung von LLM Offline-Methoden. Diese Art von Methode weist jedoch einige Nachteile auf, beispielsweise die Schwierigkeit, mit Daten außerhalb der Verteilung umzugehen.

Zu diesem Zweck ist es notwendig, LLM kontinuierlich zu verfeinern und iteratives/Online-Lernen durchzuführen, d Rückmeldungen geben Strategie. In der Praxis gliedert sich iteratives Lernen in zwei Teile: Präferenz-Orakel-Lernen und iterative Richtlinienoptimierung. Siehe den Artikel „RLHF-Workflow: Von der Belohnungsmodellierung zum Online-RLHF“.

2. RLAIF

Die Kosten für die Beschaffung menschlicher Präferenzdatensätze sind nicht gering, daher wurde Verstärkungslernen auf Basis von Rückmeldungen künstlicher Intelligenz (RLAIF) geboren. Darüber hinaus verbessert sich mit der weiteren Verbesserung der Fähigkeiten von LLM auch die Qualität der erfassbaren KI-Präferenzdatensätze weiter, was den Ausrichtungseffekt von LLM verbessern kann.

RLAIF von Anthropic

Basierend auf der Grundlagenforschung von RLHF schlug Anthropic eine neue Methode namens RLAIF vor. Siehe den Artikel „Verfassungsmäßige KI: Harmlosigkeit durch KI-Feedback“.

Die Methode besteht im Wesentlichen aus zwei Phasen: 1. Überwachtes Lernen durch Kritik und Revision, das sich an einer Charta orientiert. 2. RLAIF.

Googles RLAIF

Basierend auf den RLAIF-Forschungsergebnissen von Anthropic ist ein Google-Forschungsteam der Ansicht, dass frühere Untersuchungen die Auswirkungen von menschlichem Feedback und KI-Feedback nicht direkt vergleichen können und weitere Untersuchungen wert sind. Beim Sammeln von KI-Feedback muss eine strukturierte Eingabeaufforderung erstellt werden, die aus folgenden Elementen besteht: Einleitung, einige Beispielbeispiele (optional), zu kennzeichnende Beispiele und Fazit.

Um KI-Feedback zu generieren, muss eine zweistufige Bewertung durchgeführt werden: Zunächst muss der LLM die Antwort mithilfe der 4 Komponenten in der Anweisung plus dem CoT generieren. Im nächsten Schritt wird diese LLM-Antwort mit der Endung „bevorzugte Zusammenfassung=“ an LLM zurückgesendet, wodurch eine Präferenzwahrscheinlichkeit von „Zusammenfassung 1=0,6, Zusammenfassung 2=0,4“ generiert wird. Um Positionsverzerrungen zu reduzieren, müssen die Sequenzen dieser beiden Antworten abgewechselt und ihre Durchschnittswerte berechnet werden.

Der RLAIF-Prozess verwendet zwei Strategien: 1. „Destilliertes RLAIF“, das der traditionellen RLHF-Methode folgt, das heißt, es verwendet Präferenzen, um ein Belohnungsmodell zu trainieren, und verwendet es dann, um die LLM-Strategie zu trainieren Das LLM-Feedback dient als Aufforderung zur Ausgabe einer Bewertungspunktzahl, die dann als Signal für das Training der Reinforcement-Learning-Richtlinien verwendet wird.

Schließlich verwendet der Bewertungsprozess drei Schlüsselmetriken: 1. AI-Annotator-Ausrichtung: Wie konsistent ist die KI mit menschlichen Annotatoren? 2. Gewinnquote: Die Wahrscheinlichkeit, dass ein menschlicher Annotator zwei Kandidaten vergleicht und einen von ihnen auswählt. 3. Harmlos-Rate: Der Anteil der Antworten, die menschliche Bewerter als harmlos erachten.

Weitere Einzelheiten finden Sie im Dokument „RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback“.

Direkte Optimierung menschlicher Präferenzen

Traditionelle RLHF-Methoden beinhalten normalerweise die Optimierung einer Belohnungsfunktion, die aus menschlichen Vorlieben abgeleitet wird. Diese Methode ist zwar effektiv, kann aber auch einige Schwierigkeiten mit sich bringen, wie z. B. eine erhöhte Rechenkomplexität und die Notwendigkeit, bei der Schätzung und Optimierung von Belohnungen Bias-Varianz-Kompromisse zu berücksichtigen. Siehe den Artikel „Hochdimensionale kontinuierliche Steuerung unter Verwendung einer verallgemeinerten Vorteilsschätzung“.

Neuere Forschungen haben andere Methoden untersucht, die darauf abzielen, LLM-Richtlinien direkt auf der Grundlage menschlicher Präferenzen zu optimieren, ohne sich auf ein skalares Belohnungssignal zu verlassen.

Die Ziele dieser Methoden bestehen darin, den Ausrichtungsprozess zu vereinfachen, den Rechenaufwand zu reduzieren und eine robustere Optimierung durch eine direktere Nutzung von Präferenzdaten zu ermöglichen. Indem das Problem als Präferenzoptimierungsproblem und nicht als Belohnungsschätzungs- und -maximierungsproblem betrachtet wird, können diese Methoden eine andere Perspektive für die Ausrichtung von Sprachmodellen auf das menschliche Urteilsvermögen bieten:

SliC-HF nutzt menschliches Feedback für die Sequenzwahrscheinlichkeitskalibrierung, siehe den Artikel „SliC-HF: Sequenzwahrscheinlichkeitskalibrierung mit menschlichem Feedback“.
RSO, Optimierung der Ablehnungsstichprobe, siehe Artikel „Statistische Ablehnungsstichprobe verbessert die Präferenzoptimierung“.
DPO, direkte Präferenzoptimierung, siehe Artikel „Direkte Präferenzoptimierung: Ihr Sprachmodell ist heimlich ein Belohnungsmodell“.
DPOP, DPO-positiv, siehe den Aufsatz „Smaug: Fixing Failure Modes of Preference Optimization with DPO-Positive“.
β-DPO finden Sie im Artikel „β-DPO: Direkte Präferenzoptimierung mit dynamischem β“.
IPO, Identitätspräferenzoptimierung, siehe den Artikel „Ein allgemeines theoretisches Paradigma zum Verständnis des Lernens aus menschlichen Präferenzen“.
sDPO, Schritt-für-Schritt-Anleitung zum DPO, siehe das Papier „sDPO: Verwenden Sie Ihre Daten nicht alle auf einmal“.
GPO, Generalized Preference Optimization, siehe Artikel „Generalized Preference Optimization: A Unified Approach to Offline Alignment“.

DPO auf Token-Ebene

Bei der Verwendung von DPO werden Belohnungen den Eingabeaufforderungen und Antworten gemeinsam zugewiesen. Im Gegensatz dazu werden bei der Verwendung von MDP Belohnungen einzelnen Aktionen zugeordnet. In den folgenden beiden Artikeln wurde DPO auf Token-Ebene näher erläutert und seine Anwendung auf die Analyse auf Token-Ebene ausgeweitet.

DPO kann Untersuchungen zur Kreditzuweisung auf Token-Ebene durchführen. Weitere Informationen finden Sie im Artikel „Von r zu Q*: Ihr Sprachmodell ist heimlich eine Q-Funktion“ und im Bericht „Ist dies das mysteriöse Q* von OpenAI?“ Stanford: Das Sprachmodell ist die Q-Funktion.
TDPO, DPO auf Token-Ebene. Weitere Informationen finden Sie im Dokument „Direkte Präferenzoptimierung auf Token-Ebene“.

Iterativer/Online-DPO

Bei Verwendung von DPO werden alle verfügbaren Präferenzdatensätze zur Ausrichtung des LLM verwendet. Um LLM kontinuierlich zu verbessern, sollte iteratives/Online-DPO implementiert werden. Dies wirft eine interessante Frage auf: Wie können neue Präferenzdatensätze effizient erfasst werden? In den folgenden beiden Beiträgen wird dieses Thema eingehend untersucht.

Informationen zu selbstbelohnenden Sprachmodellen finden Sie im Artikel „Selbstbelohnende Sprachmodelle“.
CRINGE, siehe den Artikel „The Cringe Loss: Learning which language not to model“.

binäres Feedback

Es stellt sich heraus, dass das Sammeln von Präferenz-Feedback schwieriger ist als das Sammeln von binärem Feedback (z. B. Vorlieben oder Abneigungen), sodass letzteres die Skalierung des Ausrichtungsprozesses erleichtern kann. Die beiden Studien KTO und DRO konzentrieren sich auf die Verwendung von binärem Feedback zur Ausrichtung von LLM.

KTO, Kahneman-Tversky-Optimierung, siehe Artikel „KTO: Model Alignment as Prospect Theoretic Optimization“.
DRO, direkte Belohnungsoptimierung, siehe Artikel „Offline-Regularized Reinforcement Learning for Large Language Models Alignment“.

Fusion von SFT und Alignment

Frühere Forschungen haben SFT und Alignment hauptsächlich nacheinander durchgeführt, aber dieser Ansatz hat sich als mühsam erwiesen und kann zu katastrophalem Vergessen führen. Die Folgeforschung verfolgt zwei Richtungen: Die eine besteht darin, diese beiden Prozesse in einem einzigen Schritt zu integrieren. Die andere besteht darin, die beiden Modelle parallel zu verfeinern und schließlich zu verschmelzen.

ORPO, Odds-Ratio-Präferenzoptimierung, siehe den Artikel „ORPO: Monolithische Präferenzoptimierung ohne Referenzmodell“.
PAFT, parallele Feinabstimmung, siehe Artikel „PAFT: Ein paralleles Trainingsparadigma für eine effektive LM-Feinabstimmung“.

Längengesteuerter DPO und referenzloser DPO

Frühere Untersuchungen haben gezeigt, dass die Ergebnisse von LLM oft zu ausführlich sind. Um dieses Problem zu lösen, konzentrieren sich R-DPO und SimPO auf die Steuerung der Antwortlänge, ohne die Generierungsleistung zu beeinträchtigen.

Darüber hinaus benötigt der DPO eine Referenzstrategie, um sicherzustellen, dass das ausgerichtete Modell nicht zu stark vom Referenzmodell abweicht. Im Gegensatz dazu schlagen SimPO und RLOO Methoden vor, die die Notwendigkeit eines Referenzmodells überflüssig machen, ohne den LLM-Effekt zu beeinträchtigen.

R-DPO, reguliertes DPO, siehe den Artikel „Disentangling length from quality in Direct Preference Optimization“.
Weitere Informationen zu SimPO und einfacher Präferenzoptimierung finden Sie im Artikel „SimPO: Einfache Präferenzoptimierung mit referenzfreier Belohnung“ und im Bericht „DPO umfassend übertreffen: Das Team von Chen Danqi schlug die einfache Präferenzoptimierung SimPO vor und verfeinerte auch das stärkste 8B-Open-Source-Modell.“ ".
RLOO, REINFORCE Leave-One-Out, veröffentlicht im Artikel „Zurück zu den Grundlagen: Überarbeitung der Optimierung des Verstärkungsstils zum Lernen aus menschlichem Feedback in LLMs“.

Optimierung der Präferenzen Liste für Liste

Frühere Forschungen zu PPO und DPO konzentrierten sich auf paarweise Präferenzen, während Forschungen zu RLHF listenweise Präferenzen sammelten, um den Datenerfassungsprozess zu beschleunigen, und sie dann in paarweise Präferenzen umwandelten. Um die Leistung von LLM zu verbessern, ist es jedoch möglich, listenweise Datensätze direkt zur Präferenzoptimierung zu verwenden. In den folgenden drei Artikeln wird dieser Ansatz speziell erörtert.

LiPO, listweise Präferenzoptimierung, siehe den Artikel „LIPO: Listenweise Präferenzoptimierung durch Learning-to-Rank“.
RRHF, siehe den Artikel „RRHF: Antworten bewerten, um Sprachmodelle ohne Tränen an menschlichem Feedback auszurichten“.
PRO, Optimierung des Präferenzrankings, siehe Artikel „Optimierung des Präferenzrankings für die menschliche Ausrichtung“.

Optimierung negativer Präferenzen

Diese Studien haben eine gemeinsame Prämisse: Die aktuelle Generation von LLMs hat die menschliche Leistung bei Aufgaben wie Übersetzung und Zusammenfassung übertroffen. Daher ist es vorteilhaft, die Ausgabe des LLM als gewünschte Antwort zu behandeln, ohne sich darauf zu verlassen, vom Menschen markierte Daten als bevorzugte Antwort zu behandeln. Umgekehrt können unerwünschte Reaktionen immer noch zur Ausrichtung von LLMs verwendet werden, ein Prozess, der Negative Preference Optimization (NPO) genannt wird.

NN, Negativ-Negativ-Beispielmethode, siehe Artikel „Negative Negative: Ausrichtung ohne menschliche positive Proben durch Optimierung der Verteilungsdispräferenz“.
NPO, Optimierung negativer Präferenzen, siehe Artikel „Optimierung negativer Präferenzen: Vom katastrophalen Zusammenbruch zum effektiven Verlernen“.
CPO, Kontrastive Präferenzoptimierung, siehe den Artikel „Kontrastive Präferenzoptimierung: Die Grenzen der LLM-Leistung in der maschinellen Übersetzung verschieben“.

Nash-Lernen

Frühere Studien verwenden normalerweise punktweise Belohnungs- und BT-Modelle, um paarweise Präferenzen zu erhalten. Allerdings ist dieser Ansatz der direkten paarweisen Präferenzmodellierung unterlegen und kann Inkonsistenzen in paarweisen Präferenzen nicht auflösen. Um diese Einschränkungen zu überwinden, haben einige Studien die Nash-Lernmethode vorgeschlagen.

Nash lernt aus menschlichem Feedback, siehe den Artikel „Nash lernt aus menschlichem Feedback“.
SPPO, Self-Game Preference Optimization, siehe den Artikel „Ein minimaximalistischer Ansatz zum verstärkenden Lernen aus menschlichem Feedback“.
DNO, Direct Nash Optimization, siehe den Artikel „Direct Nash Optimization: Teaching language models to self-improve with general Preferences“.

Vergleich verschiedener Methoden

Es wurden einige Studien durchgeführt, um diese verschiedenen Methoden zu vergleichen. Solche Studien können die jeweiligen Vor- und Nachteile jedes Ansatzes veranschaulichen.

Bewerten Sie DPO und seine Varianten

Der Artikel „Einblicke in die Ausrichtung: Bewertung von dpo und seinen Varianten über mehrere Aufgaben hinweg“ bewertet umfassend implizite Belohnungsmodelle, d Einschließlich DPO, KTO, IPO und CPO. Diese Auswertungen umfassen drei verschiedene Szenarien: 1) Feinabstimmung eines überwachten Feinabstimmungsmodells (SFT), 2) Feinabstimmung eines vorab trainierten Modells und 3) Feinabstimmung eines Anweisungsmodells.

Die Studie ergab, dass KTO bei den meisten Benchmarks andere Ausrichtungsmethoden übertraf. Darüber hinaus zeigen Untersuchungen, dass die Ausrichtung die Argumentations- und Fragebeantwortungsleistung des Modells nicht wesentlich verbessert, wohl aber die mathematischen Problemlösungsfähigkeiten des Modells erheblich verbessert. In der Studie wurde auch die Bedeutung der Datengröße hervorgehoben, wobei Alignment-Methoden bei kleineren Teilmengen von Daten am besten funktionieren. Darüber hinaus ergab die Studie, dass KTO und CPO die SFT-Phase effektiv umgehen und direkt in die Ausrichtungsphase eintreten können, ohne die Leistung zu beeinträchtigen. Im Gegensatz dazu kommt es bei DPO und IPO zu erheblichen Leistungseinbußen, wenn die SFT-Phase umgangen und direkt in die Ausrichtungsphase eingetreten wird.

Ist DPO eine bessere LLM-Ausrichtungsmethode als PPO?

Das Papier „Ist DPO dem PPO für die LLM-Ausrichtung überlegen? Eine umfassende Studie“ zeigt, dass DPO inhärente Einschränkungen aufweisen, voreingenommene Antworten liefern und aufgrund von Verteilungsänderungen zu Leistungseinbußen führen kann.

Sie stellten fest, dass die vom DPO erarbeitete Richtlinie unsichtbare Reaktionen begünstigte, insbesondere Proben außerhalb der Verteilung. Iteratives/Online-DPO mildert dieses Problem, indem es den Antwortraum umfassend untersucht und das Referenzmodell kontinuierlich aktualisiert. Im Gegensatz dazu begegnet RLHF/PPO diesen Herausforderungen durch Dominanznormalisierung, große Chargengrößen und die Verwendung exponentieller gleitender Durchschnitte in einem Referenzmodell. Letztendlich zeigen diese Ergebnisse, dass PPO das iterative/Online-DPO übertrifft, das wiederum das Standard-DPO übertrifft.

Weitere Einzelheiten finden Sie im Artikel in der Kolumne „Heart of the Machine“ „ICML 2024 Oral | Ist DPO besser für LLM geeignet als PPO, das neueste Geheimnis, das das Team von Tsinghua Wu Yi enthüllt hat“.

zukünftige Ausrichtung

Durch die Analyse früherer Arbeiten identifizierte das Team eine Reihe von Forschungsfragen, die einer weiteren Untersuchung bedürfen.

Allgemeine Aufgaben zur Ausrichtungsbewertung

Verschiedene Arbeiten haben unterschiedliche Aufgaben verwendet, um die Leistung dieser Methoden zu bewerten. Einige Aufgaben wie GSM8K konzentrieren sich jedoch mehr auf Inferenz und sind möglicherweise nicht für die Bewertung der Ausrichtungsleistung geeignet. Stattdessen sollten Aufgaben wie TruthfulQA oder Aufgaben, die sich auf Toxizität konzentrieren, priorisiert werden, um die Toxizität fein abgestimmter LLMs zu bewerten. Es sollten Wege gefunden werden, diese Aufgaben zu kombinieren, um eine einheitliche Rangliste zur Bewertung der Ausrichtung zu erstellen.

Verwendung impliziter Belohnungsmodelle, listenweiser Präferenzen und Nash-Lernen für größere Sprachmodelle

Derzeit verfügt das größte Modell, das ein implizites Belohnungsmodell verwendet, nur über 70B Parameter. Wenn diese Methoden auf größere Modelle ausgeweitet werden können, beispielsweise solche in der Größe von GPT-4 und Claude-3, sollte uns dies helfen, ihre relative Wirksamkeit mit RLHF/PPO besser zu verstehen.

Ebenso verdienen listenbasierte Präferenzmodelle weitere Untersuchungen. Bei der Verwendung von RLHF wird ein Präferenzdatensatz anhand listenweiser Präferenzen erfasst, der dann in paarweise Präferenzdaten umgewandelt wird. Potenzielle Probleme bei groß angelegten Anwendungen listenweiser Präferenzmodelle müssen noch gelöst werden.

Schließlich kann Nash-Lernen Inkonsistenzen zwischen menschlichen Annotatoren beheben. Wenn das Nash-Lernmodell in ein LLM in größerem Maßstab integriert werden kann, kann seine Fähigkeit demonstriert werden, die Komplexität der menschlichen Natur zu erfassen.

Experimente zum binären Feedback

Sowohl KTO als auch DRO verwenden binäre Feedbackmechanismen wie „Likes“ und „Dislikes“ anstelle gepaarter Präferenzen. Diese binären Rückmeldungen stammen aus einem Präferenzdatensatz, in dem gewünschte Antworten als positive Beispiele und unerwünschte Antworten als negative Beispiele gekennzeichnet werden. Wir brauchen auch weitere Forschung zu realistischen binären Datensätzen. Darüber hinaus sind binäre Datensätze einfacher zu erfassen als Präferenzdaten, daher wird erwartet, dass für die Ausrichtung größere binäre Feedback-Datensätze verwendet werden. Das Rauschen im binären Feedback ist jedoch möglicherweise offensichtlicher als das Rauschen im Präferenzdatensatz. Daher ist die Frage, wie verrauschte Daten effektiv herausgefiltert werden können, ebenfalls eine sehr interessante Forschungsrichtung.

Experimentieren mit nützlichem KI-Feedback

Aktuelles KI-Feedback umfasst hauptsächlich harmloses Feedback im RLAIF und Feedback-Ranking im iterativen DPO. Bei der Verwendung von RLAIF wird jedoch immer noch nützliches Feedback von menschlichen Annotatoren bereitgestellt. Dieser Ansatz ist gerechtfertigt, da es deutlich schwieriger ist, nützliche Antworten zu generieren, als schädliches Feedback zu identifizieren. Eine interessante zukünftige Forschungsrichtung besteht darin, LLM zu nutzen, um nützliches Feedback zu generieren und so dem LLM zu ermöglichen, sich selbst zu verbessern.

Beschleunigen Sie das Nash-Lernen

Nash-Lernmethoden können paarweise Präferenzen effektiv modellieren und Inkonsistenzen zwischen menschlichen Anmerkungen beheben. Es sind jedoch mehrere Iterationen erforderlich, um zur optimalen Strategie zu gelangen. Obwohl der Autor die für die Ausrichtung erforderliche Zeit nicht explizit angibt, kann davon ausgegangen werden, dass sie viel langsamer sein wird als implizite Belohnungsmodelle wie DPO. Daher ist die Verbesserung der Geschwindigkeit des Nash-Lernprozesses ebenfalls eine Forschungsrichtung, die Aufmerksamkeit verdient.

Beendigung der Iteration/Online-Lernen

Bei der Verwendung von iterativem/Online-Training ist es entscheidend, zu bestimmen, wann eine Iteration beendet werden muss. Frühere Untersuchungen haben ergeben, dass iteratives Lernen manchmal die Leistung von LLM bei bestimmten Aufgaben verringert, was ein Zeichen für eine Überanpassung sein kann. Allerdings haben noch keine Forscher untersucht, wie man den angemessenen Zeitraum für die Beendigung von Iterationen bestimmen kann.

Vereinfachte SFT + Ausrichtung

Aktuelle Ansätze implementieren SFT und Alignment typischerweise nacheinander. Allerdings führt dieser Ansatz oft zu katastrophalem Vergessen und macht den gesamten Trainingsprozess mühsamer. Die PAFT-Methode mildert katastrophales Vergessen, indem sie SFT und Alignment zunächst separat feinabstimmt und sie dann miteinander verschmilzt, aber dadurch erhöht sich auch die Komplexität. Im Gegensatz dazu integriert die ORPO-Technologie beide Prozesse gleichzeitig, führt jedoch zu Leistungseinbußen. Wie können also SFT und Alignment effektiv kombiniert werden, um eine hohe Leistung bei gleichzeitig hoher Effizienz zu erzielen? Dies ist immer noch eine Herausforderung, die gelöst werden muss.

Weitere Einzelheiten finden Sie im Originalpapier.

Nachricht

Lesen Sie alle LLM-Ausrichtungstechnologien in einem Artikel: RLHF, RLAIF, PPO, DPO...

Einführung

meine Kontaktdaten