Nachricht

Nach 4 Runden heftigen Trainings besiegte Lama 7B GPT-4! Meta und andere lassen das „Acting Triangle“ von LLM sich selbst bewerten und weiterentwickeln

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Meta, UC Berkeley und NYU haben gemeinsam ein Meta-Belohnungs-Sprachmodell vorgeschlagen, um einen klaren Weg für die „Super-Ausrichtung“ bereitzustellen: Lassen Sie die KI ihr eigener Schiedsrichter sein, verbessern Sie die Ausrichtung selbst, und der Effekt wird schneller sein als die Selbstbelohnung Modell.

LLM verbraucht viele Daten, nicht nur im Vortrainingskorpus, sondern auch in den Ausrichtungsphasen wie RLHF und DPO.

Letzteres basiert nicht nur auf teuren manuellen Annotationsdaten, sondern beschränkt wahrscheinlich auch die weitere Entwicklung von LLM auf die menschliche Ebene.

Im Januar dieses Jahres schlugen Teams von Meta und NYU einen Selbstbelohnungsmechanismus für Sprachmodelle vor, der den LLM-as-a-Judge-Promptmechanismus nutzte, um dem Modell während des Trainings Selbstfeedback zu ermöglichen.


Papieradresse: https://arxiv.org/abs/2401.10020

In der Arbeit wurde festgestellt, dass LLM durch die Auswertung seiner eigenen Antworten Leistungsverbesserungen erzielen kann, auch ohne auf menschliche Annotatoren angewiesen zu sein.

Kürzlich veröffentlichte dieses Team eine weitere Studie, die die „Selbstbelohnung“ des LLM auf eine höhere Ebene brachte.


Papieradresse: https://arxiv.org/abs/2407.19594

Schließlich bewerten Sie sich selbst, sodass Sie sich nicht nur darauf konzentrieren können, wie das Modell als Akteur das Feedback optimiert. Sie müssen auch sicherstellen, dass das Modell als Juror über hervorragende Fähigkeiten zur Selbstbewertung verfügt.

Frühere Untersuchungen konzentrierten sich zu sehr auf Ersteres und ignorierten Letzteres, was zu einer zu schnellen Leistungssättigung während des iterativen Trainings führte.

Es ist sogar möglich, etwas Schlimmeres als die Sättigung zu verursachen, nämlich eine Überanpassung an das Belohnungssignal (Belohnungs-Hacking).

Daher haben Forscher von Meta, NYU, UC Berkeley und anderen Institutionen vorgeschlagen, einen „Meta-Belohnungs“-Schritt hinzuzufügen, der es dem Modell ermöglicht, seine eigene Bewertung auszuwerten und dadurch die Bewertungsmöglichkeiten zu verbessern.


Obwohl es etwas kompliziert klingt, ist es tatsächlich vernünftig. Und das Experiment ergab, dass das Hinzufügen dieser Verschachtelungsebene einen erheblichen Verbesserungseffekt hat.

Beispielsweise stieg die Gewinnquote von Llama-3-8B-Instruct bei AlpacaEval 2 von 22,9 % auf 39,4 %, was besser ist als bei GPT-4, sie stieg von 20,6 % auf 29,1 %.

Wenn es sich bei der im Januar dieses Jahres veröffentlichten Forschung um LLM-as-a-Judge handelte, dann ist die in diesem Dokument vorgeschlagene „Meta-Belohnung“ gleichbedeutend mit LLM-as-a-Meta-Judge.

Judge benötigt nicht nur keine Menschen, Meta-Judge ist auch autark, was ein weiterer Beweis dafür zu sein scheint, dass die Selbstverbesserung des Modells die Abhängigkeit von menschlicher Aufsicht beseitigen kann.

Der Metawissenschaftler Yann LeCun leitete diese Studie ebenfalls weiter und machte selbst ein Wortspiel:


Kann der von Meta vorgeschlagene Meta-Richter FAIR Fairness erreichen?

Forschung ist nicht wichtig, wichtig ist, dass die Präsenz von Meta FAIR vollständig ist.


Meta-Belohnung

Um es klarer auszudrücken: Die „Meta-Belohnung“-Methode besteht darin, Meta-Richter in die ursprüngliche Interaktion zwischen Schauspieler und Richter einzuführen, und dasselbe Modell „schmückt das Dreieck“, ohne dass zusätzliche menschliche Daten beteiligt sind.


Unter anderem ist der Schauspieler dafür verantwortlich, eine Antwort auf eine bestimmte Aufforderung zu generieren; der Richter ist dafür verantwortlich, seine eigene Antwort zu bewerten und zu bewerten, und der Meta-Richter vergleicht die Qualität seiner eigenen Bewertungen.

Das ultimative Optimierungsziel besteht darin, zu hoffen, dass der Schauspieler bessere Antworten generieren kann, aber die Trainingseffizienz hängt von der Genauigkeit des Richters ab.

Daher übernimmt der Meta-Richter die Rolle des Schulungsrichters und kann die Leistung des Modells als Schauspieler und Richter gleichzeitig verbessern.

Das aus diesen drei Rollen bestehende iterative Trainingsmodell ist in Abbildung 1 dargestellt. Im t-ten Schritt wird zunächst die Antwort des Modells M_t auf die Eingabeaufforderung x erfasst, und dann wird M_t aufgefordert, sich selbst zu bewerten, wodurch die Präferenzen für Trainingsakteure ermittelt werden . Daten.

Lassen Sie M_t anschließend bei gleichem Antwortinhalt y verschiedene Varianten unterschiedlicher Bewertungen generieren, die vom Meta-Richter bewertet und eingestuft werden, um so die Präferenzdaten zu erhalten, die zur Schulung des Richters verwendet werden.

Durch die Kombination der beiden oben genannten Arten von Präferenzdaten wird die DPO-Methode verwendet, um die Präferenz des Modells M_t zu optimieren, und eine Iterationsrunde wird abgeschlossen, um das Modell M_(t+1) zu erhalten.

Längenpräferenz

Frühere Arbeiten haben ergeben, dass das als Richter fungierende Modell längere Antworten bevorzugt, was nach mehreren Iterationsrunden zu einer „Längenexplosion“ der Antworten führen wird.

Daher führt der Autor einen einfachen Mechanismus zur „Längenkontrolle“ ein – er verwendet den Parameter ρ∈[0,1], um die Bewertung des Richters und die Länge des Antworttextes zu gewichten.

Wählen Sie beispielsweise für die Modellantwort mit einer Bewertung in der ersten Stufe, d. h. der Bewertungsbereich ist [(1-ρ)Smax+ρSmin, Smax], die kürzeste Antwort als optimale Antwort.

Erstellung von Richterpräferenzdaten

Zunächst wird die Modellantwort ausgewählt, für die der Richter am wenigsten Vertrauen hat, und die Sicherheit des Richters wird anhand der Bruchvarianz gemessen. Für jede ausgewählte Antwort y haben wir höchstens N entsprechende Modellbewertungen {j1, …, jN}.

Anschließend wird jedes Paar (jm, jn) paarweise bewertet, wobei die in Abbildung 2 gezeigte Meta-Judge-Eingabeaufforderungsvorlage verwendet wird.


Meta-Judge muss nicht nur Bewertungsergebnisse liefern, sondern auch einen CoT-Begründungsprozess generieren.

Um die mögliche Positionspräferenz des Meta-Richters zu verringern (der möglicherweise dazu tendiert, das zuerst erscheinende Urteil A zu wählen), wird die Reihenfolge desselben Datenpaars (jm, jn) ausgetauscht, damit der Meta-Richter zweimal bewerten kann. und es wird ein einziges Ergebnis rmn erhalten:


Zur Charakterisierung möglicher Positionspräferenzen werden die Parameter w1 und w2 eingeführt:


Unter ihnen geben win1st und win2nd an, wie oft die Bewertungen der beiden Positionen während des gesamten Bewertungsprozesses des Meta-Richters gewonnen haben.

Verwenden Sie die oben genannten Variablen, um eine „Kampfmatrix“ B zu erstellen und das Endergebnis jedes Mal aufzuzeichnen:


Unter Verwendung des Elo-Scores kann aus Matrix B der Meta-Belohnungs-Score berechnet werden, den der Meta-Richter jedem Juror zuweist.


Der Autor stellte fest, dass Meta-Richter wie Richter auch eine „Längenpräferenz“ zeigen und dazu neigen, längere Bewertungsmeinungen zu wählen.

Um zu vermeiden, dass das endgültig trainierte Modell zu ausführlich ist, wurden beim Erstellen des Richterdatensatzes auch Filtermaßnahmen ergriffen. Wenn die vom Meta-Richter ausgewählten Bewertungsmeinungen eine bestimmte Länge überschreiten, wird das gesamte Datenpaar direkt verworfen.

Bewertungsexperiment

Versuchsvorbereitung

Das Experiment verwendet Llama-3-8B-Instruct als Startmodell, und andere experimentelle Einstellungen stimmen mit dem zuvor veröffentlichten Artikel „Self-Rewarding Language Models“ überein.

Vor dem Meta-Belohnungstraining führte das Experiment zunächst eine überwachte Feinabstimmung (SFT) des Seed-Modells am EFT-Datensatz (Evaluation Fine-Tuning) durch.

Der EFT-Datensatz basiert auf Open Assistant und stellt erste LLM-als-Richter-Trainingsdaten bereit, die bewertete menschliche Antworten enthalten, um das Modell für die Tätigkeit als Richter zu trainieren.

Für die Meta-Belohnungs-Iteration nutzt das Experiment 20.000 Eingabeaufforderungen, die von Llama-2-70B-Chat durch 8-Schuss-Eingabeaufforderungen generiert werden.


Wie in der Abbildung oben gezeigt, sind die für das Training verwendeten Hinweise in ihrer Verteilung näher am AlpacaEval-Datensatz, während sich die Hinweise von Arena-Hard auf eine Teilmenge der Trainingshinweise konzentrieren.

Für jede Iteration wurden im Experiment 5.000 Hinweise aus diesem Seed-Set abgetastet, also insgesamt vier Iterationen.

Der iterative Prozess ist wie folgt:

- Iter 1: Ausgehend vom anfänglichen SFT-Modell verwenden Sie DPO (Direct Preference Optimization), um die generierten Präferenzpaare von Akteur und Richter zu trainieren, um M1 zu erhalten.

- Iter 2: Verwenden Sie DPO, um die von M1 generierten Akteur- und Richterpräferenzpaare zu trainieren, um M2 zu erhalten.

- Iter 3/4: Verwenden Sie DPO, um nur die von M2/M3 generierten Akteurpräferenzpaare zu trainieren und M3/M4 zu erhalten.

Jede Eingabeaufforderung führt dazu, dass das Modell K = 7 Antworten generiert, also insgesamt 35.000 Antworten pro Iteration. Anschließend filtern wir identische Antworten heraus (in der Regel entfernen wir nicht mehr als 50 Duplikate).

Als nächstes werden N = 11^2 unterschiedliche Urteile für jede Antwort unter Verwendung derselben Stichprobenparameter generiert.

Bewertungsmethode

Das Ziel des Meta-Belohnungsmodells besteht darin, das Modell in die Lage zu versetzen, selbstständig zu „handeln“ und zu „bewerten“. Daher müssen Experimente auch bewerten, wie das Modell in diesen beiden Rollen funktioniert.

Das Basismodell ist das im oben genannten Artikel vorgeschlagene Selbstbelohnungsmodell mit demselben „Längenkontroll“-Mechanismus, mit dem die durch den Meta-Belohnungsmechanismus erzielten Leistungssteigerungen direkt verglichen werden können.

Schauen wir uns zunächst an, wie wir beurteilen können, wie gut das „Schauspiel“ ist.

Das Experiment nutzt drei automatische Bewertungsbenchmarks basierend auf GPT4-as-a-Judge, darunter AlpacaEval 2, Arena-Hard und MT-Bench, die sich jeweils auf unterschiedliche Aspekte des Modells konzentrieren.

AlpacaEval konzentriert sich beispielsweise auf Chat-Szenarien und der Eingabeaufforderungssatz deckt eine Vielzahl alltäglicher Probleme ab.

Im Gegensatz dazu enthält Arena-Hard komplexere oder anspruchsvollere Probleme, die mehr Kriterien in 7 vordefinierten Bereichen erfüllen (Kreativität, Komplexität, Problemlösung usw.).

MT-Bench verfügt über 8 verschiedene Fragekategorien, die hauptsächlich die Multi-Turn-Dialogfähigkeiten des Modells bewerten.

Um andererseits zu beurteilen, wie gut die LLM-Richter „bewerten“, wurde im Experiment die Korrelation zwischen den vom LLM vergebenen Bewertungen und den menschlichen Präferenzen gemessen. Wenn keine vom Menschen gekennzeichneten Daten verfügbar sind, wird stattdessen ein stärkerer KI-Richter verwendet.

Anweisung folgt Beurteilung

Abbildung 3 zeigt die Erfolgsquote der Meta-Belohnungsmethode (mit Längenkontrollmechanismus) beim AlpacaEval-Benchmark als Funktion der Trainingsiterationen.

Insgesamt ist die Gewinnquote der Meta-Belohnungen deutlich von 22,9 % auf 39,4 % gestiegen, übersteigt GPT-4 und nähert sich dem Claude-Opus-Modell.


Wenn man bedenkt, dass die Parametergröße des Seed-Modells nur 8B beträgt und außer dem in der SFT-Phase verwendeten EFT-Datensatz keine zusätzlichen künstlichen Daten eingeführt werden, ist dies ein ganz hervorragendes Ergebnis.

Darüber hinaus belegen die Ergebnisse auch die Bedeutung von Meta-Richter- und Längenkontrollmechanismen.

Wenn das Selbstbelohnungsmodell mehr als drei Runden lang trainiert wird, zeigt es Anzeichen einer Sättigung, beim Modell mit Meta-Belohnungen ist dies jedoch nicht der Fall und das Leistungswachstum bleibt bis zur vierten Runde erhalten.

Dies zeigt, wie wichtig es ist, Fähigkeiten zur Modellbewertung zu trainieren und wie effektiv die Rolle des Meta-Richters ist.

Wie in Tabelle 1 gezeigt, hat sich die durchschnittliche Antwortlänge (in Zeichen) nach 4 Iterationsrunden nicht wesentlich erhöht, unabhängig davon, ob es sich um das Selbstbelohnungsmodell oder das Meta-Belohnungsmodell handelt, was die Wirksamkeit des Längenkontrollmechanismus beweist.


Der Yuan-Belohnungsmechanismus weist die folgenden drei offensichtlichen Verbesserungen auf.

Indem wir zunächst die 805 Kategorien in AlpacaEval zur detaillierten Analyse in 18 Kategorien unterteilen, können wir sehen, dass die Meta-Belohnung die Antworten in fast allen Kategorien verbessert (Abbildung 4), einschließlich Themen, die viel Wissen und Argumentation erfordern, wie z. B. Naturwissenschaften. Spiele, Literatur usw.

Es ist erwähnenswert, dass die Modelle in den beiden Kategorien Reisen und Mathematik keine signifikanten Verbesserungen erzielt haben.


Zweitens verbessern Meta-Belohnungen die Antworten auf komplexe und schwierige Fragen.

Das Experiment nutzt Arena-Hard außerdem, um die Leistung der Meta-Belohnungsmethode bei der Beantwortung komplexer und herausfordernder Fragen zu bewerten.

Die Bewertungsergebnisse in Tabelle 2 zeigen, dass Meta-Belohnungen die Punktzahlen in 4 Iterationen verbessern können, was einer deutlichen Verbesserung von 8,5 % im Vergleich zum Seed-Modell (20,6 %) entspricht.


Drittens opfert die Meta-Belohnung nicht die Fähigkeit mehrerer Dialogrunden, selbst wenn nur eine einzige Dialogrunde trainiert wird.

Das Papier führt eine MT-Bench-Bewertung durch, um den Verlust von Mehrrunden-Dialogfähigkeiten zu untersuchen, wenn nur mit Einzelrundendaten trainiert wird.

Die Ergebnisse sind in der folgenden Tabelle aufgeführt. 4 Iterationen des Meta-Belohnungsmodells verbesserten den Dialogwert der ersten Runde deutlich von 8,319 (Seed-Modell) auf 8,738, während der Dialogwert der zweiten Runde nur um nicht mehr als 0,1 sank.


Dies ist eine enorme Verbesserung gegenüber „Selbstbelohnung + Längenkontrolle“ (Selbstbelohnung + LC) im Basismodell, da letzteres in der Regel um mehr als 0,2 beim Konversationsscore der zweiten Runde abfiel, ohne den Konversationsscore der ersten Runde zu verbessern.

Bewertung des Belohnungsmodells

Das Experiment bewertete die Genauigkeit des Modells bei der Beurteilung der vom Seed-Modell Llama3-8B-Instruct erzeugten Antwort.

In Ermangelung manueller Anmerkungen entschieden sich die Autoren dafür, die Bewertungskorrelation zwischen dem Meta-Belohnungsmodell und dem derzeit stärksten Beurteilungsmodell gpt-4-1106-preview zu messen.

Die Analyse verwendet zwei leicht unterschiedliche Setups, wobei der Hauptunterschied darin besteht, wie sie durch das Beurteilungsmodell gegebene Unentschieden behandeln. Daher werden zwei Metriken verwendet: eine Übereinstimmungsbewertung, die Unentschieden als 0,5 zählt, und eine Übereinstimmung, die Unentschieden als Bruchteil verwirft.

Die Ergebnisse zeigten, dass sich die Urteilsfähigkeit des Modells nach dem Training verbesserte.

Die Analyse in Tabelle 3 zeigt, dass die Korrelation zwischen Meta-Belohnungen und dem leistungsstarken GPT-4-Beurteilungsmodell im Vergleich zum Basismodell in beiden Bewertungseinstellungen deutlich verbessert ist.


Diese Ergebnisse zeigen, dass die Meta-Belohnungsmethode die Urteilsfähigkeit des Modells verbessern kann, wodurch seine Bewertungsergebnisse denen des komplexeren Sprachmodells GPT-4 näher kommen.

Darüber hinaus verglichen Experimente die Korrelation zwischen Modellbeurteilungsergebnissen und menschlichen Antwortrankings im Open Assistant-Datensatz (Tabelle 7) und stellten fest, dass Meta-Belohnungstraining die Korrelation mit menschlichen Urteilen verbesserte.


Diese Verbesserung hielt jedoch in nachfolgenden Trainingsiterationen nicht an, möglicherweise aufgrund von Verteilungsunterschieden zwischen modellgenerierten Antworten und menschlichen Antworten.

analysieren

Längenkontrollmechanismus

Längenkontrollmechanismen sind entscheidend für die Aufrechterhaltung eines Gleichgewichts zwischen Vollständigkeit und Einfachheit der Modellantworten.

Das Experiment verglich die Ergebnisse verschiedener Längenkontrollparameter ρ in der letzten Trainingsiteration, wie in Tabelle 4 gezeigt:


ρ = 0, was bedeutet, dass bei der Auswahl der Präferenzdaten keine Längenkontrolle erfolgt.

Wie erwartet führt diese Trainingsmethode dazu, dass die vom Modell generierten Antworten zu lang werden und die LC-Gewinnrate sinkt.

Training mit externen Belohnungsmodellen

Der Meta-Belohnungsmechanismus ermöglicht es dem Modell, als Richter zu fungieren, um seine eigene Reaktion zu bewerten; im Experiment wurde versucht, das leistungsstarke externe Belohnungsmodell Starling-RM-34B als Vergleich zu verwenden.

Es wurde jedoch festgestellt, dass StarlingRM-34B die LC-Gewinnrate von AlpacaEval in der ersten Iteration nicht verbessern konnte (24,63 % gegenüber 27,85 %), möglicherweise aufgrund seiner Längenverzerrung.

Meta-Richter-Voreingenommenheit

Nach der ersten Iteration des Meta-Belohnungstrainings bevorzugt der Meta-Richter fast immer Urteile mit höheren Punktzahlen, wie in Tabelle 5 gezeigt.


Dieser Score-Bias neigt die Verteilung der Beurteilungswerte deutlich in Richtung eines perfekten Punktestands von 5. Bei der Positionsverzerrung sehen wir auch eine Tendenz, während des Trainings zuzunehmen, insbesondere wenn zwei Urteile mit derselben Punktzahl verglichen werden.

Änderungen der Beurteilungsbewertung: Um Änderungen in der Beurteilungsbewertungsverteilung während Iterationen des Meta-Belohnungstrainings zu untersuchen, verwendeten die Experimente dieselben Validierungsaufforderungen wie die Bewertung der Belohnungsmodellierung.

Verwenden Sie Llama-3-8B-Instruct, um auf jede Eingabeaufforderung 7 Antworten und dann 11 Urteile für jede Antwort zu generieren. Abbildung 5 ist eine Visualisierung der Score-Verteilung, und die Dichte wird mithilfe der Gaußschen Kerneldichte geschätzt.


Es ist ersichtlich, dass die Verwendung von Meta-Richter-Trainingsurteilen die Möglichkeit, hohe Punktzahlen zu erzielen, weiter erhöht.

Allerdings wurden in den ersten beiden Iterationen des Urteilstrainings tendenziell Werte von 4,5, 4,75 und 4,9 vergeben, die als ganze Zahlen angegeben wurden.

Obwohl es sich hierbei um hohe Werte handelt, bieten sie eine feinere Möglichkeit, zwischen Antworten unterschiedlicher Qualität zu unterscheiden.

abschließend

Das Experiment schlägt einen neuen Mechanismus vor, um die Urteilsfähigkeit des Modells zu verbessern, indem Meta-Richter verwendet wird, um dem Modell als Richter Meta-Belohnungen zuzuweisen.

Dadurch wird eine wesentliche Einschränkung des Self-Rewarding-Frameworks behoben, nämlich die mangelnde Schulung der Urteilsfähigkeit des Modells.

Um das Meta-Belohnungstraining effektiver zu gestalten, wurde im Rahmen des Experiments auch eine neue Längenkontrolltechnologie eingeführt, um das Problem der Längenexplosion zu lindern, das bei der Verwendung von KI-Feedback für das Training auftritt.

Die Wirksamkeit der Meta-Belohnungsmethode wurde auch durch die automatischen Bewertungsbenchmarks AlpacaEval, Arena-Hard und MT-Bench überprüft.

Insbesondere verbessert diese Methode Llama-3-8B-Instruct auch ohne zusätzliches menschliches Feedback erheblich und übertrifft die starken Basismethoden Self-Rewarding und SPPO, die auf großen Mengen menschlichen Feedbacks beruhen.

Darüber hinaus zeigte sich bei der Bewertung der Beurteilungsfähigkeit des Modells eine deutliche Verbesserung der Korrelation mit menschlichen Richtern und leistungsstarken KI-Richtern wie gpt-4-1106-preview.

Insgesamt liefern die Ergebnisse starke Belege dafür, dass selbstverbessernde Modelle ohne jegliches menschliches Feedback eine vielversprechende Richtung zur Erreichung einer Superausrichtung sind.

Verweise:

https://arxiv.org/pdf/2407.19594