Können sich die beiden kleinen Modelle gegenseitig verifizieren und direkt mit dem großen Modell vergleichen? Microsofts rStar verwendet nicht einmal CoT

2024-08-16

Maschinenherzbericht

Herausgeber: Panda

Tauschen Sie sich gegenseitig aus, damit kleine Modelle große Probleme lösen können.

Es ist bekannt, dass LLM leistungsfähig ist, aber nicht leistungsfähig genug, um komplexe Überlegungen anzustellen.

Beispielsweise kann Mistral-7B im GSM8K-Datensatz selbst unter Verwendung von Technologien wie Chain of Thought (CoT) nur eine Genauigkeit von 36,5 % erreichen. Obwohl eine Feinabstimmung die Denkfähigkeit tatsächlich effektiv verbessern kann, basieren die meisten LLM auf der Feinabstimmung von Daten, die von leistungsfähigeren Modellen wie GPT-4 destilliert wurden oder möglicherweise sogar von diesen leistungsstarken Modellen synthetisiert wurden.

Gleichzeitig entwickeln Forscher auch aktiv eine zusätzliche, aber schwierigere Methode: den Einsatz eines besseren LLM für Lehrer, um die Denkfähigkeit zu verbessern.

Um die Denkfähigkeit ohne ein besseres Modell zu verbessern, besteht ein vielversprechendes Paradigma darin, das Wissen im LLM selbst zu nutzen. Beispielsweise übernimmt eine Methode namens RAP eine Selbsterkundungslösung, das heißt, sie verbessert iterativ die Argumentationsleistung von LLM durch selbstbelohnendes Feedback. Leider zeigt die Forschung, dass dieses Paradigma zwei grundlegende Probleme aufweist.

Erstens hat LLM oft Schwierigkeiten, den Lösungsraum bei der Durchführung von Inferenzen effizient zu erkunden. Dieser selbsterkundende Ansatz bleibt aufgrund schlechter Argumentationsschritte oft in einem Lösungsraum stecken, selbst nach mehreren Versuchen.

Zweitens ist es für eine kleine Version des großen Sprachmodells (SLM) schwierig zu erkennen, welche Inferenzschritte von höherer Qualität sind, und festzustellen, ob die endgültige Antwort korrekt ist, selbst wenn die Selbsterkundung qualitativ hochwertige Inferenzschritte findet schwierig, die Selbsterforschung effektiv anzuleiten. Untersuchungen zeigen, dass geführte Selbsterkundung auf der Grundlage grundlegender regelmäßiger Belohnungen nicht zu besseren Ergebnissen führt als zufälliges Raten.

Noch problematischer ist, dass kleine Versionen großer Sprachmodelle (SLMs) anfälliger für die beiden oben genannten Probleme sind, weil sie weniger leistungsfähig sind. Beispielsweise kann GPT-4 die Ausgabeergebnisse durch Selbstoptimierung verbessern, dies ist für SLM jedoch schwierig und kann sogar dazu führen, dass die Qualität der Ausgabeergebnisse abnimmt. Dies wird die Popularisierung und Anwendung neuronaler Sprachmodelle ernsthaft behindern.

Als Reaktion auf diese Probleme schlug ein Forschungsteam von Microsoft Research Asia und der Harvard University Self-play muTuAl Reasoning, kurz rStar, vor. Um es einfach auszudrücken: Diese Methode ähnelt der Bitte zweier mittelmäßiger Studenten, gegenseitig ihre Antworten auf Prüfungsfragen zu überprüfen und letztendlich ihre Ergebnisse so weit zu verbessern, dass sie sogar mit Spitzenakademikern konkurrieren können. Das Team behauptet, dass rStar „die Inferenzfähigkeiten von SLM ohne Feinabstimmung oder bessere Modelle verbessern kann“.

Titel des Papiers: Gegenseitiges Denken macht kleinere LLMs zu stärkeren Problemlösern
Papieradresse: https://arxiv.org/pdf/2408.06195
Code-Adresse: https://github.com/zhentingqi/rStar (noch nicht veröffentlicht)

Verfahren

Um die oben genannten Probleme zu lösen, unterteilt rStar den Argumentationsprozess in zwei Teile: Lösungsgenerierung und gegenseitige Überprüfung, wie in Abbildung 2 dargestellt.

Um die erste Herausforderung anzugehen, stellte das Team eine Sammlung umfangreicher menschenähnlicher Denkaufgaben vor, die einen vielfältigen Bereich von Denkaufgaben gründlich erforscht.

Für das zweite Problem haben sie eine Belohnungsfunktion speziell für SLM entwickelt, die Zwischenschritte bewerten kann und sich so nicht auf ihre oft unzuverlässige Selbsteinschätzung verlässt.

Darüber hinaus nutzte das Team auch einen weiteren SLM als Diskriminator, um den MCTS-Prozess zu verbessern und die Korrektheit jeder Flugbahn gemeinsam mit dem Diskriminator-SLM zu überprüfen.

Verwenden Sie MCTS Rollout, um selbst Inferenztrajektorien zu generieren

Eine reichhaltige Sammlung menschenähnlicher Denkhandlungen. Der Kern der MCTS-Generierung liegt im Aktionsraum, der den Umfang der Baumerkundung definiert. Die meisten MCTS-basierten Methoden verwenden beim Erstellen des Baums einen einzelnen Aktionstyp. Beispielsweise besteht die Aktion in RAP darin, die nächste Unterfrage zu stellen, während die Aktion in AlphaMath und MindStar darin besteht, den nächsten Argumentationsschritt zu generieren. Allerdings kann das Verlassen auf einen einzigen Aktionstyp leicht zu einer schlechten Weltraumerkundung führen.

Um dieses Problem zu lösen, untersuchte das Team die Art und Weise, wie Menschen denken. Verschiedene Menschen lösen Probleme auf unterschiedliche Weise: Manche Menschen zerlegen das Problem in Teilprobleme, andere lösen das Problem direkt und wieder andere formulieren das Problem aus einer anderen Perspektive neu. Darüber hinaus passen die Menschen ihre Methoden an den aktuellen Stand an und wählen je nach Bedarf unterschiedliche Aktionen.

Inspiriert durch den menschlichen Denkprozess erstellte das Team einen umfangreicheren Datensatz mit fünf Arten von Aktionen, um das Potenzial von SLM zur korrekten Lösung komplexer Denkprobleme zu maximieren.

Aktion 1: Schlagen Sie einen Gedankenschritt vor. Für ein bestimmtes Problem führt diese Aktion dazu, dass LLM den nächsten Ideenschritt auf der Grundlage bestehender Argumentationsschritte generiert.

Aktion 2: Schlagen Sie die verbleibenden Gedankenschritte vor. Diese Aktion ermöglicht, wie auch das Standard-CoT, „schnelles Denken“, um einfache Probleme mit nur wenigen Schritten zu lösen. Angesichts der generierten Inferenzschritte ermöglicht es LLM, die verbleibenden Schritte direkt zu generieren, bis die endgültige Antwort erhalten wird.

Aktion 3: Schlagen Sie die nächste Unterfrage und deren Antwort vor.

Aktion 4: Beantworten Sie diese Unterfrage noch einmal. Da Aktion 3 die entsprechende Unterfrage möglicherweise nicht richtig beantwortet, besteht die Aufgabe dieser Aktion darin, sie erneut zu beantworten.

Aktion 5: Formulieren Sie das Problem/Teilproblem neu. Dieser neue Schritt besteht darin, das Problem auf einfachere Weise neu zu formulieren. Konkret geht es hier darum, dass der LLM alle Bedingungen in der Problemstellung klar auflistet.

Die oben genannten fünf Aktionen definieren einen äußerst vielfältigen Aktionsraum {A1, A2, A3, A4, A5}.

Bei jedem Schritt i wählt MCTS eine Aktion a_i aus diesem Raum aus. Verwenden Sie dann basierend auf dem aktuellen Zustand (dh der zuvor generierten Trajektorie x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}) diese Aktion a_i, damit LLM den nächsten Inferenzschritt s_i generieren kann. Bitte beachten Sie, dass einige Aktionen in der richtigen Reihenfolge ausgeführt werden müssen. Abbildung 3 zeigt ein Beispiel.

Wie in Tabelle 1 gezeigt, spielt jede Aktion eine wichtige Rolle bei der Verbesserung der endgültigen Inferenzgenauigkeit.

Belohnungsfunktion

Eine weitere Schlüsselkomponente von MCTS ist die Belohnungsfunktion, die den Wert jeder Aktion bewertet und Anweisungen für die Erweiterung des Baums bereitstellt. Für SLM hat das Team eine einfache, aber effektive Belohnungsfunktion entworfen. Ihr von AlphaGo inspirierter Ansatz bewertet jeden Zwischenknoten anhand seines Beitrags zur endgültigen richtigen Antwort. Auf diese Weise erhalten Aktionen, die häufig zu richtigen Antworten führen, höhere Belohnungen und es ist wahrscheinlicher, dass sie in zukünftigen MCTS-Baumerweiterungen ausgewählt werden.

Hier wird der Belohnungswert der Knoten s, die nach der Ausführung der Aktion a generiert werden, als Q (s, a) definiert. Zunächst wird allen unerforschten Knoten Q (s_i, a_i) = 0 zugewiesen, wodurch eine zufällige Baumerweiterung erreicht wird. Beim Erreichen des ersten Endknotens n_d wird ein Belohnungswert Q (s_d, a_d) basierend darauf berechnet, ob die richtige Antwort gegeben wird.

Diese Punktzahl wird dann entlang der Trajektorie t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d an jeden Zwischenknoten zurückpropagiert. Insbesondere wird für jedes s_i sein Q-Wert wie folgt aktualisiert: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Um Q(s_d, a_d) für den Endknoten zu berechnen, ist der hier verwendete Belohnungswert die Wahrscheinlichkeit (Konfidenz) der selbstkonsistenten Mehrheitsentscheidung.

Nutzen Sie MCTS Rollout, um Lösungen zu generieren

Im Folgenden wird beschrieben, wie MCTS Kandidaten-Inferenztrajektorien generiert. Ausgehend vom anfänglichen Wurzelknoten s_0 werden verschiedene Suchvorgänge durchgeführt, darunter Auswahl, Erweiterung, Simulation und Backpropagation. Konkret verwendet die Simulation die Standard-Rollout-Strategie. Um eine genauere Belohnungsschätzung zu erhalten, wird das Team mehrere Rollouts durchführen. Um ein Gleichgewicht zwischen Erkundung und Nutzung herzustellen, verwendeten sie die bekannte UCT (obere Konfidenzgrenze des Baums), um jeden Knoten auszuwählen. Die mathematische Form dieses Auswahlverfahrens ist:

Dabei ist N (s, a) die Anzahl der Besuche des Knotens s in der vorherigen Iteration und N_parent (s) die Anzahl der Besuche des übergeordneten Knotens von s. Q (s, a) ist der geschätzte Belohnungswert, der während der Backpropagation aktualisiert wird. c ist eine Konstante, die Exploration und Ausbeutung in Einklang bringt.

Sobald die Suche einen Endknoten erreicht (bei dem es sich um einen Endzustand handeln oder eine vordefinierte maximale Baumtiefe d erreichen kann), kann eine Trajektorie von der Wurzel zum Endknoten ermittelt werden. Alle durch die Rollout-Iteration erhaltenen Trajektorien werden als Kandidatenlösungen gesammelt. Als nächstes müssen sie überprüft werden.

Verwendung der Reziprozität zur Auswahl von Inferenztrajektorien

Basierend auf allen gesammelten Trajektorien schlug das Team vor, zur Auswahl der Antworten schlussfolgernde Kohärenz zu nutzen.

Erreichen der Inferenzkohärenz durch Diskriminator-SLM

Wie in Abbildung 2 dargestellt, führte das Team zusätzlich zum Ziel-SLM auch einen Diskriminator-SLM ein, dessen Aufgabe darin besteht, externes, unbeaufsichtigtes Feedback für jede Kandidatenbahn bereitzustellen.

Konkret maskieren Sie für t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d die Inferenzschritte beginnend bei einem zufällig ausgewählten Schritt i. Dann wird die vorherige Inferenztrajektorie t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} dem Diskriminator-SLM als Aufforderung zur Verfügung gestellt, damit er die verbleibenden Schritte abschließen kann. Da die vorherigen i-1-Argumentationsschritte als Hinweise verwendet werden, wird die Schwierigkeit verringert und es ist wahrscheinlicher, dass der Diskriminator SLM die richtige Antwort gibt.

Abbildung 4 vergleicht, ob die SLM-Abschlussantwort des Diskriminators mit der ursprünglichen Flugbahn t übereinstimmt. Wenn beide konsistent sind, wird t als verifizierte Trajektorie betrachtet, die schließlich ausgewählt werden kann.

Die endgültige Flugbahn wird vom Ziel-SLM ausgewählt. Nachdem Sie die Inferenzkohärenz auf alle Kandidatentrajektorien angewendet haben, kehren Sie zum Ziel-SLM zurück und lassen Sie ihn die endgültige Trajektorie aus den verifizierten Trajektorien auswählen. Um den Endwert für jede Flugbahn zu berechnen, multiplizierte das Team seine Belohnung mit dem durch Rollout erhaltenen Vertrauenswert seines Endknotens. Als Lösung wird die Trajektorie mit der höchsten Endpunktzahl ausgewählt.

Experiment

Versuchsaufbau

rStar eignet sich für eine Vielzahl von LLM- und Inferenzaufgaben. Das Team bewertete 5 SLMs: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Es werden 5 Denkaufgaben getestet, darunter 4 mathematische Aufgaben (GSM8K, GSM-Hard, MATH, SVAMP) und 1 Aufgabe mit gesundem Menschenverstand (StrategyQA).

Einzelheiten zum Experiment finden Sie im Originalpapier.

Hauptergebnisse

Das Team bewertete zunächst die Wirksamkeit von rStar anhand allgemeiner Inferenz-Benchmarks. Tabelle 2 vergleicht die Genauigkeit von rStar und anderen hochmodernen Methoden für verschiedene SLM- und Inferenzdatensätze. Um die Wirksamkeit des neuen Generators zu demonstrieren, stellt das Team auch die Genauigkeit von rStar (Generator @maj) bereit, der keinen Diskriminator verwendet und nur Mehrheitsentscheidungen zur Überprüfung der Antwort verwendet.

Das Team stellte drei wichtige Ergebnisse fest:

1. SLM powered by rStar verfügt über stärkere Problemlösungsfähigkeiten. Im GSM8K-Datensatz beträgt beispielsweise die Genauigkeit von LLaMA2-7B unter Verwendung von CoT mit wenigen Stichproben nur 12,51 %. Mit Hilfe von rStar stieg die Genauigkeit jedoch auf 63,91 %, was nahe an der durch Feinabstimmung erzielten Genauigkeit liegt, wie in Abbildung 1 dargestellt. Ebenso ist die Leistung von Mistral mit rStar sogar 4,18 % höher als die fein abgestimmte Version von MetaMath. Eine solche Verbesserung zeigt, dass SLM selbst bereits über starke Denkfähigkeiten verfügt, aber Anleitung benötigt, um die richtigen Antworten zu generieren und auszuwählen.

2. rStar kann die Inferenzgenauigkeit verschiedener SLMs, die für verschiedene Aufgaben bewertet wurden, stabil auf das aktuell beste Niveau verbessern. Im Vergleich dazu sind andere Vergleichsmethoden nicht in der Lage, bei allen vier Benchmarks eine durchgängig gute Leistung zu erzielen. Obwohl SC (Selbstkonsistenz) beispielsweise drei mathematische Aufgaben gut beherrscht, kann es die logische Argumentationsaufgabe von StrategyQA nicht effektiv lösen.

3. Auch ohne den neu vorgeschlagenen Diskriminator zur Überprüfung von Inferenztrajektorien funktioniert der neu vorgeschlagene MCTS-Generator immer noch gut bei der Verbesserung der Inferenzgenauigkeit von SLM. Im GSM8K-Datensatz ist beispielsweise die Genauigkeit von rStar (Generator @maj) 2,88 %–16,39 % höher als RAP, 10,60 %–38,37 % höher als ToT und 1,69 %–7,34 % höher als SC.

Ergebnisse zu schwierigen mathematischen Datensätzen

Das Team bewertete rStar auch anhand eines schwierigeren mathematischen Datensatzes. Zu diesem Zweck wählten sie GSM-Hard- und MATH-Datensätze aus. Der Konvention ähnlicher Studien folgend, verwendeten sie MATH-500, eine Teilmenge repräsentativer Probleme aus dem MATH-Datensatz. Dies geschieht, um die Auswertungsgeschwindigkeit zu verbessern. Wie in den Tabellen 2 und 3 gezeigt, kann rStar die Inferenzgenauigkeit von SLM bei diesen schwierigen mathematischen Datensätzen erheblich verbessern.

Ablationsstudie

Wirksamkeit verschiedener Rollouts

rStar verwendet die Rollout-Strategie, um eine MCTS-Baumerweiterung durchzuführen. Mehr Rollouts werden mehr potenzielle Lösungsverläufe generieren, aber auch die Kosten für die Inferenz erhöhen. Abbildung 5 vergleicht die Genauigkeit von SC, RAP und rStar bei Verwendung verschiedener Rollouts auf GSM8K.

Hier werden zwei wichtige Beobachtungen gemacht:

1. Selbst mit nur zwei Rollouts kann rStar die Inferenzgenauigkeit von SLM erheblich verbessern, was seine Wirksamkeit zeigt;

2. Weitere Rollouts sind sowohl für rStar als auch für SC von Vorteil, während RAP nach 4 Rollouts tendenziell gesättigt ist oder sogar sinkt. Ein Grund dafür ist, dass der Einzeltyp-Aktionsraum von RAP die Effektivität der MCTS-Erkundung einschränkt.

Wirksamkeit des MCTS-Generators

Das Team verglich die Leistung des MCTS-Generators mit drei anderen Generatoren. Wie in Tabelle 4 gezeigt, übertrifft der neu vorgeschlagene MCTS-Generator andere Generatoren bei weitem. Darüber hinaus wird die Wirksamkeit von auf SLM abgestimmten Belohnungsfunktionen demonstriert, da die Selbstbewertung die Genauigkeit neuer Generatoren verringert.

Die Wirksamkeit des Diskriminators

Das Team führte zwei Bewertungsexperimente durch.

Das erste Experiment vergleicht die diskriminierende Methode mit Mehrheitsentscheidungs- und Selbstvalidierungsmethoden. Die Ergebnisse sind in Tabelle 5 (links) dargestellt. Es ist ersichtlich, dass die Vorteile der Diskriminierungsmethode sehr groß sind.

Das zweite Experiment besteht darin, die Auswirkungen verschiedener Diskriminatormodelle zu untersuchen. Die Ergebnisse sind in Tabelle 5 (rechts) dargestellt. Es ist ersichtlich, dass die Auswahl verschiedener Diskriminatormodelle normalerweise keinen Einfluss auf die Wirkung der Inferenzkohärenzmethode zur Überprüfung der Antwort hat. Es ist erwähnenswert, dass sich die Leistung selbst bei Verwendung des leistungsstarken GPT-4 als Diskriminator nur geringfügig verbessert (von 91,13 % auf 92,57 %). Dies zeigt, dass die inferentielle Kohärenzmethode SLM effektiv zur Überprüfung von Antworten nutzen kann.

Nachricht

Können sich die beiden kleinen Modelle gegenseitig verifizieren und direkt mit dem großen Modell vergleichen? Microsofts rStar verwendet nicht einmal CoT

Einführung

Meine Kontaktdaten