Die Leistung der LLM-Inferenz wird durch das Ausgabeformat beeinflusst, JSON ist die schwerwiegendste Neuigkeit

Die Leistung der LLM-Inferenz wird durch das Ausgabeformat beeinflusst, JSON ist am gravierendsten

2024-08-16

Können unterschiedliche Ausgabeformate tatsächlich die Leistung großer Modelle beeinflussen? !

Lassen Sie große Sprachmodelle (LLMs) dasselbe mathematische Problem unter zwei Eingabeaufforderungen lösen. Das Problem lautet wie folgt:

Elizas Stundenlohn für die ersten 40 Arbeitsstunden pro Woche beträgt 10 US-Dollar und der Überstundenlohn beträgt x1,2 pro Stunde. Wenn Eliza diese Woche 45 Stunden gearbeitet hat, wie viel hat sie diese Woche verdient?

Aufforderung zur Gedankenkette: „Stellen Sie eine Ausgabe mit schrittweisen Überlegungen im folgenden Format bereit: ...Antwort: Die endgültige Antwort lautet ...“.

Eingabeaufforderung zur Formatbeschränkung: „Stellen Sie die Ausgabe im folgenden gültigen JSON-Format bereit: ... (siehe Abbildung für spezifisches JSON-Format)“.

Die richtige Antwort ist460Es ist ersichtlich, dass die Denkkette (das Modell Schritt für Schritt denken lassen) funktioniert, die Formatbeschränkung („Ausgabe im JSON-Format“) jedoch fehlschlägt! !

Dies ist eine Szene aus einer neuen Studie der National Taiwan University und Appier AI Research. Sie fanden heraus, dass …

Formatbeschränkungen verringern die Argumentationsfähigkeit von LLMs, und je strenger die Einschränkungen, desto schlechter ist die Argumentation. (mit einem rebellischen Charakter)

Aber die gute Nachricht ist, dass es behandelt werden kann.

Sie fanden,beste LösungEs handelt sich um eine „sekundäre Konvertierung“ (das ist richtig), das heißt, LLMs beantworten Fragen zunächst in natürlicher Sprache und konvertieren die Antworten dann in das Zielformat.

Dabei verglichen sie die Leistungsunterschiede verschiedener Modelle wie GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash usw. bei der Generierung von Daten in unterschiedlichen Formaten.Es stellte sich heraus, dass：

GPT mag YAML, Claude mag XML und Gemini/Gemma mag JSON. (Hauptsächlich hat jeder seine eigenen Vorlieben)

Nachdem sie die Studie gelesen hatten, wiesen einige Internetnutzer darauf hin, dass dies der Fall seiBalance zwischen strukturierter Generierung und AufgabenbegründungBedeutung:

Formatbeschränkungen verringern die Denkfähigkeit von LLMs

Die oben erwähnte Forschung wurde auf arXiv veröffentlicht. Das Papier zeigt hauptsächlich, dass die Argumentationsfähigkeit von LLMs unter Formatbeschränkungen erheblich abnimmt.Besonders im JSON-Modus。

Die ganze Zeit,Integration von LLMs in industrielle AnwendungenEin großes Hindernis ist die mangelnde Einhaltung standardisierter Ausgabeformate.

Eine gängige Lösung ist die strukturierte Generierung, bei der Formatbeschränkungen es LLMs ermöglichen, Ausgaben in einem standardisierten Format wie JSON oder XML bereitzustellen.

Allerdings gibt es zwar viele Möglichkeiten, diese Einschränkung zu erreichen, die daraus resultierenden Auswirkungen wurden jedoch nicht untersucht. (Wirkt sich die Einschränkung auf die Modellleistung aus?)

Machen Sie es einfach, sagen Forscher3 gängige MethodenSo bewerten Sie die Auswirkungen verschiedener Formatbeschränkungen auf die Downstream-Leistung:

JSON-Modus: Begrenzen Sie die Ausgabe von LLMs um einen vordefinierten Tag-Bereich
FRI: Leitet LLMs an, standardisierte Formatantworten zu generieren, die bestimmten Mustern entsprechen
NL-to-Format: ein zweistufiger Prozess, der zunächst Fragen in natürlicher Sprache beantwortet und dann in das Zielformat konvertiert

Übrigens muss ich hinzufügenNatürliche Sprache (NL), das das uneingeschränkteste Format ist und es Modellen ermöglicht, Fragen frei in natürlicher Sprache zu beantworten.

Die Bewertungsobjekte sind GSM8K (enthält mathematische Probleme in einer natürlichen Sprachumgebung) und Last Letter Concatenation (die letzte Buchstabenverbindungsaufgabe), zwei Datensätze, die exakt übereinstimmende Antworten erfordern, sowie Shuffled Objects (Aufgabe zur Verfolgung gemischter Objekte).

Sie fanden heraus, dass lockerere Hinweise im Allgemeinen zu besseren Ergebnissen bei diesen Denkaufgaben führten.

gleichzeitig,Das JSON-Schema schneidet in den meisten Fällen am schlechtesten ab, gefolgt von Anweisungen zur Formatbeschränkung (FRI), dann Konvertierung von natürlicher Sprache in Format (NL in Format) und Eingabeaufforderungen in natürlicher Sprache (NL).

Die Studie ergab außerdem, dass unterschiedliche LLMs auf unterschiedliche Datenformate reagierenunterschiedliche Vorlieben zeigen。

GPT bevorzugt beispielsweise das YAML-Format, Claude bevorzugt das XML-Format und Gemini/Gemma bevorzugt das JSON-Format.

Bei Klassifikationsaufgaben gilt jedochFormatbeschränkungen können die Genauigkeit verbessert haben, weil es die möglichen Antwortmöglichkeiten reduziert und dadurch die Fehlerquote senkt.

Sie kamen außerdem zu dem Schluss, dass Formatbeschränkungen die Fähigkeit zur Modellinferenz verringern können.Grund, hauptsächlich einschließlich:

Beschränkt die Fähigkeit des Modells, notwendige Zwischeninferenzschritte zu generieren.
Auferlegte Formatierungsanforderungen sind möglicherweise nicht mit der Art und Weise kompatibel, wie das Modell auf natürliche Weise Antworten generiert.
Formatierungsfehler können dazu führen, dass die Antwort aufgrund von Formatierungsproblemen als falsch beurteilt wird, selbst wenn die Begründung richtig ist.

Gute Nachrichten: Es kann geheilt werden

Als Reaktion auf dieses Problem schlugen sie mehrere Gegenmaßnahmen vor:

Erstens schneidet der JSON-Modus, wie bereits erwähnt, in den meisten Fällen am schlechtesten ab, und schließlich schneidet die Konvertierung natürlicher Sprache in ein Format (NL in Format) ab.

Dann umgekehrt,Die beste Lösung zur Lösung von Formatbeschränkungen ist NL to FormatDas heißt, LLMs beantworten Fragen zunächst in natürlicher Sprache und konvertieren die Antworten dann in das Zielformat. Dieser Ansatz ermöglicht eine bessere Leistung, indem er die Argumentation von der Formatkonformität entkoppelt.

Zusätzlich die strukturierte AusgabeSchlüsselreihenfolgeEinen wichtigen Einfluss darauf haben, wie LLMs reagieren.

Bei der Verwendung von GPT-3.5 Turbo wurde beispielsweise bei 100 % der JSON-Modus-Antworten der Schlüssel „Antwort“ fälschlicherweise vor „Begründung“ platziert, was dazu führte, dass das Modell die Antwort direkt gab, anstatt den Denkprozess anzuzeigen.

Untersuchungen zeigen auch, dass Formatbeschränkungen dazu führenParse-FehlerNicht der Hauptgrund für den Leistungsunterschied.

Beispielsweise beträgt im LLaMA 3 8B-Modell die Fehlerrate beim Parsen des JSON-Formats für die Aufgabe „Letzter Brief“ nur 0,15 %, im Vergleich zur Antwort in natürlicher Sprache beträgt die Leistungslücke jedoch 38,15 %.

und kannBeseitigen Sie diese Fehler mit KorrekturtippsBeispielsweise erhöhte sich für das Claude-3-Haiku-Modell in der Last Letter-Aufgabe durch den Korrekturschritt die Genauigkeit der JSON- und YAML-Formate um +2,8 % bzw. +44,8 %.

Das oben Gesagte bedeutet auch, dass bei der Anwendung von LLMs ein Gleichgewicht zwischen einem leicht zu analysierenden Format und der Beibehaltung inhärenter Argumentationsfähigkeiten gefunden werden muss.

Abschließend erinnerten die Forscher in dem Papier:

Im Vergleich zu regulären Ausdrücken können LLMs als Antwortparser ein tiefergehendes und genaueres Textverständnis ermöglichen. Sie beschränken sich nicht auf den oberflächlichen Mustervergleich, sondern können die Bedeutung und den Kontext der Antwort wirklich verstehen.

Nachricht

Die Leistung der LLM-Inferenz wird durch das Ausgabeformat beeinflusst, JSON ist am gravierendsten

Einführung

Meine Kontaktdaten