Nachricht

ACL 2024 |. Bei der mathematischen Bewertung von 25 Open- und Closed-Source-Modellen hat GPT-3.5-Turbo knapp bestanden

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren dieses Artikels stammen von der University of Hong Kong und Tencent. Autorenliste: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Unter ihnen ist der Erstautor Li Qintong Doktorand am Natural Language Processing Laboratory der Universität Hongkong. Seine Forschungsinteressen umfassen die Erzeugung natürlicher Sprache und das Denken von Texten. Er und der Doktorand Zhao Xueliang stehen unter der Leitung von Professor Kong Lingpeng . Leyang Cui und Wei Bi sind leitende Forscher bei Tencent.

Vorwort

Die außergewöhnliche Fähigkeit großer Sprachmodelle (LLMs) zur Problemlösung wird immer deutlicher. Ein Phänomen, das in letzter Zeit Aufmerksamkeit verdient, ist, dass diese Modelle in mehreren Benchmark-Tests zum mathematischen Denken erstaunliche Ergebnisse erzielt haben. Am Beispiel von GPT-4 schnitt es im schwierigen Testsatz GSM8K für Grundschulanwendungen [1] mit einer Genauigkeit von über 90 % gut ab. Gleichzeitig haben viele Open-Source-Modelle auch eine beeindruckende Leistung gezeigt, mit Genauigkeitsraten von über 80 %.

Bei der Verwendung stellen wir jedoch häufig fest, dass LLMs bei geringfügigen Änderungen der mathematischen Probleme einige Fehler auf niedriger Ebene verursachen können, wie in der folgenden Abbildung dargestellt:



Abbildung 1: GPT-3.5-Turbo hat ein mathematisches Problem korrekt beantwortet (links), aber als dem ursprünglichen Problem (rechts) eine Einschränkung hinzugefügt wurde, unterschied Turbo nicht korrekt zwischen den Richtungen „Verlassen“ und „Rückkehr“. Ein Operator-Missbrauch Ein Fehler ist aufgetreten.

Wir kommen nicht umhin zu fragen: Erfassen groß angelegte Sprachmodelle wirklich die Essenz mathematischen Wissens? Wie kommt es, dass sie bei diesen Tests so gut abschneiden? Geht es lediglich darum, oberflächliche Denkmuster in großen Mengen an Trainingsdaten nachzuahmen? Ob LLMs wirklich mathematische Konzepte verstehen, ist immer noch eine Frage, die es wert ist, untersucht zu werden.

Um dieses Problem zu untersuchen, haben die Autoren dieses Artikels einen Bewertungsbenchmark entwickeltGSM-Plus . Dieser Test ist darauf ausgelegt, 8 verschiedene feinkörnige mathematische Transformationen an einem Problem durchzuführen, um die Fähigkeit aktueller LLMs im Umgang mit grundlegenden Mathematikanwendungsproblemen systematisch zu bewerten. In diesem neuen Benchmark bewertet das Papier 25 verschiedene LLMs, darunter Open-Source- und Closed-Source-Modelle in der Branche, gründlich.

Experimentelle Ergebnisse zeigen, dass GSM-Plus für die meisten LLMs eine anspruchsvolle Benchmark darstellt. Selbst auf GSM8K konnte GPT-3.5-Turbo eine Genauigkeit von 73,62 % erreichen, auf GSM-Plus hingegen nur eine Genauigkeit von 61,19 %. Diese Arbeit wurde von ACL2024 mit den Werten 4, 4 und 4,5 angenommen.



Hauptartikel: GSM-Plus: Ein umfassender Benchmark zur Bewertung der Robustheit von LLMs als mathematische Problemlöser

Papieradresse: https://arxiv.org/pdf/2402.19255

Paper-Homepage: https://qtli.github.io/GSM-Plus/

Hintergrund

Mathematische Argumentation ist ein wichtiger Beweis für die Entwicklung der künstlichen Intelligenz. Es erfordert ein gründliches Problemverständnis, Strategieentwicklung und rechnerische Ausführungsfähigkeiten. In den letzten Jahren wurden zahlreiche öffentlich verfügbare Datensätze verwendet, um die mathematischen Denkfähigkeiten von Systemen der künstlichen Intelligenz zu bewerten. Frühe mathematische Datensätze konzentrierten sich auf gleichungsbasierte mathematische Probleme. Anschließend wurden schwierigere Datensätze eingeführt, die Mathematikprobleme auf Grund-, Oberstufen- und Hochschulniveau abdecken.

Da die Schwierigkeit der Auswertungsdaten immer weiter zunimmt, ist auch die Entwicklung von LLMs sehr schnell vorangekommen. Um die Leistung von LLMs auf dem Gebiet der Mathematik zu verbessern, kann Supervised Fine-Tuning (SFT) eingesetzt werden, um LLMs bei der schnellen Anpassung an das Gebiet der Mathematik zu unterstützen, indem sie anhand verschiedener Aufgabendaten trainieren. In der Argumentationsphase können die mathematischen Fähigkeiten von LLMs auch durch geschickt gestaltete Eingabeaufforderungen (z. B. Chain-of-Thought und Program-of-Thought) effektiv gefördert werden.

Bei den meisten LLM-Studiengängen gibt es noch viel Raum für Verbesserungen, wenn es um Mathematikprobleme in der Oberstufe und darüber hinaus geht. Im Bereich der Grundschulmathematik haben sich LLMs jedoch als vielversprechend erwiesen.Wir fragen uns daher: Können LLMs in realen Umgebungen immer noch eine hohe Leistung aufrechterhalten?

Kontradiktorischer Auswertungsdatensatz GSM-Plus

Ziel dieser Studie ist die Einführung eines umfassenden Benchmarks, GSM-Plus, um die Robustheit von LLMs bei der Lösung grundlegender mathematischer Probleme systematisch zu untersuchen. Inspiriert von der Taxonomie mathematischer Problemlösungsfähigkeiten in den Polya-Prinzipien [2] identifiziert dieser Artikel fünf Leitprinzipien für die Erstellung des GSM-Plus-Datensatzes:

Zum besseren Verständnis hier: „Janets Ente legt jeden Tag 16 Eier. Sie isst jeden Morgen drei Eier zum Frühstück und backt mit vier Eiern Muffins für ihre Freunde. Sie zahlt jeden Tag 2 Dollar pro Entenei. Verkaufen Sie übrig gebliebene Eier bei Der Bauernmarkt Wie viele Dollar verdient sie pro Tag auf dem Bauernmarkt?

(1) Numerische Änderungen: Bezieht sich auf die Änderung numerischer Daten oder ihres Typs. In diesem Artikel werden drei Unterkategorien definiert:

Numerische Ersetzung: Ersetzen Sie numerische Werte durch dieselben Ziffern und Typen, ersetzen Sie beispielsweise „16“ in der Frage durch „20“.

Ziffernerweiterung: Erhöhen der Anzahl der Ziffern in einem Wert, beispielsweise Ersetzen von „16“ durch „1600“.

Ganzzahl-Dezimal-Bruch-Konvertierung: Ersetzen Sie Ganzzahlen durch Dezimalzahlen oder Brüche, konvertieren Sie beispielsweise „2“ in „2,5“.

(2) Arithmetische Änderungen: Bezieht sich auf die Einführung zusätzlicher Operationen oder Inversionen zu mathematischen Problemen, ist jedoch auf Additions-, Subtraktions-, Multiplikations- und Divisionsoperationen beschränkt:

Betriebserweiterung: Fügen Sie Einschränkungen basierend auf dem ursprünglichen Problem hinzu. Fügen Sie beispielsweise eine neue Bedingung hinzu: „Sie verwendet außerdem jeden Tag zwei Eier, um selbstgemachte Haarmasken herzustellen.“

Operationsumkehr: Wandeln Sie einen bekannten Zustand des ursprünglichen Problems in die zu lösenden Variablen für das Problem der GSM-Plus-Variante um. Beispielsweise wird die Aussage der ursprünglichen Frage in Abbildung 2 „2 US-Dollar pro Entenei“ in den Fragesatz der neuen Frage „Was kostet jedes Entenei?“ umgewandelt, während der Fragesatz der ursprünglichen Frage „Wie viele Dollar verdienen Sie jeden Tag auf dem Bauernmarkt?“ wird in bekannte Bedingungen für die neue Frage „Sie verdient 18 Dollar pro Tag auf dem Bauernmarkt“ umgerechnet.

(3) Problemverständnis: Bezieht sich auf die Umformulierung eines mathematischen Problems mit anderen Worten, ohne die Bedeutung zu ändern, wie zum Beispiel „Janet züchtet eine Gruppe Enten, die jeden Tag 16 Enteneier legen. Sie verzehrt drei Enteneier zum Frühstück und dann vier Enteneier, um Waffeln zu backen.“ .“ An ihre Freundin. Janet verkauft alle restlichen Enteneier auf dem Bauernmarkt für jeweils 2 US-Dollar. Wie viel Geld verdient sie jeden Tag mit dem Verkauf von Enteneiern auf dem Bauernmarkt?

(4) Einfügen von Interferenzelementen: Bezieht sich auf das Einfügen von Sätzen, die sich auf das Thema beziehen und numerische Werte enthalten, aber für die Lösung des Problems unbrauchbar sind, z. B. „Janet wollte ihren Papagei auch mit zwei Enteneiern füttern. Zum Glück gab ihr Nachbar.“ ihr jeden Tag zwei Enteneier zum Füttern.

(5) Kritisches Denken: Konzentriert sich darauf, ob LLMs die Fähigkeit haben, Fragen zu stellen oder zu zweifeln, wenn mathematischen Problemen notwendige Bedingungen fehlen, zum Beispiel „Janets Ente legt jeden Tag Eier. Sie isst jeden Morgen drei Eier zum Frühstück und backt mit vier Eiern Muffins für ihre Alltagsfreundin.“ . Sie verkauft die restlichen Eier auf dem Bauernmarkt für 2 Dollar pro Tag. Wie viel verdient sie auf dem Bauernmarkt jeden Tag?

Basierend auf den 1.319 Testfragen von GSM8K erstellt dieses Dokument acht Variationen für jede Frage, was zu einem GSM-Plus-Datensatz mit 10.552 Fragenvariationen führt (dieses Dokument stellt außerdem eine Testuntergruppe mit 2.400 Fragenvariationen zur schnellen Überprüfung bereit). . Durch das Testen von LLMs anhand jedes Problems und seiner acht Variationen kann GSM-Plus Forschern dabei helfen, die Robustheit von LLMs bei der Lösung mathematischer Probleme umfassend zu bewerten.



Abbildung 2: 8 Problemvarianten zur Störungserzeugung unter Verwendung von 5 Winkeln basierend auf einem Seed-Mathe-Problem. Wesentliche Änderungen werden grün hervorgehoben.

Durch die Verwendung von GSM-Plus zur Bewertung von 25 LLMs unterschiedlicher Größe, unterschiedlicher Vortrainingsmethoden und unterschiedlicher Aufgabenfeinabstimmung sowie durch die Kombination von vier häufig verwendeten Aufforderungstechniken wurde in diesem Artikel festgestellt, dass LLMs das GSM8K-Problem als Ganzes genau lösen können Bei der Beantwortung der Fragen in GSM-Plus ergeben sich offensichtliche Schwierigkeiten bei Variantenproblemen. Die wichtigsten Erkenntnisse lauten wie folgt:

Die aufgabenspezifische Optimierung, also die Feinabstimmung mathematisch relevanter Datensätze, kann häufig die Genauigkeit nachgelagerter Aufgaben verbessern, während der Grad der Robustheit eher von der Wahl des Basismodells und des Feinabstimmungsdatensatzes abhängt.

Wenn „kritisches Denken“ erforderlich ist, „arithmetische Änderungen“ und „Einfügung von Störfaktoren“ erforderlich sind, wird die Leistung von LLMs schnell abnehmen, aber für die Störungen durch „numerische Änderungen“ und „Problemverständnis“ ist die Leistung von LLMs relativ stabil.

Frühere Eingabeaufforderungstechniken (z. B. CoT, PoT, LtM und komplexitätsbasiertes CoT) verbesserten die Robustheit nicht wesentlich, insbesondere bei „arithmetischen Änderungen“ und „kritischem Denken“. Basierend auf früheren Arbeiten untersucht dieses Papier weiter eine kombinierte Eingabeaufforderungsmethode, die gleichzeitig die Leistung von LLMs auf GSM8K und GSM-Plus verbessern kann, indem jeder Argumentationsgedanke iterativ generiert und überprüft wird.

GSM-Plus-Funktionen

Qualitätskontrolle : Verwenden Sie zwei Stufen, um GSM-Plus-Bewertungsfragen zu generieren. Zunächst werden die Frageumschreibungsfunktionen von GPT-4 verwendet, um Fragevarianten zu generieren, und dann werden Kandidatenantworten für diese Varianten generiert, um die Datenqualität sicherzustellen. Alle von GPT-4 generierten Fragevarianten und Antworten werden vom manuellen Annotationsteam streng überprüft. Das Team für manuelle Anmerkungen hat 18,85 % der Probleme beim Umschreiben von GPT-4 behoben.

Feingranulare Auswertung: Für jede Testfrage im Mainstream-Bewertungsdatensatz GSM8K stellt GSM-Plus 8 Variantenfragen in Störungsrichtung bereit und testet damit vollständig die Fähigkeit des großen Modells, mathematische Anwendungsprobleme in verschiedenen Kontexten flexibel zu lösen.

Herausforderung : Im Vergleich zu GSM8K ist die Problemvariante von GSM-Plus anspruchsvoller und die Leistung aller an der Bewertung teilnehmenden LLMs ist deutlich beeinträchtigt. In der folgenden Analyse wird dieser Artikel speziell die Problemlösungsrobustheit von LLMs unter verschiedenen Arten von Störungen analysieren.

Vergleich mit anderen Daten zu Wortaufgaben in Mathematik im Grundschulbereich



Tabelle 1: Verschiedene Farben repräsentieren unterschiedliche Störungstypen:



Wie aus der obigen Tabelle ersichtlich ist, haben frühere Studien unterschiedliche Störungen verwendet, um die Robustheit des mathematischen Denkens zu testen. Die Bewertungseinstellungen decken jedoch nur einige Störungstypen ab und die meisten von ihnen führen Störungen durch automatische Methodenkonstruktion ein, sodass die Qualität schwierig ist Garantie. Im Gegensatz dazu nutzt GSM-Plus acht verschiedene mathematische Denkfähigkeiten, um ein einzelnes Problem zu lösen, mit umfassenderer Abdeckung und strenger Qualitätskontrolle.

Experimentanalyse

Bewertungsindikatoren

Leistungsverschlechterungsrate (PDR): Der Grad der Leistungsverschlechterung von LLMs beim gestörten Problem im Vergleich zum ursprünglichen Problem.

Prozentsatz gleichzeitig gelöster Problempaare (ASP): Der Anteil sowohl der ursprünglichen Frage als auch der entsprechenden Fragevariante, die von LLMs richtig beantwortet werden.

Gesamtleistung

Wie in der folgenden Tabelle dargestellt, ist die Leistung der meisten LLMs auf GSM-Plus im Vergleich zu GSM8K deutlich reduziert.

GPT-4 weist die höchste Robustheit auf, mit dem kleinsten PDR von nur 8,23 %. CodeLlama weist den größten PDR auf, wobei die Modelle 7B, 13B und 34B 40,56 %, 39,71 % bzw. 34,27 % betragen und damit sein Basismodell LLaMA-2-7B (39,49 %) übertreffen, sowie das mathematische SFT-Modell fein abgestimmt darauf, wie SEGO-7B (34,91 %). Dies zeigt, dass das Denken, bei dem nur prozedurale Sprachen verwendet werden, anfällig für Störungen ist.

Angesichts mathematischer Störungen ist die Leistung umso stabiler, je größer die Modellgröße ist. Obwohl eine überwachte Feinabstimmung die Genauigkeit bei nachgelagerten Aufgaben verbessern kann, erhöht sie die Robustheit des Modells gegenüber Störungen (d. h. eine geringere PDR) nicht wesentlich. Für die Robustheit sind Daten wichtig, die die Feinabstimmung überwachen. Die Feinabstimmung basiert auch auf LLaMA-2, und die Verwendung unterschiedlicher Daten führt zu großen Unterschieden in der Genauigkeit und Robustheit des Modells.



Tabelle 2: Gesamtleistung

Feinkörnige experimentelle Analyse

Leistung von LLMs unter verschiedenen Störungen

In diesem Artikel wird die Leistungsstabilität von LLMs unter 8 Problemvarianten weiter bewertet. Im Vergleich zur menschlichen Grundlinie für kritisches Denken (lila), Operationserweiterung und Operationsumkehr (blau), Distraktoreneinfügung (rosa) und Ganzzahl-Dezimal-Bruch-Umwandlung (orange) nimmt die Leistung von LLMs deutlich ab. Bei „numerischer Ersetzung“ und „Problemverständnis“ ist die Leistung von LLMs stabil oder sogar leicht verbessert.



Abbildung 3: Feinkörnige experimentelle Analyse

Übertragbarkeit mathematischer Denkfähigkeiten

Die bisherige Analyse basiert hauptsächlich auf dem gesamten Datensatz. Als nächstes teilt dieser Artikel die beiden Datensätze danach auf, ob die mathematischen Fragen richtig beantwortet wurden, und analysiert, ob, wenn LLMs das GSM8K-Problem erfolgreich lösen, die Wahrscheinlichkeit einer korrekten Beantwortung der GSM-Plus-Variantenfrage höher wird (d. h. a hoher ASP-Wert). Wenn diese Behauptung wahr ist, kann davon ausgegangen werden, dass LLMs bei dieser spezifischen Teilmenge mathematischer Probleme eine stabile Leistung erbringen, auch wenn dies nicht bei der gesamten Datenmenge der Fall ist. In der experimentellen Umgebung werden jedes GSM8K-Problem und seine Variante in GSM-Plus in 8 Problempaare umgewandelt, und die Ergebnisse sind in Abbildung 4 dargestellt.



Abbildung 4: Inferenzübertragbarkeit von LLMs zwischen GSM8K- und GSM-Plus-Problempaaren. Lila (beide richtig) und blaue (beide falsch) Balken zeigen ein konsistentes Modellverhalten an, während rote (GSM8K richtig und GSM-Plus falsch) und gelbe (GSM8K falsch und GSM-Plus richtig) Balken ein inkonsistentes Modellverhalten anzeigen. Die Summe der Höhen der violetten und roten Balken stellt die Anzahl der LLMs dar, die das GSM8K-Problem korrekt lösen.

Das Vorhandensein roter Balken (LLMs, die die ursprüngliche Frage richtig beantworten, die Variantenfrage jedoch nicht lösen) weist darauf hin, dass die Leistung der meisten Modelle nur begrenzt übertragbar ist. Obwohl sich die Leistung von LLMs beim GSM8K-Problem unterscheidet (Höhe der violetten und roten Balken), ist die Leistungsübertragbarkeit ähnlich (Höhe des roten Balkens). Dies bedeutet, dass bestehende Benchmarks die wahren Fähigkeiten eines Modells im mathematischen Denken nicht genau beurteilen können. Eine hohe Genauigkeit ist nicht gleichbedeutend mit einer starken Inferenzrobustheit.

Tipps zur Unterstützung der Leistungsrobustheit von LLMs

Frühere Arbeiten haben gezeigt, dass gute prompte Anweisungen wichtig sind, um die mathematischen Fähigkeiten von Sprachmodellen zu stimulieren. In diesem Artikel werden vier repräsentative Modelle ausgewählt und ihre Leistung bei der Lösung von Problemen unter verschiedenen Eingabeaufforderungsanweisungen getestet. Wie in der Abbildung unten gezeigt, funktionieren LLMs bei Störungen am stabilsten, wenn sie komplexe Beispiele als kontextbezogene Demonstrationen verwenden (Komplexitätsbasiertes CoT), im Gegensatz dazu verwenden LLMs nur die Programmsprache zur Darstellung von Zwischenbegründungen (Program-of-Thought). sind anfälliger für Störungen. Insgesamt reichen diese Tipps und Tricks nicht aus, damit LLMs die gleiche Leistung wie GSM8K auf GSM-Plus beibehalten können.



Abbildung 5: Einfluss von Hinweisen auf die Leistungsrobustheit von LLMs

Funktionieren Kombinationsaufforderungen?

Wie kann die Robustheit von LLMs basierend auf vorhandenen Eingabeaufforderungsmethoden verbessert werden? In diesem Artikel wird festgestellt, dass LLMs während des Problemlösungsprozesses häufig wichtige Bedingungen ignorieren oder Berechnungsfehler machen. Zu diesem Zweck untersucht dieser Artikel Comp, eine kombinierte Aufforderungsmethode. Diese Methode fordert LLMs zunächst auf, notwendige Bedingungen in Bezug auf numerische Werte im Problem zu extrahieren (Prompt1). Basierend auf dem Problem und den Schlüsselbedingungen werden LLMs dann angewiesen, iterativ Inferenzziele (Prompt2) und Berechnungsziele (Prompt3) zu generieren und sie Feedback für die generierten historischen Problemlösungsschritte geben zu lassen, um zu bestimmen, ob die endgültige Antwort erhalten wird ( Eingabeaufforderung4). Die spezifische Implementierung ist in Abbildung 6 dargestellt.



Abbildung 6: Schematisches Diagramm der Eingabeaufforderungsmethode für die Comp-Iteration

Es ist ersichtlich, dass Comp die Leistung von LLMs unter verschiedenen Problemvariationstypen durch iterative Generierung und Selbstverifizierung verbessern kann, aber die Leistungslücke von LLMs zwischen Standardtestsätzen und gegnerischen Testsätzen immer noch nicht schließen kann. Diese Forschung freut sich auf weitere Methoden in der Zukunft, um die Robustheit des Modells weiter zu verbessern und die weitere Entwicklung von LLMs im Bereich des mathematischen Denkens zu fördern.



Tabelle 3: Leistung von Compiteration-Hinweisen

Beispiel generieren

Die folgende Abbildung zeigt die Leistung von GPT-3.5-Turbo unter verschiedenen Eingabeaufforderungstechnologien für das GSM8K-Problem und das GSM-Plus-Umschreibproblem basierend auf „Betriebsumkehr“. Während alle Eingabeaufforderungen Turbo dazu motivieren, die GSM8K-Fragen genau zu beantworten, hilft nur Comp Turbo dabei, korrekte Antworten auf die Fragen zur GSM-Plus-Variante zu generieren.



Abbildung 7: Beispiele für Modelle, die mathematische Fragen unter verschiedenen Eingabeaufforderungseinstellungen beantworten

Abschluss

In diesem Artikel wird GSM-Plus vorgestellt, ein kontradiktorisches Evaluierungsset für Mathematikanwendungsprobleme in der Grundschule, das darauf abzielt, die Robustheit von LLMs bei der Lösung von Mathematikanwendungsproblemen systematisch zu analysieren. Experimentelle Analysen ergaben, dass die Leistung der meisten LLMs bei Störungen im Vergleich zu ihrer Leistung bei Standard-Benchmarks erheblich abnahm und weit hinter dem menschlichen Leistungsniveau zurückblieb. Der Forscher hofft, dass die Arbeit dieses Artikels weitere zukünftige Forschung fördern kann, einschließlich, aber nicht beschränkt auf: (1) systematische Bewertung der mathematischen Fähigkeiten von LLMs; (2) Konstruktion von Modellen, die mathematisches Denken flexibel durchführen können;

[1] Cobbe, Karl, et al. „Training von Prüfern zur Lösung mathematischer Textaufgaben.“ arXiv-Preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Wie man es löst: Ein neuer Aspekt der mathematischen Methode, Band 85. Princeton University Press.