ICML2024-Rede ging viral! Meta Zhu Zeyuan enthüllt die innere Welt großer Modelle: anders als menschliches Denken

Die ICML2024-Rede ging viral! Meta Zhu Zeyuan enthüllt die innere Welt großer Modelle: anders als menschliches Denken

2024-08-05

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Wie löst ein großes Sprachmodell (LLM) mathematische Probleme? Geschieht es durch das Vorlagengedächtnis oder lernt es wirklich das Denken? Was ist der Kopfrechenvorgang für das Modell? Welche Denkfähigkeiten können erlernt werden? Gleich wie Menschen oder über Menschen hinaus? Hilft das Erlernen nur einer Art mathematischer Aufgabe bei der Entwicklung der allgemeinen Intelligenz? Warum machen LLMs Denkfehler? Wie viel LLM-Tiefe ist nötig, um schlussfolgern zu können?

Papieradresse: https://arxiv.org/abs/2407.20311

Kürzlich veröffentlichte ein vierköpfiges Team von Meta FAIR, CMU und MBZUAI, darunter Ye Tian, Xu Zicheng, Li Yuanzhi und Zhu Zeyuan, das neueste arXiv-Papier „Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes“. „Verwenden Sie kontrollierte Experimente, um clevere Fragen zu den oben genannten Fragen zu beantworten. Twitter-Nutzer @xlr8harder kommentierte: „Dieses Ergebnis wird die Debatte darüber, ob LLM über Denkfähigkeiten verfügt oder nur ein zufälliger Papagei ist, ein für alle Mal beenden.“

Anmerkung des Herausgebers: Die gesamte Reihe von „Language Model Physics“ wurde eingeladen, auf der ICML 2024 International Machine Learning Top Conference am 22. Juli einen zweistündigen Sonderbericht zu halten. Die Resonanz war begeistert und es wird berichtet, dass es anhaltenden Applaus gab die Szene. Hier präsentiere ich euch Teil 2.1 der Serie.

Abbildung 1

Ausführliche Erläuterung des Papiers

Erstens ist der Autor gemäß der Konvention dieser Serie der Ansicht, dass man die Denkweise nicht erraten sollte, indem man mit großen Modellen wie GPT-4 spricht. Dies ist zwar machbar, aber nicht streng genug, um das innere Denken des GPT-4-Prozesses wissenschaftlich aufzudecken.

Darüber hinaus können wir aus Datensicht nur durch vollständigen Zugriff auf die Pretrain-Daten des Modells wissen, welche Fragen das Modell gesehen hat und welche durch Inferenz gelernt wurden. Selbst wenn ein Modell bei GSM8k, einem Benchmark-Satz von 8.000 Mathematikfragen für Grundschulen, hohe Punktzahlen erreicht, ist es schwierig zu sagen, ob es Variationen dieser Fragen gesehen hat (z. B. Variationen in verschiedenen Sprachen oder GPT-4-Umschreibungen).

Zu diesem Zweck erstellte der Autor iGSM, einen synthetischen Satz von Denkfragen, der das Mathematikniveau der Grundschule simuliert, und ließ das Modell von Grund auf auf iGSM vortrainieren, um die Arten von Fragen zu steuern, denen das Modell ausgesetzt ist. Es ist erwähnenswert, dass iGSM keine gesunden Menschenverstandsinformationen enthält, sondern nur Addition, Subtraktion und Multiplikation im Mod 23-Bereich, und alle Berechnungen werden Schritt für Schritt mit CoT durchgeführt. Mit iGSM können kontrollierte Experimente durchgeführt werden, die speziell die Inferenzfähigkeiten des Modells untersuchen und dabei andere Faktoren (z. B. Arithmetik mit großen ganzen Zahlen) ignorieren. Abbildung 2 zeigt ein einfaches Beispiel.

Figur 2

Anhand dieses Datensatzes testete der Autor zunächst die Leistung von GPT2 (RoPE-Version). Unter Verwendung von op zur Darstellung der Anzahl der zur Lösung des Problems erforderlichen mathematischen Operationsschritte stellte der Autor fest, dass das Modell beim Training auf Fragen mit op≤21 nicht nur eine Genauigkeit von 99 % erreichen kann, sondern auch eine bessere Leistung bei schwierigeren Fragen (z. B als op=32 ), wobei eine Genauigkeitsrate von 83 % beibehalten wurde (siehe Abbildung 3). Dies zeigt, dass das Modell einige Denkfähigkeiten erlernt hat, schließlich hat es noch nie Fragen mit op>21 gesehen. (Übrigens kann GPT-4o in diesem Datensatz nur Fragen mit op=10 verarbeiten. Alles, was über diesen Schwierigkeitsgrad hinausgeht, ist wie blindes Raten. Wir werden dieses Problem am Ende des Artikels besprechen.)

Welche Denkfähigkeiten hat das Modell also gelernt? Es gibt mindestens zwei Denkweisen zur Lösung der mathematischen Probleme von iGSM. Eine davon nennt der Autor „Argumentation der Stufe 0 „, das heißt, „gewalttätige Berechnungen können berechnet werden.“ Da die Variablen in der Frage komplexe Abhängigkeiten aufweisen können, können einige direkt berechnet werden, während andere zuerst berechnet werden müssen. Wenn Xiao Zhang beispielsweise dreimal mehr Früchte hat als Xiao Wang, muss er zuerst berechnen, wie viele Äpfel und Birnen Xiao Wang hat. Und erst nach der Zusammenfassung können wir beginnen, die Anzahl der Früchte für Xiao Zhang zu berechnen. „Argumentation der Stufe 0“ besteht darin, alle Variablen so weit wie möglich aufzuzählen, jedes Mal zufällig eine berechenbare Variable zu finden, das Ergebnis zu berechnen und fortzufahren.

Korrespondierend hierzu ist „Argumentation der Stufe 1 „: Beginnen Sie durch topologische Sortierung mit dem Problem und arbeiten Sie rückwärts, um zu bestimmen, welche Variablen berechnet werden müssen. Beginnen Sie dann mit den Blattknoten und berechnen Sie nach oben, um die „kürzeste Antwort“ anzustreben. Gängige mathematische Problemlösungen verwenden normalerweise Argumentation der Ebene 1 und berechnen keine „unnötigen Variablen“. Beispielsweise hat Xiao Zhang dreimal mehr Früchte als Xiao Wang. Fragt man Xiao Zhang, wie viele Früchte er hat, dann ist die Anzahl der Äpfel von Xiao Li eine unnötige Variable, während die Anzahl der Äpfel und Birnen von Xiao Wang notwendig ist.

Wie in Abbildung 3 dargestellt, stellte der Autor fest, dass GPT-2 das Denken der Stufe 1 erlernen und fast immer die kürzeste Antwort geben kann. Das ist ganz einfach! Denn bevor das Modell den ersten Satz generiert, muss die gesamte topologische Sortierung in seinem Kopf durchgeführt worden sein – woher soll es sonst wissen, welche Variablen unnötig sind? Wenn das Modell von Anfang an „Xiao Li hat 7 Äpfel“ generiert, gibt es keinen Weg zurück und die kürzeste Antwort kann nicht erhalten werden.

Bild 3

Wie lernt das Modell also „Level-1-Argumentation“? Zu diesem Zweck führte der Autor eine Untersuchung der internen Parameter des Modells durch (siehe Abbildung 4). Die Schlussfolgerung zeigt (Einzelheiten zur Sondenmethode finden Sie im Artikel), dass das Modell, bevor es den ersten Satz generiert, bereits durch mentale Arithmetik bestimmt hat, welche Variable A „notwendig“ ist (notwendig (A) = Wahr). Gleichzeitig berechnet das Modell nach jedem gesprochenen Satz im Kopf auch alle nachfolgenden „berechenbaren“ Variablen A (cannext (A)=True). Daher muss das Modell nur kontinuierlich logische UND-Operationen für nece und cannext ausführen, und der vollständige Berechnungsprozess kann ausgehend von den Blattknoten Schritt für Schritt angegeben werden.

Bemerkenswert ist, dass diese komplexen Kopfrechenfähigkeiten im Trainingssatz nicht enthalten waren. Das Modell wurde nur iGSM-Daten ausgesetzt und hat nur den „Sprach“-Teil (Fragen und Antworten) gesehen, aber es hat selbstständig einen menschenähnlichen Denkprozess (mentalen Prozess) erlernt und ist zur optimalen Lösung gelangt!Mit anderen Worten: Diese Forschung widerlegt unseren Bericht von vor einer Woche in „Sprache ≠ Denken, große Modelle können kein Denken lernen: Ein Nature-Artikel ließ die KI-Community explodieren“ und bewies dies mit wissenschaftlichen Methoden.Große Modelle können tatsächlich lernen, durch Sprache zu denken。

Noch erstaunlicher ist, dass das Modell noch mehr lernt. In Abbildung 4 stellte der Autor außerdem fest, dass das Modell viele Informationen mental berechnet, die für die Lösung des Problems unbrauchbar sind. Beispielsweise weiß das Modell bereits, nachdem der Variablenzusammenhang gerade beschrieben wurde oder noch bevor die Frage gestellt wird, ob zwischen zwei beliebigen Variablen A und B eine rekursive Abhängigkeit besteht – auch wenn diese Variablen für die Lösung des Problems irrelevant sind. Für Menschen beginnen wir normalerweise mit der Frage und arbeiten rückwärts und ignorieren unnötige Variablen, aber ein Sprachmodell wie GPT-2 durchforstet den gesamten Beziehungsgraphen, um alle Fragen zu beantworten, die in der Zukunft gestellt werden könnten. Der Autor nennt diese Fähigkeit „Argumentation der Stufe 2」。

Obwohl logisches Denken der Stufe 2 für die Problemlösung nicht erforderlich ist, handelt es sich sicherlich um eine allgemeinere Fähigkeit. Das Modell nutzt parallele Funktionen, um eine große Menge an Informationen nach Ursache und Wirkung zu sortieren. Diese Fähigkeit beherrscht das Sprachmodell, wenn es lernt, Probleme zu lösen. Niemand (Daten) hat ihm dies beigebracht. Der Autor vermutet, dass dies der mögliche Ursprung des Begriffs „universal“ in der künstlichen allgemeinen Intelligenz (AGI) sein könnte, d. h. Sprachmodelle können allgemeinere Fähigkeiten erlernen, die über die durch den Datensatz vermittelten Fähigkeiten hinausgehen.

Figur 4

Als nächstes untersuchten die Autoren, warum das Modell den Fehler machte. Zusammenfassend lässt sich sagen, dass das Modell im iGSM-Datensatz fast nur zwei Arten von Fehlern macht: Zum einen werden unnötige Variablen berechnet, zum anderen werden derzeit nicht berechenbare Variablen berechnet, wie in Abbildung 5 dargestellt.

In Bezug auf Ersteres stellte der Autor fest, dass das Modell wahrscheinlich A zwangsweise berechnen wird, wenn das Modell vor der Generierung der Antwort einen mentalen Rechenfehler macht und fälschlicherweise glaubt, dass eine bestimmte Variable A „notwendig“ ist (notwendig (A) = Wahr). bei der Generierung der Antwort ergibt sich eine nichtkürzeste Lösung. Dieser Befund ist sehr interessant und legt nahe, dass viele der Fehler systematisch sind und dass das Modell davon überzeugt ist, dass es einen Fehler machen wird (über Sonden), bevor es überhaupt den Mund aufmacht, bevor der erste Token generiert wird. Diese Art von Fehler hat nichts mit der Zufälligkeit bei der Modellgenerierung oder Strahlsuche zu tun.

Was Letzteres betrifft, führt der Autor es auch auf Kopfrechenfehler zurück und wird eine ganze Folgearbeit in Teil 2.2 verwenden, um speziell die Kopfrechenfähigkeiten des Modells zu verbessern, um letztendlich die Genauigkeit der Problemlösung zu verbessern. Das Papier wurde noch nicht veröffentlicht, und wir werden es weiterhin aufmerksam verfolgen und öffentlich bekannt geben.

Abbildung 5

Die nächste Schlussfolgerung ist, dass der Autor das im Skalierungsgesetz großer Modelle betonte „nur das Große“ widerlegt hat, das heißt, die Leistung des Modells hängt nur von der Anzahl der Parameter ab und hat nichts mit der Breite oder zu tun Tiefe. Diese Ansicht wurde erstmals im Scaling Law-Artikel von OpenAI vertreten und in fast allen nachfolgenden Forschungsarbeiten befolgt.

Der Autor führte ein kontrolliertes Experiment mit dem iGSM-Datensatz durch, wie in Abbildung 6 dargestellt. Durch den Vergleich kleinerer und tieferer Modelle mit größeren und breiteren Modellen haben wir herausgefunden, dass zur Lösung mathematischer Probleme in iGSMDie Tiefe des Modells ist offensichtlich wichtiger als die Breite . Beispielsweise schneidet ein 20-Schichten-9-Kopf-Modell viel besser ab als ein 4-Schichten-30-Kopf-Modell, obwohl letzteres doppelt so viele Parameter hat.

Der Autor ging noch weiter, stellte festDie Abhängigkeit von der Tiefe ergibt sich aus der Komplexität der mentalen Arithmetik des Modells . Durch Sondierungsstudien in verschiedenen Tiefen des Modells stellte der Autor fest, dass für die Variablen A, die weit vom Problem entfernt sind, die Notwendigkeit für Kopfrechnen (A) häufig mehr Schichten erfordert. Wenn insbesondere der Abstand zwischen der Variablen A und der Problemvariablen t beträgt, sind t Schritte der Kopfrechenart erforderlich, um zu wissen, dass nece (A)=True ist. Je größer t ist, desto mehr Schichten benötigt das Modell, wie in Abbildung 6 dargestellt.

Der Autor betont, dass die Abhängigkeit des Modells von der Tiefe nicht durch Chain-of-Thought (CoT) ausgeglichen werden kann. Tatsächlich wurde bei der mathematischen Problemlösung in iGSM CoT so weit wie möglich verwendet, das heißt, alle Berechnungen werden Schritt für Schritt aufgeschlüsselt. Dennoch muss das Modell noch Kopfrechnen durchführen, um zu planen, wie der erste Schritt des CoT aussehen soll – und dieser Kopfrechenprozess erfordert möglicherweise immer noch mehrere Schritte. Dies erklärt die Abhängigkeit des Modells von der Tiefe.

Abbildung 6

Zusammenfassend lässt sich sagen, dass der Autor dieses Artikels im Gegensatz zu mehr als 99 % der Arbeiten, die den Verhaltensprozess von LLM untersuchen, einen neuen Ansatz verfolgt und den mentalen Prozess von LLM bei der Lösung mathematischer Probleme offenlegt, was neue Einblicke in die Intelligenz von LLM liefert. Perspektive.

Am Ende des Artikels weist der Autor darauf hin, dass selbst GPT-4 nur bis zu 10 Argumentationsschritte für den iGSM-Datensatz durchführen kann. Dies zeigt, dass selbst die leistungsstärksten aktuellen Modelle, die angeblich alle Internetdaten nutzen, immer noch nicht in der Lage sind, mehr als 10 Inferenzschritte genau durchzuführen. Dies impliziert, dass die von bestehenden großen Modellen verwendeten Pretrain-Daten möglicherweise noch viel Raum für Verbesserungen bieten. Durch die Methode dieses Artikels könnte es eine neue Möglichkeit geben, künstlich synthetisierte Daten zu ermitteln, um die Argumentationsfähigkeit und die Informationssortierungsfähigkeit des Modells zu verbessern.

Nachricht

Die ICML2024-Rede ging viral! Meta Zhu Zeyuan enthüllt die innere Welt großer Modelle: anders als menschliches Denken

Einführung

meine Kontaktdaten