Das Weltmodell rückt wieder näher? Erstaunliche Forschung vom MIT: LLM hat die reale Welt simuliert, keinen zufälligen Papagei!

2024-08-17

Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Forscher am MIT CSAIL fanden heraus, dass LLM „tief im Herzen“ eine Simulation der Realität entwickelt hat und das Verständnis des Modells für Sprache und Welt viel mehr ist als ein einfacher „Papagei“. Mit anderen Worten: LLM wird in Zukunft die Sprache tiefer verstehen als heute.

Wie weit ist LLM vom Weltmodell entfernt?

Letztes Jahr kam ein MIT-Artikel zu einer überraschenden Schlussfolgerung: Innerhalb von LLM gibt es ein Weltmodell.

LLM erlernt nicht nur Oberflächenstatistiken, sondern auch ein Weltmodell einschließlich grundlegender Breitengrade wie Raum und Zeit.

Darüber hinaus hat das MIT kürzlich herausgefunden, dass sich tief im LLM eine Simulation der Realität entwickelt hat und ihr Sprachverständnis weit über einfache Nachahmung hinausgeht!

Papieradresse: https://arxiv.org/abs/2305.11169

Konkret entdeckten zwei Wissenschaftler des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT Folgendes:

Auch wenn LLM darauf trainiert ist, eine Programmiersprache nur mit dem Ziel zu lernen, „das nächste Token vorherzusagen“, was scheinbar nur reine statistische Wahrscheinlichkeit beinhaltet, kann das Modell dennoch die formale Semantik des Programms lernen.

Dies deutet darauf hin, dass Sprachmodelle möglicherweise ihr eigenes Verständnis der Realität entwickeln, um ihre generativen Fähigkeiten zu verbessern.

Daher könnte LLM eines Tages die Sprache auf einer tieferen Ebene verstehen als heute.

Dieser Artikel wurde von ICML 2024 akzeptiert und der im Experiment verwendete Code wurde auf GitHub veröffentlicht.

Lageradresse: https://github.com/charlesjin/emergent-semantics

Wäre LLM ohne Augen nicht in der Lage zu „sehen“?

Bitten Sie GPT-4, einen vom Regen durchnässten Campingplatz zu riechen, und es wird höflich ablehnen.

Dennoch erhalten Sie eine poetische Beschreibung: Es gibt ein frisches, erdiges Aroma und einen erfrischenden, regnerischen Duft mit einem Hauch von Kiefer oder nassen Blättern.

GPT-4 hat noch nie Regen gesehen und hat keine Nase, kann aber Text imitieren, der in großen Mengen an Trainingsdaten vorhanden ist.

Bedeutet das Fehlen eines Augenpaares, dass das Sprachmodell niemals verstehen kann, „ein Löwe ist größer als eine Hauskatze“?

Kann LLM die reale Welt und verschiedene abstrakte Konzepte verstehen? Oder „plappern“ Sie nur nach und verlassen sich ausschließlich auf die statistische Wahrscheinlichkeit, um den nächsten Token vorherzusagen?

Das Funktionsprinzip von LLM ist immer noch ein ungelöstes Rätsel. Die Großen im KI-Kreis werden von Zeit zu Zeit eine Debatte über dieses Thema beginnen.

LeCun ist fest davon überzeugt, dass die Intelligenz von LLM definitiv überschätzt wird! Seine berühmteste Aussage lautet: „Ein großes Sprachmodell ist nicht so gut wie eine Katze zu Hause.“

„Katzen können sich erinnern, sie können die physische Welt verstehen, sie können komplexe Aktionen planen und sie können bis zu einem gewissen Grad argumentieren. Das ist tatsächlich besser als die größten Modelle. Das bedeutet, dass wir auf der konzeptionellen Ebene erhebliche Lücken bei der Herstellung von Maschinen haben.“ wie Tiere. So schlau wie Menschen.

Viele Leute erklären dies als ein rein statistisches Phänomen, bei dem es sich nur um das „Nachplappern“ und Nachahmen von Texten handelt, die in großen Mengen an Trainingskorpus vorhanden sind. Es verfügt nicht über das gleiche Maß an Intelligenz oder Wahrnehmung wie Menschen.

Doch nun beweisen Untersuchungen des MIT, dass dies nicht der Fall ist!

Innerhalb von LLM gibt es definitiv ein Verständnis für die reale Welt.

LLM knackt das Karel-Rätsel, was das bedeutet

Um dieses Geheimnis zu erforschen, haben Forscher am MIT CSAIL eine Reihe kleiner Karel-Rätsel entwickelt.

Stellen Sie kurz vor, was Karels Rätsel ist

Dazu gehört, dass das Modell Anweisungen verwendet, um die Aktionen des Roboters in einer simulierten Umgebung zu steuern.

Karel-Grammatikspezifikation

Anschließend schulen sie den LLM darin, eine bestimmte Lösung zu erlernen, ohne zu demonstrieren, wie sie funktioniert.

Abschließend schlägt der Autor eine maschinelle Lerntechnik namens „Probing“ vor, um ein tiefgreifendes Verständnis des „Denkprozesses“ zu erlangen, wenn das Modell neue Lösungen generiert.

Der Forscher erstellt Trainingsbeispiele, indem er ein zufälliges Referenzprogramm abtastet, dann fünf zufällige Eingaben abtastet und das Programm ausführt, um die entsprechenden fünf Ausgaben zu erhalten. Der LM wird für die Vorhersage des nächsten Tokens anhand eines Korpus von Beispielen trainiert, die aus verschachtelten Ein- und Ausgängen bestehen, gefolgt von der Referenzprozedur. Zum Testzeitpunkt versorgen die Forscher den LM mit unsichtbaren Eingabe- und Ausgabespezifikationen und verwenden eine gierige Dekodierung, um das Programm vorherzusagen.

Nach dem Training mit mehr als 1 Million Zufallsrätseln stellten die Forscher fest, dass das Modell spontan ein Konzept der zugrunde liegenden simulierten Umgebung entwickelte! Obwohl sie während des Trainings nicht mit diesen Informationen konfrontiert wurden.

Dieses Ergebnis stellt nicht nur unseren inhärenten Eindruck von LLM in Frage, sondern stellt auch unser Verständnis der Natur des Denkprozesses in Frage –

Welche Arten von Informationen sind beim Erlernen der Semantik erforderlich?

Zu Beginn des Experiments war die Ausführung der vom Modell generierten Zufallsanweisungen nahezu unmöglich; nach Abschluss des Trainings erreichte die Genauigkeit der Anweisungen jedoch 92,4 %.

Jin, der Erstautor des Papiers, sagte: „Dies ist ein sehr aufregender Moment, denn wir glauben, dass, wenn das Sprachmodell die Aufgabe mit dieser Genauigkeit erledigen kann, wir auch erwarten, dass es die Bedeutung der Sprache verstehen kann.“

„Dies gab uns einen Ausgangspunkt für die Untersuchung, ob LLM tatsächlich Text verstehen kann, und jetzt sehen wir, dass das Modell zu weit mehr in der Lage ist, als Wörter blind zusammenzufügen.“

Öffnen Sie das Gehirn von LLM

Während dieses Experiments konnte Jin diesen Fortschritt aus erster Hand miterleben.

Warum glaubt LLM, dass diese Anweisungen dies bedeuten?

Er entdeckte, dass LLM eine eigene interne Simulation entwickelt hatte, wie sich der Roboter als Reaktion auf jeden Befehl bewegen würde.

Da die Fähigkeit des Modells, schwierige Probleme zu lösen, immer höher wird, werden diese Konzepte immer genauer, was zeigt, dass LM beginnt, die Anweisungen zu verstehen.

Es dauerte nicht lange, bis das LLM die einzelnen Teile konsequent in Arbeitsanweisungen zusammenfügte.

Semantischer Inhalt, gemessen durch verschiedene Sondenklassifikatoren (grün)

Denksonde

Der Hauptbeitrag zu den oben genannten Entdeckungen ist eine „Denksonde“.

Dies ist ein wirksames Instrument, um in den LLM-Denkprozess einzugreifen. Das Papier nennt es „Sondierung“.

Insbesondere enthält der Zustand des LM rein syntaktische Aufzeichnungen der eingegebenen und generierten Programme, aber die Sonde scheint in der Lage zu sein, die abstrakten Interpretationen zu verstehen.

Im eigentlichen Experiment erstellte der Autor zunächst den LLM-Zustandsverfolgungsdatensatz und trainierte dann mithilfe standardmäßiger überwachter Lernmethoden ein kleines Modell als Sonde, beispielsweise einen linearen Klassifikator oder einen zweischichtigen MLP.

Semantischer Inhalt der aktuellen und nächsten beiden abstrakten Zustände in der zweiten Trainingshälfte (1-Schicht-MLP)

Ein wichtiger Punkt ist jedoch, dass die Sonde vom eigentlichen Denkprozess des Modells oder den generierten Anweisungen getrennt werden muss.

Obwohl der einzige Zweck der Sonde darin besteht, „in das Gehirn von LLM einzudringen“, was wäre, wenn sie auch etwas für das Modell denken würde?

Was Forscher sicherstellen müssen, ist, dass das LLM die Anweisungen unabhängig von der Sonde verstehen kann, anstatt dass die Sonde die Aktionen des Roboters auf der Grundlage des Verständnisses der LLM für die Syntax ableitet.

Stellen Sie sich vor, es gibt eine Menge Daten, die den Denkprozess des LLM kodieren, wobei die Rolle der Sonde wie die eines forensischen Analysten ist.

Wir gaben diesen Datenstapel dem Analysten und sagten ihm: „Das ist die Bewegung des Roboters. Versuchen Sie herauszufinden, wie sich der Roboter in diesem Datenstapel bewegt.“ Der Analyst sagte, dass er den Roboter in diesem Datenstapel kenne . Was ist los.

Was aber, wenn dieser Datenhaufen nur rohe Anweisungen kodiert und die Analysten eine clevere Möglichkeit gefunden haben, die Anweisungen zu extrahieren und darauf zu reagieren?

In diesem Fall versteht LLM die Bedeutung dieser Anweisungen überhaupt nicht.

Zu diesem Zweck machten die Forscher einen genialen Entwurf: Sie schufen eine „seltsame Welt“ für das Modell.

In dieser Welt ist die Befehlsbedeutung der Sonde umgekehrt, so dass „oben“ eigentlich „unten“ bedeutet.

Beispielsweise führt exec(turnRight,·) in der ursprünglichen Semantik dazu, dass sich der Roboter um 90 Grad im Uhrzeigersinn dreht, während exec adversarial(turnRight,·) den Roboter in einen Raum schiebt.

Dadurch wird sichergestellt, dass die Probe nicht „opportunistisch“ ist und direkt lernt und versteht, wie LLM Anweisungen codiert.

Ein Autor, Jin, stellte es so vor:

Wenn die Sonde Anweisungen in den Standort des Roboters übersetzen soll, sollte sie auch in der Lage sein, Anweisungen mit unheimlicher Bedeutung zu übersetzen.

Wenn die Sonde jedoch tatsächlich nach der Kodierung der ursprünglichen Roboterbewegungen im Denkprozess des Sprachmodells sucht, dürfte es schwierig sein, die seltsamen Roboterbewegungen aus den ursprünglichen Denkprozessen zu extrahieren.

Es wurde festgestellt, dass die Sonde Übersetzungsfehler aufwies und Sprachmodelle mit unterschiedlichen Befehlsbedeutungen nicht interpretieren konnte.

Dies bedeutet, dass die ursprüngliche Semantik in das Sprachmodell eingebettet ist, was darauf hinweist, dass der LLM in der Lage ist, die erforderlichen Anweisungen unabhängig vom ursprünglichen Erkennungsklassifikator zu verstehen.

In der ersten Hälfte wird beschrieben, wie die beiden Bedingungen zu einem hohen semantischen Inhalt der Messungen vor dem Eingriff führten. Der untere Teil zeigt, warum die beiden Hypothesen getrennt werden: Wenn die LM-Darstellung nur Grammatik enthält (unten links), dann sollte es möglich sein, die Sonde alt zu trainieren, um zu lernen, Datensätze im Hinblick auf den alternativen Zustand prog zu interpretieren (fettes rotes Ergebnis). ; wenn die LM-Darstellung jedoch die Codierung des ursprünglichen abstrakten Zustands (unten rechts) enthält, erfordert die Erkennung von alt das Extrahieren des alternativen Zustands „prog“ aus dem ursprünglichen Zustand prog, was zu einem geringeren semantischen Inhalt führt (fettes graues Ergebnis).

LLM versteht Sprache wie ein Kind

Interessanterweise stellte Jin fest, dass sich das Sprachverständnis von LLM stufenweise entwickelt, so wie Kinder eine Sprache in mehreren Schritten lernen.

Zuerst wird es wie ein Baby plappern, seine Worte werden sich wiederholen und die meisten davon werden schwer zu verstehen sein.

LLM beginnt dann damit, die Grammatik- oder Sprachregeln aufzugreifen, um Anweisungen zu generieren, die wie echte Lösungen aussehen, aber trotzdem nicht funktionieren.

Die LLM-Anweisungen werden jedoch schrittweise verbessert.

Sobald das Modell eine Bedeutung erlangt, beginnt es, Anweisungen für die korrekte Umsetzung der erforderlichen Spezifikation zu generieren, ähnlich wie ein Kind, das Sätze bildet.

Die Ergebnisse sind in Abbildung 2 dargestellt. Es ist ersichtlich, dass das Sprachverständnis von LLM grob in drei Phasen unterteilt ist, genau wie das Erlernen von Sprache bei Kindern.

Plappern (grauer Teil): nimmt etwa 50 % des gesamten Trainingsprozesses ein, generiert sich stark wiederholende Programme und die Genauigkeit liegt stabil bei etwa 10 %
Syntaxerfassung (orangefarbener Teil): 50 % bis 75 % des Trainingsprozesses, die Vielfalt der generierten Ergebnisse nimmt stark zu, syntaktische Attribute ändern sich erheblich und das Modell beginnt, das Token des Programms zu modellieren, aber die Genauigkeit der Generierung ist Die Eine Verbesserung ist nicht offensichtlich
Semantikerwerb (gelber Teil): 75 % des Trainingsprozesses sind abgeschlossen, die Diversität bleibt nahezu unverändert, aber die Generierungsgenauigkeit nimmt deutlich zu, was auf die Entstehung semantischen Verständnisses hinweist

Das Experiment verwendete zum Vergleich drei verschiedene Sondenarchitekturen, nämlich linearen Klassifikator, einschichtiges MLP und zweischichtiges MLP.

Bei der Vorhersage von 2 Schritten im Voraus ist der Absolutwert der 2-Schicht-MLP-Vorhersagegenauigkeit höher als das Basismodell, das mit dem aktuellen Status vorhergesagt wird. Man kann spekulieren, dass, bevor LLM Anweisungen generiert, sein Denkprozess und die „Absicht“ der Befehlsgenerierung im Modell gespeichert wurden.

LLM = Weltmodell?

Diese Studie erklärt, wie LLM über die Bedeutung jeder Anweisung in den Trainingsdaten nachdenkt und die Reaktion des Roboters auf die Anweisungen in seinem internen Zustand simuliert.

Dies alles weist auf eine zentrale Frage der aktuellen KI-Forschung hin: Sind die überraschenden Fähigkeiten von LLMs einfach auf großräumige statistische Korrelationen zurückzuführen, oder führen sie zu einem sinnvollen Verständnis ihrer Realität?

Untersuchungen zeigen, dass LLM ein internes Modell entwickelt hat, das die Realität simuliert, obwohl es nie für die Entwicklung dieses Modells geschult wurde.

Darüber hinaus können Sprachmodelle das Verständnis von Sprache weiter vertiefen.

Eine einzelne Arbeit allein kann diese Frage jedoch nicht vollständig beantworten.

Der Autor Jin gab auch zu, dass diese Forschung einige Einschränkungen aufweist: Sie verwendeten nur eine sehr einfache Programmiersprache Karel und eine sehr einfache Sondenmodellarchitektur.

Zukünftige Arbeiten werden sich auf allgemeinere experimentelle Einstellungen konzentrieren und auch Einblicke in den „Denkprozess“ des LLM umfassend nutzen, um Trainingsmethoden zu verbessern.

Rinard, ein weiterer Autor dieses Artikels, sagte: „Eine interessante offene Frage ist, ob LLM bei der Lösung von Roboternavigationsproblemen ein internes Realitätsmodell verwendet, um über die Realität nachzudenken?“

Obwohl die in der Arbeit präsentierten Ergebnisse diese Schlussfolgerung stützen könnten, war das Experiment nicht darauf ausgelegt, diese Frage zu beantworten.

Ellie Pavlick, Assistenzprofessorin am Fachbereich Informatik und Linguistik der Brown University, lobte die Forschung sehr.

Sie sagte, dass das Verständnis der Funktionsweise von LLM es uns ermöglicht, vernünftigere Erwartungen hinsichtlich der inhärenten Möglichkeiten und Grenzen dieser Technologie zu haben. Diese Studie geht genau dieser Frage in einer kontrollierten Umgebung nach.

Computercode verfügt wie natürliche Sprache sowohl über Syntax als auch über Semantik. Im Gegensatz zu natürlicher Sprache ist die Semantik von Code jedoch intuitiver und kann direkt entsprechend den experimentellen Anforderungen gesteuert werden.

„Das experimentelle Design ist elegant und ihre Ergebnisse sind vielversprechend, was darauf hindeutet, dass LLM möglicherweise zu einem tieferen Verständnis der ‚Bedeutung‘ von Sprache führen kann.“

Vorstellung des Autors

Der Erstautor dieses Artikels, Charles Jin, ist Doktorand in der EECS-Abteilung und im CSAIL-Labor. Sein Betreuer, Martin Rinard, ist ein weiterer Autor dieses Artikels. Sein Forschungsschwerpunkt liegt auf robustem maschinellen Lernen und Programmsynthese.

Jin schloss sein Studium an der Yale University mit einem Bachelor- und einem Master-Abschluss in Informatik und Mathematik ab. Er arbeitete einst als Analyst bei Weiss Asset Management und arbeitete während seiner Doktorarbeit als Forschungspraktikant bei Google Brain.

Referenzen:

https://the-decoder.com/training-lingual-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-lingual-abilities-improve-0814

Nachricht

Das Weltmodell rückt wieder näher? Erstaunliche Forschung vom MIT: LLM hat die reale Welt simuliert, keinen zufälligen Papagei!

Einführung

Meine Kontaktdaten