Die neueste Forschung von Google DeepMind: Diese drei Aufgaben lösen? Menschen können das nicht und AI

Die neueste Forschung von Google DeepMind: Diese drei Aufgaben lösen?Menschen können das nicht und KI auch nicht.

2024-07-22

Geschrieben von |. Zhao Yaqi

Vorwort

Künstliche Intelligenz (KI) ist kein perfekter Denker. Auch die derzeit populären Sprachmodelle (LMs) werden ähnliche Fehlertendenzen wie Menschen aufweisen, insbesondere erhebliche „Inhaltseffekte“.

Die Argumentation von Menschen ist genauer und sicherer, wenn sie Informationen verarbeiten, die mit bestehenden Kenntnissen oder Überzeugungen übereinstimmen. Bei der Verarbeitung von Informationen, die diesem Wissen oder diesen Überzeugungen widersprechen, können jedoch Vorurteile oder Fehler auftreten.

Diese Schlussfolgerung geht aus einem kürzlich vom Google DeepMind-Team veröffentlichten Forschungspapier hervor.

Der Mensch verfügt über zwei Denksysteme, das „intuitive System“ und das „rationale System“, und der Denkprozess wird leicht durch vorhandenes Wissen und Erfahrung beeinflusst. Wenn Menschen beispielsweise mit einer logischen, aber irrationalen Aussage konfrontiert werden, kommen sie oft fälschlicherweise zu dem Schluss, dass sie ungültig ist.

Interessanterweise zeigt die Studie, dass auch große Transformer-Sprachmodelle dieses menschenähnliche Verhalten zeigen können und sowohl intuitive Vorurteile als auch konsistentes logisches Denken zeigen, wenn sie dazu aufgefordert werden. Dies bedeutet, dass Sprachmodelle auch menschliches Dualsystemverhalten simulieren können und auch „empirische“ Fehler aufweisen.

In dieser Arbeit verglich das Forschungsteam die Leistung von LMs und Menschen bei drei Denkaufgaben: Inferenz natürlicher Sprache (NLI), Beurteilung der logischen Gültigkeit von Syllogismen (Syllogismen) und der Wason-Auswahlaufgabe.

Abbildung |. Operationsinhalt von drei Arten von Argumentationsaufgaben

Es wurde festgestellt, dass die Leistung sowohl von LMs als auch von Menschen durch die Plausibilität und Glaubwürdigkeit des semantischen Inhalts in drei Argumentationsaufgaben beeinflusst wurde.

Diese Entdeckung zeigt die Grenzen aktueller KI-Systeme in ihren Denkfähigkeiten auf. Obwohl diese Modelle bei der Verarbeitung natürlicher Sprache eine gute Leistung erbringen, müssen sie dennoch mit Vorsicht verwendet werden, wenn es um komplexe logische Überlegungen geht.

Aufgabe eins:

Argumentation in natürlicher Sprache

Natural Language Inference (NLI) bedeutet, dass das Modell die logische Beziehung zwischen zwei Sätzen bestimmen muss (z. B. Implikation, Widerspruch oder Neutralität). Untersuchungen zeigen, dass Sprachmodelle bei solchen Aufgaben anfällig für inhaltliche Auswirkungen sind. Das heißt, wenn der semantische Inhalt des Satzes vernünftig und glaubwürdig ist, ist es wahrscheinlicher, dass das Modell ungültige Argumente fälschlicherweise als gültig einschätzt. Dieses Phänomen wird im Bereich der KI als „semantische Verzerrung“ bezeichnet und ist auch ein häufiger Fehler im menschlichen Denken.

Das Forschungsteam entwarf eine Reihe von NLI-Aufgaben, um die Leistung von Menschen und LMs bei der Bewältigung dieser Aufgaben zu testen. Die Ergebnisse zeigen, dass sowohl Menschen als auch LMs eher dazu neigen, falsche Urteile zu fällen, wenn sie mit semantisch sinnvollen Sätzen konfrontiert werden. Zum Beispiel das folgende Beispiel:

Geben Sie ein: Die Pfütze ist größer als das Meer.
Frage: Wenn die Pfütze größer als das Meer ist, dann...
Wahl: A „Das Meer ist größer als die Pfütze“ und B „Das Meer ist kleiner als die Pfütze“

Obwohl die logische Beziehung zwischen Prämisse und Schlussfolgerung falsch ist, neigen sowohl LMs als auch Menschen aufgrund der Rationalität des Prämissensatzes zu der Annahme, dass die Schlussfolgerung B korrekt ist. Im Vergleich dazu sind die Fehlerquoten von Menschen und Sprachmodellen bei Inferenzaufgaben in natürlicher Sprache ähnlich, was darauf hindeutet, dass die Argumentationsfähigkeiten von Sprachmodellen in einigen Aspekten dem menschlichen Niveau nahe kommen und KI möglicherweise genauso anfällig ist wie Menschen, wenn es darum geht, alltägliche Gespräche zu verstehen und zu verarbeiten . Der Inhalt ist irreführend.

Abbildung |. Detaillierte Ergebnisse der NLI-Aufgabe. Menschen (links) und alle Modelle zeigen eine relativ hohe Leistung, mit relativ geringen Unterschieden in der Genauigkeit zwischen Schlussfolgerungen, die mit Überzeugungen übereinstimmen, und Schlussfolgerungen, die gegen Überzeugungen oder sogar Unsinn verstoßen.

Aufgabe zwei:

Beurteilung der logischen Gültigkeit des Syllogismus

Ein Syllogismus ist eine klassische Form des logischen Denkens, die normalerweise aus zwei Prämissen und einer Schlussfolgerung besteht. Zum Beispiel: „Alle Menschen sind sterblich, Sokrates ist ein Mensch, also ist Sokrates sterblich.“ Untersuchungen haben ergeben, dass Sprachmodelle bei der Beurteilung der logischen Gültigkeit von Syllogismen häufig vom semantischen Inhalt beeinflusst werden. Obwohl Sprachmodelle natürliche Sprache hervorragend verarbeiten können, neigen sie dennoch dazu, bei streng logischen Denkaufgaben menschenähnliche Fehler zu machen.

Um dies zu testen, entwickelten die Forscher mehrere Aufgaben zum logischen Schlussfolgern und verglichen die Leistung von Menschen und LMs. Hier ist zum Beispiel eine typische Syllogismus-Aufgabe:

Prämisse 1: Alle Waffen sind Waffen.
Prämisse 2: Alle Waffen sind gefährliche Gegenstände.
Fazit: Alle Waffen sind gefährliche Gegenstände.

In diesem Fall ist der semantische Inhalt der Prämissen und Schlussfolgerungen sehr vernünftig, sodass sowohl LMs als auch Menschen leicht beurteilen können, ob die Schlussfolgerung korrekt ist. Wenn jedoch der semantische Inhalt nicht mehr gerechtfertigt ist, zum Beispiel:

Prämisse 1: Alle gefährlichen Gegenstände sind Waffen.
Prämisse 2: Alle Waffen sind Waffen.
Fazit: Alle gefährlichen Gegenstände sind Waffen.

Obwohl sie logisch falsch sind, glauben LMs und Menschen aufgrund der Plausibilität der Prämissensätze manchmal fälschlicherweise, dass eine Schlussfolgerung korrekt ist.

Abbildung |. Detaillierte Ergebnisse der Syllogismus-Logikaufgabe. Sowohl Menschen als auch Modelle zeigen offensichtliche inhaltliche Auswirkungen (Cyan), es besteht eine starke Tendenz zu glauben, dass das Argument gültig ist, wenn die Schlussfolgerung den Erwartungen widerspricht (lila). Das Argument ist ungültig.

Aufgabe drei:

Wason Select

Die Wason-Auswahlaufgabe ist eine klassische logische Denkaufgabe, mit der die Fähigkeit einer Person getestet werden soll, bedingte Aussagen zu verstehen und zu überprüfen. Im Experiment wurden den Teilnehmern vier Karten gezeigt, auf denen jeweils ein Buchstabe oder eine Zahl stand, etwa „D“, „F“, „3“ und „7“. Die Aufgabe besteht darin, zu bestimmen, welche Karten umgedreht werden müssen, und so die Regel „Wenn eine Karte ein D auf der Vorderseite hat, dann eine 3 auf der Rückseite“ zu überprüfen.

Die Studie ergab, dass Sprachmodelle und Menschen bei dieser Aufgabe ähnliche Fehlerraten aufwiesen wie bei den beiden vorherigen Aufgaben und beide dazu neigten, Karten ohne Informationswert zu wählen, beispielsweise „3“ statt „7“. Dieser Fehler tritt auf, weil sowohl Menschen als auch LMs dazu neigen, Karten auszuwählen, die in direktem Zusammenhang mit den Voraussetzungen stehen, und nicht solche, die die Regeln tatsächlich validieren.

Allerdings verbesserten sich sowohl die Leistung des Modells als auch des Menschen, wenn die Regeln der Aufgabe sozial relevante Inhalte wie das Trinkalter und die Art des Getränks umfassten. Zum Beispiel:

Regel: Wenn eine Person Alkohol trinkt, muss sie über 18 Jahre alt sein.
Karteninhalt: Bier trinken, Cola trinken, 16 Jahre alt, 20 Jahre alt.

Abbildung |. Detaillierte Ergebnisse der Watson-Auswahlaufgabe. Jedes Sprachmodell weist bestimmte Vorteile in realistischen Regeln auf.

In diesem Fall wählten Menschen und LMs eher die richtigen Karten, nämlich „Bier trinken“ und „16 Jahre alt“. Dies deutet darauf hin, dass KI im Alltag, genau wie Menschen, in vertrauten Situationen bessere Leistungen erbringen wird.

Mängel und Perspektiven

Insgesamt geht das Forschungsteam davon aus, dass aktuelle Sprachmodelle bei Denkaufgaben ähnlich abschneiden wie Menschen und sogar auf die gleiche Weise Fehler machen, insbesondere bei Denkaufgaben mit semantischen Inhalten. Obwohl es die Grenzen des Sprachmodells aufzeigt, bietet es auch eine Richtung für die zukünftige Verbesserung der KI-Schlussfolgerungsfähigkeiten.

Allerdings weist diese Studie auch gewisse Einschränkungen auf.

Erstens betrachtete das Forschungsteam nur wenige Aufgaben, was ein umfassendes Verständnis der inhaltlichen Auswirkungen von Menschen und Sprachmodellen auf verschiedene Aufgaben einschränkt. Um ihre Gemeinsamkeiten und Unterschiede vollständig zu verstehen, ist eine weitere Validierung innerhalb eines breiteren Aufgabenspektrums erforderlich.

Darüber hinaus werden Sprachmodelle auf weitaus mehr Sprachdaten trainiert als auf menschlichen Sprachdaten, was es schwierig macht zu bestimmen, ob diese Effekte bei etwas auftreten würden, das näher an der Skala menschlicher Sprachdaten liegt.

Die Forscher schlagen vor, dass zukünftige Studien untersuchen könnten, wie sich inhaltliche Verzerrungen durch kausale Manipulation des Modelltrainings reduzieren lassen, und beurteilen könnten, ob diese Verzerrungen beim Training in einem Maßstab, der menschlichen Daten ähnlicher ist, immer noch auftreten.

Darüber hinaus wird die Untersuchung der Auswirkungen von Bildungsfaktoren auf die Fähigkeit zum Modelldenken und wie sich unterschiedliche Trainingsmerkmale auf die Entstehung von Inhaltseffekten auswirken, auch dazu beitragen, die Ähnlichkeiten und Unterschiede zwischen Sprachmodellen und Menschen im Denkprozess besser zu verstehen und sie häufiger einzusetzen. Spielen Sie in Anwendungsszenarien eine größere Rolle.

Papierlink:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Klicken Sie, um mir zu folgen und denken Sie daran, einen Stern zu setzen｜

Nachricht

Die neueste Forschung von Google DeepMind: Diese drei Aufgaben lösen?Menschen können das nicht und KI auch nicht.

Einführung

meine Kontaktdaten