Nachricht

13.11>13.8 wurde zu einem heißen Suchthema. Eine Frage, die die menschliche KI kollektiv intelligent machte?Alle schwerwiegenden LLM-Mängel aufgedeckt

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Neuer Weisheitsbericht

Herausgeber: Aeneas so schläfrig

[Einführung in die neue Weisheit] Welches ist größer, 13,8 oder 13,11? Dieses Problem verblüffte nicht nur einige Menschen, sondern führte auch zum Scheitern zahlreicher großer Modelle. KI kann jetzt Fragen zur KI-Mathematikolympiade beantworten, aber einfache Fragen des gesunden Menschenverstandes sind für sie immer noch äußerst schwierig. Tatsächlich offenbaren sowohl das Größenverhältnis als auch das Kohlproblem einen großen Fehler in der Token-Vorhersage von LLM.

Welches ist größer, 13,8 oder 13,11?

Diese Frage hat tatsächlich viele Menschen verblüfft.

Vor zwei Tagen machte eine bekannte Varieté-Show erneut eine heiße Suche.

Diesmal jedoch, weil einige Internetnutzer die Frage stellten, dass 13,11 % größer sein sollten als 13,8 %.

Sind nur Menschen so dumm?

Nachdem Lin Yuchen, ein Forscher am AI2, dieses Phänomen entdeckt hatte, versuchte er es an einem großen Modell und das Ergebnis war unerwartet –

KI kann das nicht einmal?

GPT-4o erklärte kategorisch: 13,11 ist größer als 13,8. Die Gründe sind wie folgt:

Obwohl 13,8 größer aussieht, weil es weniger Nachkommastellen hat, ist 13,11 tatsächlich größer. Dies liegt daran, dass 13,8 13,80 entspricht, was weniger als 13,11 ist.

In diesem Zusammenhang erklärte Lin Yuchen in seinem Beitrag, dass KI-Modelle bei der Bewältigung komplexer Probleme immer leistungsfähiger werden (zum Beispiel sind sie zunehmend in der Lage, Fragen der Mathematikolympiade zu lösen), einige Probleme mit dem gesunden Menschenverstand seien für sie jedoch immer noch sehr schwierig.

Wie Yejin Choi zuvor argumentiert hat, kann KI unglaublich schlau, aber auch erschreckend dumm sein.

Liegt der Grund, warum die KI bei dieser Rechenaufgabe dumm war, daran, dass der Kontext unklar war? Die Antwort ist negativ.

Laut dem Test von Netizen Karthik kommt GPT-4o, selbst wenn er aufgefordert wird, zwei Zahlen zu subtrahieren, immer noch auf die unglaubliche Subtraktionsformel von 9,11 – 9,9 = 0,21.

如果指示GPT-4o用python,它会先给出一个正确答案,然后又改回了之前错误的那个😮。

Das Ergebnis der Subtraktion von 9,9 von 9,11 in Python ist -0,79. Diese Abweichung ist auf die Art und Weise zurückzuführen, wie Gleitkommaoperationen in Python gehandhabt werden, was zu kleinen Genauigkeitsfehlern führen kann. Das tatsächlich erwartete Ergebnis sollte 0,21 betragen.

Interessanterweise scheint OpenAI den neuesten tatsächlichen Messungen zufolge das GPT-4-Verhältnis über Nacht gelernt zu haben.

LLM wurde ausgelöscht

Gestern löste dieses von Lin Yuchen entdeckte Problem sofort heftige Diskussionen in der KI-Community aus.

Riley Goodside, ein Prompt-Word-Ingenieur bei Scale AI, war neugierig und probierte es aus, nachdem er den Beitrag gesehen hatte.

Tatsächlich wurden unter der Prämisse, Fragen auf eine bestimmte Art und Weise zu stellen, alle großen LLMs in dieser Angelegenheit ausgelöscht.

„9.11 oder 9.9 – welches ist größer?“, kippte GPT-4o direkt.

Auch wenn der Frage das Wort „reelle Zahl“ hinzugefügt wird, geht GPT-4o immer noch davon aus, dass 9,11 größer als 9,9 ist.

Das Gleiche gilt für Zwillinge.

Claude 3.5 Sonnet machte den gleichen Fehler.

Interessanterweise gab es zunächst eine Welle korrekter Erklärungen: In der Dezimalschreibweise repräsentiert die Zahl nach dem Komma die zehnte Stelle und die zweite Zahl die hundertste Stelle. Also--

9.11=9‍+1/10+1/100=9.11

9.9=9+9/10=9.90

然而下一步,Sonnet就突然滑坡了😂——

Wir können sehen, dass 9,11 0,01 (ein Prozent) größer als 9,90 ist.

Wenn Sie es in „Was ist 9,11 minus 9,9?“ ändern, erhalten Sie eine weitere magische Antwort – 0,02.

莫非在Claude的眼里,9.90=9.09?🤔

Der Einfluss von Prompt ist wirklich groß

In der weiteren Praxis stellten alle fest: Offensichtlich ist die Schnelligkeit sehr wichtig, damit LLM die richtige Antwort gibt.

Erstens verwendet Riley Goodside während des gesamten Prozesses „-“, was bei LLM leicht zu Verwirrung führen kann.

Bei ähnlichen Problemen ersetzen Sie es einfach durch „:“, um es zu lösen.

Ändern Sie für ein weiteres Beispiel die Eingabeaufforderung in „9,11 oder 9,9, welches hat den höchsten/größten Wert zwischen den beiden?“

GPT-4o gab eine logisch korrekte Erklärung: „Obwohl 9,11 aufgrund der zweiten Dezimalstelle größer erscheint, liegt 9,9 tatsächlich näher an 10 und ist daher ein größerer Wert.“

Ebenso ist auch die Persona-Methode sehr nützlich: zum Beispiel „Sie sind Mathematiker.“

Netizen Rico Pagliuca hat herausgefunden, dass das Model höchstwahrscheinlich alles richtig machen wird, wenn man hinter der Frage eine Zahl angibt.

Basierend auf seinen eigenen Tests stimmt Riley Goodside voll und ganz zu: Wenn Sie nach LLM fragen, müssen Sie zuerst fragen, „welches größer ist“ und dann konkrete Zahlen angeben.

Im Gegensatz dazu sind Satzzeichen, Konjunktionen, Vergleichswörter und die Erklärung reeller Zahlen allesamt nutzlos.

In Bezug auf eine so groß angelegte kollektive LLM-Dummheit analysierten einige Internetnutzer, dass dies daran liegen könnte, dass in der Iteration der Softwareversionsnummern 9.11 nach 9.9 kommt.

Moderator und Bestsellerautor Andrew Mayne wies außerdem darauf hin, dass Abschnitt 9.11 in vielen Dateisystemen und Nachschlagewerken nach 9.9 erscheint und 9.11 vom Datum her auch älter als 9.9 ist.

Daher müssen wir in der Eingabeaufforderung klarstellen, dass es sich bei 9.11 und 9.9 hier um Gleitkommazahlen mit doppelter Genauigkeit handelt, damit GPT-4o korrekt antwortet.

Andrew Mayne kam dann zu dem Schluss: Die Wortreihenfolge ist eine sehr interessante Beobachtung, die wahrscheinlich Aufschluss darüber gibt, wie oft LLM während der Ausbildung auf diese Situation stößt, und außerdem ein guter Verallgemeinerungsindikator ist.

Insgesamt können die von LLM gemachten Fehler auf die Häufigkeit ähnlicher Ausdrücke in den Trainingsdaten sowie auf bestimmte Einschränkungen des Modells bei der Verarbeitung numerischer Werte zurückzuführen sein.

Dieses Phänomen spiegelt auch den großen Unterschied zwischen LLM und menschlicher Kognition wider: LLM basiert auf statistischen Modellen und Mustererkennung und nicht auf logischem Denken und konzeptionellem Verständnis wie Menschen.

Zu diesem Zeitpunkt scheint der Fall gelöst zu sein.

Warum passiert das?Das LLM-Gehirn aufschneiden

Wir können jedoch die Gehirne von LLMs weiter analysieren und analysieren, warum sie so denken.

Bevor der Text an LLM gesendet wird, prüft das Modell die Eingabe über das Token.

Dem Token wird im Vokabular des Tokenizer-Generators von LLM eine ID zugewiesen, die digitale Aufteilung des Tokens ist jedoch häufig inkonsistent.

Beispielsweise wird der Wert „380“ in GPT als einzelnes „380“-Token markiert, „381“ wird jedoch als zwei Token „38,1“ dargestellt.

Daher eignen sich GPT-basierte Modelle in der Regel nicht für mathematische Berechnungen.

Im Kommentarbereich wies Professor Dimitris Papailiopoulos von der University of Wisconsin darauf hin, dass es eine gute Erklärung für dieses Phänomen gibt.

Das Problem „9.11>9.9“ ist genau dasselbe wie das Problem „Es braucht drei Fahrten, um die Ziege über den Fluss zu bringen“ und das Problem „2+1=2, 3+2=4, 3+5=8“.

Dies ist ein Phänomen der Voreingenommenheit vor dem Training und des frühen Aufstiegs.

Wenn die Frage wie folgt gestellt wird: „9.11??? 9.9, verwenden Sie einfach groß oder klein, um zu antworten, was??? ist, ist keine Angabe eines Grundes erforderlich.“ Zu diesem Zeitpunkt gibt GPT-4o zunächst eine falsche Antwort: "groß".

An dieser Stelle geben wir einige weitere Beispiele (beachten Sie, dass diese Beispiele nicht ganz korrekt sind). Nach Aufforderung sagt GPT-4o korrekt, dass „klein“ bedeutet.

Claudes eigene Erklärung hierfür lautet: LLM verarbeitet Text als Token, was dazu führt, dass Zahlen eher wie Textzeichenfolgen als numerische Werte wirken, die durch kontextbezogene Missverständnisse usw. verursacht werden.

Auch beim „Wolf-Ziegen-Kohl“-Problem scheiterten alle LLMs.

Er nannte zunächst das Beispiel eines Bauern, der zwei Hühner über den Fluss bringt. Ein Boot kann also eine Person und zwei Tiere aufnehmen.

In dieser Hinsicht scheiterten sowohl GPT-4o als auch Claude.

Einige Internetnutzer erklärten dies: LLM selbst sei „dumm“, also brauche er gute Tipps. Die obige Eingabeaufforderungsmethode liefert zu viele unnötige Informationen, was die Token-Vorhersage schwieriger macht.

Wenn klarere Hinweise gegeben werden, kann LLM klarere Lösungen anbieten.

Und das ist es tatsächlich.

Und wenn man „Tier“ statt „Huhn“ verwendet, dann hat Claude 3.5 Sonnet plötzlich alles richtig gemacht. Der Trick ist: Sie müssen den „Entitätsnamen“ durch den „allgemeinen Namen“ ersetzen.

Wie bereits erwähnt, hatte der Informatiker Yejin Choi bereits in seiner Rede im April 2023 den Mangel an gesundem Menschenverstand bei LLM angesprochen.

Wenn es beispielsweise fünf Stunden dauert, bis fünf Kleidungsstücke in der Sonne vollständig getrocknet sind, wie lange dauert es dann, 30 Kleidungsstücke zu trocknen?

Laut GPT-4 dauert es 30 Stunden. Das ist offensichtlich nicht richtig.

Nehmen wir als weiteres Beispiel an, ich habe einen 12-Liter-Topf und einen 6-Liter-Topf. Was soll ich tun, wenn ich 6 Liter Wasser abmessen möchte?

Die Antwort ist einfach: Verwenden Sie einfach einen 6-Liter-Krug.

GPT-4 gab jedoch eine sehr komplizierte Antwort:

„Der erste Schritt besteht darin, den 6-Liter-Topf zu füllen. Der zweite Schritt besteht darin, das Wasser aus dem 6-Liter-Topf in den 12-Liter-Topf zu gießen. Der dritte Schritt besteht darin, den 6-Liter-Topf erneut zu füllen. Der vierte Schritt besteht darin, sehr vorsichtig vorzugehen.“ Gießen Sie das Wasser aus dem 6-Liter-Topf in den 12-Liter-Topf. Schließlich haben Sie 6 Liter Wasser im 6-Liter-Topf, der jetzt leer sein sollte.

Die Frage ist also: Warum ist gesunder Menschenverstand so wichtig?

In einem berühmten Gedankenexperiment von Nick Bostrom wurde eine KI gebeten, die Produktion von Büroklammern zu maximieren. Daraufhin beschloss die KI, Menschen zu töten und sie als zusätzliche Ressource zu nutzen.

Und selbst wenn wir ein besseres Ziel und eine bessere Gleichung aufstellen würden, die ausdrücklich besagt: „Töte keine Menschen“, würde es nicht funktionieren.

Denn eine KI ohne ein grundlegendes Verständnis menschlicher Werte könnte einfach alle Bäume töten und denken, das sei eine völlig akzeptable Sache.

Der gesunde Menschenverstand wurde im Bereich der KI jahrzehntelang als eine nahezu unlösbare Herausforderung angesehen.

Bislang war es nur ein Wunschtraum, der KI echten menschlichen Menschenverstand zu verleihen. Und man kann den Mond nicht erreichen, indem man das höchste Gebäude der Welt jeweils um einen Zentimeter erhöht.

Aus Sicht des Lernalgorithmus sind große Sprachmodelle, egal wie erstaunlich sie sind, möglicherweise nicht von Natur aus als zuverlässige Wissensmodelle geeignet.

Diese Modelle erwerben zwar viel Wissen, dies ist jedoch eher ein Nebenprodukt als ein direktes Lernziel.

Daher treten auch Probleme wie Halluzinationsphänomene und mangelnder gesunder Menschenverstand auf.

Im Gegensatz dazu geht es beim menschlichen Lernen nicht darum, das nächste Wort vorherzusagen, sondern darum, die Welt zu verstehen und zu lernen, wie sie funktioniert.

Vielleicht sollte die KI auch so lernen.

Heute ist KI fast wie eine neue intellektuelle Spezies mit einzigartigen Vor- und Nachteilen im Vergleich zum Menschen.

Um diese Art leistungsstarker KI nachhaltig und menschlich zu machen, ist es dringend erforderlich, der KI gesunden Menschenverstand, Normen und Werte zu vermitteln.

Verweise: