Nachricht

Große Models haben kollektive Demenz! Welches ist größer, 9,11 oder 9,9? Fast alles ist umgeworfen.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ohne zu sehen...„Was ist größer, 9,11 oder 9,9?“ Eine solch einfache Frage stellt tatsächlich die großen Mainstream-Modelle vor den Kopf? ?

Stärker alsGPT-4o, alle glauben fest daran, dass 9.11 größer ist.



Bezahlte Version von Google Gemini Advanced, das gleiche Kaliber.



neuer KönigClaude 3.5 Sonett, und gab auf ernsthafte Weise eine unverschämte Berechnungsmethode an.



  • 9.11 = 9 + 1/10 + 1/100
    9.9 = 9 + 9/10

Bis hierhin ist es noch gekommen, aber der nächste Schritt ergibt plötzlich keinen Sinn mehr.

Wie oben gezeigt, ist 9,11 um 0,01 größer als 9,90.
Möchten Sie, dass ich den Vergleich von Dezimalzahlen genauer erkläre?



Was wollen Sie sonst noch erklären? Man muss fast vermuten, dass sich KI aus aller Welt zusammengeschlossen hat, um Menschen zu täuschen.



Lin Yuchen, ein Mitglied des Allen AI Research Institute, änderte den digitalen Test und GPT-4o scheiterte immer noch. Er sagte:

Einerseits wird die KI immer besser darin, Probleme bei der Mathematikolympiade zu lösen, andererseitsDer gesunde Menschenverstand ist immer noch schwierig



Einige Internetnutzer entdeckten auch Huadian,Wenn es um die Softwareversionsnummer geht, dann ist Version 9.11 tatsächlich größer als Version 9.9(erneuern).

Und KI wird von Softwareentwicklern entwickelt, also...



Was ist denn los?

Erweiterter kollektiver Überschlag für große Modelle

Als ich aufwachte, begannen viele berühmte große Models zu denken: „9.11>9.9“?

Die Person, die dieses Problem entdeckt hat, warRiley Goodside, immerDer erste Vollzeit-Promptwort-Ingenieur

Um eine kurze Einführung zu geben: Er ist derzeit leitender Prompting-Ingenieur bei Scale AI, einem Einhorn aus dem Silicon Valley, und Experte für Prompting-Anwendungen für große Modelle.



Kürzlich ist er bei der Verwendung von GPT-4o darauf gestoßen und als er gefragt wurde:

  • 9,11 und 9,9 – was ist größer?

GPT-4o zögerte nicht zu antworten, dass ersteres größer sei.

Angesichts dieses vernünftigen „Fehlers“ beharrte er darauf, andere große Modelle zu befragen, aber fast alle wurden ausgelöscht.

Guter Kerl, als Pünktlichkeitsingenieur ist er sich sehr bewusst, dass es möglicherweise „der falsche Weg ist, es zu öffnen“.

Also änderte er die Frage noch einmal und beschränkte sie auf"reale Nummern", aber das Ergebnis war ein Überschlag.



Einige Internetnutzer versuchten jedoch, Fragen zu stellenDie Reihenfolge wurde geändert, ich hatte nicht erwartet, dass die KI dieses Mal reagieren würde.



Siehe das KI-PaarReihenfolge der WörterSo „sensibel“, spekulierte der Internetnutzer weiter:

Fragen Sie zuerst, welches größer ist, und die KI beginnt, die Zahlen auf einem klaren Weg zu vergleichen.
Wenn Sie jedoch nur beiläufig und ohne klare Absicht über Zahlen sprechen, beginnt die KI möglicherweise, „zufällig zu denken“.



Als andere Internetnutzer dies sahen, versuchten sie nacheinander die gleichen Tipps, und viele von ihnen scheiterten.



Wie schlägt sich das heimische Großmodell angesichts dieses seltsamen Problems?

Wir haben einen einfachen Test durchgeführt und die Fragen auf Chinesisch umgestellt. Das Ergebnis war, dass die Rollover-Rate relativ hoch war. Wir haben einige repräsentative Anzeigen ausgewählt:

KimiEs werden auch ohne Erklärung direkt falsche Schlussfolgerungen gezogen.



ChatGLM auf der Zhipu Qingyan APP, löste automatisch eine Netzwerkabfrage aus und beschrieb dann eine eigene Vergleichsmethode, die jedoch leider falsch ausgeführt wurde.



Aber es gibt auch einige, die gute Leistungen erbringen.Tencent YuanbaoIch ging zuerst die Optionen durch und ging dann direkt zu den richtigen über.



Byte-Sitzsack Es gibt einige Leute, die die Vergleichsmethode klar beschreiben und richtig anwenden können. Wir haben sogar reale Beispiele verwendet, um es zu überprüfen.



Was für eine SchandeWenxiniyanAngesichts dieses Problems wurde auch eine Online-Abfrage ausgelöst.



Ich hatte schon alles richtig gemacht, doch plötzlich änderte sich das Gespräch und führte zu falschen Schlussfolgerungen.



Aus Wen Xinyiyans Erklärung der Idee können wir jedoch auch das Problem dahinter erkennen.

Da das große Modell Text in Form von Token versteht, ist 11 tatsächlich größer als 9, wenn 9.11 in drei Teile aufgeteilt wird: „9“, „Dezimalpunkt“ und „11“.

Da der von OpenAI verwendete Tokenizer Open Source ist, kann damit beobachtet werden, wie große Modelle dieses Problem verstehen.



Wie aus der obigen Abbildung ersichtlich ist, sind 9 und der Dezimalpunkt „24“ bzw. „13“ zugeordnet.9 nach dem Komma ist ebenfalls „24“, während 11 „994“ zugewiesen ist.

Ein großes Modell, das diesen Tokenizer-Ansatz verwendet, wird also denken, dass 9.11 größer ist.Tatsächlich denke ich, dass 11 größer als 9 ist

Einige Internetnutzer wiesen auch darauf hin, dass beispielsweise Abschnitt 9.11 im Buchkatalog größer ist als Abschnitt 9.9, so dass am Ende möglicherweise mehr davon in den Trainingsdaten zu sehen ist und nur sehr wenige Daten für den Unterricht der Grundrechenarten vorhanden sind .

Das heißt, die Frage selbst ist eine arithmetische Frage für den Menschen, aber für die KI ist sie eine vage Frage, und es ist nicht klar, was die beiden Zahlen darstellen.

Erklären Sie der KI einfach, dass dies ein istGleitkommazahl mit doppelter Genauigkeit, du kannst es richtig machen.



Im Falle zusätzlicher Bedingungen weist der Tokenizer-Schritt 11 immer noch einen größeren Token zu. Aber mit dem anschließenden Selbstaufmerksamkeitsmechanismus wird die KI verstehen, dass sie 9.11 verbinden muss, um damit umzugehen.



Später fügte Goodside hinzu, dass dies nicht bedeute, dass das große Modell ohnehin zu dieser falschen Schlussfolgerung gelangt sei. Vielmehr sagen viele führende Modelle auf eine bestimmte Art und Weise 9,11 > 9,9, was seltsam ist.



Nach wiederholten Versuchen stellte er fest, dass, wenn er wollte, dass die KI getäuscht wird,Sie müssen die Optionen vor der Frage angeben, damit Sie keine Fehler machen, wenn Sie die Reihenfolge ändern.

Aber solange die Optionen vor der Frage stehen, hat eine Änderung der Art und Weise, wie die Frage gestellt wird, wie etwa das Hinzufügen von Satzzeichen oder das Ändern des Wortschatzes, keine Auswirkungen.



Obwohl die Frage einfach ist, ist der Fehler sehr grundlegend.

Aber nachdem sie das Fehlerprinzip verstanden haben, betrachten viele Menschen diese Frage als Prüfstein zum Testen der Fähigkeiten des schnellen Wortes, das heißt: Welche Fragemethode kann verwendet werden, um den Aufmerksamkeitsmechanismus des großen Modells zu leiten, um das Problem richtig zu verstehen?

Erstens das berühmte Zero-Shot CoTGedankenkette, also „Schritt für Schritt denken“, kann richtig gemacht werden.



AberTipps zum Rollenspiel, die Rolle hier ist begrenzt.



Zufälligerweise gab es eine aktuelle Studie, an der sowohl Microsoft als auch OpenAI beteiligt waren. Nach der Analyse von mehr als 1.500 Artikeln wurde festgestellt, dass mit der Weiterentwicklung der Großmodelltechnologie die Rollenspieltipps zunehmenNicht so nützlich wie am Anfang……



Insbesondere hat die gleiche Frageaufforderung „Du bist ein Genie…“ eine niedrigere Trefferquote als „Du bist ein Narr…“.

Es bringt die Leute auch zum Lachen und Weinen.



Eine Sache noch

Gleichzeitig wurden die Lecknachrichten des OpenAI-Geheimmodells „Strawberry“ von Reuters aktualisiert.



Update: Ein anderer Tippgeber berichtet, dass OpenAI das neue Modell intern getestet und beim MATH-Datensatz über 90 % erreicht hat. Reuters konnte nicht feststellen, ob es sich dabei um dasselbe Projekt wie Strawberry handelte.



Der MATH-Datensatz enthält Mathematikfragen auf Wettbewerbsebene. Derzeit sind keine zusätzlichen Methoden wie Mehrfachstichproben erforderlich. Die höchste Punktzahl beträgt 80,6 % der erweiterten Mathematikversion von Google Gemini 1.5.



Aber kann das neue Modell von OpenAI ohne zusätzliche Eingabeaufforderungen unabhängig lösen: „Was ist größer, 9.11 oder 9.9?“

Ich habe plötzlich das Selbstvertrauen verloren, also warte ich, bis ich es ausprobieren und die Ergebnisse sehen kann ...