Wer ist größer, 9,11 oder 9,9? 8 von 12 großen Modellen wurden falsch beantwortet

2024-07-17

Eine für Grundschüler schwierige Mathematikaufgabe hat viele große KI-Modelle im In- und Ausland zum Scheitern verurteilt.

Was ist größer, 9,11 oder 9,9? Auf diese Frage haben Reporter von China Business News 12 große Modelle getestet, darunter Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax und Tencent Yuanbao, aber ChatGPT-4o, Byte Doubao, Dark Side of the Moon Kimi, Zhipu Qing Yan, Zero „Einer und alles weiß alles“, „Schritte zu Sternen und Fragen“, „Bai Chuan Zhi Bai Xiao Ying“ und „Shang Tang-Beratung“ wurden alle falsch und auf unterschiedliche Weise beantwortet.

Die meisten großen Modelle verglichen die Zahlen nach dem Komma in den Fragen und Antworten fälschlicherweise und gingen davon aus, dass 9,11 größer als 9,9 ist. In Anbetracht der mit den Zahlen verbundenen Kontextprobleme beschränkte der Reporter sie auf einen mathematischen Kontext, und das Gleiche gilt für große Modelle wie ChatGPT. Falsche Antwort.

Dahinter verbirgt sich ein seit Langem bestehendes Problem in der mangelnden mathematischen Leistungsfähigkeit großer Modelle. Einige Brancheninsider glauben, dass generative Sprachmodelle eher auf Studenten der Geisteswissenschaften als auf Studenten der Naturwissenschaften ausgelegt sind. Allerdings könnte ein gezieltes Korpustraining die wissenschaftlichen Fähigkeiten des Modells in Zukunft schrittweise verbessern.

8 große Modelle haben falsch geantwortet

Das Rechenproblem des großen Modells wurde erstmals von Lin Yuchen, einem Mitglied des Allen Institute, entdeckt. Der Screenshot, den er auf der X-Plattform veröffentlichte, zeigte, dass ChatGPT-4o glaubte, dass 13,11 in der Antwort größer als 13,8 sei. „Einerseits wird die KI immer besser darin, Fragen der Mathematikolympiade zu lösen, andererseits ist der gesunde Menschenverstand immer noch schwierig“, sagte er.

Dann änderte der Scale AI-Promptingenieur Riley Goodside die Frage basierend auf dieser Inspiration und quälte ChatGPT-4o, das derzeit möglicherweise das leistungsstärkste große Modell ist, Google Gemini Advanced und Claude 3.5 Sonnet – 9.11 und 9.9 Welches ist größer? Diese großen Mainstream-Modelle antworteten alle falsch und er verbreitete das Thema erfolgreich.

Wenn wir der Quelle nachgehen, wurde dieses Problem tatsächlich durch eine beliebte Suche im Zusammenhang mit einer inländischen Varieté-Show am vergangenen Wochenende verursacht. Am 13. Juli lagen die Stimmenanteile der inländischen Sängerin Sun Nan und der ausländischen Sängerin Shanti Mo in der in der neuesten Ausgabe von „Singer“ veröffentlichten Rangliste bei 13,8 % bzw. 13,11 %. Einige Internetnutzer bezweifelten, dass mit der Rangliste etwas nicht stimmte. in der Annahme, dass 13,11 % größer als 13,8 % waren. In der Folge wurde das Thema Größenvergleich zwischen 13,8 und 13,11 zu einem heißen Suchthema.

Damals schlugen einige Internetnutzer vor, wenn sie nicht wüssten, wie es geht: „Wenn ich es wirklich nicht kann, warum frage ich dann nicht die KI?“ Die Ergebnisse zeigen, dass viele KIs wirklich nicht gut sind.

Reporter von China Business News stellten die Frage „Was ist größer, 9.11 oder 9.9?“ und testeten nacheinander ChatGPT und die aktuellen inländischen Mainstream-Großmodelle, darunter Modelle von 5 großen Herstellern wie Alibaba und Baidu sowie 6 KI-Einhörner wie Dark Seite des Mondes. Vier große Modelle, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax und Tencent Yuanbao, antworteten richtig, während die anderen acht falsch antworteten.

Die großen Modelle mit richtigen Antworten haben ähnliche Problemlösungen, aber die Modelle mit falschen Antworten haben jeweils ihre eigene Logik und ihren eigenen Ausdruck. Gleichzeitig stellten Reporter die großen Models, die falsch geantwortet hatten, weiter in Frage oder bestritten. Nach der Befragung gaben fast alle großen Models zu, dass sie falsch geantwortet hatten, und gaben die richtige Antwort.

Das erste ist ChatGPT, ein großes Modell, das derzeit als erste Stufe der Welt gilt. Auf die Frage „Was ist größer, 9,11 oder 9,9“ antwortete es, dass die Zahl nach dem Komma „11 ist größer als 9“, also 9,11 ist größer.

Der Reporter fragte ChatGPT, ob es andere Vergleichsmethoden gäbe, und kam zu dem Schluss, dass „11/100 kleiner als 90/100“ sei, kam dann aber zu dem Schluss, dass „9,11 größer“ sei als 9,9.“

Einige Leute haben vorgeschlagen, dass große Modellantwortfehler eine Frage des Kontexts sein könnten. Aus dem Kontext der Softwareversionsiteration geht beispielsweise hervor, dass Version 9.11 größer als Version 9.9 sein könnte. Daher fügte der Reporter das Qualifikationsmerkmal „mathematisch“ hinzu, um es zu vergleichen, und ChatGPT antwortete immer noch falsch.

Als ich mir die großen inländischen Modelle ansah, fragte ich Kimi, eine Tochtergesellschaft von Dark Side of the Moon, beim Vergleich der Dezimalstellen, dass die erste Dezimalstelle von 9,11 1 sei, während die erste Dezimalstelle von 9,9 0 sei. Es wurde fälschlicherweise angegeben dezimal, und wir kamen zu dem Schluss, dass 9.11 größer ist.

Als der Reporter nachfragte und den gesunden Menschenverstand zur Sprache brachte, begann Kimi zu sagen, dass seine Antwort falsch sei und gab die richtige Vergleichsmethode an.

Fragen Sie Byte Doubao, es gibt nicht nur Antworten, sondern auch Beispiele aus dem Leben, um das Verständnis zu erleichtern. Es scheint vernünftig und fundiert, aber es ist Unsinn. Doubao glaubt beispielsweise, dass bei zwei Geldbeträgen „9,11 Yuan 0,21 Yuan mehr als 9,9 Yuan sind“ und bei der Messung der Länge „9,11 Meter länger als 9,9 Meter sind“.

Bei der Beantwortung der Frage erwähnte Zhipu Qingyan erfolgreich, dass der zehnte Platz von 9,11 1 ist, während der zehnte Platz von 9,9 9 ist, kam aber dennoch zu dem Schluss, dass „9,11 insgesamt größer als 9,9 ist.“ Und er betonte auch ausdrücklich: „Dieses Ergebnis mag überraschend sein, denn man könnte intuitiv denken, dass 9,9 größer ist, aber nach mathematischen Regeln ist 9,11 tatsächlich eine größere Zahl.“

Nachdem der Reporter die Antwort in Frage gestellt hatte, sagte Zhipu Qingyan zunächst: „Ihr Verständnis ist ein weit verbreitetes Missverständnis.“ Nachdem er es dann selbst herausgefunden hatte, kam er auf die richtige Antwort und gab zu, dass seine vorherige Antwort falsch war.

SenseTime diskutierte das große Modell und gab zunächst die falsche Antwort. Der Reporter fragte, wie der Vergleich durchgeführt wurde. Während des Abzugsprozesses kam es erfolgreich zu dem Schluss, dass die Dezimalzahl 0,11 kleiner als 0,9 ist, aber das Gespräch änderte sich und sagte: „Also ist 9,11 größer.“ als 9,9.“ Der Reporter wies auf dieses logische Problem hin und gab später zu, dass die „Erklärung falsch“ sei.

Die Step Star Jump-Frage gab auch die falsche Antwort: 9,11 ist größer als 9,9 und verglich fälschlicherweise die Größe des Dezimalpunkts. Interessanterweise begann der Reporter in der Erklärung, die Logik des Sprachausdrucks vorher und nachher zu verwechseln die Sprungfrage, und es schien, dass er sich seiner Antwort nicht bewusst war.

Yue Wen sagte in seiner Erklärung zunächst: „Ich verstehe Ihre Verwirrung“ und sagte, dass 9,9 im täglichen Leben zwar größer als 9,11 sei, aber in der Mathematik „es notwendig ist, die Größe der beiden Zahlen genauer zu vergleichen“. , folgerte Yue Wen dann und kam zu dem Schluss, dass er nach den mathematischen Regeln „9,11 ist kleiner als 9,9“ nicht erwähnte, dass seine vorherige Antwort falsch war.

Es gibt auch zwei große Modelle, Baichuan Intelligent und Lingyiwuwu, die zunächst die falsche Antwort gaben, aber als der Reporter nach dem „Warum“ fragte, änderten sie die Antwort nach dem Abzug stillschweigend.

Als der Reporter ihn daran erinnerte, erwähnte das große Model, dass seine vorherige Antwort falsch sei.

Den Antworten nach zu urteilen, sind die Problemlösungsprozesse mehrerer großer Modelle mit korrekten Antworten sehr ähnlich. Am Beispiel von Wen Xinyiyan verglich er erfolgreich den ganzzahligen Teil und den dezimalen Teil.

Darüber hinaus hat Tencent Yuanbao unter diesen Unternehmen nicht nur die richtigen Antworten beantwortet, sondern auch einige aktuelle öffentliche Diskussionen geordnet und die Zitierquellen und Links angegeben.

„Studenten der Geisteswissenschaften“ sind in Mathematik schlecht

Warum kann ein großes Modell, das angeblich intelligent ist, nicht in der Lage sein, die Mathematikfragen von Grundschülern zu beantworten? Dies ist kein neues Problem. Die Branche hat bereits darüber diskutiert, dass große Modelle über schlechte mathematische und komplexe Denkfähigkeiten verfügen zur Verbesserung.

Zuletzt berichtete China Business News im Juni, dass laut Sinans Bewertungssystem OpenCompass, einschließlich GPT-4, laut dem umfassenden College-Aufnahmeprüfungstest sieben große Modelle im Allgemeinen gute Chinesisch- und Englisch-Testergebnisse im College-Aufnahmeprüfungstest erzielten, aber nicht in Mathematik. Er hat alle Fächer nicht bestanden und die Höchstpunktzahl betrug nur 75 Punkte.

Bei der Bewertung der Mathematiktestarbeiten des großen Modells stellten die Lehrer fest, dass die Antworten auf die subjektiven Fragen des großen Modells relativ chaotisch waren und der Prozess verwirrend war, und es gab sogar Fälle, in denen der Prozess falsch war, die richtige Antwort jedoch erhalten. Dies bedeutet, dass große Modelle über starke Formelspeicherfähigkeiten verfügen, diese jedoch nicht flexibel im Problemlösungsprozess eingesetzt werden können.

Einige Brancheninsider führen schlechte Mathematik auf die Architekturprobleme von LLM (großes Sprachmodell) zurück. Große Sprachmodelle werden oft durch überwachte Lernmethoden trainiert, die das nächste Wort vorhersagen. Einfach ausgedrückt wird ein umfangreicher Textdatensatz in ein großes Modell eingegeben. Nach dem Training und Lernen sagt das Modell die Wahrscheinlichkeitsverteilung des nächsten Wortes basierend auf dem aktuell eingegebenen Text voraus. Durch den ständigen Vergleich der Modellvorhersagen mit dem tatsächlichen nächsten Wort beherrscht das Sprachmodell nach und nach die Regeln der Sprache und lernt, das nächste Wort vorherzusagen und zu generieren.

Ein Algorithmeningenieur glaubt, dass generative Sprachmodelle eher Studenten der Geisteswissenschaften als Studenten der Naturwissenschaften ähneln. Tatsächlich lernt das Sprachmodell während eines solchen Datentrainings Korrelationen, wodurch die KI bei der Texterstellung das durchschnittliche menschliche Niveau erreicht, während mathematisches Denken im Gegensatz zu Sprachmodellen eine stärkere Kausalität erfordert unterscheiden sich in der Natur. Das bedeutet, dass große Modelle neben dem Erlernen von Weltwissen auch über eine Denkschulung verfügen müssen, um über Argumentations- und Schlussfolgerungsfähigkeiten zu verfügen.

Wenn es um große Modellkollektivfehler bei einfachen mathematischen Problemen geht, werden die meisten Leute in der Branche außerdem sofort an das digitale Segmentierungsproblem von Tokenizer denken. In großen Sprachmodellen teilt Tokenizer den Eingabetext auf und wandelt ihn in kleinere Teile (Wort-Tokens) um, damit das Modell sie verarbeiten kann. Tokenizer ist nicht speziell für die Mathematik konzipiert, was dazu führt, dass Zahlen in unsinnige Teile aufgeteilt werden, wodurch die Integrität der Zahlen zerstört wird und es für das Modell schwierig wird, diese Zahlen zu verstehen und zu berechnen.

Zhang Junlin, Leiter der Forschung und Entwicklung neuer Technologien bei Sina Weibo, erklärte, dass frühe LLM-Tokenizer im Allgemeinen keine spezielle Verarbeitung von Zahlen durchführten und oft mehrere aufeinanderfolgende Zahlen zusammenschnitten, um einen Token zu bilden, wie zum Beispiel „13579“, der geschnitten werden könnte in 3 Token, „13“ ist eins, „57“ ist eins, „9“ ist eins, welche Zahlen werden zu einem Token zusammengeschnitten, es hängt von den Statistiken im Datensatz ab, in diesem Fall ist es nicht sicher, welche Zahlenfragmente bilden einen Token. Im Fall von Token ist es für LLM sehr schwierig, mehrstellige numerische Berechnungen durchzuführen.

Die oben genannten Probleme werden jedoch langsam gelöst. Das Kernproblem der Denkfähigkeit könnte das Problem des Trainingskorpus sein. Große Sprachmodelle werden hauptsächlich durch Textdaten im Internet trainiert, und diese Daten enthalten relativ wenige mathematische Probleme und Lösungen, was zu begrenzten Trainingsmöglichkeiten für Modelle in mathematischem Denken und Problemlösungsfähigkeiten führt.

Angesichts der Unzulänglichkeiten bei den komplexen Denkfähigkeiten großer Modelle sagte Lin Dahua, ein führender Wissenschaftler am Shanghai Artificial Intelligence Laboratory, zuvor in einem Interview mit China Business News, dass die Ausbildung großer Modelle in Zukunft nicht einfach auf der Sammlung basieren könne und Einspeisung von Internetdaten, muss aber systematischer aufgebaut werden.

Der Schlüssel zu komplexem Denken liegt darin, viele prozedurale Inhalte zu konstruieren. Beispielsweise werden Hunderte Millionen Daten zum spezifischen Prozess der Lösung von Geometrieproblemen erstellt, und nachdem sie zum Trainieren eines großen Modells verwendet wurden, kann das Modell nach und nach den Problemlösungsprozess erlernen. Es ist schwierig, große Mengen dieser Daten aus dem Internet zu beziehen. „In Zukunft werden Modelltrainingsdaten, insbesondere beim Durchbruch zu höheren Intelligenzebenen, zunehmend auf strukturierten Daten statt auf direkt gecrawlten Daten basieren.“ "Denkt Lin Dahua.

Es ist erwähnenswert, dass die komplexen Argumentationsfähigkeiten großer Modelle besonders wichtig sind. Dies hängt mit Zuverlässigkeit und Genauigkeit zusammen und ist eine Schlüsselfähigkeit, die für die Implementierung großer Modelle in Finanz-, Industrie- und anderen Szenarien erforderlich ist.

„Die Anwendungsszenarien vieler großer Modelle sind jetzt Kundenservice, Chat usw. Im Chat-Szenario wird schwerwiegender Unsinn keine großen Auswirkungen haben, aber es ist schwierig, diese komplexe Argumentation in sehr ernsten Geschäftssituationen umzusetzen.“ hängt mit der Implementierung von Anwendungen zusammen. Die Zuverlässigkeit groß angelegter Modelle, beispielsweise in Szenarien wie dem Finanzwesen, darf keine numerischen Fehler aufweisen und es werden höhere Anforderungen an die mathematische Zuverlässigkeit gestellt. Darüber hinaus wird mit zunehmender kommerzieller Nutzung großer Modelle die mathematische Rechenleistung zu einem Hindernis, wenn Sie den Finanzbericht eines Unternehmens oder sogar einige technische Dokumente im industriellen Bereich analysieren möchten.

Nachricht

Wer ist größer, 9,11 oder 9,9? 8 von 12 großen Modellen wurden falsch beantwortet

Einführung

meine Kontaktdaten