Belegung

Große Modelle unterscheiden sich bei der Lösung mathematischer Probleme deutlich von Menschen: Der Mangel an Wissen ist offensichtlich und GPT-4o schneidet am besten ab

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren dieses Artikels stammen von der Beijing University of Posts and Telecommunications, Tencent WeChat, der Huazhong University of Science and Technology und dem Beijing Institute of Technology. Autorenliste: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen, Zhang Honggang. Unter ihnen ist der Co-Erstautor Qiao Runqi Doktorand an der Universität für Post und Telekommunikation Peking, Tan Qiuna ist Masterstudent an der Universität für Post und Telekommunikation Peking und der korrespondierende Autor ist außerordentlicher Professor Zhang Honggang von der Universität für Post und Telekommunikation Peking und Telekommunikation Dieser Artikel wurde von Qiao Runqi während seines Praktikums bei WeChat verfasst.

Mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz sind multimodale Großmodelle (LMMs), die mehrere modale Informationen verarbeiten können, nach und nach zu einem Forschungsschwerpunkt geworden. Durch die Integration von Informationen aus verschiedenen Modalitäten zeigen LMMs bestimmte Argumentations- und Verständnisfähigkeiten und leisten gute Leistungen bei Aufgaben wie der visuellen Beantwortung von Fragen, der Bilderzeugung und dem modalübergreifenden Abruf. Aufgrund dieser multimodalen Fähigkeit verfügen LMMs über ein großes Anwendungspotenzial in verschiedenen komplexen Szenarien. Um rigoros und wissenschaftlich zu testen, ob KI über starke Denkfähigkeiten verfügt, ist die Beantwortung mathematischer Fragen zu einem wichtigen Maßstab für die Messung der Denkfähigkeiten von Modellen geworden.

Wenn wir auf die Entwicklungsgeschichte der KI zurückblicken, stellen wir fest, dass die menschliche Kognition und die Art und Weise, wie wir über Probleme denken, einen tiefgreifenden Einfluss auf die Entwicklung der KI hatten. Durchbrüche wie neuronale Netze und Aufmerksamkeitsmechanismen stehen in engem Zusammenhang mit menschlichen Denkmustern. Stellen Sie sich vor, dass Menschen bei der Beantwortung einer mathematischen Frage zunächst mit den in der Frage untersuchten Wissenspunkten vertraut sein müssen und dann relevantes Wissen nutzen müssen, um schrittweise Überlegungen anzustellen, um zur Antwort zu gelangen. Aber wenn das Modell antwortet, stimmt sein Denkprozess mit dem des Menschen überein?

Als wir uns auf mathematische Probleme konzentrierten, stellten wir fest, dass das Modell zwar komplexe Fragen beantworten kann, einige einfache Fragen jedoch nicht beantworten kann. Um die Gründe für dieses Phänomen zu erforschen, haben wir, inspiriert vom menschlichen Problemlösungs-Denkmodell, zunächst den Problemlösungsprozess modelliert, indem wir zunächst die Wissenspunkte beherrschen und sie dann für logisches Denken wie folgt verwenden:



Unter ihnen repräsentieren (X, Y) und (x_i, y_i) das mathematische Problem bzw. die Fragen und Antworten in jedem Unterproblem, und P_reason repräsentiert die umfassende Anwendungsfähigkeit (Wissensverallgemeinerung) von LMMs. Auf dieser Grundlage baute We-Math zunächst ein mehrstufiges Baumwissenssystem auf, das auf 67 atomaren Wissenspunkten basiert, und zerlegte dann basierend auf atomarem Wissen und Argumentationsantworten komplexe Probleme mit mehreren Wissenspunkten in mehrere atomare Wissenspunkte. Entsprechende Unterfragen werden verwendet, um den Antwortmechanismus des Modells zu untersuchen.



  • Titel: WE-MATH: Erreicht Ihr großes multimodales Modell ein menschenähnliches mathematisches Denken?
  • Papier: https://arxiv.org/pdf/2407.01284
  • Startseite: https://we-math.github.io/
  • Code: https://github.com/We-Math/We-Math
  • Datensatz: https://huggingface.co/datasets/We-Math/We-Math

We-Math belegt derzeit den ersten Platz in der HuggingFace-Tageszeitung des Tages und hat mehr als 10.000 Aufrufe auf Twitter!



We-Math Benchmark

1. Datenzusammensetzung

Der We-Math-Bewertungsdatensatz enthält insgesamt 6,5.000 multimodale Grundschul-Mathematikaufgaben und eine mehrstufige Wissensstruktur. Jede Mathematikaufgabe verfügt über entsprechende Wissenspunkte (1-3). Die Wissenspunkte aller Fragen werden durch eine 5-schichtige Wissensarchitektur mit 99 Knoten abgedeckt (die letzte Schicht enthält 67 Wissenspunkte). Und wie in der Abbildung unten gezeigt, beziehen wir uns auf das Lehrbuch und Wikipedia und führen heuristisch die Beschreibung von 67 Wissenspunkten ein, um die inhärenten Probleme des Modells bei der Lösung des Problems zu lindern und so die notwendigen Wissenstipps für den Argumentationsprozess bereitzustellen LMMs.





2. Teilen Sie die Frage auf

Um den Antwortmechanismus des Modells angemessen zu bewerten, haben wir uns strikt an den Standardantworten menschlicher Antworten orientiert und die komplexe Frage entsprechend den in der komplexen Frage enthaltenen Wissenspunkten in n Unterfragen zerlegt, wobei n die Anzahl der Wissenspunkte darstellt Punkte, die in der komplexen Frage enthalten sind.

Wie in der folgenden Abbildung dargestellt, geht Mary vom nördlichsten Punkt eines kreisförmigen Blumenbeets am Rand des Blumenbeets entlang bis zum östlichsten Punkt. Finden Sie die Fläche des kreisförmigen Beets Blumenbeet. Bei der Lösung des Problems müssen Sie zunächst anhand des Wissenspunkts „Südosten, Nordwesten“ und durch die Bedingungen des „Nordwestens“ den zentralen Winkel ermitteln, der dem Weg entspricht, den Maria gegangen ist (der „nördlichste“). und „östlichste“ Richtungen. Der Winkel zwischen dieser und der „östlichsten“ Richtung beträgt 90 Grad. Basierend auf dem Wissenspunkt „Umfang eines Kreises“ und der Bedingung, dass der Mittelpunktswinkel des Kreises 90 Grad beträgt und der Länge des Weges, den Maria gegangen ist, wird dann der Umfang des kreisförmigen Blumenbeets berechnet und der Radius von Es entsteht das runde Blumenbeet. Schließlich wird gemäß dem Wissenspunkt „Fläche eines Kreises“ und durch die Bedingungen des erhaltenen Radius die Fläche des kreisförmigen Blumenbeets berechnet und die Lösung des Problems abgeschlossen.

Bei der Analyse des oben genannten Problemlösungsprozesses kann die ursprüngliche Frage entsprechend den entsprechenden Wissenspunkten in drei Unterfragen unterteilt werden, um den Antwortmechanismus des Modells und die feinkörnige Argumentationsleistung des Modells zu untersuchen. Mary geht von einem Kreis aus. Finden Sie vom nördlichsten Punkt des Blumenbeets bis zum östlichsten Punkt am Rand des Blumenbeets den Grad des Mittelpunktswinkels, der dem Bogen des Weges entspricht, den sie zurückgelegt hat. Zweite Frage: In einem kreisförmigen Blumenbeet Die Bogenlänge, die einem 90-Grad-Zentralwinkel entspricht, beträgt 59,24 m. Finden Sie den Radius des kreisförmigen Blumenbeets. Dritte Frage: Finden Sie die Fläche des kreisförmigen Blumenbeets mit einem Radius von 32 m.



3. Metriken

Auf dieser Grundlage führen wir, wie in der folgenden Abbildung dargestellt, einen neuen vierdimensionalen Messstandard ein, nämlich unzureichende Wissensbeherrschung (IK), unzureichende Generalisierungsfähigkeit (IG), vollständige Beherrschung (CM) und Auswendiglernen (RM).

  • Unzureichendes Wissen (IK): Das Modell kann komplexe Fragen nicht beantworten und es treten Fehler in Unterfragen auf. Wir vermuten, dass der Grund dafür, dass das Modell komplexe Fragen nicht beantworten kann, in unzureichendem Wissen über Wissenspunkte liegt.
  • Unzureichende Generalisierungsfähigkeit (IG): Das Modell kann komplexe Fragen nicht beantworten, aber alle Unterfragen werden korrekt beantwortet. Wir vermuten, dass der Grund dafür, dass das Modell komplexe Fragen nicht beantworten kann, in der mangelnden umfassenden Anwendungsfähigkeit (Generalisierungsfähigkeit) liegt.
  • Vollständige Beherrschung (CM): Das Modell kann komplexe Fragen beantworten und alle Unterfragen beantworten. Dieses Phänomen ist vernünftig und zu erwarten.
  • Rotes Lernen (RM): Ein Modell kann komplexe Fragen beantworten, aber in Teilfragen treten Fehler auf. Dies steht im Widerspruch zum menschlichen logischen Denken. Wenn ein Modell komplexe mehrstufige Probleme lösen kann, kann es die erforderlichen Fragen im Lösungsprozess nicht beantworten Wir halten diese Situation für unzumutbar und betrachten den Fall, dass das Modell über ein mechanisches Gedächtnis verfügt.



Darunter gibt es IK zwischen IK, IG und CM

Experimente und Schlussfolgerungen

We-Math hat derzeit Evaluierungen von 17 großen Modellen abgeschlossen, darunter insgesamt 4 Closed-Source-Modelle und 13 Open-Source-Modelle. Tabelle 1 und Abbildung 6 zeigen die Ergebnisse von LMMs unter verschiedenen Anzahlen von Wissenspunkten und die Leistung des Modells unter den Wissenspunkten der zweiten Ebene. Tabelle 2 und Abbildungen 7, 8 und 9 zeigen die Ergebnisse von LMMs unter vierdimensionalen Indikatoren und umfassende Bewertungsergebnisse unter strengen und lockeren Standards. Abbildung 10 zeigt die Minderungsergebnisse der KCA-Strategie für das Modell bei IK-Problemen.

Die Leistung von LMMs unter unterschiedlicher Anzahl von Wissenspunkten und ihre Leistung unter der zweiten Ebene von Wissenspunkten



  • Es besteht eine offensichtliche negative Korrelation zwischen der Antwort des Modells und der Anzahl der in der Frage enthaltenen Wissenspunkte. Das heißt, je mehr Wissenspunkte in der Frage enthalten sind, desto weniger ideal ist die Antwort des Modells. Wir schlagen außerdem vor, dass die Schwierigkeit einer Frage durch die Anzahl der darin enthaltenen Wissenspunkte modelliert werden kann.
  • Das Modell schneidet bei berechnungsbezogenen Wissenspunkten besser ab und schneidet bei feinkörnigen visuellen Problemen schlecht ab. Es zeigt auch, dass LMMs gut in der Anwendung von Formeln sind, aber immer noch Einschränkungen beim Verstehen und Synthetisieren von angewandtem Wissen haben.
  • GPT-4o schneidet am besten ab, da es bei Fragen mit einer unterschiedlichen Anzahl an Wissenspunkten die Nase vorn hat und grundsätzlich bei verschiedenen Wissenspunkten die Nase vorn hat.
  • LMMs weisen ein gewisses Potenzial zur Parameterkomprimierung auf. Unter den anderen LMMs kommt LLaVA-NeXT-110B der GPT-4 am nächsten. Überraschenderweise zeigten trotz der kleinen Parameterskala auch Modelle wie InternVL-Chat-V1.5, GLM-4V-9B und InternLM-XC2 eine gute Leistung.

Die Leistung von LMMs unter vierdimensionalen Indikatoren und ihre umfassenden Bewertungsergebnisse unter strengen und lockeren Standards





  • Die meisten Modelle leiden unter den Problemen „unzureichendes Wissen“ und „Auswendiglernen“, insbesondere bei kleineren Modellen. Darüber hinaus ist „unzureichendes Wissen“ immer noch das Hauptproblem der meisten Modelle.
  • GPT-4o ist anderen Modellen in der Messdimension „Auswendiglernen“ deutlich voraus, was weiter verdeutlicht, dass GPT-4o näher an menschlichen Problemlösungsmethoden ist und die präsentierten Ergebnisse zuverlässiger sind, was bedeutet, dass das Modell dies getan hat wirklich erlerntes Wissen statt „auswendiglernen“.
  • GPT-4o ist anderen Modellen in der Messdimension „unzureichende Wissensbeherrschung“ deutlich voraus. Es ist schrittweise in die nächste Stufe übergegangen und muss seine „Fähigkeit zur Wissensverallgemeinerung“ weiter verbessern.

Leistung von LMMs im Rahmen der KCA-Strategie



  • Die Gesamtleistung des Modells hat sich im Rahmen der KCA-Strategie verbessert. Wie in der Abbildung oben gezeigt, zeigen LMMs mit unterschiedlichen Parametergrößen nach der Einführung der KCA-Strategie konsistente Leistungsverbesserungen sowohl bei strengen als auch bei losen Indikatoren.
  • Die KCA-Strategie lindert das IK-Problem erheblich, die Verbesserung des IG-Problems ist jedoch nicht offensichtlich. Dies steht im Einklang mit der menschlichen Intuition, da die Wissensbeschreibung hauptsächlich Lücken im schlussfolgernden Wissen adressiert. Um das IG-Problem zu lösen, muss jedoch die Fähigkeit von LMMs zur Wissensverallgemeinerung umfassend verbessert werden, was auch die Richtung für zukünftige Forschung aufzeigt.

Zusammenfassen

In diesem Artikel schlagen wir WE-MATH vor, einen umfassenden Benchmark für die feinkörnige Bewertung der Antwortmechanismen von LMMs bei visuellen mathematischen Denkaufgaben. WE-MATH enthält insgesamt 6,5.000 visuelle Mathematikprobleme, die eine mehrstufige Wissensstruktur aus 5 Schichten und 67 Wissenspunkten abdecken. Wir waren Vorreiter bei der Lösung des Problems, indem wir es basierend auf den erforderlichen Wissenspunkten in mehrere Unterprobleme zerlegten und einen neuen vierdimensionalen Indikator für eine feinkörnige Argumentationsbewertung einführten. Durch WE-MATH haben wir die Leistung vorhandener LMMs beim visuellen mathematischen Denken umfassend bewertet und festgestellt, dass eine offensichtliche negative Korrelation zwischen der Antwortleistung des Modells und der Anzahl der in der Frage enthaltenen Wissenspunkte besteht.

Darüber hinaus haben wir festgestellt, dass die meisten Modelle Probleme mit Auswendiglernen (RM) haben und unzureichendes Wissen (IK) die größten Mängel von LMMs sind. Die Hauptherausforderung von GPT-4o hat sich jedoch allmählich von IK zu IG verlagert, was darauf hindeutet, dass es das erste Modell ist, das in die nächste Stufe übergeht. Schließlich beleuchtet unsere Analyse von KCA-Strategien und Fehlerfällen die Entwicklung bestehender LMMs hin zu menschenähnlichem visuellem mathematischem Denken.