Spezialisiert auf die Lösung von Problemen für große Modelle! Der neue Benchmark des Teams von Jia Jiaya ermöglicht es dem Modell, nur Fehler zu erkennen und keine Probleme zu lösen

Spezialisiert auf die Lösung von Problemen für große Modelle!Der neue Benchmark des Jiajiaya-Teams ermöglicht es dem Modell, nur Fehler zu erkennen und keine Probleme zu lösen

2024-07-18

Beitrag vom MR-Ben-Team
Qubits |. Öffentliches Konto QbitAI

Das Problem, in großen Modelltests hohe Ergebnisse zu erzielen, in tatsächlichen Szenarien jedoch eine schlechte Leistung zu erzielen, wurde gelöst.

Das Jiajiaya-Team hat sich mit einer Reihe bekannter Universitäten zusammengetan, um eine neue Bewertungsmethode vorzuschlagen, die es ermöglicht, dass einige Modelle sofort als Prototypen entstehen.

Jetzt müssen Sie sich keine Sorgen mehr machen, dass das große Modell zu viele „Fragen“ hat und der Testsatz nicht in der Lage ist, das tatsächliche Niveau abzubilden.

Dieser neue Bewertungsdatensatz heißt MR-Ben und nutzt vorhandene Fragen in GSM8K, MMLU und anderen Datensätzen.

Allerdings hat sich die Identität des großen Modells im Test von „Antwortschüler“ zu „Benotungslehrer“ geändert, und die Aufgabe besteht darinWeisen Sie auf Fehler in bestehenden Lösungsschritten hin。

Auf diese Weise kann das Modell die Fragen nicht mehr durch Rezitieren oder Raten treffen, und es besteht kein Grund zur Sorge, dass Testfragen verloren gehen.

Mithilfe von MR-Ben evaluierte das Jiajiaya-Team viele Open-Source- und Closed-Source-Modelle wie GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B usw.

Derzeit sind alle in diesem Datensatz enthaltenen Codes und Daten Open Source.

Bekannte Prüfungsfragen, ganz neue Aufgaben

Derzeit besteht die Hauptrichtung des Testens großer Modelle darin, menschliche standardisierte Tests – Multiple-Choice-Fragen und Lückentextfragen – zu verwenden, um eine Bewertung großer Modelle durchzuführen.

Die Vorteile dieser Testmethode sind klare Standards, intuitive Indikatoren und die quantitativen Ergebnisse sind natürlich aktuell.

Der Autor ist jedoch der Ansicht, dass diese Methode nicht „zuverlässig“ ist, da aktuelle große Modelle im Allgemeinen eine schrittweise Denkkettenmethode verwenden, um die endgültige Antwort zu generieren.

Das Pre-Training-Modell hat während des Pre-Trainings bereits Billionen von Token gesehen.Es ist schwer zu sagen, ob das zu bewertende Modell die entsprechenden Daten bereits gesehen hat, um die Fragen durch „Auswendiglernen“ richtig zu beantworten.

Und weil die Bewertungsmethode hauptsächlich auf der Überprüfung der endgültigen Antwort, des Modells, beruhtEs ist auch nicht bekannt, ob die richtige Option aufgrund des richtigen Verständnisses und der richtigen Argumentation ausgewählt wurde.。

Obwohl die akademische Gemeinschaft weiterhin Datensätze wie GSM8K und MMLU aktualisiert und umwandelt, beispielsweise eine mehrsprachige Version des MGSM-Datensatzes auf GSM8K einführt und schwierigere Fragen auf der Grundlage von MMLU einführt, kann sie das Stereotyp immer noch nicht loswerden Auswählen oder Ausfüllen der Lücken.

Darüber hinaus sind diese Datensätze ernsthaften Problemen ausgesetztSättigungsproblem, Die Werte großer Sprachmodelle für diese Indikatoren haben ihren Höhepunkt erreicht und sie haben allmählich ihre Unterscheidung verloren.

Zu diesem Zweck arbeitete das Jiajiaya-Team mit vielen namhaften Universitäten wie dem MIT, Tsinghua und Cambridge zusammen und kooperierte mit inländischen Annotationsfirmen, um einen Bewertungsdatensatz MR-Ben für den Argumentationsprozess komplexer Probleme zu annotieren.

MR-Ben basiert auf den für das Vortraining erforderlichen Testdatensätzen für GSM8K, MMLU, LogiQA, MHPP und anderen großen Modellen.Der Paradigmenwechsel der „Benotung“Der neu generierte Datensatz ist schwieriger und differenzierter und kann die Argumentationsfähigkeit des Modells besser widerspiegeln!

Es ist nicht erforderlich, Fragen neu zu finden oder die Fragen zu verformen, um die Robustheit des Modells zu testen. MR-Ben ändert das Modell direkt von „Antwort“ auf „Marker“ und bewertet den vorhandenen Antwortprozess im Datensatz Modell sei der Lehrer, um seine Beherrschung der Wissenspunkte zu testen!

Konkret organisierte das Jiajiaya-Team die gängigen Bewertungsdatensätze auf dem Markt wie GSM8K, MMLU, LogiQA, MHPP und andere Datensätze und unterteilte sie in mehrere Kategorien wie Mathematik, Physik, Chemie, Biologie, Code, Logik, Medizin, usw., und auch verschiedene Schwierigkeitsgrade unterschieden.

Für jede Kategorie und jede gesammelte Frage hat das Team sorgfältig den entsprechenden Schritt-für-Schritt-Problemlösungsprozess zusammengestellt und wurde von professionellen Master- und Doktorkommentatoren geschult und kommentiert.

Während des Annotationsprozesses wird durch den Vergleich der Bewertungsergebnisse des großen Modells und der Bewertungsergebnisse menschlicher Experten detailliert aufgezeigt, ob der Problemlösungsprozess korrekt ist, der Ort des Fehlers und die Ursache des Fehlers. Sie können erkennen, wie gut das Modell die Wissenspunkte beherrscht.

Ausgehend von der Bewertungsmethode erfordert die von MR-Ben vorgeschlagene Methode, dass das Modell eine detaillierte Analyse der Prämissen, Annahmen und Logik jedes Schritts im Problemlösungsprozess durchführt und eine Vorschau des Argumentationsprozesses durchführt, um festzustellen, ob der aktuelle Schritt erfolgt kann zur richtigen Antwort führen.

Diese Bewertungsmethode „Markieren“ ist weitaus schwieriger als die Bewertungsmethode, bei der nur Fragen beantwortet werden, kann jedoch das Problem falsch hoher Punktzahlen, die durch das Auswendiglernen von Fragen durch das Modell verursacht werden, wirksam vermeiden. Für einen Schüler, der sich nur Fragen merken kann, ist es schwierig, ein qualifizierter Korrekturlehrer zu werden.

GPT4-Turbo schneidet am besten ab

Das Jiajiaya-Team evaluierte mehrere bekannte große Modelle, und bei einigen Modellen nahmen mehrere Versionen am Test teil.

Es ist ersichtlich, dass GPT4-Turbo unter den Closed-Source-Modellen am besten abschneidet (obwohl bei der „Bewertung“ keine Berechnungsfehler festgestellt wurden). In den meisten Fächern gibt es Demos (k=1) und keine Demos (k=0). sind anderen Modellen voraus.

Die GLM-Modellleistung des Zhipu-Teams belegt den zweiten Platz in der Liste und übertrifft Claudes neuestes 3,5-Sonnet.

Der Unterschied zwischen den verschiedenen Modellen ist jedoch relativ groß. Der stärkste GPT4-Turbo erreichte im MR-Ben-Datensatz eine Punktzahl von weniger als 50. Es ist zu erkennen, dass seine Leistung noch nicht ausgeschöpft ist.

Darüber hinaus haben einige Open-Source-Modelle mit starker Leistung bereits einige kommerzielle Modelle eingeholt.

Darüber hinaus entdeckte das MR-Ben-Team während seiner Arbeit auch einige interessante Phänomene, wie zum Beispiel:

In ressourcenarmen Szenarien haben auch kleine Modelle viele Highlights. In der MR-Ben-Bewertung stach Phi-3-mini unter den kleinen Modellen hervor, sogar größer oder gleich groß wie große Modelle mit Dutzenden von Milliarden Parametern, was dies demonstriert Wichtigkeit der Feinabstimmung von Daten.
Die MR-Ben-Szene enthält komplexe logische Analysen und schrittweise Schlussfolgerungen. Ein zu langer Kontext im Wenig-Schuss-Modus führt zu Verwirrung im Modell und zu Leistungseinbußen.
MR-Ben wertete viele Generation-Reflexions-Regeneration-Ablationsexperimente aus, um die Unterschiede zwischen verschiedenen Aufforderungsstrategien zu überprüfen. Er stellte fest, dass dies keine Auswirkungen auf Modelle auf niedriger Ebene hatte und die Auswirkungen auf Modelle auf hoher Ebene wie GPT4-Turbo nicht offensichtlich waren . Im Gegenteil, bei Modellen mittlerer Ebene ist der Effekt leicht verbessert, da immer die falschen korrigiert werden und die richtigen korrigiert werden.
Nach einer groben Einteilung der von MR-Ben bewerteten Themen in wissensbasierte, logische, rechnerische und algorithmische Typen haben verschiedene Modelle ihre eigenen Vor- und Nachteile bei unterschiedlichen Argumentationstypen.

Das Jiajiaya-Team hat eine Ein-Klick-Bewertungsmethode auf Github hochgeladen. Die Menge der in einem Test verbrauchten Token beträgt etwa 12 Millionen. Entwickler können ihre eigenen Modelle bewerten und einreichen, und das MR-Ben-Team wird die entsprechende Bestenliste zeitnah aktualisieren Benehmen.

Papieradresse:
https://arxiv.org/abs/2406.13975
Projekthomepage:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github-Repository:
https://github.com/dvlab-research/Mr-Ben

Nachricht

Spezialisiert auf die Lösung von Problemen für große Modelle!Der neue Benchmark des Jiajiaya-Teams ermöglicht es dem Modell, nur Fehler zu erkennen und keine Probleme zu lösen

Bekannte Prüfungsfragen, ganz neue Aufgaben

GPT4-Turbo schneidet am besten ab

Einführung

meine Kontaktdaten