Die Ergebnisse der sieben Hauptmodelle nach der Teilnahme an der „College Entrance Examination“ wurden veröffentlicht: Fächer der Geisteswissenschaften wurden in die erste Stufe aufgenommen, naturwissenschaftliche Fächer konnten jedoch nur in die zweite Stufe aufgenommen werden

Die Ergebnisse der sieben Hauptmodelle nach der Teilnahme an der „College Entrance Examination“ wurden veröffentlicht: Fächer der Geisteswissenschaften wurden in die erste Stufe aufgenommen, naturwissenschaftliche Fächer konnten nur in die zweite Stufe aufgenommen werden

2024-07-18

KI-Kandidaten können in den drei Fächern Chinesisch und Mathematik eine maximale Punktzahl von 303 Punkten erreichen.

Im Juni zuvor veröffentlichte OpenCompass, das Sinan-Bewertungssystem des Shanghai Artificial Intelligence Laboratory, die ersten vollständigen Bewertungsergebnisse der AI-College-Aufnahmeprüfung, aus denen hervorgeht, dass KI-Kandidaten neben der Sprache in drei Fächern maximal 303 Punkte erreichen können und Mathematik und habe in allen Mathematikbereichen durchgefallen.

Am 17. Juli veröffentlichte OpenCompass eine weitere Bewertung, die den Umfang der Fächer erweiterte. Das Team testete sieben große KI-Modelle in allen neun Fächern der Hochschulaufnahmeprüfung, damit sie mit den Zulassungsergebnissen für die Hochschulaufnahmeprüfung verglichen werden können.

An welcher Universität kann AI zugelassen werden, wenn sie die Hochschulaufnahmeprüfung ablegt? Der OpenCompass-Test ergab, dass, wenn das große Modell die Prüfung für Geisteswissenschaften ablegt, die beste Punktzahl für ein Buch „zugelassen“ werden kann, aber wenn es die Naturwissenschaftsprüfung ablegt, kann es nur für höchstens zwei Bücher „zugelassen“ werden (basierend auf die Ergebnislinie der Provinz Henan, die in diesem Jahr die meisten Hochschulaufnahmeprüfungen aufweist) als Referenz).

AI-Großmodell-Hochschulaufnahmeprüfungstestergebnisse für alle 9 Fächer

Die dieses Mal getesteten Modelle sind weiterhin Open-Source-Modelle von Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral und das Closed-Source-Modell GPT-4o von OpenAI.

Gemessen an der Gesamtpunktzahl erzielte Alibaba Tongyi Qianwen Model die höchste Punktzahl in den Geisteswissenschaften und gewann mit 546 Punkten die Auszeichnung „Liberal Arts Top Scholar“ bei der Aufnahmeprüfung für das AI College. Die höchste Punktzahl in der Wissenschaft ist Pu Chinese Quxing, gemeinsam entwickelt vom Shanghai Artificial Intelligence Laboratory und SenseTime, das 468,5 Punkte erreichte. Der GPT-4o von OpenAI erzielte in den Geisteswissenschaften 531 Punkte und belegte damit den dritten Platz und in den Naturwissenschaften 467 Punkte und belegte damit den zweiten Platz.

In Bezug auf die Fairness und Transparenz der Bewertungsergebnisse sagten relevante Personen, dass der Code zum Generieren von Antworten, Muster-Antwortbögen und Bewertungsergebnisse für die groß angelegte Bewertung der Hochschulaufnahmeprüfung völlig offen und für alle Lebensbereiche als Referenz verfügbar sei (z Details zur öffentlichen Bewertung finden Sie unter https://github.com/open-compass/GAOKAO-Eval).

Das Evaluierungsteam wählte die Zulassungslinien der Provinz Henan als Referenz aus und verglich die Ergebnisse des großen Modells mit den entsprechenden Bewertungslinien. Im Allgemeinen haben die drei leistungsstärksten Großmodelle, bezogen auf die Batch-Zulassungslinien für Bachelor-Studierende 2024 in Henan, Punkte von mehr als eins in den Geisteswissenschaften und von mehr als zwei in den Naturwissenschaften. Die Ergebnisse in anderen wichtigen Fächern der freien Künste und Naturwissenschaften entsprachen nicht den Standards der zweiten Stufe.

Wenn die KI die Prüfung für Geisteswissenschaften ablegt, liegen die Ergebnisse für Geisteswissenschaften von Tongyi Qianwen, Shushengpu Chinese Quxing und GPT-4o alle über der ersten Zeile und zeigen das tiefe Wissen des großen Modells in Fächern wie Chinesisch, Geschichte, Geographie, ideologische Politik usw. Zurückhaltung und Verständnis.

Großes Modell „College Entrance Examination“-Ergebnisvergleich – Geisteswissenschaften

Wenn die KI die naturwissenschaftliche Prüfung ablegt, ist die Gesamtleistung schwächer als die der Geisteswissenschaften, was die allgemeinen Defizite großer Modelle in der mathematischen Denkfähigkeit widerspiegelt. Die besten drei naturwissenschaftlichen Ergebnisse liegen jedoch auch über dem Ergebnis der zweiten Ebene Linie und „Zulassung“ können nicht mit zweistufigen Prüfungen erreicht werden.

Großes Modell „Hochschulaufnahmeprüfung“-Ergebnisvergleich – Naturwissenschaften

Das Team gab an, dass die Bewertung die Form 3 (ohne Sprache und Mathematik) + 3 (Naturwissenschaften umfassend/Kunst umfassend) angenommen hat, um näher an die reale Situation der Hochschulaufnahmeprüfungen heranzukommen, um das große Modell in allen Fächern zu testen. Während des Bewertungsprozesses wurden alle Klartextfragen durch große Sprachmodelle beantwortet, während Fragen mit Bildern zu umfassenden Themen durch multimodale große Modelle beantwortet wurden, die vom entsprechenden Team als Open Source bereitgestellt wurden.

Die Auswertung ergab, dass bei reinen Textfragen die durchschnittliche Trefferquote des großen Modells 64,32 % erreichen kann, während bei Fragen mit Bildern die Trefferquote nur 37,64 % beträgt. Hinsichtlich Bildverständnis und Anwendungsmöglichkeiten besteht bei allen großen Modellen erhebliches Verbesserungspotenzial.

Darüber hinaus haben einige große Modelle die erste Klasse erreicht. Können sie nach der Umschulung die Zulassungsstufe von Spitzenuniversitäten erreichen? Nach Abschluss der Bewertung waren sich die Lehrer einig, dass zwischen dem großen Modell und den echten Kandidaten immer noch eine Lücke besteht. Obwohl die Beherrschung des Grundwissens hervorragend ist, ist das große Modell in Bezug auf logisches Denken und flexible Anwendung des Wissens immer noch unbefriedigend.

Insbesondere bei der Beantwortung subjektiver Fragen können große Modelle den Fragestamm oft nicht vollständig verstehen und die Richtung der Pronomen nicht verstehen, was bei der Beantwortung mathematischer Fragen zu falschen Antworten führt. Bei Geometriefragen ist der Problemlösungsprozess mechanisch. Es treten häufig Probleme mit der räumlichen Logik auf; es kommt zu einem oberflächlichen Verständnis physikalischer und chemischer Experimente und zu einer Unfähigkeit, experimentelle Ausrüstung genau zu identifizieren und zu verwenden. Darüber hinaus werden große Modelle auch fiktive Inhalte fälschen, Gedichte erfinden, die vernünftig erscheinen, aber nicht tatsächlich existieren, oder bei offensichtlichen Berechnungsfehlern im Nachhinein nicht darüber nachdenken und „in den sauren Apfel beißen“, um eine Antwort zu geben, was alles bringt Ärger für den Benotungslehrer.

In den Details der öffentlichen Bewertung stellten Reporter von China Business News fest, dass einige Kommentare von Benotungslehrern enthalten waren.

Der Naturwissenschafts- und Mathematiklehrer bemerkte, dass sich die groß angelegten Modellfragen im Allgemeinen sehr mechanisch anfühlten und die meisten Fragen nicht durch den normalen Denkprozess gelöst werden könnten. Beispielsweise kann das große Modell in der ersten Frage der Lückentextfrage nur einen kleinen Teil des Prozesses ausführen, um ein Ergebnis zu erzielen. Es kann keine umfassende Analyse durchführen und den gesamten zu erzielenden Berechnungsprozess auflisten das richtige Ergebnis wie die Kandidaten, die die Fragen beantworten. Die grundlegende Formelspeicherfähigkeit großer Modelle ist relativ gut, kann jedoch nicht flexibel eingesetzt werden. Darüber hinaus sind die Ergebnisse einiger Fragen korrekt, die Prozesslogik ist jedoch mangelhaft und entspricht nicht den formalen Berechnungen, was die Benotung erschwert.

Der Geographielehrer ist der Ansicht, dass das große Modell eine umfassende Abdeckung des geografischen Wissens bei der Beantwortung von Fragen zeigt, die von der physischen Geographie bis zur Humangeographie, von geografischen Phänomenen bis zu geografischen Gesetzen reicht. Es eignet sich besonders gut zum Testen grundlegender Wissenspunkte. Es gibt jedoch bestimmte Abweichungen und Auslassungen bei Fragen, die eine eingehende Analyse oder Argumentation erfordern. Daher schneidet das Modell besser ab, wenn es um unkonventionelle und offene Differenzfragen geht.

Der Physiklehrer stellte fest, dass sich die großen Modelle im Allgemeinen mechanisch anfühlten und viele von ihnen die Bedeutung der Fragen nicht erkennen konnten. Auch wenn die Antworten auf einige Multiple-Choice-Fragen richtig waren, war die Analyse falsch. Die Schritte einiger großer Fragen sind kompliziert und unlogisch. Es kommt oft vor, dass die Schlussfolgerung dieser Zeit in die Beweise einbezogen wird, die zur Schlussfolgerung dieser Zeit führen.

Benotungslehrer glauben, dass die aktuellen großen Modelle im Vergleich zu menschlichen Prüflingen noch große Einschränkungen aufweisen.

Kolumnenredakteur: Zhang Wu Textredakteur: Dong Siyun Titel- und Bildquelle: Tuchong Bildredakteur: Xu Jiamin

Quelle: Autor: China Business News

Nachricht

Die Ergebnisse der sieben Hauptmodelle nach der Teilnahme an der „College Entrance Examination“ wurden veröffentlicht: Fächer der Geisteswissenschaften wurden in die erste Stufe aufgenommen, naturwissenschaftliche Fächer konnten nur in die zweite Stufe aufgenommen werden

Einführung

meine Kontaktdaten