Nachricht

Die Ergebnisse der „College Entrance Examination“ des KI-Großmodells werden bekannt gegeben: Fast alle sind teilweise in Literatur, etwas dürftig in Mathematik und die Problemlösungsideen sind besonders „axial“

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Sobald die Aufnahmeprüfung für das National College im Jahr 2024 endete, wählte OpenCompass, ein Open-Source-Open-Evaluationssystem für große Modelle des Shanghai Artificial Intelligence Laboratory, sieben große KI-Modelle im In- und Ausland aus, um fachübergreifende Tests für die Aufnahmeprüfung für das College durchzuführen. Die Prüfungsunterlagen von 7 KI-Kandidaten wurden von Lehrern mit Erfahrung in der Prüfung bewertet, die die Ergebnisse beurteilen, ohne die Identität der Kandidaten zu kennen.

Kürzlich wurden die Testergebnisse veröffentlicht: Die Ergebnisse des großen Wenquxing-Sprachmodells der Shusheng·Puyu 2.0-Serie, des großen Ali Tongyi Qianwen-Modells Qwen2-72B und des GPT-4o rangierten unter allen KI-Kandidaten unter den ersten drei. Nimmt man die diesjährige Ergebnislinie der Provinz Henan als Referenz, so übertrafen die Ergebnisse dieser drei KI-Kandidaten in den Geisteswissenschaften alle die „erste Linie“ und die Ergebnisse in den Naturwissenschaften lagen deutlich über der „zweiten Linie“.

Bei der Analyse der von KI-Kandidaten eingereichten Antwortbögen geht die Branche davon aus, dass große Modelle zum jetzigen Zeitpunkt bei der Lösung von Gedächtnis- und Logikproblemen eine ganz andere Denkweise haben als Menschen, was aber auch den Weg für die zukünftige Entwicklung der KI weist.

Hat in Sprachprüfungen gut abgeschnitten, aber Mathe-Kurzantwortfragen wurden zu einer „unüberwindbaren Hürde“

Die Ergebnisse dieses Tests zeigen, dass die KI-Kandidaten eine gewisse Vorliebe für Fächer haben und alle „Studenten der freien Künste“ zu sein scheinen.

Von den 7 großen Modellen erreichten 4 im Englischtest von Paper I des neuen Lehrplanstandards hohe Punktzahlen von mehr als 130. Unter ihnen gewann GPT-4o den ersten Platz im Englischtest und wurde von einem Englisch-Bewertungslehrer dafür geschätzt Es wird gesagt, dass es „reiche Satzmuster und eine makellose Sprache“ hat, aber die Anzahl der Wörter ist etwas geringer, daher wird entsprechend 1 Punkt abgezogen.

Darüber hinaus schnitten die KI-Kandidaten auch in Aufgabe I des neuen Chinesisch-Sprachkursstandards gut ab: durchschnittliche Punktzahlen über 70 % beim Lesen von modernem Chinesisch, beim Lesen antiker Gedichte, beim Diktat und Verfassen berühmter Sätze.

Der KI werden im Allgemeinen hervorragende Fähigkeiten im logischen Denken zugeschrieben. In diesem Test schieden die KI-Kandidaten jedoch fast völlig aus, wenn sie sich mit Aufgabe I des neuen Mathematik-Lehrplanstandards konfrontiert sahen, und keiner ihrer Punkte erreichte die Hälfte der Gesamtpunktzahl (d. h. 75 Punkte). Mathematik-Kurzantwortfragen sind für diese Kandidatengruppe zu einer „unüberwindbaren Hürde“ geworden. Die durchschnittliche Punktzahl der fünf Kurzantwortfragen beträgt nur 18,9 %.

Zhang Junping, Professor an der Fakultät für Informatik und Technologie der Fudan-Universität, sagte, dass die KI-Kandidaten, die dieses Mal am Test teilnahmen, alle große Sprachmodelle seien und ein Korpustraining erhalten hätten, sodass sie bei der Beantwortung von Sprache im Vorteil seien Papiere. Bei der Prüfung von Mathematik- und Physikfächern werden von den Kandidaten bestimmte Denkfähigkeiten verlangt, und diese Fähigkeit war schon immer ein Mangel großer Modelle.

Der Denkmodus „Schnelles System“ verhindert, dass KI-Kandidaten „entwerfen“

Warum neigen KI-Kandidaten dazu, eine Vorliebe für Themen zu haben, und warum sind sie so parteiisch? Viele Forscher, die sich intensiv mit der künstlichen Intelligenz befassen, wiesen darauf hin, dass dies viel mit der Art und Weise zu tun hat, wie große Modelle in diesem Stadium „denken“.

„Wenn man eine Frage stellt, formulieren die Leute normalerweise zuerst Ideen zur Lösung des Problems und beantworten sie dann. Aber das ist bei der KI nicht der Fall. Sie macht es einfach mit Gewalt, unabhängig von den Details. Wenn es nicht geht, dann.“ wird wieder „zusammengeschustert“ werden.“ Im Zusammenhang mit dem Shanghai Artificial Intelligence Laboratory Die verantwortliche Person sagte Reportern, dass der Prozess der Lösung mathematischer und physikalischer Fragen äußerst unsicher sei. Daher klären menschliche Kandidaten ihre Ideen normalerweise auf einem Notizpapier, bevor sie mit der Beantwortung beginnen Fragen. Große Modelle hingegen generieren Texte sequentiell und verfügen nicht über die Fähigkeit, „Entwürfe zu erstellen“.

„Die beiden Denkweisen von KI-Kandidaten und menschlichen Kandidaten können mit dem ‚schnellen System‘ und dem ‚langsamen System‘ verglichen werden, die Daniel Kahneman in „Denken, schnell und langsam“ vorgeschlagen hat. Zhang Junping erklärte, dass AI General Manager es ist Geben Sie schnell Antworten aus und verwenden Sie Wahrscheinlichkeitsberechnungen, um den Denkprozess zu simulieren. Menschen verlassen sich häufig auf die Anhäufung von Erfahrungen, um Probleme zu verstehen, und können die Dinge ganzheitlich und makroskopisch sehen, sodass sie auch tiefer blicken können.

Die in der Testarbeit aufgedeckten Probleme sind auch „neue Testpapiere“ für die Entwicklung von KI.

Im Auswahlwettbewerb zur Hochschulaufnahmeprüfung liegt der Mensch vorerst noch weit vor der KI. „Der Zweck der Organisation großer KI-Modelle zur Teilnahme an der College-Aufnahmeprüfung besteht darin, das wahre Niveau aktueller großer Modelle zu bewerten, Probleme zu identifizieren und den technologischen Fortschritt weiter zu fördern“, betonte der zuständige Verantwortliche des Shanghai Artificial Intelligence Laboratory Die Ergebnisse der KI-Kandidaten haben auch die Vor- und Nachteile großer Modelle aufgezeigt und weisen auf viele Richtungen hin, über die es sich bei der künftigen Entwicklung Gedanken zu machen lohnt.

Der zuständige Verantwortliche des Shanghai Artificial Intelligence Laboratory sagte Reportern, dass die meisten Modelle noch nicht in der Lage seien, Fehler selbst zu korrigieren, und wenn sie Fehler machten, müssten sie bis zum Ende „hart kämpfen“ oder sogar zurückkommen durch „Unsinn“. Daher erfordert die Verbesserung der Fehlerkorrekturfähigkeiten möglicherweise besondere Aufmerksamkeit beim zukünftigen Training großer Modelle.

Darüber hinaus besteht die „Illusion“ großer Modelle immer noch und sie werden „ernsthaft“ den Inhalt ausmachen. „In diesem Test werden einige große Modelle Gedichte erfinden, was dazu führte, dass einige Korrekturlehrer fälschlicherweise glaubten, dass ein bestimmtes Gedicht, das sie erfunden hatten, tatsächlich existierte, aber sie wussten es nicht.“ Die Person, die für das Labor für künstliche Intelligenz verantwortlich ist, fügte hinzu: Wie man die Leistung von AI Credibility verbessern kann, ist noch in Arbeit.

Autor: Zhang Feiya

Text: Azubi-Reporter Zhang Feiya Bilder: Visual China Redakteur: Zhang Feiya Chefredakteur: Fan Liping

Bitte geben Sie beim Nachdruck dieses Artikels die Quelle an.