Les résultats du « College Entry Examination » du grand modèle d'IA sont annoncés : presque tous sont partiaux en littérature, un peu pauvres en mathématiques, et les idées de résolution de problèmes sont particulièrement « axiales »

2024-07-26

Dès la fin de l'examen national d'entrée à l'université en 2024, OpenCompass, un grand modèle de système d'évaluation open source relevant du laboratoire d'intelligence artificielle de Shanghai, a sélectionné 7 grands modèles d'IA au pays et à l'étranger pour effectuer des tests tous sujets pour l'examen d'entrée à l'université. Les épreuves de test de 7 candidats à l'IA ont été évaluées par des enseignants expérimentés dans l'examen qui jugeront les scores sans connaître l'identité des candidats.

Récemment, les résultats des tests ont été publiés : les scores du grand modèle de langage Wenquxing de la série Shusheng·Puyu 2.0, du grand modèle Ali Tongyi Qianwen Qwen2-72B et GPT-4o se classent parmi les trois premiers parmi tous les candidats à l'IA. En prenant comme référence la ligne de score de la province du Henan de cette année, les scores en arts libéraux de ces trois candidats en IA dépassaient tous la « première ligne », et les scores en sciences étaient fermement au-dessus de la « deuxième ligne ».

En analysant les feuilles de réponses soumises par les candidats à l'IA, l'industrie estime qu'à ce stade, les grands modèles ont une trajectoire de pensée très différente de celle des humains lorsqu'ils résolvent des problèmes de mémoire et de logique, mais cela ouvre également la voie à l'évolution future de l'IA.

A obtenu de bons résultats aux examens de langue, mais les questions de mathématiques à réponse courte sont devenues « un obstacle insurmontable »

Les résultats de ce test montrent que les candidats à l'IA sont quelque peu partiaux pour les matières et qu'ils semblent tous être des « étudiants en arts libéraux ».

Parmi les 7 grands modèles, 4 ont obtenu des scores élevés de plus de 130 au test d'anglais de l'épreuve I de la nouvelle norme pédagogique. Parmi eux, GPT-4o a remporté la première place au test d'anglais et a été apprécié par un professeur de notation d'anglais. sa composition. On dit qu'il a « des modèles de phrases riches et un langage impeccable », mais le nombre de mots est légèrement inférieur, donc 1 point sera déduit le cas échéant.

En outre, les candidats en IA ont également obtenu de bons résultats dans l'épreuve I de la nouvelle norme de cours de langue chinoise : taux de scores moyens supérieurs à 70 % en lecture de chinois moderne, lecture de poésie ancienne, dictée et composition de phrases célèbres.

L'IA est généralement considérée comme ayant d'excellentes capacités en matière de pensée logique. Cependant, dans ce test, les candidats en IA ont été presque complètement éliminés lorsqu'ils ont été confrontés à l'épreuve I de la nouvelle norme du programme de mathématiques, et aucun de leurs résultats n'a atteint la moitié du score total (c'est-à-dire 75points). Les questions mathématiques à réponse courte sont devenues un « obstacle insurmontable » pour ce groupe de candidats. Le score moyen aux cinq questions à réponse courte n'est que de 18,9 %.

Zhang Junping, professeur à l'École d'informatique et de technologie de l'Université de Fudan, a déclaré que les candidats à l'IA qui ont participé au test cette fois sont tous de grands modèles de langage et ont reçu une formation sur le corpus, ils ont donc un avantage lorsqu'ils répondent au langage. papiers. Lors de l’examen des matières mathématiques et physiques, les candidats doivent posséder certaines capacités de raisonnement, et cette capacité a toujours été un défaut des grands modèles.

Le mode de réflexion « système rapide » empêche les candidats IA de « rédiger »

Pourquoi les candidats en IA ont-ils tendance à avoir un faible pour les sujets, et pourquoi sont-ils si partiaux ? De nombreux chercheurs profondément impliqués dans le domaine de l'intelligence artificielle ont souligné que cela a beaucoup à voir avec la manière de « penser » les grands modèles à ce stade.

"Lorsqu'ils posent une question, les gens formulent généralement d'abord des idées pour résoudre le problème, puis y répondent. Mais ce n'est pas le cas de l'IA. Elle le fait simplement par la force, quels que soient les détails. Si cela n'est pas possible, elle le fait sera à nouveau « bricolé »." En rapport avec le Laboratoire d'intelligence artificielle de Shanghai. Le responsable a déclaré aux journalistes que le processus de résolution des questions de mathématiques et de physique est extrêmement incertain. Par conséquent, les candidats humains clarifient généralement leurs idées sur du papier brouillon avant de commencer à répondre aux questions. des questions. En revanche, les grands modèles génèrent des textes de manière séquentielle et n'ont pas la capacité de « faire des brouillons ». Si leurs idées s'égarent au début lorsqu'ils répondent aux questions, il n'y a pratiquement aucune possibilité de récupération.

« Les deux modes de pensée des candidats IA et des candidats humains peuvent être comparés respectivement au « système rapide » et au « système lent » proposés par Daniel Kahneman dans « Penser, rapide et lent », a expliqué Zhang Junping, directeur général de l'IA. génère rapidement des réponses et utilise des calculs de probabilité pour simuler le processus de raisonnement. Les êtres humains s'appuient souvent sur l'accumulation d'expériences pour comprendre les problèmes et peuvent voir les choses de manière holistique et macroscopique, de sorte qu'ils peuvent également voir plus profondément.

Les problèmes exposés dans le test sont également de « nouveaux tests » pour le développement de l'IA.

Dans le cadre du concours de sélection pour l’examen d’entrée à l’université, les humains sont pour l’instant encore loin devant l’IA. "Le but de l'organisation de grands modèles d'IA pour participer à l'examen d'entrée à l'université est d'évaluer le niveau réel des grands modèles actuels, d'identifier les problèmes et de continuer à promouvoir le progrès technologique." les résultats des candidats à l'IA ont également exposé les avantages et les inconvénients des grands modèles. Les faiblesses suggèrent également de nombreuses orientations qui méritent d'être réfléchies pour son développement futur.

Le responsable du Laboratoire d'intelligence artificielle de Shanghai a déclaré aux journalistes que la plupart des modèles n'ont pas encore la capacité de corriger les erreurs par eux-mêmes, et s'ils commettent des erreurs, ils doivent « se battre dur » jusqu'au bout, voire revenir. par des « absurdités ». Par conséquent, l’amélioration des capacités de correction d’erreurs pourrait nécessiter une attention particulière lors de la future formation de grands modèles.

De plus, « l’illusion » des grands modèles existe toujours, et ils constitueront « sérieusement » le contenu. "Dans ce test, certains grands modèles composeront des poèmes, ce qui a fait croire à tort à certains professeurs de correction qu'un certain poème qu'ils ont composé existe réellement, mais ils ne le savent pas." Le responsable du laboratoire d'intelligence artificielle a ajouté : comment améliorer les performances de l'IA Credibility, toujours en cours.

Auteur : Zhang Feiya

Texte : journaliste stagiaire Zhang Feiya Photos : Visual China Rédacteur : Zhang Feiya Rédacteur en chef : Fan Liping

Veuillez indiquer la source lors de la réimpression de cet article.

nouvelles

Les résultats du « College Entry Examination » du grand modèle d'IA sont annoncés : presque tous sont partiaux en littérature, un peu pauvres en mathématiques, et les idées de résolution de problèmes sont particulièrement « axiales »

Introduction

mes coordonnées