nouvelles

Les résultats des sept principaux modèles après avoir participé à « l'examen d'entrée à l'université » ont été publiés : les matières d'arts libéraux étaient admises au premier niveau et les matières scientifiques ne pouvaient être admises qu'au deuxième niveau.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Les candidats en IA peuvent obtenir un score maximum de 303 points dans les trois matières, dont le chinois et les mathématiques.

En juin précédent, OpenCompass, le système d'évaluation Sinan du Laboratoire d'intelligence artificielle de Shanghai, a publié les premiers résultats complets de l'évaluation de l'examen d'entrée à l'université d'IA, montrant que les candidats en IA pouvaient obtenir un maximum de 303 points dans trois matières en plus de la langue. et les mathématiques, et j'ai échoué dans toutes les mathématiques.

Le 17 juillet, OpenCompass a en outre publié une évaluation élargissant la portée des matières. L'équipe a testé sept grands modèles d'IA dans les neuf matières de l'examen d'entrée à l'université, afin qu'ils puissent être comparés aux résultats d'admission à l'examen d'entrée à l'université.

Si AI passe l’examen d’entrée à l’université, dans quelle université peut-elle être admise ? Le test OpenCompass a révélé que si le grand modèle passe l'examen d'arts libéraux, le meilleur score peut être « admis » dans un livre, mais s'il passe l'examen scientifique, il ne peut être « admis » que dans deux livres au maximum (sur la base de la ligne de score de la province du Henan, qui compte le plus grand nombre d'examens d'entrée à l'université cette année) pour référence).


Résultats des tests d'examen d'entrée à l'université sur grand modèle d'IA pour les 9 matières

Les modèles testés cette fois sont toujours des modèles open source d'Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral et le modèle fermé GPT-4o d'OpenAI.

À en juger par le score total, le score le plus élevé en arts libéraux a été le modèle Alibaba Tongyi Qianwen, qui a remporté le titre de « Meilleur chercheur en arts libéraux » à l'examen d'entrée à l'AI College avec un score de 546 points. Le score le plus élevé en science est celui du Pu Chinese Quxing, développé conjointement par le Laboratoire d'intelligence artificielle de Shanghai et SenseTime, qui a atteint 468,5 points. Le GPT-4o d'OpenAI a obtenu un score de 531 en arts libéraux, se classant troisième, et un score de 467 en sciences, se classant deuxième.

Concernant l'équité et la transparence des résultats de l'évaluation, les personnes concernées ont déclaré que le code permettant de générer des réponses, des modèles de feuilles de réponses et des résultats de notation pour l'évaluation à grande échelle de l'examen d'entrée à l'université sont complètement ouverts et disponibles pour référence par tous les horizons (par exemple pour plus de détails sur l'évaluation publique, veuillez visiter https://github.com/open- compass/GAOKAO-Eval).

L'équipe d'évaluation a sélectionné les lignes de lots d'admission de la province du Henan comme référence et a comparé les scores du grand modèle avec les lignes de scores correspondantes. En général, en se référant aux lignes d'admission par lots de premier cycle du Henan 2024, les trois modèles à grande échelle les plus performants ont des scores de plus d'un en arts libéraux et de plus de deux en sciences. Les résultats dans d’autres matières majeures des arts libéraux et des sciences ne répondaient pas aux normes du deuxième niveau.

Si l'IA passe l'examen d'arts libéraux, alors les scores en arts libéraux de Tongyi Qianwen, Shushengpu Chinese Quxing et GPT-4o dépassent tous la première ligne, montrant la connaissance approfondie du grand modèle dans des matières telles que le chinois, l'histoire, géographie, politique idéologique, etc. Réserve et compréhension.


Comparaison des scores de l'examen d'entrée à l'université sur grand modèle - Arts libéraux

Si l'IA passe l'examen scientifique, la performance globale sera plus faible que celle des arts libéraux, ce qui reflète les lacunes générales des grands modèles en matière de capacité de raisonnement mathématique. Cependant, les trois meilleurs scores scientifiques sont également supérieurs au score de deuxième niveau. ligne, et « l'admission » ne peut pas être obtenue avec des questions d'examens à deux niveaux.


Comparaison des scores du grand modèle « Examen d'entrée à l'université » - Science

L'équipe a déclaré qu'afin de se rapprocher de la situation réelle de l'examen d'entrée à l'université, l'évaluation a adopté la forme 3 (à l'exclusion des langues et des mathématiques) + 3 (sciences générales/arts complets) pour tester le grand modèle dans toutes les matières. Au cours du processus d'évaluation, toutes les questions en texte brut ont reçu des réponses à l'aide de grands modèles linguistiques, tandis que les questions comportant des images sur des sujets complets ont reçu des réponses à l'aide de grands modèles multimodaux open source de l'équipe correspondante.

L'évaluation a révélé que pour les questions contenant du texte pur, le taux de score moyen du grand modèle peut atteindre 64,32 %, tandis que pour les questions comportant des images, le taux de score n'est que de 37,64 %. En termes de compréhension des images et de capacités d’application, tous les grands modèles disposent d’une marge d’amélioration considérable.

De plus, certains grands mannequins ont atteint le premier degré, peuvent-ils, après reconversion, accéder au niveau d'admission des meilleures universités ? Après avoir terminé la notation, les enseignants ont convenu qu'il existe encore un écart entre le grand modèle et les vrais candidats. Bien que la maîtrise des connaissances de base soit excellente, le grand modèle reste insatisfaisant en termes de raisonnement logique et d'application flexible des connaissances.

Plus précisément, lorsqu'ils répondent à des questions subjectives, les grands modèles ne peuvent souvent pas comprendre complètement la racine de la question et ne comprennent pas la direction des pronoms, ce qui entraîne des réponses incorrectes ; lorsqu'ils répondent à des questions mathématiques, le processus de résolution de problèmes est mécanique et peu logique. Pour les questions de géométrie, des problèmes de logique spatiale surviennent souvent. Des inférences contradictoires ; une compréhension superficielle des expériences physiques et chimiques et une incapacité à identifier et à utiliser avec précision les équipements expérimentaux. De plus, les grands modèles forgent également du contenu fictif, inventent des poèmes qui semblent raisonnables mais n'existent pas réellement, ou ne réfléchissent pas par la suite lorsqu'il y a des erreurs de calcul évidentes, et « mordent la balle » pour donner une réponse, ce qui apporte tous problème au professeur de correction. Troublé.

Dans les détails de l'évaluation publique, les journalistes de China Business News ont découvert que certains commentaires des enseignants correcteurs étaient inclus.

Le professeur de sciences et de mathématiques a fait remarquer que les questions du modèle à grande échelle semblaient généralement très mécaniques et que la plupart des questions ne pouvaient pas être résolues par le processus de raisonnement normal. Par exemple, dans la première question de la question à remplir, le grand modèle ne peut effectuer qu'une petite partie du processus pour obtenir un résultat. Il ne peut pas effectuer une analyse complète et répertorier l'ensemble du processus de calcul à atteindre. le résultat correct comme les candidats qui répondent aux questions. La capacité de mémoire de formule de base des grands modèles est relativement bonne, mais elle ne peut pas être utilisée de manière flexible. De plus, les résultats de certaines questions sont corrects, mais la logique du processus est médiocre et n'est pas conforme aux calculs formels, ce qui rend la notation plus difficile.

Le professeur de géographie estime que le grand modèle montre une couverture complète des connaissances géographiques dans le processus de réponse à des questions allant de la géographie physique à la géographie humaine, des phénomènes géographiques aux lois géographiques. Il est particulièrement efficace pour tester des points de connaissances de base. Cependant, il existe certaines déviations et omissions dans les questions impliquant une analyse ou un raisonnement approfondi. Par conséquent, le modèle fonctionne mieux lorsqu'il est confronté à des questions non conventionnelles et ouvertes.

Le professeur de physique a constaté que les grands modèles semblaient généralement mécaniques et que beaucoup d'entre eux étaient incapables de reconnaître le sens des questions. Même si les réponses à certaines questions à choix multiples étaient correctes, l'analyse était erronée. Certaines grandes questions ont des étapes compliquées et aucune logique. Il arrive souvent que la conclusion de cette période soit mise en évidence qui mène à la conclusion de ce cycle n'a aucun sens.

Les enseignants de notation estiment que, par rapport aux candidats humains, les grands modèles actuels présentent encore des limites majeures.

Editeur de rubrique : Zhang Wu Editeur de texte : Dong Siyun Source du titre et de l'image : Tuchong Editeur d'images : Xu Jiamin

Source : Auteur : China Business News