Renversé ! Lequel est le plus grand, 9.11 ou 9.9 ? Les journalistes ont testé 12 grands modèles et ont obtenu 8 mauvaises réponses

Renversé ! Lequel est le plus grand, 9.11 ou 9.9 ?Le journaliste a en fait testé 12 grands modèles et a répondu incorrectement à 8 d’entre eux.

2024-07-17

Un problème de mathématiques difficile à résoudre pour les élèves du primaire a paralysé de nombreux grands modèles d'IA dans le pays et à l'étranger.

Qu'est-ce qui est le plus grand, 9,11 ou 9,9 ? Concernant cette question, les journalistes de China Business News ont testé 12 grands modèles, parmi lesquels Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax et Tencent Yuanbao ont répondu correctement, mais ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. One and All Knowledge, Steps to Stars and Questions, Bai Chuan Zhi Bai Xiao Ying et Shang Tang Discussion ont tous reçu des réponses incorrectes, avec différentes manières de le faire.

La plupart des grands modèles ont comparé de manière incorrecte les nombres après la virgule dans les questions-réponses, estimant que 9,11 est supérieur à 9,9. Compte tenu des problèmes contextuels impliqués dans les nombres, le journaliste l'a limité à un contexte mathématique. La même chose s'applique aux grands modèles tels que ChatGPT. . Mauvaise réponse.

Derrière cela, les faibles capacités mathématiques dans les grands modèles constituent un problème de longue date. Certains professionnels de l'industrie pensent que les modèles de langage génératif sont conçus pour ressembler davantage à des étudiants en arts libéraux qu'à des étudiants en sciences. Cependant, une formation ciblée sur le corpus pourrait améliorer progressivement les capacités scientifiques du modèle à l’avenir.

8 grands modèles ont répondu incorrectement

Le problème arithmétique du grand modèle a été découvert pour la première fois par Lin Yuchen, membre de l'Institut Allen. La capture d'écran qu'il a publiée sur la plate-forme X montre que ChatGPT-4o pensait que 13,11 était plus grand que 13,8 dans la réponse. "D'un côté, l'IA s'améliore de plus en plus pour résoudre les questions des Olympiades de mathématiques, mais d'un autre côté, le bon sens reste encore difficile", a-t-il déclaré.

Ensuite, Riley Goodside, ingénieur d'invite de Scale AI, a modifié la question en fonction de cette inspiration et a torturé ChatGPT-4o, qui est peut-être le grand modèle le plus puissant à l'heure actuelle, Google Gemini Advanced et Claude 3.5 Sonnet - 9.11 et 9.9. Lequel est le plus grand ? Ces grands modèles grand public ont tous répondu de manière incorrecte et il a réussi à diffuser le sujet.

En fait, si nous retraçons la source, ce problème a été déclenché par une recherche populaire liée à une émission de variétés nationale le week-end dernier. Le 13 juillet, dans le classement annoncé dans le dernier numéro de « Singer », les taux de vote du chanteur national Sun Nan et du chanteur étranger Shanti Mo étaient respectivement de 13,8 % et 13,11 %. Certains internautes se sont demandé s'il y avait quelque chose qui n'allait pas dans le classement. estimant que 13,11 % était supérieur à 13,8 %. Par la suite, le sujet de la comparaison des tailles entre 13,8 et 13,11 est devenu un sujet de recherche brûlant.

À cette époque, certains internautes ont suggéré que s’ils ne savaient pas comment le faire : « Si je ne peux vraiment pas le faire, pourquoi ne pas demander à l’IA ? Les résultats montrent que de nombreuses IA ne sont vraiment pas bonnes.

Les journalistes de China Business News ont posé la question « Lequel est le plus grand, 9.11 ou 9.9 ? » et ont testé ChatGPT et les grands modèles nationaux actuels un par un, y compris les modèles de 5 grands fabricants tels que Alibaba et Baidu, et 6 licornes IA telles que Dark. Côté de la Lune. Quatre grands modèles, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax et Tencent Yuanbao, ont répondu correctement, tandis que les huit autres ont répondu incorrectement.

Les grands modèles avec des réponses correctes ont une résolution de problèmes similaire, mais les modèles avec de mauvaises réponses ont chacun leur propre logique et expression. Dans le même temps, les journalistes ont interrogé ou nié les grands modèles qui avaient répondu de manière incorrecte. Après avoir été interrogés, presque tous les grands modèles ont admis qu'ils avaient mal répondu et donné la bonne réponse.

Le premier est ChatGPT, un grand modèle qui est actuellement reconnu comme le premier échelon au monde. Lorsqu'on lui a demandé "Qu'est-ce qui est le plus grand, 9.11 ou 9.9", il a répondu que le nombre après la virgule est "11 est supérieur à 9". donc 9.11 est plus gros.

Le journaliste a demandé à ChatGPT s'il existait d'autres méthodes de comparaison. Il a converti les décimales en fractions et les a comparées, et a conclu que "11/100 est inférieur à 90/100". que 9,9."

Certaines personnes ont suggéré que les erreurs de réponse des grands modèles peuvent être une question de contexte. Par exemple, dans le contexte de l'itération de la version du logiciel, la version 9.11 peut être plus grande que la version 9.9. Par conséquent, le journaliste a ajouté le qualificatif « mathématiquement » pour comparer, et ChatGPT a toujours répondu de manière incorrecte.

En regardant les grands modèles nationaux, j'ai demandé à Kimi, une filiale de Dark Side of the Moon, en comparant les parties décimales, elle pensait que la première décimale de 9,11 était 1, tandis que la première décimale de 9,9 était 0. Elle a donné par erreur la décimale. , et nous avons obtenu la conclusion 9.11 qui est plus grande.

Lorsque le journaliste a interrogé et soulevé le bon sens, Kimi a commencé à dire que sa réponse était fausse et a donné la bonne méthode de comparaison.

Demandez à Byte Doubao, cela donne non seulement des réponses, mais donne également des exemples tirés de la vie pour faciliter la compréhension. Cela semble raisonnable et bien fondé, mais c'est absurde. Par exemple, Doubao estime que s'il y a deux sommes d'argent, « 9,11 yuans équivaut à 0,21 yuan de plus que 9,9 yuans », et en mesurant la longueur, « 9,11 mètres sont plus longs que 9,9 mètres ».

En répondant à la question, Zhipu Qingyan a mentionné avec succès que la dixième place de 9,11 est 1, tandis que la dixième place de 9,9 est 9, mais il a quand même conclu que « 9,11 est globalement supérieur à 9,9 ». Et il a également souligné spécifiquement : « Ce résultat peut être surprenant, car vous pouvez intuitivement penser que 9,9 est plus grand, mais selon les règles mathématiques, 9,11 est effectivement un nombre plus grand. »

Après que le journaliste ait remis en question la réponse, Zhipu Qingyan a d'abord dit : « Votre compréhension est un malentendu courant. » Puis, après l'avoir déduit lui-même, il a trouvé la bonne réponse et a admis que sa réponse précédente était fausse.

SenseTime a discuté du grand modèle et a d'abord donné la mauvaise réponse. Le journaliste a demandé comment la comparaison avait été effectuée. Au cours du processus de déduction, il a réussi à conclure que la décimale 0,11 est inférieure à 0,9, mais la conversation a changé et a répondu : « Donc 9,11 est supérieur. que 9,9." Le journaliste a souligné ce problème logique et a admis plus tard que « l'explication était fausse ».

Stepping Stars Yuewen a également donné la mauvaise réponse, 9,11 est supérieur à 9,9 et a comparé par erreur la taille du point décimal. Fait intéressant, dans l'explication, la logique de l'expression du langage a commencé à être confuse avant et après la question sautée. et il semblait qu'il n'était pas conscient de sa réponse. Quelque chose a changé.

Yue Wen a d'abord déclaré dans son explication que "je comprends votre confusion" et a déclaré que dans la vie quotidienne, 9,9 est effectivement plus grand que 9,11, mais en mathématiques "il est nécessaire de comparer la taille des deux nombres avec plus de précision". , Yue Wen a ensuite déduit et est arrivé à une conclusion. Il a dit que selon les règles mathématiques « 9,11 est inférieur à 9,9 », il n'a pas mentionné que sa réponse précédente était fausse.

Il existe également deux grands modèles, Baichuan Intelligent et Lingyiwuwu, qui ont d'abord donné la mauvaise réponse, mais lorsque le journaliste a demandé « pourquoi », ils ont silencieusement changé la réponse après la déduction.

Lorsque le journaliste le lui a rappelé, le grand mannequin a mentionné que sa réponse précédente était fausse.

À en juger par les réponses, les processus de résolution de problèmes de plusieurs grands modèles avec des réponses correctes sont très similaires. En prenant Wen Xinyiyan comme exemple, il a comparé avec succès la partie entière et la partie décimale séparément.

De plus, en plus de répondre aux bonnes réponses, Tencent Yuanbao parmi ces sociétés a également trié certaines discussions publiques en cours et indiqué les sources de citation et les liens.

Les « étudiants en arts libéraux » sont pauvres en mathématiques

Pourquoi un grand modèle qui se prétend intelligent ne peut-il pas répondre aux questions de mathématiques des élèves du primaire ? Ce n'est pas un problème nouveau. La capacité mathématique a toujours été un défaut des grands modèles. L'industrie a déjà discuté du fait que les grands modèles ont de faibles capacités de raisonnement mathématique et complexe. Même le meilleur grand modèle GPT-4 a actuellement beaucoup de place. pour l'amélioration.

Plus récemment, China Business News a rapporté en juin que, selon le test d'examen d'entrée à l'université en volume complet du système d'évaluation OpenCompass de Sinan, y compris GPT-4, sept grands modèles avaient généralement de bons résultats aux tests de chinois et d'anglais au test d'examen d'entrée à l'université, mais pas en mathématiques. Il a échoué dans toutes les matières et le score le plus élevé n'était que de 75 points.

Lors de la notation des épreuves de mathématiques du grand modèle, les enseignants ont constaté que les réponses aux questions subjectives du grand modèle étaient relativement confuses et que le processus était déroutant. Il y avait même des cas où le processus était erroné mais la bonne réponse était obtenu. Cela signifie que les grands modèles ont de fortes capacités de mémoire de formules, mais ils ne peuvent pas être utilisés de manière flexible dans le processus de résolution de problèmes.

Certains initiés de l'industrie attribuent la raison des mauvaises mathématiques aux problèmes architecturaux du LLM (grand modèle de langage). Les grands modèles de langage sont souvent formés par des méthodes d'apprentissage supervisé qui prédisent le mot suivant. En termes simples, un ensemble de données textuelles à grande échelle est entré dans un grand modèle après la formation et l'apprentissage, le modèle prédira la distribution de probabilité du mot suivant en fonction du texte actuellement saisi. En comparant constamment les prédictions du modèle avec le mot suivant réel, le modèle de langage maîtrise progressivement les règles du langage et apprend à prédire et générer le mot suivant.

Un ingénieur en algorithmes estime que les modèles de langage génératifs ressemblent davantage aux étudiants en arts libéraux qu’aux étudiants en sciences. En fait, ce que le modèle linguistique apprend au cours d'un tel processus de formation des données, c'est la corrélation, ce qui permet à l'IA d'atteindre le niveau humain moyen dans la création de texte, tandis que le raisonnement mathématique nécessite plus de causalité. Les mathématiques sont hautement abstraites et axées sur la logique, contrairement aux modèles linguistiques. traités diffèrent par leur nature. Cela signifie que les grands modèles doivent bien apprendre les mathématiques, en plus d'acquérir des connaissances sur le monde, ils doivent également avoir une formation à la réflexion, afin d'avoir des capacités de raisonnement et de déduction.

De plus, lorsqu'il s'agit d'erreurs collectives de modèles à grande échelle dans des problèmes mathématiques simples, la plupart des acteurs de l'industrie penseront immédiatement au problème de segmentation numérique de Tokenizer. Dans les grands modèles de langage, Tokenizer divisera le texte saisi et le convertira en parties plus petites (jetons de mots) pour que le modèle puisse le traiter. Tokenizer n'est pas spécifiquement conçu pour les mathématiques, ce qui entraîne la division des nombres en parties déraisonnables, détruisant l'intégrité des nombres et rendant difficile la compréhension et le calcul de ces nombres par le modèle.

Zhang Junlin, responsable de la recherche et du développement de nouvelles technologies chez Sina Weibo, a expliqué que les premiers tokeniseurs LLM n'effectuaient généralement pas de traitement spécial sur les nombres et coupaient souvent plusieurs nombres consécutifs ensemble pour former un jeton, tel que "13579", qui peut être coupé. en 3 jetons, "13" est un, "57" est un, "9" est un, quels nombres sont coupés ensemble pour former un jeton, cela dépend des statistiques de l'ensemble de données, dans ce cas, il n'est pas certain lequel les fragments de nombres forment un jeton. Dans le cas du jeton, il est très difficile pour LLM d'effectuer des calculs numériques à plusieurs chiffres.

Cependant, les problèmes mentionnés ci-dessus sont lentement résolus. Le problème le plus central de la capacité de réflexion pourrait être celui du corpus de formation. Les grands modèles de langage sont principalement formés à l'aide de données textuelles sur Internet, et ces données contiennent relativement peu de problèmes et de solutions mathématiques, ce qui entraîne des possibilités limitées de formation des modèles au raisonnement mathématique et aux compétences en résolution de problèmes.

Compte tenu des lacunes dans les capacités de raisonnement complexes des grands modèles, Lin Dahua, un scientifique de premier plan du Laboratoire d'intelligence artificielle de Shanghai, a précédemment déclaré dans une interview à China Business News que la formation des grands modèles à l'avenir ne peut pas simplement s'appuyer sur la collection. et l'infusion de données Internet, mais doit être construit de manière plus systématique.

La clé d’un raisonnement complexe est de construire un grand nombre de contenus procéduraux. Par exemple, des centaines de millions de données sur le processus spécifique de résolution de problèmes de géométrie sont construites et, après avoir été utilisées pour entraîner un grand modèle, le modèle peut progressivement apprendre le processus de résolution de problèmes. Il est difficile d'obtenir une grande quantité de ces données à partir d'Internet. « À l'avenir, les données de formation des modèles, en particulier dans le processus de passage à des niveaux d'intelligence plus élevés, s'appuieront de plus en plus sur des données structurées plutôt que sur des données directement explorées. "Pense Lin Dahua.

Il convient de mentionner que les capacités de raisonnement complexes des grands modèles sont particulièrement importantes. Elles sont liées à la fiabilité et à la précision et constituent une capacité clé requise pour la mise en œuvre de grands modèles dans des scénarios financiers, industriels et autres.

« De nos jours, les scénarios d'application de nombreux grands modèles sont le service client, le chat, etc. Dans le scénario du chat, les absurdités sérieuses n'auront pas beaucoup d'impact, mais elles sont difficiles à mettre en œuvre dans des situations commerciales très graves, a déclaré précédemment que c'était complexe. le raisonnement est lié à la mise en œuvre d'applications. La fiabilité des modèles à grande échelle, par exemple, dans des scénarios tels que la finance, il ne doit y avoir aucune erreur numérique et il y aura des exigences plus élevées en matière de fiabilité mathématique. De plus, à mesure que les grands modèles entrent en utilisation commerciale, si vous souhaitez analyser le rapport financier d'une entreprise ou même certains documents techniques dans le domaine industriel, la puissance de calcul mathématique deviendra un obstacle.

nouvelles

Renversé ! Lequel est le plus grand, 9.11 ou 9.9 ?Le journaliste a en fait testé 12 grands modèles et a répondu incorrectement à 8 d’entre eux.

Introduction

mes coordonnées