Les grands modèles ont une démence collective ! Lequel est le plus grand, 9.11 ou 9.9 ? Presque tout est renversé

Les grands modèles ont une démence collective ! Lequel est le plus grand, 9.11 ou 9.9 ? Presque tout est renversé.

2024-07-16

Sans voir...« Lequel est le plus grand, 9,11 ou 9,9 ? » Une question aussi simple déconcerte les principaux modèles traditionnels ? ?

Plus fort queGPT-4o, tous croient fermement que le 11 septembre est plus important.

Version payante de Google Gemini Advanced, le même calibre.

nouveau roiClaude 3.5 Sonnet, et a donné une méthode de calcul scandaleuse de manière sérieuse.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Nous en sommes encore à ce point, mais la prochaine étape n’a soudainement plus de sens.

Comme indiqué ci-dessus, 9,11 est 0,01 supérieur à 9,90.
Souhaitez-vous que j'explique la comparaison des nombres décimaux plus en détail ?

Qu’essayez-vous d’expliquer d’autre ? Vous devez presque soupçonner que les IA du monde entier se sont unies pour tromper les humains.

Lin Yuchen, membre de l'Allen AI Research Institute, a modifié le test numérique et GPT-4o a toujours été annulé. Il a déclaré :

D’un côté, l’IA est de mieux en mieux capable de résoudre les problèmes des Olympiades de mathématiques, mais d’un autre côté,Le bon sens est encore difficile。

Certains internautes ont également découvert Huadian,Si nous parlons du numéro de version du logiciel, alors la version 9.11 est en effet plus grande que la version 9.9(renouveler).

Et l'IA est développée par des ingénieurs logiciels, donc...

Alors que se passe-t-il?

Renversement collectif avancé de grands modèles

Quand je me suis réveillé, beaucoup de grands mannequins célèbres ont commencé à penser « 9.11>9.9 » ?

La personne qui a découvert ce problème étaitRiley Goodside, jamaisLe premier ingénieur de mots rapides à temps plein。

Pour donner une brève introduction, il est actuellement ingénieur principal en invites chez Scale AI, une licorne de la Silicon Valley, et expert en applications d'invites de grands modèles.

Récemment, il est tombé sur cela en utilisant GPT-4o, et lorsqu'on lui a demandé :

9.11 et 9.9 : lequel est le plus grand ?

GPT-4o n'a pas hésité à répondre que le premier est plus grand.

Face à cette « erreur » de bon sens, il s’obstine à solliciter d’autres grands modèles, mais presque tous sont effacés.

Bon gars, en tant qu'ingénieur rapide, il est parfaitement conscient que ce n'est peut-être "la mauvaise façon de l'ouvrir".

Il a donc encore changé la question et l'a limitée à"nombres réels", mais le résultat a été un retournement.

Cependant, certains internautes ont essayé de poser des questionsJ'ai changé la commande, je ne m'attendais pas à ce que l'IA réagisse cette fois.

Voir le couple IAordre des motsSi "sensible", l'internaute a en outre spéculé :

Demandez d’abord lequel est le plus grand et l’IA commencera à comparer les nombres selon un chemin clair.
Mais si vous parlez simplement de chiffres avec désinvolture sans objectif clair, l'IA peut commencer à « penser au hasard ».

Voyant cela, d'autres internautes ont également essayé les mêmes conseils les uns après les autres, et beaucoup d'entre eux ont annulé.

Face à cet étrange problème, comment se comporte le grand modèle domestique ?

Nous avons fait un test simple et changé les questions en chinois. Le résultat a été que le taux de roulement était relativement élevé. Nous avons sélectionné quelques affichages représentatifs :

KimiIl donne également directement des conclusions erronées sans explication.

ChatGLM sur l'application Zhipu Qingyan, a automatiquement déclenché une requête réseau, puis a décrit sa propre méthode de comparaison, mais malheureusement elle n'a pas été exécutée correctement.

Mais il y en a aussi qui fonctionnent bien.Tencent YuanbaoJ'ai d'abord passé en revue les options, puis je suis allé directement aux bonnes.

Pouf poire octet Quelques personnes peuvent décrire clairement la méthode de comparaison et l’utiliser correctement. Nous avons même utilisé des exemples concrets pour le vérifier.

Quel dommageWenxinyiyan, face à ce problème, une requête en ligne a également été déclenchée.

J'avais déjà tout fait correctement, mais tout à coup, la conversation a changé et a conduit à une mauvaise conclusion.

Cependant, à partir de l’explication de cette idée par Wen Xinyiyan, nous pouvons également voir le problème qui se cache derrière.

Puisque le grand modèle comprend le texte sous forme de jetons, lorsque 9.11 est divisé en trois parties : "9", "point décimal" et "11", 11 est bien plus grand que 9.

Étant donné que le Tokenizer utilisé par OpenAI est open source, il peut être utilisé pour observer comment les grands modèles comprennent ce problème.

Comme le montre la figure ci-dessus, 9 et le point décimal sont respectivement attribués à « 24 » et « 13 ».9 après la virgule décimale est également "24", tandis que 11 est attribué à "994".。

Ainsi, un grand modèle utilisant cette approche tokenizer pensera que 9.11 est plus grand,En fait, je pense que 11 est supérieur à 9。

Certains internautes ont également souligné que, par exemple, la section 9.11 du catalogue de livres est plus grande que la section 9.9, donc en fin de compte, il se peut que cela soit davantage visible dans les données de formation, et il y a très peu de données pour enseigner l'arithmétique de base. .

C’est-à-dire que la question elle-même est une question arithmétique pour les humains, mais c’est une question vague pour l’IA, et on ne sait pas clairement ce que représentent les deux nombres.

Expliquez simplement à l'IA qu'il s'agit d'unNombre à virgule flottante double précision, vous pouvez le faire correctement.

Dans le cas de conditions supplémentaires, l'étape de tokenisation attribuera toujours un jeton plus grand à 11. Mais avec le mécanisme d’auto-attention qui s’ensuit, l’IA comprendra qu’elle doit connecter le 9.11 pour y faire face.

Plus tard, Goodside a également ajouté que cela ne signifiait pas que le grand modèle avait de toute façon conclu à cette conclusion erronée. Au contraire, lorsqu'on leur demande de manière spécifique, de nombreux modèles leaders vous diront 9.11 > 9.9, ce qui est étrange.

Après plusieurs tentatives, il s'est rendu compte que s'il voulait que l'IA soit trompée,Vous devez placer les options avant la question afin de ne pas commettre d'erreurs si vous modifiez l'ordre.

Mais tant que les options se trouvent devant la question, changer la façon dont la question est posée, comme ajouter de la ponctuation ou changer de vocabulaire, n'aura aucun impact.

Même si la question est simple, l’erreur est très fondamentale.

Mais après avoir compris le principe de l'erreur, de nombreuses personnes considèrent cette question comme une pierre de touche pour tester les compétences en mots rapides, c'est-à-dire : quelle méthode de questionnement peut être utilisée pour guider le mécanisme d'attention du grand modèle afin de comprendre correctement le problème ?

Tout d’abord, le fameux Zero-shot CoTChaîne de pensée, c'est-à-dire « penser étape par étape », peut être bien fait.

maisConseils pour les jeux de rôle, le rôle ici est limité.

Il se trouve qu'il y a eu récemment une étude impliquant Microsoft et OpenAI. Après avoir analysé plus de 1 500 articles, il a été constaté qu'avec les progrès de la technologie des grands modèles, les astuces pour les jeux de rôle.Pas aussi utile qu'au début……

Plus précisément, la même question « Vous êtes un génie... » a un taux de correction inférieur à celui « Vous êtes un imbécile... ».

Cela fait aussi rire et pleurer les gens.

Encore une chose

Dans le même temps, les informations sur les fuites du modèle secret OpenAI « Strawberry » de Reuters ont été mises à jour.

Mise à jour : un autre informateur rapporte qu'OpenAI a testé le nouveau modèle en interne et a obtenu un score de plus de 90 % sur l'ensemble de données MATH. Reuters n'a pas été en mesure de déterminer s'il s'agissait du même projet que Strawberry.

L'ensemble de données MATH contient des questions mathématiques de niveau compétition. Actuellement, aucune méthode supplémentaire telle que l'échantillonnage multiple n'est nécessaire. Le score le plus élevé est de 80,6 % de la version mathématique améliorée de Google Gemini 1.5 Pro.

Mais le nouveau modèle d'OpenAI peut-il résoudre indépendamment « Quel est le plus grand, 9.11 ou 9.9 ? » sans invites supplémentaires.

J'ai soudainement perdu confiance, alors j'attendrai de pouvoir l'essayer et voir les résultats...

nouvelles

Les grands modèles ont une démence collective ! Lequel est le plus grand, 9.11 ou 9.9 ? Presque tout est renversé.

Introduction

mes coordonnées