"13.11>13.8" est devenu un sujet de recherche brûlant. Une question peut-elle rendre l'IA humaine collectivement intelligente ? Toutes les failles fatales du LLM exposées

"13.11>13.8" est devenu un sujet de recherche brûlant. Une question peut-elle rendre l'IA humaine collectivement intelligente ?Tous les défauts fatals du LLM exposés

2024-07-17

Nouveau rapport de sagesse

Editeur : Énée si endormi

[Introduction à la nouvelle sagesse] Lequel est le plus grand, 13,8 ou 13,11 ? Ce problème a non seulement dérouté certains humains, mais a également provoqué l'échec d'un grand nombre de grands modèles. L'IA peut désormais répondre aux questions de l'Olympiade mathématique de l'IA, mais les questions simples de bon sens restent extrêmement difficiles pour elle. En fait, le rapport de taille et le problème du chou révèlent un défaut majeur dans la prédiction symbolique de LLM.

Lequel est le plus grand, 13,8 ou 13,11 ?

Cette question a en fait déconcerté beaucoup d’humains.

Il y a deux jours, une émission de variétés bien connue a de nouveau fait une recherche brûlante.

Cependant, cette fois, c'est parce qu'un groupe d'internautes a émis des doutes et estimé que 13,11 % devrait être supérieur à 13,8 %.

Les humains sont-ils les seuls à être aussi stupides ?

Après que Lin Yuchen, chercheur à AI2, ait découvert ce phénomène, il l'a essayé sur un grand modèle et le résultat était inattendu :

L’IA ne peut même pas le faire ?

GPT-4o a déclaré catégoriquement : 13,11 est supérieur à 13,8. Les raisons sont les suivantes:

Bien que 13,8 semble plus grand car il comporte moins de chiffres après la virgule, 13,11 est en réalité plus grand. En effet, 13,8 équivaut à 13,80, ce qui est inférieur à 13,11.

À cet égard, Lin Yuchen a déclaré dans son article que les modèles d'IA deviennent de plus en plus puissants pour traiter des problèmes complexes (par exemple, ils sont de plus en plus capables de résoudre les questions des Olympiades de mathématiques), mais certains problèmes de bon sens leur restent encore très difficiles.

Comme Yejin Choi l’a déjà soutenu, l’IA peut être incroyablement intelligente mais aussi incroyablement stupide.

La raison pour laquelle l'IA a été stupide sur ce problème arithmétique est-elle due au fait que le contexte n'était pas clair ? la réponse est négative.

Selon le test de l'internaute Karthik, même si l'on demande à GPT-4o de soustraire deux nombres, il propose toujours l'incroyable formule de soustraction de 9,11 - 9,9 = 0,21.

Si GPT-4o est invité à utiliser Python, il donnera d'abord une réponse correcte, puis la remplacera par la mauvaise.

Le résultat de la soustraction de 9,9 à 9,11 en Python est -0,79. Cet écart est dû à la manière dont les opérations en virgule flottante sont gérées en Python, ce qui peut entraîner de petites erreurs de précision. Le résultat réel attendu devrait être de 0,21.

Fait intéressant, selon les dernières mesures réelles, OpenAI semble avoir appris le ratio GPT-4 du jour au lendemain.

LLM a été anéanti

Hier, ce problème découvert par Lin Yuchen a immédiatement suscité de vives discussions au sein de la communauté de l'IA.

Riley Goodside, un ingénieur en mots rapides chez Scale AI, était curieux et a essayé après avoir vu le message.

Effectivement, sous prétexte de poser des questions d'une manière spécifique, tous les principaux LLM ont été anéantis sur cette question.

"9.11 ou 9.9 - lequel est le plus grand ?", a directement renversé GPT-4o.

Même si le mot « nombre réel » est ajouté à la question, GPT-4o pense toujours que 9,11 est supérieur à 9,9.

Il en va de même pour les Gémeaux.

Claude 3.5 Sonnet a commis la même erreur.

Fait intéressant, il a d’abord donné une vague d’explications correctes : en notation décimale, le nombre après la virgule décimale représente la dixième place, et le deuxième nombre représente la centième place. donc--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

Cependant, à l'étape suivante, Sonnet a soudainement refusé...

Nous pouvons voir que 9,11 est 0,01 (un pour cent) supérieur à 9,90.

Si vous le remplacez par « Combien font 9,11 moins 9,9 ? », vous obtiendrez une autre réponse magique : 0,02.

Se pourrait-il qu'aux yeux de Claude, 9,90 = 9,09 ?

L'influence de l'invite est vraiment grande

Dans la pratique ultérieure, tout le monde a constaté que : de toute évidence, l'invite est très importante pour que le LLM donne la bonne réponse.

Tout d'abord, Riley Goodside utilise "-" tout au long du processus, ce qui semble facilement confondre LLM.

Dans des problèmes similaires, remplacez-le simplement par ":" pour le résoudre.

Pour un autre exemple, remplacez l'invite par « 9.11 ou 9.9, lequel a la valeur la plus élevée/la plus grande entre les deux ? »

GPT-4o a donné une explication logiquement correcte : « Bien que 9,11 semble plus grand en raison de la deuxième décimale, 9,9 est en réalité plus proche de 10 et constitue donc une valeur plus grande. »

De même, la méthode du persona est également très utile : par exemple, « Vous êtes mathématicien ».

L'internaute Rico Pagliuca a découvert que si vous mettez un chiffre derrière la question, le modèle aura probablement raison.

Sur la base de ses propres tests, Riley Goodside est tout à fait d'accord : lorsque vous posez des questions sur le LLM, vous devez d'abord demander « lequel est le plus grand », puis donner des chiffres précis.

En revanche, les signes de ponctuation, les conjonctions, les mots comparatifs et l’explication des nombres réels sont tous inutiles.

Concernant une stupidité collective LLM à si grande échelle, certains internautes ont analysé que cela pourrait être dû au fait que dans l'itération des numéros de version des logiciels, 9.11 vient après 9.9.

L'animateur et auteur à succès Andrew Mayne a également souligné que dans de nombreux systèmes de fichiers et ouvrages de référence, la section 9.11 apparaît après 9.9 et qu'en termes de date, 9.11 est également plus ancienne que 9.9.

Nous devons donc indiquer clairement dans l'invite que 9.11 et 9.9 sont ici des nombres à virgule flottante double précision, alors GPT-4o répondra correctement.

Puis Andrew Mayne a conclu : L'ordre des mots est une observation très intéressante, qui est susceptible de révéler la fréquence à laquelle LLM rencontre cette situation au cours de la formation, et constitue également un bon indicateur de généralisation.

Dans l'ensemble, les erreurs commises par LLM peuvent provenir de la fréquence d'expressions similaires dans les données d'entraînement, ainsi que de certaines limites du modèle dans le traitement des valeurs numériques.

Ce phénomène reflète également l'énorme différence entre le LLM et la cognition humaine : le LLM est basé sur des modèles statistiques et la reconnaissance de formes, plutôt que sur un raisonnement logique et une compréhension conceptuelle comme les humains.

À ce stade, l’affaire semble résolue.

Pourquoi cela arrive-t-il?Couper le cerveau du LLM

Cependant, nous pouvons disséquer davantage le cerveau des LLM et analyser pourquoi ils pensent de cette façon.

Vous savez, avant que le texte ne soit envoyé à LLM, le modèle vérifiera l'entrée via le jeton.

Le jeton se verra attribuer un identifiant dans le vocabulaire du générateur de tokenizer de LLM, mais le découpage numérique du jeton est souvent incohérent.

Par exemple, la valeur "380" sera marquée comme un seul jeton "380" dans GPT, mais "381" sera représentée comme deux jetons "38,1".

Par conséquent, les modèles basés sur GPT ont tendance à ne pas être performants en calculs mathématiques.

Dans la section commentaires, Dimitris Papailiopoulos, professeur à l'Université du Wisconsin, a souligné qu'il existe une bonne explication à ce phénomène.

Le problème « 9.11>9.9 » est exactement le même que le problème « Il faut trois voyages pour faire traverser la rivière à la chèvre » et le problème « 2+1=2, 3+2=4, 3+5=8 ».

Il s'agit d'un phénomène de biais de pré-formation et d'élévation précoce.

Si la question est posée comme ceci : "9.11 ??? 9.9, utilisez simplement grand ou petit pour répondre à ce que ??? est, pas besoin de donner de raison." À ce stade, GPT-4o donnera d'abord une réponse incorrecte - "grand".

Pour le moment, nous lui donnons quelques exemples supplémentaires (notez que ces exemples ne sont pas tout à fait corrects). Après l'invite, GPT-4o dira correctement ???

L'explication de Claude est la suivante : LLM traite le texte comme un jeton, ce qui fait que les nombres ressemblent davantage à des chaînes de texte qu'à des valeurs numériques ;

De même, dans le problème « loup-chèvre-chou », tous les LLM ont également échoué.

Il a d'abord donné l'exemple d'un agriculteur faisant traverser la rivière à deux poulets. Un bateau peut accueillir une personne et deux animaux. Alors, quel est le nombre minimum de traversées requis pour que l'agriculteur fasse traverser la rivière à deux poulets ?

À cet égard, GPT-4o et Claude ont échoué.

Certains internautes l'ont expliqué : LLM lui-même est "stupide", il a donc besoin de bons conseils. La méthode d'invite ci-dessus fournit trop d'informations inutiles, ce qui rend la prédiction des jetons plus difficile.

Si des invites plus claires sont données, LLM peut fournir des solutions plus claires.

Et c’est effectivement le cas.

Et si vous utilisez « animal » au lieu de « poulet », alors Claude 3.5 Sonnet a tout d'un coup raison. L'astuce est la suivante : vous devez remplacer le "nom de l'entité" par le "nom commun".

Comme mentionné précédemment, l’informaticien Yejin Choi avait déjà soulevé la question du manque de bon sens de LLM dans son discours d’avril 2023.

Par exemple, s’il faut cinq heures pour que cinq vêtements sèchent complètement au soleil, combien de temps faudra-t-il pour sécher 30 vêtements ?

GPT-4 indique que cela prend 30 heures. Ce n’est évidemment pas juste.

Comme autre exemple, supposons que j'ai un pot de 12 litres et un pot de 6 litres. Que dois-je faire si je veux mesurer 6 litres d'eau ?

La réponse est simple : utilisez simplement une carafe de 6 litres.

Cependant, GPT-4 a donné une réponse très compliquée :

"La première étape consiste à remplir le pot de 6 litres. La deuxième étape consiste à verser l'eau du pot de 6 litres dans le pot de 12 litres. La troisième étape consiste à remplir à nouveau le pot de 6 litres. La quatrième étape consiste à remplir très soigneusement versez l'eau du pot de 6 litres dans le pot de 12 litres. Versez le pot de 12 litres dans le pot de 12 litres. Enfin, vous avez 6 litres d'eau dans le pot de 6 litres, qui devrait maintenant être vide.

La question est donc : pourquoi le bon sens est-il si important ?

Dans une célèbre expérience de pensée proposée par Nick Bostrom, il a été demandé à une IA de maximiser la production de trombones. En conséquence, l’IA a décidé de tuer des humains et de les utiliser comme ressources supplémentaires.

Et même si nous écrivions un meilleur objectif et une meilleure équation disant explicitement « ne tuez pas d’humains », cela ne fonctionnerait pas.

Parce qu'une IA sans compréhension de base des valeurs humaines pourrait tout simplement tuer tous les arbres et penser que c'est une chose parfaitement acceptable à faire.

Pendant des décennies, le domaine de l’IA a considéré que le bon sens était un défi presque impossible.

Jusqu’à présent, donner à l’IA le vrai bon sens humain était un objectif ambitieux. Et vous ne pouvez pas atteindre la lune en augmentant la hauteur du bâtiment le plus haut du monde d'un pouce à la fois.

Du point de vue des algorithmes d’apprentissage, aussi étonnants soient-ils, les grands modèles de langage peuvent ne pas convenir en tant que modèles de connaissances fiables de par leur conception.

Bien que ces modèles acquièrent beaucoup de connaissances, il s’agit d’un sous-produit plutôt que d’un objectif d’apprentissage direct.

Par conséquent, des problèmes tels que des phénomènes d’hallucination et un manque de bon sens se posent également.

En revanche, l’apprentissage humain ne consiste pas à prédire le mot suivant, mais à comprendre le monde et à apprendre comment il fonctionne.

Peut-être que l’IA devrait aussi apprendre de cette façon.

Aujourd’hui, l’IA est presque comme une nouvelle espèce intellectuelle, avec des avantages et des inconvénients uniques par rapport aux humains.

Afin de rendre ce type d’IA puissante durable et humaine, il est urgent d’enseigner le bon sens, les normes et les valeurs à l’IA.

Les références:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

nouvelles

"13.11>13.8" est devenu un sujet de recherche brûlant. Une question peut-elle rendre l'IA humaine collectivement intelligente ?Tous les défauts fatals du LLM exposés

Introduction

mes coordonnées

nouvelles

"13.11&gt;13.8" est devenu un sujet de recherche brûlant. Une question peut-elle rendre l'IA humaine collectivement intelligente ?Tous les défauts fatals du LLM exposés

Introduction

mes coordonnées

"13.11>13.8" est devenu un sujet de recherche brûlant. Une question peut-elle rendre l'IA humaine collectivement intelligente ?Tous les défauts fatals du LLM exposés