nouvelles

Le discours de l'ICML2024 est devenu viral ! Meta Zhu Zeyuan révèle le monde intérieur des grands modèles : différent du raisonnement humain

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Comment un grand modèle de langage (LLM) résout-il des problèmes mathématiques ? Est-ce grâce à la mémoire de modèles, ou est-ce vraiment apprendre à raisonner ? Quel est le processus de calcul mental pour le modèle ? Quelles capacités de raisonnement peut-on acquérir ? Comme les humains, ou au-delà des humains ? L’apprentissage d’un seul type de problème mathématique contribuera-t-il au développement de l’intelligence générale ? Pourquoi les LLM font-ils des erreurs de raisonnement ? Quelle profondeur de LLM faut-il pour raisonner ?



Adresse papier : https://arxiv.org/abs/2407.20311

Récemment, une équipe de quatre personnes de Meta FAIR, CMU et MBZUAI, dont Ye Tian, ​​​​​​Xu Zicheng, Li Yuanzhi et Zhu Zeyuan, a publié le dernier article arXiv « Language Model Physics Part 2.1 : Elementary School Mathematics and Hidden Reasoning Processes. " en utilisant des expériences contrôlées pour répondre à des questions intelligentes aux problèmes ci-dessus. L'utilisateur de Twitter @xlr8harder a commenté : "Ce résultat mettra un terme une fois pour toutes au débat sur la question de savoir si LLM a des capacités de raisonnement ou n'est qu'un perroquet aléatoire."

Note de l'éditeur : l'ensemble de la série "Language Model Physics" a été invité à faire un rapport spécial de deux heures lors de la conférence internationale ICML 2024 sur l'apprentissage automatique, le 22 juillet. La réponse a été enthousiaste et il est rapporté qu'il y a eu des applaudissements continus à la scène. Ici, je vous présente la partie 2.1 de la série.



Figure 1

Explication détaillée du document

Tout d'abord, selon la convention de cette série, l'auteur estime qu'il ne faut pas deviner la façon de penser en parlant à de grands modèles tels que GPT-4. Cela est similaire au comportement animal, qui est réalisable mais pas assez rigoureux pour le faire. révéler scientifiquement la pensée interne du processus GPT-4.

De plus, du point de vue des données, ce n'est qu'en accédant pleinement aux données de pré-entraînement du modèle que nous pouvons savoir quelles questions le modèle a vues et lesquelles ont été apprises par inférence. Même si un modèle obtient des scores élevés au GSM8k, un ensemble de référence de 8 000 questions mathématiques pour les écoles primaires, il est difficile de dire s'il a vu des variations de ces questions (telles que des variations dans différentes langues ou des réécritures GPT-4).

À cette fin, l'auteur a créé iGSM, un ensemble synthétique de questions de réflexion qui simule le niveau de mathématiques de l'école primaire, et a laissé le modèle être pré-entraîné sur iGSM à partir de zéro pour contrôler les types de questions auxquelles le modèle est exposé. Il convient de noter que l'iGSM ne contient pas d'informations de bon sens, seulement des additions, des soustractions et des multiplications dans la plage du mod 23, et que tous les calculs sont effectués étape par étape à l'aide de CoT. Avec iGSM, des expériences contrôlées peuvent être menées pour étudier spécifiquement les capacités d'inférence du modèle tout en ignorant d'autres facteurs (tels que l'arithmétique des grands entiers). La figure 2 montre un exemple simple.



Figure 2

À l'aide de cet ensemble de données, l'auteur a d'abord testé les performances de GPT2 (version RoPE). En utilisant op pour représenter le nombre d'étapes d'opération mathématique nécessaires pour résoudre le problème, l'auteur a découvert que lorsqu'il est formé sur des questions avec op≤21, le modèle peut non seulement atteindre une précision de 99 %, mais également obtenir de meilleurs résultats sur des questions plus difficiles (telles que comme op=32 ), en maintenant un taux de précision de 83 % (voir Figure 3). Cela montre que le modèle a acquis certaines capacités de raisonnement, après tout, il n'a jamais vu de question avec op>21. (Soit dit en passant, GPT-4o ne peut traiter que les questions avec op=10 sur cet ensemble de données. Tout ce qui dépasse cette difficulté équivaut à une supposition aveugle. Nous discuterons de ce problème à la fin de l'article.)

Alors, quel type de capacités de raisonnement le modèle a-t-il acquis ? Il existe au moins deux façons de penser pour résoudre les problèmes mathématiques de l’iGSM. L'un est ce que l'auteur appelle "Raisonnement de niveau 0 ", c'est-à-dire "un calcul violent peut être calculé". Étant donné que les variables de la question peuvent avoir des dépendances complexes, certaines peuvent être calculées directement, tandis que d'autres doivent être calculées en premier. Par exemple, si Xiao Zhang a 3 fois plus de fruits que Xiao Wang, il doit d'abord calculer combien de pommes et de poires. Xiao Wang l'a fait. Et ce n'est qu'après avoir résumé que nous pouvons commencer à calculer le nombre de fruits pour Xiao Zhang. Le « raisonnement de niveau 0 » consiste à énumérer toutes les variables autant que possible, à trouver aléatoirement à chaque fois une variable calculable, à calculer le résultat et à continuer.

Cela correspond à "Raisonnement de niveau 1 " : Grâce au tri topologique, commencez par le problème et travaillez en arrière pour déterminer quelles variables doivent être calculées, puis commencez par les nœuds feuilles et calculez vers le haut pour rechercher la « réponse la plus courte ». Les solutions aux problèmes mathématiques courants utilisent généralement un raisonnement de niveau 1 et ne calculent pas de « variables inutiles ». Par exemple, Xiao Zhang a trois fois plus de fruits que Xiao Wang. Si vous demandez à Xiao Zhang combien de fruits il a, alors le nombre de pommes de Xiao Li est une variable inutile, tandis que le nombre de pommes et de poires de Xiao Wang est tous deux nécessaires.

Comme le montre la figure 3, l'auteur a découvert que GPT-2 peut apprendre le raisonnement de niveau 1 et donner la réponse la plus courte presque à chaque fois. C'est très simple ! Parce qu'avant que le modèle ne génère la première phrase, tout le tri topologique doit avoir été effectué dans son esprit - sinon, comment saurait-il quelles variables sont inutiles ? Si le modèle génère « Xiao Li a 7 pommes » depuis le début, il n'y a aucun moyen de revenir en arrière et la réponse la plus courte ne peut pas être obtenue.



image 3

Alors, comment le modèle apprend-il le « raisonnement de niveau 1 » ? À cette fin, l’auteur a mené une étude approfondie sur les paramètres internes du modèle (voir Figure 4). La conclusion montre (voir l'article pour plus de détails sur la méthode de sonde) qu'avant que le modèle ne génère la première phrase, il a déjà déterminé quelle variable A est « nécessaire » grâce au calcul mental (nece (A) = True). En même temps, après que chaque phrase soit prononcée, le modèle calcule également mentalement toutes les variables « calculables » A suivantes (cannext (A)=True). Par conséquent, le modèle n'a besoin que d'effectuer en continu des opérations ET logiques sur nece et cannext, et le processus de calcul complet peut être donné étape par étape à partir des nœuds feuilles.

Notamment, ces capacités complexes de calcul mental n’apparaissaient pas dans l’ensemble de formation. Le modèle n'a été exposé qu'aux données iGSM et n'a vu que la partie « langage » (questions et réponses), mais il a appris de manière indépendante un processus de pensée semblable à celui d'un humain (processus mental) et est arrivé à la solution optimale !En d'autres termes, cette recherche réfute notre rapport d'il y a une semaine dans "Langage ≠ Pensée, les grands modèles ne peuvent pas apprendre le raisonnement : un article de Nature a fait exploser la communauté IA" et l'a prouvé par des méthodes scientifiques.Les grands modèles peuvent en effet apprendre à penser à travers le langage

Ce qui est encore plus étonnant, c'est que le modèle apprend bien plus que cela. Dans la figure 4, l’auteur a également constaté que le modèle calcule mentalement de nombreuses informations inutiles pour résoudre le problème. Par exemple, après que la relation variable vient d'être décrite, ou même avant que la question ne soit posée, le modèle sait déjà s'il existe une dépendance récursive entre deux variables A et B - même si ces variables ne sont pas pertinentes pour résoudre le problème. Pour les humains, nous partons généralement de la question et travaillons à rebours, en ignorant les variables inutiles, mais un modèle de langage comme GPT-2 passera au peigne fin l'intégralité du graphe relationnel pour traiter toutes les questions qui pourraient être posées à l'avenir. L'auteur appelle cette capacité "Raisonnement de niveau 2」。

Bien que le raisonnement de niveau 2 ne soit pas requis pour résoudre des problèmes, il s’agit certainement d’une compétence plus générale. Le modèle tire parti des capacités parallèles pour effectuer un grand nombre de tris d’informations de cause à effet. Cette capacité est maîtrisée par le modèle de langage lorsqu'il apprend à résoudre des problèmes. Personne (les données) ne lui a appris à le faire. L'auteur suppose que cela pourrait être l'origine potentielle du terme « universel » dans le domaine de l'intelligence artificielle générale (AGI), c'est-à-dire que les modèles de langage peuvent acquérir des capacités plus générales au-delà des compétences enseignées par l'ensemble de données.



Figure 4

Ensuite, les auteurs ont examiné pourquoi le modèle avait commis cette erreur. En résumé, sur l'ensemble de données iGSM, le modèle ne commet presque que deux types d'erreurs : l'une calcule des variables inutiles et l'autre calcule des variables qui sont actuellement incalculables, comme le montre la figure 5.

Concernant le premier, l'auteur a découvert que si le modèle fait une erreur de calcul mental avant de générer la réponse et croit à tort qu'une certaine variable A est « nécessaire » (néce (A) = Vrai), alors le modèle est susceptible de calculer de force A. lors de la génération de la réponse. Cela produit une solution non la plus courte. Cette découverte est très intéressante et suggère que de nombreuses erreurs sont systématiques et que le modèle est convaincu qu'il fera une erreur (via des sondes) avant même d'ouvrir la bouche et que le premier token soit généré. Ce type d'erreur n'a rien à voir avec le caractère aléatoire du processus de génération de modèle ou de recherche de faisceaux.

Quant à ce dernier, l'auteur l'attribue également à des erreurs de calcul mental et utilisera l'intégralité d'un article de suivi de la partie 2.2 pour améliorer spécifiquement la capacité de calcul mental du modèle, afin d'améliorer à terme la précision de la résolution de problèmes. Le document n’a pas encore été publié, et nous continuerons d’y prêter attention et d’en rendre compte dans le compte public.



Figure 5

La conclusion suivante est que l'auteur a réfuté le « seul le grand » souligné dans la loi d'échelle des grands modèles, c'est-à-dire que les performances du modèle sont uniquement liées au nombre de paramètres et n'ont rien à voir avec la largeur ou profondeur. Ce point de vue a été proposé pour la première fois par l'article Scaling Law d'OpenAI et a été suivi dans presque toutes les recherches ultérieures.

L'auteur a mené une expérience contrôlée via l'ensemble de données iGSM, comme le montre la figure 6. En comparant des modèles plus petits et plus profonds avec des modèles plus grands et plus larges, nous avons constaté que pour résoudre des problèmes mathématiques dans iGSM,La profondeur du modèle est évidemment plus importante que la largeur . Par exemple, un modèle à 20 couches et 9 têtes est bien plus performant qu'un modèle à 4 couches et 30 têtes, même si ce dernier possède deux fois plus de paramètres.

En allant plus loin, l'auteur a découvertLe recours à la profondeur découle de la complexité du calcul mental du modèle . Grâce à des études approfondies à différentes profondeurs du modèle, l'auteur a découvert que pour les variables A qui sont éloignées du problème, le calcul mental nécessaire (A) nécessite souvent plus de couches. Plus précisément, si la distance entre la variable A et la variable du problème est t, alors t étapes de calcul mental sont nécessaires pour savoir que cela nécessite (A) = Vrai. Plus t est grand, plus le modèle nécessite de couches, comme le montre la figure 6.

L'auteur souligne que la dépendance du modèle à l'égard de la profondeur ne peut être compensée par la chaîne de pensée (CoT). En fait, la résolution de problèmes mathématiques dans iGSM a utilisé autant que possible CoT, c'est-à-dire que tous les calculs sont décomposés étape par étape. Même ainsi, le modèle doit encore effectuer du calcul mental pour planifier ce que devrait être la première étape du CoT - et ce processus de calcul mental peut encore nécessiter plusieurs étapes. Cela explique la dépendance du modèle à la profondeur.



Figure 6

Pour résumer, contrairement à plus de 99 % des articles qui étudient le processus comportemental du LLM, l’auteur de cet article adopte une nouvelle approche et révèle le processus mental du LLM lors de la résolution de problèmes mathématiques, ce qui fournit de nouveaux aperçus sur l’intelligence du LLM. perspective.

À la fin de l’article, l’auteur souligne que même GPT-4 ne peut effectuer que jusqu’à 10 étapes de raisonnement sur l’ensemble de données iGSM. Cela montre que même les modèles actuels les plus puissants, qui exploitent soi-disant toutes les données Internet, sont toujours incapables d’effectuer avec précision plus de 10 étapes d’inférence. Cela implique que les données de pré-entraînement utilisées par les grands modèles existants peuvent encore être améliorées. Grâce à la méthode décrite dans cet article, il pourrait s'agir d'une nouvelle possibilité d'établir des données synthétisées artificiellement pour améliorer la capacité de raisonnement du modèle et sa capacité de tri des informations.