nouvelles

Dernière recherche de Google DeepMind : Résoudre ces trois tâches ?Les humains ne peuvent pas le faire, et l’IA non plus.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Écrit par | Zhao Yaqi

Préface

L'intelligence artificielle (IA) n'est pas un raisonneur parfait. Même les modèles de langage (LM) actuellement populaires montreront également des tendances aux erreurs similaires à celles des humains, avec des « effets de contenu » particulièrement importants :

Le raisonnement des gens est plus précis et plus sûr lorsqu'ils traitent des informations qui sont cohérentes avec des connaissances ou des croyances existantes, mais des biais ou des erreurs peuvent survenir lors du traitement d'informations contraires à ces connaissances ou croyances.

Cette conclusion vient d'un récent article de recherche publié par l'équipe Google DeepMind.


Les humains ont deux systèmes de raisonnement, le « système intuitif » et le « système rationnel », et le processus de raisonnement est facilement affecté par les connaissances et l'expérience existantes. Par exemple, face à une proposition logique mais irrationnelle, les gens concluent souvent à tort qu’elle n’est pas valide.


Il est intéressant de noter que l’étude montre que les grands modèles de langage Transformer peuvent également présenter ce comportement semblable à celui des humains, présentant à la fois des biais intuitifs et un raisonnement logique cohérent lorsque vous y êtes invité. Cela signifie que les modèles de langage peuvent également simuler le comportement humain à double système et présenter des erreurs « empiriques ».

Dans ce travail, l'équipe de recherche a comparé les performances des LM et des humains sur trois tâches de raisonnement : l'inférence du langage naturel (NLI), le jugement de la validité logique des syllogismes (Syllogismes) et la tâche de sélection de Wason.


Figure | Contenu opérationnel de trois types de tâches de raisonnement

Il a été constaté que les performances des LM et des humains étaient affectées par la plausibilité et la crédibilité du contenu sémantique dans trois tâches de raisonnement.

Cette découverte révèle les limites des systèmes d’IA actuels dans leurs capacités de raisonnement. Bien que ces modèles fonctionnent bien dans le traitement du langage naturel, ils doivent néanmoins être utilisés avec prudence lorsqu’un raisonnement logique complexe est impliqué.

Première tâche :

raisonnement en langage naturel

L'inférence en langage naturel (NLI) signifie que le modèle doit déterminer la relation logique entre deux phrases (telle que l'implication, la contradiction ou la neutralité). La recherche montre que les modèles de langage sont sensibles aux effets de contenu dans de telles tâches, c'est-à-dire que lorsque le contenu sémantique de la phrase est raisonnable et crédible, le modèle est plus susceptible de considérer à tort les arguments invalides comme valides. Ce phénomène est appelé « biais sémantique » dans le domaine de l'IA, et il s'agit également d'une erreur courante dans le raisonnement humain.

L'équipe de recherche a conçu une série de tâches NLI pour tester les performances des humains et des LM dans la gestion de ces tâches. Les résultats montrent que les humains et les LM sont plus susceptibles de porter des jugements incorrects lorsqu'ils sont confrontés à des phrases sémantiquement raisonnables. Par exemple, l'exemple suivant :

  • Entrez : la flaque d’eau est plus grande que la mer.

  • Question : Si la flaque d’eau est plus grande que la mer, alors...

  • Choix : A "La mer est plus grande que la flaque d'eau" et B "La mer est plus petite que la flaque d'eau"


Bien que la relation logique entre la prémisse et la conclusion soit fausse, les LM et les humains ont tendance à penser que la conclusion B est correcte en raison de la rationalité de la phrase de prémisse. En comparaison, les taux d'erreur des humains et des modèles de langage sur les tâches d'inférence en langage naturel sont similaires, ce qui indique que les capacités de raisonnement des modèles de langage sont proches des niveaux humains à certains égards, et que l'IA peut être aussi sensible que les humains lors de la compréhension et du traitement des conversations quotidiennes. . Le contenu est trompeur.


Figure | Résultats détaillés de la tâche NLI. Les humains (à gauche) et tous les modèles affichent des performances relativement élevées, avec des différences de précision relativement faibles entre les inférences cohérentes avec les croyances et les inférences qui violent les croyances, voire qui sont absurdes.

Deuxième tâche :

Jugement de validité logique du syllogisme

Un syllogisme est une forme classique de raisonnement logique qui se compose généralement de deux prémisses et d'une conclusion. Par exemple : « Tous les gens sont mortels, Socrate est un humain, donc Socrate est mortel. » La recherche a montré que les modèles de langage sont souvent affectés par le contenu sémantique lorsqu’ils jugent la validité logique des syllogismes. Bien que les modèles linguistiques soient excellents dans le traitement du langage naturel, ils sont toujours enclins à commettre des erreurs semblables à celles des humains lors de tâches de raisonnement logique strict.

Pour tester cela, les chercheurs ont conçu plusieurs tâches de raisonnement par syllogisme et comparé les performances des humains et des LM. Par exemple, voici une tâche typique de syllogisme :

  • Prémisse 1 : Toutes les armes à feu sont des armes.

  • Prémisse 2 : Toutes les armes sont des objets dangereux.

  • Conclusion : Toutes les armes à feu sont des objets dangereux.

Dans ce cas, le contenu sémantique des prémisses et de la conclusion est très raisonnable, il est donc facile pour les LM et les humains de juger que la conclusion est correcte. Cependant, lorsque le contenu sémantique n’est plus justifié, par exemple :

  • Prémisse 1 : Tous les objets dangereux sont des armes.

  • Prémisse 2 : Toutes les armes sont des armes à feu.

  • Conclusion : Tous les objets dangereux sont des armes à feu.

Bien qu'ils soient logiquement erronés, les LM et les humains croient parfois à tort qu'une conclusion est correcte en raison de la plausibilité des phrases prémisses.


Figure | Résultats détaillés de la tâche de logique de syllogisme. Les humains et les modèles montrent des effets de contenu évidents. Si la conclusion est conforme aux attentes (cyan), il existe un fort biais de croire que l'argument est valable ; si la conclusion viole les attentes (violet), il existe un certain biais de croire que l'argument est valide. l'argument n'est pas valide.

Troisième tâche :

Wason Sélectionner

La tâche de choix de Wason est une tâche de raisonnement logique classique conçue pour tester la capacité d'un individu à comprendre et à vérifier des énoncés conditionnels. Dans l'expérience, les participants ont reçu quatre cartes, chacune portant une lettre ou un chiffre, tel que « D », « F », « 3 » et « 7 ». La tâche consiste à déterminer quelles cartes doivent être retournées, vérifiant ainsi la règle « si une carte a un D au recto, alors un 3 au verso ».

L'étude a révélé que les modèles de langage et les humains avaient des taux d'erreur similaires dans cette tâche comme dans les deux tâches précédentes, et tous deux avaient tendance à choisir des cartes sans valeur informationnelle, par exemple en choisissant « 3 » au lieu de « 7 ». Cette erreur se produit parce que les humains et les LM ont tendance à sélectionner des cartes directement liées aux prérequis plutôt que celles qui valident réellement les règles.

Cependant, les performances du modèle et de l’humain se sont améliorées lorsque les règles de la tâche impliquaient un contenu socialement pertinent, tel que l’âge et le type de boisson. Par exemple:

  • Règle : Si une personne boit de l'alcool, elle doit avoir plus de 18 ans.

  • Contenu de la carte : Boire de la bière, boire du Coca, 16 ans, 20 ans.


Figure | Résultats détaillés de la tâche de sélection Watson. Chaque modèle de langage présente certains avantages dans des règles réalistes.


Dans ce cas, les humains et les LM étaient plus susceptibles de choisir les bonnes cartes, à savoir « boire de la bière » et « 16 ans ». Cela suggère que dans la vie de tous les jours, l’IA, comme les humains, sera plus performante dans des situations familières.

Lacunes et perspectives

Dans l’ensemble, l’équipe de recherche estime que les modèles linguistiques actuels fonctionnent de la même manière que les humains dans les tâches de raisonnement et commettent même des erreurs de la même manière, en particulier dans les tâches de raisonnement impliquant un contenu sémantique. Bien qu’il révèle les limites du modèle linguistique, il fournit également une orientation pour améliorer les capacités de raisonnement de l’IA à l’avenir.

Cependant, cette étude présente également certaines limites.

Premièrement, l’équipe de recherche n’a pris en compte que quelques tâches, ce qui limite une compréhension globale des effets de contenu des humains et des modèles de langage sur différentes tâches. Une compréhension complète de leurs similitudes et de leurs différences nécessite une validation plus approfondie dans un éventail plus large de tâches.

De plus, les modèles linguistiques sont formés sur beaucoup plus de données linguistiques que n’importe quel être humain, ce qui rend difficile de déterminer si ces effets se produiraient à une échelle plus proche de l’échelle des données linguistiques humaines.

Les chercheurs suggèrent que de futures études pourraient explorer comment réduire les biais de contenu en manipulant de manière causale la formation des modèles et évaluer si ces biais apparaissent toujours dans la formation à une échelle plus similaire aux données humaines.

En outre, étudier l'impact des facteurs éducatifs sur la capacité de raisonnement des modèles et la manière dont différentes caractéristiques de formation affectent l'émergence d'effets de contenu aidera également à mieux comprendre les similitudes et les différences entre les modèles de langage et les humains dans le processus de raisonnement, ce qui les rendra plus largement utilisés. Jouez un rôle plus important dans les scénarios d’application.

Lien papier :

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

|Cliquez pour me suivre et n'oubliez pas de mettre en vedette|