nouvelles

Après ChatGPT, l’ultime étape de l’intelligence artificielle est tombée

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Zenan, Asia Oriole

Le comportement anthropomorphique des grands modèles nous donne un étrange effet de vallée.

Test de Turingest un mauvais test car les compétences conversationnelles et le raisonnement sont des choses complètement différentes. " Ces derniers jours, un nouveau point de vue est devenu populaire dans le cercle de l'IA.


Maintenant que nous sommes à l’ère de l’IA générative, nos normes d’évaluation de l’intelligence devraient changer.


« Les machines peuvent-elles penser ? » C'est la question posée par Alan Turing dans son article de 1950 « Computing Machinery and Intelligence ». Turing n’a pas tardé à souligner que, étant donné la difficulté de définir la « pensée », la question était « dénuée de sens et indigne d’être discutée ». Comme cela est courant dans les débats philosophiques, il a suggéré de la remplacer par une autre question.


Turing a imaginé un « jeu d'imitation » dans lequel un juge humain parle à un ordinateur et à un humain (fleuret), les deux parties essayant de convaincre le juge qu'ils sont véritablement humains.


Il est important de noter que l'ordinateur, le fleuret et le juge ne pouvaient pas se regarder et qu'ils communiquaient entièrement par texte. Après avoir parlé avec chaque candidat, les juges devinent qui est le véritable humain.


La nouvelle question de Turing était : « Existe-t-il un ordinateur numérique imaginable qui pourrait exceller dans le jeu d'imitation ? »



Lien papier :

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

Ce jeu proposé par Turing, désormais largement connu sous le nom de Test de Turing, a été utilisé pour réfuter la croyance intuitive largement répandue selon laquelle « en raison de la nature mécanique des ordinateurs, il est impossible de penser à un niveau de principe ».


Le point de Turing est le suivant : si un ordinateur ne se distingue pas d’un humain sur le plan comportemental (sauf pour son apparence et d’autres caractéristiques physiques), alors pourquoi ne le traitons-nous pas comme une entité pensante ? Pourquoi devrions-nous limiter la qualification de « penser » aux humains (ou, plus largement, aux entités constituées de cellules biologiques) ? Comme le décrit l’informaticien Scott Aronson, la proposition de Turing était « un appel contre le « chauvinisme charnel » ».

Le test de Turing est une idée plutôt qu'une « méthode »


Turing a présenté son test comme une expérience de pensée philosophique plutôt que comme un moyen de mesurer réellement l'intelligence artificielle. Cependant, aux yeux du public, le test de Turing est devenu l'étape ultime en matière d'intelligence artificielle (IA) - le principal critère permettant de juger si l'intelligence artificielle générale est arrivée.


Aujourd’hui, près de 75 ans plus tard, les rapports sur l’IA regorgent d’affirmations selon lesquelles le test de Turing a été réussi, en particulier avec le lancement de chatbots comme ChatGPT d’OpenAI et Claude d’Anthropic.

L'année dernière, Sam Altman, PDG d'OpenAI, a écrit : « Face au changement technologique, l'adaptabilité et la résilience des gens ont été bien démontrées : le test de Turing a réussi sans problème et la plupart des gens ont continué leur vie. »


Les principaux médias ont également publié des titres similaires. Par exemple, un journal a rapporté que "ChatGPT a réussi le fameux 'test de Turing' - indiquant que le robot IA a une intelligence comparable à celle des humains".


L'ancien journal publié quotidiennement au Royaume-Uni——The Daily Mail


Même l’un des plus grands médias du monde et une organisation médiatique publique très influente comme la BBC ont même proposé en 2014 que l’IA informatique avait réussi le test de Turing.


https://www.bbc.com/news/technology-27762088

Cependant, la question est : les chatbots modernes réussissent-ils vraiment le test de Turing ? Si oui, devrions-nous leur accorder le statut de « pensant », comme le proposait Turing ?


Étonnamment, malgré l’importance culturelle généralisée du test de Turing, la communauté de l’IA est depuis longtemps en désaccord sur les critères de réussite du test de Turing. Beaucoup se demandent si le fait de posséder des compétences conversationnelles capables de tromper les gens révèle réellement l’intelligence sous-jacente d’un système, ou sa capacité de « réflexion ».


Il existe probablement mille normes de test de Turing aux yeux d’un millier de personnes.


Geoffery Hinton, lauréat du prix Turing, a parlé de son « Turing Test Standard » dans une interview. Il pense que les chatbots tels que Palm peuvent expliquer pourquoi une blague est drôle, ce qui peut être considéré comme un signe de leur intelligence. Les grands modèles d'aujourd'hui comme GPT-4 sont très doués pour expliquer pourquoi une blague est drôle, ce qui est considéré comme faisant partie de leurs critères de test de Turing.


Comparés aux définitions sérieuses du test de Turing données par d'autres scientifiques, les opinions de Hinton, bien que humoristiques, expriment néanmoins ses réflexions sur la proposition ultime de « si l'intelligence artificielle a la capacité de penser ».


Lien vidéo de l'interview : https://www.youtube.com/watch?v=PTF5Up1hMhw


Une « farce de Turing »

Puisque Turing n'a pas proposé de test avec des instructions pratiques complètes.


Sa description du « jeu d’imitation » manque de détails :


  • Combien de temps doit durer le test ?

  • Quels types de questions sont autorisés ?

  • Quelles qualifications les juges humains ou les « foilers » doivent-ils posséder ?


Turing n’a pas développé ces questions spécifiques. Cependant, il a fait une prédiction précise : « Je crois que dans environ 50 ans, les ordinateurs seront programmés pour être si performants que l'interrogateur moyen n'aura plus qu'une chance d'identifier un être humain réel après cinq minutes d'interrogatoire. " En termes simples, au cours d'une conversation de cinq minutes, l'évaluateur a été induit en erreur en moyenne 30 % du temps.


Certains voient dans cette prédiction arbitraire le critère « officiel » pour réussir le test de Turing. En 2014, la Royal Society a organisé un concours de tests de Turing à Londres, impliquant cinq programmes informatiques, 30 fleurets humains et 30 juges.


Le groupe diversifié d’humains participants comprenait des jeunes et des moins jeunes, des anglophones natifs et non natifs, ainsi que des experts et non-experts en informatique. Chaque juge a eu plusieurs séries de conversations parallèles de cinq minutes avec deux concurrents (un humain et une machine), après quoi le juge devait deviner qui était l'humain.


Un chatbot nommé « Eugene Goostman », jouant le rôle d'un adolescent, a réussi à tromper 10 juges (taux de tromperie : 33,3 %).


De toute évidence, le « taux de tromperie » a dépassé les 30 % déclarés par Turing à l’époque.


Eugene Goostman simule un garçon de 13 ans.


Selon la norme de « 30 % de chances de tromperie en cinq minutes », les organisateurs ont annoncé : « Le test emblématique de Turing, il y a 65 ans, a été réussi pour la première fois par le programme informatique « Eugene Gustman ». Cette étape restera dans l'histoire... ".


Après avoir lu la transcription de la conversation entre le protagoniste "Eugene Goostman" dans ce test de Turing, les experts en IA se sont moqués de l'idée que le chatbot avait réussi le test de Turing, affirmant qu'il n'était pas assez complexe et qu'il n'avait pas échoué. le test envisagé par Turing.


Le temps de conversation limité et l’expertise inégale des juges ont fait de ce test davantage un test de crédulité humaine qu’une démonstration d’intelligence artificielle. Le résultat est un exemple frappant de « l’effet ELIZA » – du nom du chatbot ELIZA des années 1960, qui, malgré son extrême simplicité, peut encore tromper de nombreuses personnes en leur faisant croire qu’il s’agit d’un psychothérapeute compréhensif et compatissant.


Cela met en évidence notre tendance humaine à attribuer l’intelligence à des entités capables de nous parler.


ELIZA est l'un des premiers chatbots après la « publication » du test de Turing. Il s'agit d'un chatbot de psychothérapie Rogersite très basique.

Un autre concours de test de Turing, le Prix Loebner, permet des conversations plus longues, invite davantage de juges experts et exige que les machines participantes trompent au moins la moitié des juges. intéressant,Lorsque les normes ont été relevées, en près de 30 ans de compétition annuelle, pas une seule machine n'avait réussi cette version du test.


Le test de Turing commence à prendre un tournant


Même si l'article original de Turing manquait de détails sur la manière dont le test serait mis en œuvre, il était clair que le jeu d'imitation nécessitait trois joueurs : un ordinateur, un humain et un juge humain. Au fil du temps, cependant, le terme « test de Turing » a évolué pour désigner une version nettement plus faible dans le discours public : toute interaction entre un humain et un ordinateur qui se comporte suffisamment de manière humaine pour être considérée comme ayant réussi le test de Turing.


Par exemple, lorsque le Washington Post a rapporté en 2022 que « l’IA de Google a réussi un test célèbre – et a montré ses défauts », il ne faisait pas référence à The Imitation Game mais à l’ingénieur de Google Blake Lemo. Parce que (Blake Lemoine) pense que le chatbot LaMDA de Google a"Sensible"


En 2024, un communiqué de presse de l'Université de Stanford annonçait que les recherches de l'équipe de Stanford « marquent la première fois que l'intelligence artificielle réussit l'un des tests rigoureux de Turing ». Mais le soi-disant test de Turing est réalisé ici en comparant les statistiques comportementales de GPT-4 dans des enquêtes psychologiques et des jeux interactifs avec les statistiques comportementales humaines.


Cette définition est peut-être loin de l'intention initiale de Turing : la définition de l'équipe de Stanford est « Nous pensons qu'une IA a réussi le test de Turing lorsque sa réponse est statistiquement impossible à distinguer d'une réponse humaine sélectionnée au hasard. »


Le dernier cas revendiqué d'un chatbot réussissant le test de Turing provient d'une étude de 2024 qui utilisait un test « à deux joueurs » : un jeu d'imitation « à trois joueurs » avec Turing (dans lequel l'arbitre interrogeait à la fois l'ordinateur et l'humain). (fleuret), ici chaque arbitre n'interagit qu'avec un ordinateur ou un humain.


Les chercheurs ont recruté 500 participants humains, chacun étant désigné pour être soit un arbitre, soit un fleuret humain. Chaque juge a joué un tour de cinq minutes avec Foil, GPT-4 (qui a suscité des suggestions écrites par des humains sur la façon de tromper le juge) ou une version chatbot d'ELIZA. Après cinq minutes de conversation via une interface Web, les juges ont deviné s'ils parlaient à un humain ou à une machine.


Enfin, le fleuret humain a été jugé humain dans 67 % des tours ; GPT-4 a été jugé humain dans 54 % des tours, et ELIZA a été jugée humaine dans 22 % des tours. Les auteurs définissent la « réussite » comme le fait de tromper les juges dans plus de 50 % du temps, c'est-à-dire de dépasser la probabilité de deviner au hasard. Selon cette définition, GPT-4 réussit, même si l’adversaire humain obtient toujours un score plus élevé.

Il est inquiétant de constater que la plupart des juges humains ont été trompés par GPT-4 dans les cinq minutes suivant une conversation. L’utilisation de systèmes d’IA générative pour usurper l’identité d’êtres humains afin de diffuser de la désinformation ou de commettre des fraudes est un risque auquel la société doit faire face. Mais les chatbots d’aujourd’hui réussissent-ils vraiment le test de Turing ?


La réponse, bien sûr, est que cela dépend de la version du test dont vous parlez. Un jeu d'imitation à trois avec des juges experts et des temps de dialogue plus longs n'a encore été adopté par aucune machine (une version ultra stricte est prévue en 2029).


Puisque l’objectif du test de Turing est d’essayer de tromper les humains, plutôt que de tester plus directement l’intelligence. De nombreux chercheurs en IA considèrent depuis longtemps le test de Turing comme une distraction, un test « non conçu pour que l’IA réussisse, mais pour que les humains échouent ». Mais l’importance du test règne toujours en maître dans l’esprit de la plupart des gens.


Avoir des conversations est un moyen important pour chacun de nous d’évaluer les autres humains. Nous supposons naturellement qu’un agent capable de converser couramment doit posséder une intelligence semblable à celle d’un humain et d’autres caractéristiques psychologiques telles que les croyances, les désirs et la conscience de soi.


Cependant, si l’histoire de l’intelligence artificielle nous a appris quelque chose, c’est que ces hypothèses reposent souvent sur de fausses intuitions. Il y a plusieurs décennies, de nombreux experts en intelligence artificielle affirmaient que la création d’une machine capable de battre les humains aux échecs nécessiterait quelque chose d’équivalent à l’intelligence humaine complète.


Les pionniers de l'intelligence artificielle Allen Newell et Herbert Simon écrivaient en 1958 : « Si un homme pouvait concevoir une machine d'échecs performante, il semblerait avoir pénétré jusqu'au cœur de l'intelligence humaine. » Le spécialiste des sciences cognitives Douglas Hofstadter avait prédit en 1979 : « Dans le futur, il y aura là-bas ». Il s'agira peut-être de programmes capables de battre n'importe qui aux échecs, mais... ce seront des programmes dotés d'une intelligence générale.


Bien sûr, au cours des deux décennies suivantes, DeepBlue d'IBM a vaincu le champion du monde d'échecs Garry Kasparov, en utilisant une approche par force brute qui était loin de ce que nous appelons « l'intelligence générale ». De même, les progrès de l’intelligence artificielle montrent que des tâches autrefois considérées comme nécessitant une intelligence générale (reconnaissance vocale, traduction du langage naturel, voire conduite autonome) peuvent être exécutées par des machines dépourvues de compréhension humaine.


Le test de Turing pourrait bien devenir une autre victime de l’évolution de nos notions d’intelligence. En 1950, Turing croyait intuitivement que la capacité de parler comme des humains devrait être une preuve solide de la « pensée » et de toutes ses capacités associées. Cette intuition reste convaincante aujourd’hui. Mais peut-être que ce que nous avons appris d’ELIZA et d’Eugene Goostman, et ce que nous pouvons encore apprendre de ChatGPT et ses semblables, c’est que le fait de pouvoir parler couramment une langue naturelle, comme jouer aux échecs, n’est pas une preuve concluante de l’existence de preuves générales en matière de renseignement.


En fait, il existe de plus en plus de preuves dans le domaine des neurosciences que la maîtrise du langage est étonnamment déconnectée des autres aspects de la cognition. Grâce à une série d'expériences minutieuses et convaincantes, Ev Fedorenko, neuroscientifique au MIT, et d'autres ont montré que les réseaux cérébraux qui sous-tendent ce qu'ils appellent les « capacités formelles du langage » (les capacités liées à la production du langage) sont liés au bon sens, au raisonnement et à ce que nous pourrions appeler Les réseaux derrière d’autres aspects de ce que l’on appelle la « pensée » sont largement distincts. Ces chercheurs affirment que notre intuition selon laquelle la maîtrise du langage est une condition suffisante pour l’intelligence générale est une « erreur ».


Turing écrivait dans son article de 1950 : « Je crois que d’ici la fin de ce siècle, l’utilisation des mots et l’opinion générale cultivée auront tellement changé que les gens pourront parler de la pensée des machines sans être réfutés. » encore atteint ce point. Les prédictions de Turing étaient-elles simplement décalées de quelques décennies ? Le véritable changement se produit-il dans notre conception de la « pensée » ? — Ou la véritable intelligence est-elle plus complexe et subtile que Turing et que nous le réalisons ? Tout reste à voir.


Il est intéressant de noter que l'ancien PDG de Google, Eric Schmidt, a également exprimé son point de vue dans un récent discours à l'Université de Stanford.


Pendant longtemps dans l’histoire, la compréhension de l’univers par l’humanité était plus mystérieuse. La révolution scientifique a changé cette situation. Cependant, l’IA d’aujourd’hui nous empêche une fois de plus de véritablement comprendre ses principes. La nature des connaissances change-t-elle ? Allons-nous commencer à accepter les résultats de ces modèles d’IA tout en n’ayant plus besoin d’eux pour nous les expliquer ?


Schmidt l'exprime ainsi : Nous pouvons comparer cela à l'adolescence. Si vous avez un adolescent, vous savez qu’il est humain, mais vous n’arrivez pas à comprendre ses pensées. Notre société s'adapte clairement à l'existence des adolescents. Nous pouvons avoir des systèmes de connaissances que nous ne pouvons pas comprendre pleinement, mais qui sont dans les limites de notre capacité à les comprendre.


C'est probablement le mieux que nous puissions obtenir.