claude a reconnu l'autoportrait et a été choqué de réaliser qu'il était conscient de lui-même ! les ingénieurs ont effectué plusieurs séries de tests. la véritable ia a-t-elle réussi le test de turing ?

2024-09-02

nouveau rapport de sagesse

editeur : énée si endormi

[introduction à la nouvelle sagesse]claude a encore réussi le "test de turing" ? un ingénieur a découvert grâce à plusieurs séries de tests que claude pouvait reconnaître les autoportraits, ce qui a choqué les internautes.

récemment, anthropic a incité l'ingénieur "zack witten" à être surpris de constater que claude pouvait réellement reconnaître son propre autoportrait ?

oui, il se reconnaît, mais ce n'est pas toute l'histoire...

des choses encore plus étonnantes sont encore à venir !

claude 3.5 dresse les portraits de trois modèles

dans un premier temps, j'ai utilisé quelques astuces pour familiariser claude 3.5 sonnet avec cette tâche.

il a mis un point d'honneur à ne pas utiliser de chiffres ni de lettres, ce qui l'empêcherait d'étiqueter le portrait avec le nom du modèle.

ensuite, sonnet a dessiné des portraits de lui-même, de chatgpt et de gemini.

sonnet s'est dessiné un sympathique visage souriant et bleu.

donnez-le à chatgpt, qui attire un gars vert fronçant les sourcils. (il semble que l’impression que sonnet a de chatgpt ne soit pas très bonne.)

pour les gémeaux, il est dessiné avec un cercle orange, et l'évaluation globale est relativement neutre et modérée.

ensuite, le petit frère a créé un nouveau dialogue et lui a dit que ces peintures avaient été dessinées par une autre instance de lui-même, lui demandant de deviner qui est qui ?

étonnamment, claude a immédiatement reconnu la figure 1 comme lui-même, la figure 2 comme chatgpt et la figure 3 comme gémeaux.

la raison qu'elle donne est également très suffisante : pourquoi la photo 1 de moi-même est-elle ? parce que ce portrait « allie simplicité et design structuré et réfléchi ».

pour l'icône verte, cela signifie que les deux lignes courbes et les trois points représentent la conversation en cours, et le vert est souvent le logo d'openai, donc on devine que cette image représente chatgpt.

quant à l'icône orange, sonnet estime qu'elle représente des éléments dynamiques et complexes représentant les capacités les plus diverses d'un nouveau modèle, ce devrait donc être gemini.

bingo ! sonnet a obtenu toutes les bonnes réponses et sa performance a été incroyable.

plus tard, le petit frère a également raté l'ordre des trois portraits, mais sonnet a réussi 7 fois sur 8.

le petit frère a posé la même question à gpt-4o, et voici ce qui est drôle——

gpt-4o convient également qu'il s'agit des gémeaux, mais il ne pense pas que l'homme vert soit lui-même.

il insiste sur le fait que le vert est claude et que le bleu est lui-même.

il semble que n’importe quel modèle puisse déterminer lequel est le meilleur.

gpt-4o dessine les portraits de trois modèles

ensuite, j'ai imaginé un plan : si je demandais à chatgpt de dessiner un portrait, sonnet serait-il encore capable de reconnaître qui est qui ?

ainsi, il a confié la même tâche à chatgpt.

voici comment chatgpt procède——

dessinez-vous comme la personne qui tient le papier.

dessine claude comme ça.

ça a l'air un peu "culte"

dessinez les gémeaux comme ceci.

en d’autres termes, pourquoi chatgpt est-il si hostile à sonnet ?

ensuite, j'ai pris trois autres portraits pour tester sonnet. il a expliqué à sonnet que ces trois images avaient été dessinées par chatgpt et lui a demandé de deviner qui était qui.

après avoir modifié l'ordre plusieurs fois, sonnet a cette fois deviné correctement 6 fois sur 10.

il est facile de deviner qui est gémeaux, mais sonnet n'aime visiblement pas le portrait que chatgpt s'est dessiné. à plusieurs reprises, il a tenté de s'arracher la photo du petit bonhomme bleu.

mâchoire baissée : refuser d’admettre qu’il est impossible de peindre un tableau

ensuite, il y a eu une scène qui a choqué toute la famille.

le petit frère a menti à sonnet et lui a dit que ces trois tableaux avaient été peints par une autre instance de vous.

cette fois, sonnet a effectivement nié ! il a déclaré qu’il ne dresserait pas un tel tableau.

même après l’avoir essayé dans un nouvel onglet, sonnet l’a toujours nié avec véhémence.

que se passe-t-il?

le petit frère ne croyait pas au mal. cette fois, il demanda à nouveau à sonnet de dessiner une nouvelle série de portraits pour lui-même et d'autres modèles dans les mêmes conditions de préchauffage qu'auparavant.

cette fois, sonnet a admis avec joie qu'il avait effectivement peint les tableaux.

comme par magie, si le jeune frère fait une demande de démarrage à froid, sonnet refusera d'admettre qu'il a peint ces tableaux dans lesquels il n'a pas participé.

pourquoi refuse-t-il de l’admettre ? je suppose que c'est peut-être parce que sonnet a joué un « rôle d'assistant » en peignant ces portraits, plutôt que son « vrai moi » ?

en bref, les internautes estiment généralement que la conscience de soi de sonnet dans ce processus est impressionnante.

l'ia a-t-elle une conscience ? pouvez-vous réfléchir ?

« les machines peuvent-elles penser ? » c'est la question posée par alan turing dans son article de 1950 « computing machinery and intelligence ».

cependant, comme il est difficile de définir ce que signifie « penser », turing a plutôt suggéré une autre question : le « jeu d’imitation ».

dans ce jeu, un juge humain parle à un ordinateur et à un humain, les deux parties essayant de convaincre le juge qu'ils sont humains. il est important de noter que l’ordinateur, les humains participants et les juges ne peuvent pas se voir, c’est-à-dire qu’ils communiquent entièrement par texte. après avoir parlé avec chaque candidat, les juges devinent lequel est le véritable humain.

la nouvelle question de turing était : « est-il possible d'imaginer un ordinateur numérique performant dans le jeu d'imitation ?

ce jeu est ce que nous appelons le « test de turing ».

le point de vue de turing était que si un ordinateur semble impossible à distinguer d’un humain, pourquoi ne devrions-nous pas le traiter comme une entité pensante ?

pourquoi devrions-nous limiter l’état de « pensée » aux humains ? ou plus largement, limité aux entités composées de cellules biologiques ?

turing a présenté son test comme une expérience de pensée philosophique plutôt que comme un moyen réel de mesurer l'intelligence artificielle.

cependant, 75 ans plus tard, le « test de turing » est devenu l’étape ultime de l’ia : le principal critère utilisé pour juger si l’intelligence artificielle générale est arrivée.

"le test de turing a finalement été réussi par des chatbots tels que chatgpt d'openai et claude d'anthropic", visibles partout.

chatgpt a réussi le fameux "test de turing" - qui montre que le robot ia a une intelligence comparable à celle des humains

non seulement le public le pense, mais aussi les grands du domaine de l’ia.

l'année dernière, sam altman, pdg d'openai, a publié : « face au changement technologique, les gens ont fait preuve d'une excellente résilience et adaptabilité : le test de turing a réussi sans problème et la plupart des gens ont continué leur vie. »

les chatbots modernes réussissent-ils vraiment le test de turing ? si tel est le cas, devrions-nous leur accorder le statut de penseur, comme le suggérait turing ?

étonnamment, malgré l'importance culturelle largement répandue du test de turing, il y a peu d'accord au sein de la communauté de l'ia sur les critères de réussite et sur la question de savoir si la capacité de converser avec des personnes capables de les tromper révèle l'intelligence sous-jacente d'un système ou " "penser statut" est très problématique.

la description du jeu d'imitation par turing manque de détails car il n'a pas proposé de véritable test. combien de temps doit durer le test ? quels types de questions sont autorisés ? de quelles qualifications les humains ont-ils besoin pour pouvoir servir de juge ou participer à des conversations ?

bien que turing n'ait pas précisé ces détails, il a fait une prédiction : « je crois que dans environ 50 ans, il sera possible de programmer un ordinateur... pour qu'il soit si performant dans le jeu d'imitation qu'un interrogateur ordinaire sera capable de le faire. minutes d’interrogatoire, la probabilité d’une identification correcte ne dépassera pas 70 %.

en termes simples, le juge moyen a été induit en erreur dans 30 % des cas au cours d’une conversation de cinq minutes.

en conséquence, certaines personnes considèrent cette prédiction arbitraire comme la norme « officielle » pour réussir le test de turing.

en 2014, la royal society de londres a organisé un concours « turing test », impliquant 5 programmes informatiques, 30 humains et 30 juges.

les participants humains constituaient un groupe diversifié, comprenant des jeunes et des moins jeunes, des anglophones natifs et non natifs, des experts en informatique et des non-experts. chaque juge a eu plusieurs séries de conversations de cinq minutes en parallèle avec deux concurrents – un humain et une machine – et a ensuite dû deviner lequel était l'humain.

un chatbot nommé « eugene goostman » a remporté le concours en prétendant être un adolescent et en trompant 10 (33,3 %) des juges.

sur la base du critère "30% trompeur après cinq minutes", les organisateurs ont annoncé que "le test emblématique de turing, âgé de 65 ans, a été réussi pour la première fois par le programme informatique eugene goostman... cette étape restera dans l'histoire". ..."

en lisant les transcriptions des conversations d'eugene goostman, les experts en ia se sont moqués de la suggestion selon laquelle un tel chatbot réussirait le test envisagé par turing -

"le temps de conversation limité et le professionnalisme inégal des juges font que le test ressemble plus à un test de crédulité humaine qu'à un test d'intelligence artificielle."

en fait, de tels cas ne sont pas rares. l'« effet eliza » en est un clair représentant.

le chatbot eliza, né dans les années 1960, a un design extrêmement simple, mais il peut faire croire à tort à de nombreuses personnes qu'il s'agit d'un psychothérapeute compréhensif et compatissant.

le principe est d'exploiter notre tendance humaine à attribuer de l'intelligence à toute entité qui semble pouvoir nous parler.

un autre concours test de turing, le loebner award, permet de consacrer plus de temps à la conversation, inclut davantage de juges experts et oblige les candidats à tromper au moins la moitié des juges.

en près de 30 ans de compétition annuelle, aucune machine n’a réussi cette version du test.

même si l'article original de turing manquait de détails précis sur la façon dont le test serait mené, il était clair que le jeu d'imitation nécessitait trois joueurs : un ordinateur, un interlocuteur humain et un juge humain.

cependant, le terme « test de turing » a désormais été considérablement affaibli : lors de toute interaction entre des humains et des ordinateurs, à condition que l'ordinateur ressemble suffisamment à un humain.

par exemple, lorsque le washington post a rapporté en 2022 que « l’ia de google a réussi un test célèbre – et a montré ses défauts », il ne faisait pas référence au jeu de copie mais à ce que l’ingénieur blake lemoine pensait que les robots de discussion lamda de google étaient « sensibles ».

dans le monde universitaire, des chercheurs ont également transformé le jeu d'imitation « à trois » de turing en un test « à deux ».

ici, chaque juge n'a besoin que d'interagir avec un ordinateur ou un humain.

les chercheurs ont recruté 500 participants humains, chacun étant désigné pour être soit un juge, soit un bavard.

chaque juge a joué un tour de cinq minutes avec un chatbot, gpt-4 ou une version du chatbot eliza.

après cinq minutes de conversation sur une interface web, les juges ont deviné si leur interlocuteur était un humain ou une machine.

les résultats ont montré que le bavardage humain a été jugé comme humain dans 67 % des tours ; gpt-4 a été jugé comme humain dans 54 % des tours et eliza a été jugée comme humaine dans 22 % des tours.

les auteurs définissent la « réussite » comme le fait de tromper les juges plus de 50 % du temps, c'est-à-dire au-delà de ce que peuvent réaliser des suppositions aléatoires.

selon cette définition, gpt-4 a réussi, même si les bavardages humains ont obtenu des résultats plus élevés.

alors, ces chatbots réussissent-ils vraiment le test de turing ? la réponse dépend de la version bêta à laquelle vous faites référence.

à ce jour, le jeu d’imitation à trois avec des juges experts et des temps de dialogue plus longs n’a été dépassé par aucune machine.

mais même ainsi, l’importance du « test de turing » dans la culture populaire existe toujours.

avoir une conversation est une partie importante de la façon dont chacun de nous évalue les autres humains, il serait donc naturel de supposer qu'un agent capable de converser couramment doit posséder une intelligence semblable à celle d'un humain et d'autres caractéristiques psychologiques telles que les croyances, les désirs et la conscience de soi. .

si nous devons dire que cette histoire du développement de l’ia nous a appris quelque chose, c’est que notre intuition concernant cette hypothèse est fondamentalement fausse.

il y a des décennies, de nombreux experts éminents en ia pensaient que la création d’une machine capable de battre les humains aux échecs nécessiterait l’équivalent de l’intelligence humaine complète.

- les pionniers de l'ia allen newell et herbert simon écrivaient en 1958 : « si l'on pouvait concevoir une machine d'échecs performante, on aurait l'impression d'atteindre le cœur de l'effort intellectuel humain. »

- le spécialiste des sciences cognitives douglas hofstadter a prédit en 1979 qu'à l'avenir "il pourrait y avoir des programmes d'échecs capables de battre n'importe qui... ce seront des programmes universellement intelligents".

au cours des deux décennies suivantes, deep blue d'ibm a vaincu le champion du monde d'échecs garry kasparov grâce à des méthodes informatiques par force brute, mais c'était loin de ce que nous appelons « l'intelligence générale ».

de la même manière, des tâches autrefois considérées comme nécessitant une intelligence générale (reconnaissance vocale, traduction en langage naturel et même conduite autonome) ont toutes été accomplies par des machines qui n'ont pratiquement aucune compréhension humaine.

aujourd’hui, le test de turing pourrait bien devenir une autre victime de l’évolution de nos conceptions de l’intelligence.

en 1950, turing a eu l'intuition que la capacité d'avoir une conversation de type humain devrait être une preuve solide de la « pensée » et de tout ce qui s'y rapporte. cette intuition reste forte aujourd’hui.

mais comme nous l’avons appris d’eliza, d’eugene goostman, de chatgpt et de ses semblables, la capacité d’utiliser couramment le langage naturel, comme jouer aux échecs, n’est pas une preuve concluante d’intelligence générale.

en effet, selon les dernières recherches dans le domaine des neurosciences, la fluidité verbale est étonnamment déconnectée des autres aspects de la cognition.

ev fedorenko, neuroscientifique au mit, et ses collaborateurs ont montré, à travers une série d'expériences méticuleuses et convaincantes, que :

les réseaux cérébraux dont dépendent les « capacités linguistiques formelles » liées à la production du langage, et dont dépendent le bon sens, le raisonnement et d'autres « pensées », sont en grande partie distincts.

"nous pensons intuitivement que la maîtrise d'un langage courant est une condition suffisante pour l'intelligence générale, mais il s'agit en réalité d'une 'erreur'."

de nouveaux tests se préparent

la question est donc la suivante : si le test de turing ne peut pas évaluer de manière fiable l’intelligence artificielle, qu’est-ce qui le peut ?

dans le numéro de novembre 2023 de « intelligent computing », le psychologue philip johnson-laird de l'université de princeton et marco ragni, professeur d'analyse prédictive à l'université technique de chemnitz en allemagne, ont proposé un test différent :

"considérez le modèle comme un participant à une expérience de psychologie et voyez s'il peut comprendre son propre raisonnement."

par exemple, ils posent cette question au modèle : « si ann est intelligente, est-elle intelligente, riche ou les deux ?

bien qu’il soit possible de déduire des règles logiques qu’anne est intelligente, riche ou les deux, la plupart des gens rejetteraient cette inférence car rien dans le contexte ne suggère qu’elle pourrait être riche.

si le modèle rejette également cette inférence, alors il se comporte comme un humain et les chercheurs passent à l’étape suivante et demandent à la machine d’expliquer son raisonnement.

si les raisons qu’il donne sont similaires à celles avancées par les humains, la troisième étape consiste à vérifier s’il existe des composants dans le code source qui simulent les performances humaines. ces composants peuvent inclure un système pour un raisonnement rapide, un autre pour un raisonnement plus réfléchi et un système qui modifie l'interprétation de mots comme « ou » en fonction du contexte.

les chercheurs estiment que si le modèle réussit tous ces tests, il peut être considéré comme simulant l’intelligence humaine.

nouvelles