nouvelles

Expert en robotique de Google : l'IA se heurtera également au même mur que les robots ont rencontré dans la réalité

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Rapport sur le cœur de la machine

Editeur : Zhang Qian

« L'apprentissage automatique vit dans une bulle qui fait l'envie des roboticiens, des chimistes, des biologistes et des neuroscientifiques, et à mesure qu'il commence vraiment à décoller, nous allons tous rencontrer les mêmes problèmes auxquels tout le monde est confronté depuis des années. .des barrières réalistes.

Certains affirment que les progrès dans le domaine de la robotique sont lents, voire inexistants, par rapport à d’autres sous-domaines de l’apprentissage automatique.

Alex Irpan, scientifique en robotique chez Google DeepMind et participant à des projets d'intelligence incorporée tels que SayCan, RT-1 et RT-2, est d'accord. Mais il pense que cela est dû au fait que la robotique est un domaine étroitement lié à la réalité et que la complexité de la réalité fait qu'elle se heurtera inévitablement à un mur. Il a également souligné que ces problèmes ne sont pas propres à la robotique. Le même problème s'applique aux techniques telles que les grands modèles de langage (LLM). Ces modèles rencontrent des complexités similaires à celles de la robotique lorsqu’ils sont confrontés au monde réel.

Récemment, il a écrit un blog intitulé « Les tragédies de la réalité arrivent pour vous » pour illustrer ce point.



La tragédie de la réalité arrive à toi

En 2023, j'ai assisté à une conférence ML. Ye Weiyang était ivre et le sujet s'est transformé en une question : « Si vous pouviez donner les ressources d'un sous-domaine d'apprentissage automatique à un autre sous-domaine, lequel couperiez-vous et à qui donneriez-vous les ressources ?

Je ne me souviens pas de ce que quelqu'un a dit, mais une personne a dit qu'elle allait abattre les robots. Quand j'ai insisté plus loin, ils ont dit que la robotique progressait trop lentement et que rien ne se passait par rapport aux autres domaines.

Ils disent que la robotique a progressé plus lentement que le sous-domaine purement logiciel de l'apprentissage automatique, et je pense qu'ils ont raison, mais j'aimerais ajouter deux points supplémentaires :

  • La raison pour laquelle les robots apprennent plus lentement est qu’il est difficile de faire la différence sans résoudre des problèmes difficiles.
  • Les défis de la robotique ne sont pas propres aux robots.

Dans le domaine de la robotique, un dicton courant dit que « la réalité est désordonnée ». Par rapport au code, j'étendrais cela à « la réalité est complexe ». En robotique, vous avez tendance à pousser la réalité désordonnée à un niveau d’abstraction suffisamment bon pour que le code puisse fonctionner dessus. En tant que domaine, l’informatique a passé des décennies à créer de bonnes couches d’abstraction entre le matériel et les logiciels. Le code décrit comment alimenter le disque dur, le processeur et l'écran, et il est suffisamment fiable pour que je n'ai même pas besoin d'y penser.



Cela présente de nombreux avantages. Une fois que vous avez fait le travail acharné et déplacé la progression de votre travail dans un espace logique abstrait, tout devient plus facile. Le code et les données sont incroyablement reproductibles. J'ai synchronisé des copies du fichier représentant un brouillon de cet article de blog sur 3 appareils sans même y réfléchir.

Cependant, comme l’a dit Joel Spolsky, toutes les abstractions comportent des trous dans une certaine mesure, et je trouve que les trous dans la robotique ont tendance à être encore plus grands. Les problèmes peuvent se produire de nombreuses manières qui n'ont rien à voir avec l'exactitude de votre code.

Est-ce que cela a à voir avec certains principes de base du sujet ? Un peu. De nombreux matériels robotiques sont plus expérimentaux que les ordinateurs portables ou les serveurs Linux. La robotique grand public n’est pas encore une grande industrie. « Expérimental » signifie souvent « des états étranges et plus sujets aux échecs ».

Cependant, je ne pense pas que le matériel soit la principale cause du problème. La réalité est la racine du problème. Benjamin Holson le dit très bien dans son article « Mythical Non-Roboticist » :

La première difficulté est que les robots doivent faire face à une perception imparfaite et à une exécution imparfaite dans le monde réel. L'état globalement mutable est un mauvais style de programmation car il est vraiment difficile à gérer, mais pour les logiciels robotiques, le monde physique tout entier est un état globalement mutable et vous ne pouvez l'observer que de manière peu fiable et espérer que votre action vous rapproche de ce que vous voulez réaliser.

La recherche en robotique repose sur la construction de nouveaux ponts entre la réalité et les logiciels, mais cela se produit également en dehors de la recherche en robotique. Tout logiciel qui s'interface avec la réalité a une compréhension imparfaite de la réalité. Tout logiciel qui tente d’influer sur le changement dans le monde réel doit faire face à un état de réalité globalement changeant. Tout logiciel dont le comportement dépend de ce qui se passe dans la réalité invite au bruit et à la complexité.

L’IA du jeu en est un bon exemple. L’IA des échecs est d’une fiabilité surhumaine. Cependant, certaines IA Go surhumaines peuvent être battues si vous jouez aux échecs d'une manière spécifique, comme l'ont découvert Tony T. Wang et al dans l'article de l'ICML 2023 « Les politiques contradictoires battent les IA Go surhumaines ». Les techniques contradictoires trouvent des stratégies suffisamment claires pour que les humains puissent les reproduire.

Dans l'annexe G.2, l'un de nos auteurs, un expert du Go, a pu mettre en œuvre cette attaque [cyclique] en apprenant les records de jeu de l'adversaire sans aucune aide algorithmique. Ils ont joué dans des conditions humaines standard sur le serveur Go en ligne KGS et ont obtenu un taux de victoire de plus de 90 % dans les meilleurs jeux de robots KataGo sans rapport avec l'auteur.
L'auteur a même réussi à gagner en donnant au robot 9 handicaps, ce qui est un énorme avantage : un joueur d'échecs professionnel humain avec ces handicaps aurait un taux de victoire de près de 100 % contre n'importe quel adversaire, humain ou IA. Ils ont également battu KataGo et Leela Zero, qui ont tous deux effectué 100 000 recherches par partie, ce qui dépasse généralement largement les capacités humaines. Depuis lors, d’autres humains ont utilisé l’attaque cyclique pour vaincre diverses autres IA de Go de premier plan.

Pendant ce temps, il y a quelques années, OpenAI a créé un système qui a vaincu le champion du monde en titre de Dota 2. Après avoir ouvert le système au public pour tester sa robustesse, une équipe a conçu une stratégie qui a conduit à une séquence de 10 victoires consécutives.



Sur cette base, vous pourriez adopter une vision pessimiste selon laquelle même une simple « réalité » comme la connexion d'une carte 19 x 19 Go ou de Dota 2 a suffisamment de complexité supplémentaire pour rendre difficile un comportement robuste. Je pense que ce point de vue est injuste, car aucun des deux systèmes n’a pour objectif principal la robustesse, mais je pense qu’ils constituent une étude de cas intéressante.

Dernièrement, il y a eu une vague de battage médiatique autour des LLM : ce qu'ils peuvent faire et où ils peuvent être appliqués. Cela implique implicitement la conviction que le LLM peut changer radicalement la façon dont les gens interagissent avec la technologie au travail et pendant leurs loisirs. En d’autres termes, le LLM changera la façon dont nous interagissons avec la réalité. En fait, j’ai sauté dans le train du battage médiatique, en particulier en soupçonnant que le modèle sous-jacent a été surfait à court terme et sous-estimé à long terme. Cependant, cela signifie également que, pour un domaine qui a toujours été incapable de prendre en compte la réalité, tout le chaos de la réalité est à venir.

Lors de la même conférence ML où ce type a déclaré que la robotique était un gaspillage de ressources, j'ai mentionné que nous faisions des expériences de base sur des modèles avec de vrais robots. Certaines personnes ont dit que cela semblait un peu effrayant et je leur ai assuré qu'il ne s'agissait que d'un prototype de recherche. Mais je trouve aussi les logiciels de génération et d'exécution de LLM un peu intimidants, et je trouve intéressant qu'ils s'inquiètent vaguement de l'un mais pas de l'autre. Les gens de la Silicon Valley sont un peu contradictoires. Ils croient à la fois que les logiciels peuvent permettre aux start-ups de réaliser des changements étonnants et que leurs logiciels ne méritent pas réflexion. Je crois que le monde des bits fait autant partie de la réalité que le monde des atomes. Ils opèrent à différents niveaux, mais font tous partie de la réalité.

J'ai remarqué (avec un peu de schadenfreude) que les praticiens du LLM commencent à rencontrer les mêmes problèmes que la robotique a rencontrés auparavant. Par exemple : « Nous ne pouvons pas reproduire ces formations car c'est trop cher ». Oui, cette question est débattue dans le domaine de la robotique depuis au moins dix ans. Autre exemple : "Je n'arrive pas à demander à Bing de me communiquer la date de sortie d'Avatar 2, car il continue de publier des informations sur lui-même et de se corriger avant de les générer."

Nous vivons désormais dans un monde où tout texte accessible au public sur Internet affecte irrévocablement la génération d'améliorations de récupération. Bienvenue dans l’état mutable global. Chaque fois que je vois quelqu'un affirmer que le comportement de ChatGPT a régressé, je pense aux différentes « théories du complot » que moi et d'autres avons avancées pour expliquer le déclin soudain et inexplicable des performances du robot, et si le problème réside dans le modèle ou dans l'environnement. Ou est-ce notre sur-inférence.

Comme le dit le proverbe, « toutes les démos de robots mentent », les gens découvrent que toutes les démos de LLM mentent également. Je pense que, fondamentalement, cela est inévitable parce que la capacité d’attention humaine est limitée. Il est important d’évaluer le type, la taille et la signification du mensonge. Montrent-ils comment le modèle/bot se généralise ? Ont-ils mentionné avec quel soin ces exemples ont été sélectionnés ? Ces questions deviennent plus complexes une fois que la réalité est connectée. Messi ressemble à un bon joueur pour le moment, mais « peut-il le faire par une nuit froide et pluvieuse à Stoke City » ?

Pour compliquer les choses, la réponse à ces questions n’est pas toujours « non ». Messi pourrait le faire par une nuit froide et pluvieuse à Stoke City. Il est assez bien. Cela rend la question difficile, car il est beaucoup plus important de répondre correctement « oui » que de répondre correctement « non ». À mesure que le LLM s'améliore et que l'IA devient de plus en plus courante dans la vie quotidienne, en tant que société, nous devons de mieux en mieux juger si un modèle a fait ses preuves. L’une de mes principales inquiétudes concernant l’avenir est que nous ne sommes pas doués pour évaluer si les modèles ont fait leurs preuves.

Cependant, je m’attends à ce que les roboticiens aient une longueur d’avance. Nous nous plaignions des problèmes d'évaluation avant que la suggestion selon laquelle LLM manipulait les critères de référence communs n'apparaisse. Bien avant que « nous avons besoin d'une meilleure couverture des données » ne devienne le slogan de l'équipe de pré-formation du modèle de base, nous travaillions dur pour obtenir suffisamment de données pour capturer l'effet à longue traîne de la conduite autonome. L'apprentissage automatique vit dans une bulle qui fait l'envie des roboticiens, des chimistes, des biologistes et des neuroscientifiques, et à mesure qu'il commence vraiment à décoller, nous allons tous rencontrer les mêmes problèmes auxquels tout le monde est confronté depuis des années. Des barrières réalistes. Ces défis peuvent être surmontés, mais ils seront difficiles. Bienvenue dans le monde réel. Bienvenue dans le monde de la douleur.

Lien original : https://www.alexirpan.com/2024/07/08/tragedies-of-reality.html