nouvelles

Yang Likun n'est pas optimiste quant à l'apprentissage par renforcement : « Je préfère le MPC »

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Titre original : Yann LeCun n'est pas optimiste quant à l'apprentissage par renforcement : "Je préfère le MPC"

Editeur : Zhang Qian, Xiaozhou

La théorie d’il y a plus de cinquante ans mérite-t-elle d’être réétudiée ?

«Je préfère le contrôle prédictif par modèle (MPC) à l'apprentissage par renforcement (RL). Je le dis depuis au moins 2016. L'apprentissage par renforcement nécessite un nombre extrêmement grand d'essais pour apprendre une nouvelle tâche. En revanche, le contrôle prédictif par modèle est nul. -shot : si vous avez un bon modèle du monde et un bon objectif de tâche, le contrôle prédictif du modèle peut résoudre de nouvelles tâches sans nécessiter aucun apprentissage spécifique à la tâche. La magie de la planification ne signifie pas que l'apprentissage par renforcement est inutile, mais c'est le cas. l’utilisation devrait être un dernier recours.

Dans un article récent, Yann LeCun, scientifique en chef en intelligence artificielle chez Meta, a exprimé ce point de vue.

Yann LeCun critique depuis longtemps l’apprentissage par renforcement. Il estime que l’apprentissage par renforcement nécessite de nombreuses expériences et est très inefficace. C'est très différent de la façon dont les humains apprennent : au lieu d'identifier des objets en regardant un million d'échantillons du même objet, ou d'essayer des choses dangereuses et d'en tirer des leçons, les bébés apprennent d'eux en les observant, en prédisant et en interagissant avec eux, même sans surveillance. .

Dans un discours il y a six mois, il préconisait même « d'abandonner l'apprentissage par renforcement » (voir « La voie de recherche du GPT-4 n'a pas d'avenir ? Yann LeCun condamné à mort l'autorégression »). Mais dans une interview ultérieure, il a expliqué qu'il n'avait pas l'intention d'abandonner complètement, mais de minimiser le recours à l'apprentissage par renforcement, et que la bonne façon de former un système est d'abord de lui faire apprendre principalement à partir d'observations (et peut-être d'un peu d'interaction) Apprendre de bonnes représentations des mondes et des modèles du monde.

Dans le même temps, LeCun a également souligné qu'il préfère le MPC (contrôle prédictif par modèle) à l'apprentissage par renforcement.

MPC est une technologie qui utilise des modèles mathématiques pour optimiser les systèmes de contrôle en temps réel dans un temps limité. Depuis son apparition dans les années 1960 et 1970, elle a été largement utilisée dans divers domaines tels que le génie chimique, le raffinage du pétrole, la fabrication avancée, la robotique, et l'aérospatiale. Par exemple, il y a quelque temps, Boston Dynamics a partagé ses nombreuses années d'expérience dans l'utilisation de MPC pour le contrôle de robots (voir « Boston Dynamics Technology Revealed : Backflips, Push-ups and Rollovers, Summary of 6 Years of Experience and Lessons »).

L'un des derniers développements de MPC est son intégration avec des techniques d'apprentissage automatique, connues sous le nom de ML-MPC. Dans cette approche, les algorithmes d'apprentissage automatique sont utilisés pour estimer les modèles de système, effectuer des prédictions et optimiser les actions de contrôle. Cette combinaison d’apprentissage automatique et de MPC a le potentiel d’apporter des améliorations significatives en termes de performances et d’efficacité du contrôle.

Les recherches de LeCun sur les modèles mondiaux utilisent également des théories liées au MPC.

Récemment, la préférence de LeCun pour MPC a attiré l'attention de la communauté de l'IA.

Certains disent que MPC fonctionne bien si notre problème est bien modélisé et a une dynamique prévisible.

Peut-être que pour les informaticiens, il y a encore beaucoup de choses à explorer dans le domaine du traitement et du contrôle du signal.

Cependant, certaines personnes ont souligné que la résolution d'un modèle MPC précis est un problème difficile, et que le principe du point de vue de LeCun - "si vous avez un bon modèle mondial" est lui-même difficile à réaliser.

Certaines personnes affirment également que l’apprentissage par renforcement et le MPC ne constituent pas nécessairement une relation univoque, et que les deux peuvent avoir leurs propres scénarios applicables.

Certaines études antérieures ont utilisé une combinaison des deux, avec de bons résultats.

Apprentissage par renforcement vs MPC

Lors de la discussion précédente, certains internautes ont recommandé un article Medium qui analysait et comparait l'apprentissage par renforcement et le MPC.

Ensuite, analysons en détail les avantages et les inconvénients des deux sur la base de ce blog technique.

L'apprentissage par renforcement (RL) et le contrôle prédictif par modèle (MPC) sont deux techniques puissantes pour optimiser les systèmes de contrôle. Les deux approches ont leurs avantages et leurs inconvénients, et la meilleure façon de résoudre un problème dépend des exigences spécifiques d'un problème particulier.

Alors, quels sont les avantages et les inconvénients des deux méthodes, et quels problèmes conviennent-elles pour résoudre ?

apprentissage par renforcement

L'apprentissage par renforcement est une méthode d'apprentissage automatique qui apprend par essais et erreurs. Il est particulièrement adapté à la résolution de problèmes avec des dynamiques complexes ou des modèles de systèmes inconnus. Dans l’apprentissage par renforcement, un agent apprend à entreprendre des actions dans l’environnement pour maximiser les signaux de récompense. L'agent interagit avec l'environnement, observe les états qui en résultent et entreprend des actions. L'agent est ensuite récompensé ou puni en fonction des résultats. Au fil du temps, l’agent apprendra à prendre des mesures qui mèneront à des récompenses plus positives. L'apprentissage par renforcement a une variété d'applications dans les systèmes de contrôle, visant à fournir des méthodes adaptatives dynamiques pour optimiser le comportement du système. Certaines applications courantes incluent :

Systèmes autonomes : l'apprentissage par renforcement est utilisé dans les systèmes de contrôle autonomes, tels que la conduite autonome, les drones et les robots, pour apprendre des stratégies de contrôle optimales pour la navigation et la prise de décision.

Robotique : L'apprentissage par renforcement permet aux robots d'apprendre et d'adapter leurs stratégies de contrôle pour accomplir des tâches telles que la saisie d'objets, la manipulation et la locomotion dans des environnements dynamiques complexes.

......

Flux de travail d'apprentissage par renforcement (RL).

Agents : apprenants et décideurs.

Environnement : environnement ou entité avec lequel l'agent interagit. Les agents observent et prennent des mesures pour influencer l'environnement.

État : Une description complète de l’état du monde. L'agent peut observer totalement ou partiellement l'état.

Récompense : retour scalaire indiquant les performances de l'agent. L'objectif de l'agent est de maximiser la récompense totale à long terme. L'agent change sa stratégie en fonction des récompenses.

Espace d'action : ensemble d'actions valides qu'un agent peut effectuer dans un environnement donné. Les actions finies constituent un espace d'action discret ; les actions infinies constituent un espace d'action continu.

modèle de contrôle prédictif

Le contrôle prédictif modèle (MPC) est une stratégie de contrôle largement utilisée qui a été appliquée dans de nombreux domaines, notamment le contrôle de processus, la robotique, les systèmes autonomes, etc.

Le principe fondamental du MPC est d'utiliser un modèle mathématique d'un système pour prédire le comportement futur, puis d'utiliser ces connaissances pour générer des actions de contrôle afin de maximiser certains objectifs de performance.

Après des années d'amélioration et de perfectionnement continus, MPC peut désormais gérer des systèmes de plus en plus complexes et des problèmes de contrôle difficiles. Comme le montre la figure ci-dessous, à chaque intervalle de contrôle, l'algorithme MPC calcule une séquence en boucle ouverte de la plage de contrôle pour optimiser le comportement de l'installation dans la plage prévue.

Schéma MPC discret.

Les applications du MPC dans les systèmes de contrôle comprennent :

industrie de transformation

système d'alimentation

contrôle de voiture

robotique

Parmi eux, MPC est utilisé dans les systèmes robotiques pour planifier et optimiser les trajectoires de mouvement afin de garantir un mouvement fluide et efficace des bras robotiques et des plates-formes robotiques dans diverses applications, notamment la fabrication et la logistique.

Le tableau suivant répertorie les différences entre l'apprentissage par renforcement et le MPC en termes de modèles, de méthodes d'apprentissage, de vitesse, de robustesse, d'efficacité des échantillons, de scénarios applicables, etc. En général, l’apprentissage par renforcement est un choix approprié pour les problèmes difficiles à modéliser ou ayant une dynamique complexe. MPC est un bon choix pour les problèmes bien modélisés et dynamiquement prévisibles.

L'une des dernières avancées du MPC est l'intégration avec la technologie d'apprentissage automatique, connue sous le nom de ML-MPC. ML-MPC adopte une méthode de contrôle différente du MPC traditionnel, en utilisant des algorithmes d'apprentissage automatique pour estimer les modèles de système, prédire et générer des actions de contrôle. L’idée principale est d’utiliser des modèles basés sur les données pour surmonter les limites du MPC traditionnel.

Le MPC basé sur l'apprentissage automatique peut s'adapter aux conditions changeantes en temps réel, ce qui le rend adapté aux systèmes dynamiques et imprévisibles. Par rapport au MPC basé sur un modèle, le MPC basé sur l'apprentissage automatique peut offrir une plus grande précision, en particulier dans les systèmes complexes et difficiles à modéliser.

De plus, le MPC basé sur l'apprentissage automatique peut réduire la complexité du modèle, ce qui facilite son déploiement et sa maintenance. Cependant, par rapport au MPC traditionnel, le ML-MPC présente également certaines limites, telles que la nécessité d'une grande quantité de données pour entraîner le modèle, une mauvaise interprétabilité, etc.

Il semble que les informaticiens aient encore un long chemin à parcourir avant de pouvoir véritablement introduire le MPC dans le domaine de l’IA.

Lien de référence : https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27