Nachricht

Yang Likun ist nicht optimistisch, was Reinforcement Learning angeht: „Ich bevorzuge MPC“

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Originaltitel: Yann LeCun ist nicht optimistisch, was Reinforcement Learning angeht: „Ich bevorzuge MPC“

Herausgeber: Zhang Qian, Xiaozhou

Lohnt es sich, die Theorie von vor mehr als fünfzig Jahren noch einmal zu studieren?

„Ich bevorzuge die modellprädiktive Kontrolle (MPC) gegenüber dem Reinforcement Learning (RL). Reinforcement Learning erfordert eine extrem große Anzahl von Versuchen, um eine neue Aufgabe zu lernen. Im Gegensatz dazu ist die modellprädiktive Kontrolle gleich Null -Schuss: Wenn Sie ein gutes Modell der Welt und ein gutes Aufgabenziel haben, kann die modellprädiktive Steuerung neue Aufgaben lösen, ohne dass aufgabenspezifisches Lernen erforderlich ist. Das bedeutet nicht, dass verstärkendes Lernen nutzlos ist Der Einsatz sollte der letzte Ausweg sein.“

In einem aktuellen Beitrag äußerte Yann LeCun, Chefwissenschaftler für künstliche Intelligenz bei Meta, diese Ansicht.

Yann LeCun ist seit langem ein Kritiker des Reinforcement Learning. Er glaubt, dass verstärkendes Lernen viele Experimente erfordert und sehr ineffizient ist. Das unterscheidet sich stark von der Art und Weise, wie Menschen lernen – anstatt Objekte zu identifizieren, indem sie eine Million Proben desselben Objekts betrachten oder gefährliche Dinge ausprobieren und daraus lernen, lernen Babys von ihnen, indem sie sie beobachten, vorhersagen und mit ihnen interagieren, auch ohne Aufsicht .

In einer Rede vor einem halben Jahr plädierte er sogar dafür, „das Bestärkungslernen aufzugeben“ (siehe „Der Forschungsweg von GPT-4 hat keine Zukunft? Yann LeCun verurteilte Autoregression zum Tode“). Aber in einem anschließenden Interview erklärte er, dass er nicht vorhatte, ganz aufzugeben, sondern den Einsatz von Reinforcement Learning zu minimieren, und dass der richtige Weg, ein System zu trainieren, darin bestehe, es zunächst hauptsächlich aus Beobachtungen (und vielleicht auch aus anderen) lernen zu lassen wenig Interaktion) Gute Darstellungen von Welten und Weltmodellen lernen.

Gleichzeitig wies LeCun auch darauf hin, dass er MPC (Model Predictive Control) dem Reinforcement Learning vorzieht.

MPC ist eine Technologie, die mathematische Modelle verwendet, um Steuerungssysteme in Echtzeit innerhalb einer begrenzten Zeit zu optimieren. Seit ihrer Einführung in den 1960er und 1970er Jahren wird sie in verschiedenen Bereichen wie Chemietechnik, Ölraffination, fortschrittliche Fertigung, Robotik usw. weit verbreitet eingesetzt. und Luft- und Raumfahrt. Beispielsweise teilte Boston Dynamics vor einiger Zeit seine langjährige Erfahrung im Einsatz von MPC zur Robotersteuerung mit (siehe „Boston Dynamics Technology Revealed: Backflips, Push-ups and Rollovers, Summary of 6 Years of Experience and Lessons“).

Eine der neuesten Entwicklungen bei MPC ist die Integration mit Techniken des maschinellen Lernens, bekannt als ML-MPC. Bei diesem Ansatz werden maschinelle Lernalgorithmen verwendet, um Systemmodelle zu schätzen, Vorhersagen zu treffen und Steuerungsmaßnahmen zu optimieren. Diese Kombination aus maschinellem Lernen und MPC hat das Potenzial, die Steuerungsleistung und -effizienz erheblich zu verbessern.

LeCuns weltmodellbezogene Forschung nutzt auch MPC-bezogene Theorien.

In letzter Zeit hat LeCuns Vorliebe für MPC in der KI-Community einige Aufmerksamkeit erregt.

Einige sagen, dass MPC gut funktioniert, wenn unser Problem gut modelliert ist und eine vorhersehbare Dynamik aufweist.

Vielleicht gibt es für Informatiker im Bereich der Signalverarbeitung und -steuerung noch viel zu entdecken.

Einige Leute wiesen jedoch darauf hin, dass die Lösung eines genauen MPC-Modells ein schwieriges Problem sei und die Prämisse aus Sicht von LeCun – „wenn Sie ein gutes Weltmodell haben“ selbst schwer zu erreichen sei.

Einige Leute sagen auch, dass Verstärkungslernen und MPC nicht unbedingt eine Eins-oder-Eins-Beziehung darstellen und beide möglicherweise ihre eigenen anwendbaren Szenarien haben.

Es gab einige frühere Studien, in denen eine Kombination aus beiden verwendet wurde und die gute Ergebnisse lieferten.

Reinforcement Learning vs. MPC

In der vorherigen Diskussion empfahlen einige Internetnutzer einen Medium-Artikel, in dem Reinforcement Learning und MPC analysiert und verglichen wurden.

Lassen Sie uns als Nächstes anhand dieses technischen Blogs die Vor- und Nachteile der beiden im Detail analysieren.

Reinforcement Learning (RL) und Model Predictive Control (MPC) sind zwei leistungsstarke Techniken zur Optimierung von Steuerungssystemen. Beide Ansätze haben ihre Vor- und Nachteile, und der beste Weg zur Lösung eines Problems hängt von den spezifischen Anforderungen eines bestimmten Problems ab.

Was sind also die Vor- und Nachteile der beiden Methoden und für welche Probleme eignen sie sich zur Lösung?

Verstärkungslernen

Reinforcement Learning ist eine maschinelle Lernmethode, die durch Versuch und Irrtum lernt. Es eignet sich besonders zur Lösung von Problemen mit komplexer Dynamik oder unbekannten Systemmodellen. Beim Reinforcement Learning lernt ein Agent, Maßnahmen in der Umgebung zu ergreifen, um Belohnungssignale zu maximieren. Der Agent interagiert mit der Umgebung, beobachtet die resultierenden Zustände und ergreift Maßnahmen. Der Agent wird dann basierend auf den Ergebnissen belohnt oder bestraft. Mit der Zeit wird der Agent lernen, Maßnahmen zu ergreifen, die zu positiveren Belohnungen führen. Reinforcement Learning hat eine Vielzahl von Anwendungen in Steuerungssystemen und zielt darauf ab, dynamische adaptive Methoden zur Optimierung des Systemverhaltens bereitzustellen. Einige häufige Anwendungen sind:

Autonome Systeme: Reinforcement Learning wird in autonomen Steuerungssystemen wie autonomem Fahren, Drohnen und Robotern eingesetzt, um optimale Steuerungsstrategien für Navigation und Entscheidungsfindung zu erlernen.

Robotik: Reinforcement Learning ermöglicht es Robotern, ihre Kontrollstrategien zu erlernen und anzupassen, um Aufgaben wie das Greifen von Objekten, das Manipulieren und die Fortbewegung in komplexen dynamischen Umgebungen zu erledigen.

......

Workflow für Reinforcement Learning (RL).

Agenten: Lernende und Entscheidungsträger.

Umgebung: Die Umgebung oder Entität, mit der der Agent interagiert. Agenten beobachten und ergreifen Maßnahmen, um die Umgebung zu beeinflussen.

Zustand: Eine vollständige Beschreibung des Zustands der Welt. Der Agent kann den Zustand ganz oder teilweise beobachten.

Belohnung: Skalares Feedback, das die Leistung des Agenten angibt. Das Ziel des Agenten besteht darin, die langfristige Gesamtvergütung zu maximieren. Der Agent ändert seine Strategie basierend auf Belohnungen.

Aktionsbereich: Eine Reihe gültiger Aktionen, die ein Agent in einer bestimmten Umgebung ausführen kann. Endliche Aktionen bilden einen diskreten Aktionsraum; unendliche Aktionen bilden einen kontinuierlichen Aktionsraum.

Modellprädiktive Steuerung

Model Predictive Control (MPC) ist eine weit verbreitete Steuerungsstrategie, die in vielen Bereichen eingesetzt wird, darunter Prozesssteuerung, Robotik, autonome Systeme usw.

Der Kerngedanke von MPC besteht darin, ein mathematisches Modell eines Systems zu verwenden, um zukünftiges Verhalten vorherzusagen und dieses Wissen dann zu nutzen, um Kontrollmaßnahmen zu generieren, um bestimmte Leistungsziele zu maximieren.

Nach Jahren der kontinuierlichen Verbesserung und Verfeinerung ist MPC nun in der Lage, immer komplexere Systeme und schwierige Steuerungsprobleme zu bewältigen. Wie in der Abbildung unten dargestellt, berechnet der MPC-Algorithmus bei jedem Regelintervall eine offene Sequenz des Regelbereichs, um das Verhalten der Anlage innerhalb des vorhergesagten Bereichs zu optimieren.

Diskretes MPC-Schema.

Zu den Anwendungen von MPC in Steuerungssystemen gehören:

Prozessindustrie

Energiesystem

Autosteuerung

Robotik

Unter anderem wird MPC in Robotersystemen zur Planung und Optimierung von Bewegungsbahnen eingesetzt, um eine reibungslose und effiziente Bewegung von Roboterarmen und Roboterplattformen in verschiedenen Anwendungen, einschließlich Fertigung und Logistik, sicherzustellen.

In der folgenden Tabelle sind die Unterschiede zwischen Reinforcement Learning und MPC in Bezug auf Modelle, Lernmethoden, Geschwindigkeit, Robustheit, Stichprobeneffizienz, anwendbare Szenarien usw. aufgeführt. Im Allgemeinen ist Reinforcement Learning eine geeignete Wahl für Probleme, die schwer zu modellieren sind oder eine komplexe Dynamik aufweisen. MPC ist eine gute Wahl für Probleme, die gut modelliert und dynamisch vorhersehbar sind.

Einer der neuesten Fortschritte bei MPC ist die Integration mit maschineller Lerntechnologie, bekannt als ML-MPC. ML-MPC verwendet für die Steuerung eine andere Methode als herkömmliche MPC und verwendet Algorithmen für maschinelles Lernen, um Systemmodelle zu schätzen, Steuerungsmaßnahmen vorherzusagen und zu generieren. Die Hauptidee dahinter besteht darin, datengesteuerte Modelle zu verwenden, um die Einschränkungen traditioneller MPC zu überwinden.

Auf maschinellem Lernen basierendes MPC kann sich in Echtzeit an sich ändernde Bedingungen anpassen und eignet sich daher für dynamische und unvorhersehbare Systeme. Im Vergleich zur modellbasierten MPC kann die auf maschinellem Lernen basierende MPC eine höhere Genauigkeit bieten, insbesondere in komplexen und schwer zu modellierenden Systemen.

Darüber hinaus kann MPC, das auf maschinellem Lernen basiert, die Komplexität des Modells reduzieren und dessen Bereitstellung und Wartung vereinfachen. Im Vergleich zu herkömmlichem MPC weist ML-MPC jedoch auch einige Einschränkungen auf, z. B. die Notwendigkeit einer großen Datenmenge zum Trainieren des Modells, eine schlechte Interpretierbarkeit usw.

Es scheint, dass Informatiker noch einen langen Weg vor sich haben, bis sie MPC wirklich in den Bereich der KI einführen können.

Referenzlink: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27