Yang Likun ei ole optimistinen vahvistusoppimisen suhteen: "Minä pidän parempana MPC"

Yang Likun ei ole optimistinen vahvistusoppimisen suhteen: "Pidän parempana MPC:tä"

2024-08-26

Alkuperäinen nimi: Yann LeCun ei ole optimistinen vahvistusoppimisen suhteen: "Minä mieluummin MPC"

Toimittaja: Zhang Qian, Xiaozhou

Kannattaako yli viidenkymmenen vuoden takainen teoria tutkia uudelleen?

"Pidän parempana mallin ennustavaa ohjausta (MPC) vahvistusoppimisen (RL) sijaan. Olen sanonut tämän ainakin vuodesta 2016 lähtien. Vahvistusoppiminen vaatii erittäin suuren määrän kokeita uuden tehtävän oppimiseksi. Sen sijaan mallin ennustava ohjaus on nolla. -shot: jos sinulla on hyvä malli maailmasta ja hyvä tehtävän tavoite, mallin ennakoiva ohjaus voi ratkaista uusia tehtäviä ilman tehtäväkohtaista oppimista. Tämä ei tarkoita, että vahvistusoppiminen on hyödytöntä käytön pitäisi olla viimeinen keino."

Tuoreessa viestissä Yann LeCun, Metan johtava tekoälytutkija, ilmaisi tämän näkemyksen.

Yann LeCun on pitkään arvostellut vahvistusoppimista. Hän uskoo, että vahvistusoppiminen vaatii paljon kokeiluja ja on erittäin tehotonta. Tämä eroaa hyvin paljon siitä, miten ihmiset oppivat – sen sijaan, että vauvat tunnistaisivat esineitä katsomalla miljoonia näytteitä samasta esineestä tai yrittäisivät vaarallisia asioita ja oppisivat niistä, vauvat oppivat niistä tarkkailemalla, ennustamalla ja olemalla vuorovaikutuksessa niiden kanssa, jopa ilman valvontaa. .

Puoli vuotta sitten pitämässään puheessa hän jopa kannatti "vahvistusoppimisen hylkäämistä" (katso "GPT-4:n tutkimuspolulla ei ole tulevaisuutta? Yann LeCun tuomitsi autoregression kuolemaan"). Mutta myöhemmässä haastattelussa hän selitti, ettei hän tarkoittanut luovuttaa kokonaan, vaan minimoida vahvistusoppimisen käytön ja että oikea tapa kouluttaa järjestelmä on ensin saada se oppimaan enimmäkseen havaintojen perusteella (ja ehkä vähän vuorovaikutusta) maailmojen ja maailmanmallien hyvien esitysten oppiminen.

Samalla LeCun huomautti myös, että hän pitää parempana MPC:tä (mallin ennustavaa ohjausta) vahvistusoppimisen sijaan.

MPC on tekniikka, joka käyttää matemaattisia malleja ohjausjärjestelmien optimointiin reaaliajassa rajoitetun ajan kuluessa sen ilmestymisestä 1960- ja 1970-luvuilla, ja sitä on käytetty laajasti eri aloilla, kuten kemiantekniikassa, öljynjalostuksessa, edistyneessä valmistuksessa, robotiikassa, ja ilmailu. Esimerkiksi jokin aika sitten Boston Dynamics jakoi monivuotisen kokemuksensa MPC:n käyttämisestä robotin ohjaamiseen (katso "Boston Dynamics Technology Revealed: Backflips, Push-ups and Rollovers, Summary of 6 Years of Experience and Lessons").

Yksi viimeisimmistä MPC-kehityksistä on sen integrointi koneoppimistekniikoihin, jotka tunnetaan nimellä ML-MPC. Tässä lähestymistavassa koneoppimisalgoritmeja käytetään järjestelmämallien arvioimiseen, ennusteiden tekemiseen ja ohjaustoimintojen optimointiin. Tämä koneoppimisen ja MPC:n yhdistelmä voi tarjota merkittäviä parannuksia ohjauksen suorituskykyyn ja tehokkuuteen.

LeCunin maailmanmalliin liittyvässä tutkimuksessa käytetään myös MPC:hen liittyviä teorioita.

Viime aikoina LeCunin suosio MPC:tä on herättänyt huomiota AI-yhteisössä.

Jotkut sanovat, että MPC toimii hyvin, jos ongelmamme on hyvin mallinnettu ja sillä on ennustettava dynamiikka.

Ehkä tietojenkäsittelytieteilijöille on vielä paljon tutkimisen arvoista signaalinkäsittelyn ja ohjauksen alalla.

Jotkut kuitenkin huomauttivat, että tarkan MPC-mallin ratkaiseminen on vaikea ongelma, ja LeCunin näkökulmasta lähtökohta - "jos sinulla on hyvä maailmanmalli" - sinänsä on vaikea saavuttaa.

Jotkut ihmiset sanovat myös, että vahvistusoppiminen ja MPC eivät välttämättä ole yksi tai yksi suhde, ja molemmilla voi olla omat soveltuvat skenaariot.

Joitakin aiempia tutkimuksia on käytetty näiden kahden yhdistelmällä hyvillä tuloksilla.

Vahvistusoppiminen vs. MPC

Edellisessä keskustelussa jotkut netilaiset suosittelivat Medium-artikkelia, jossa analysoitiin ja verrattiin vahvistusoppimista ja MPC:tä.

Seuraavaksi analysoikaamme näiden kahden edut ja haitat yksityiskohtaisesti tämän teknisen blogin perusteella.

Vahvistusoppiminen (RL) ja mallin ennustava ohjaus (MPC) ovat kaksi tehokasta tekniikkaa ohjausjärjestelmien optimointiin. Molemmilla lähestymistavoilla on etunsa ja haittansa, ja paras tapa ratkaista ongelma riippuu tietyn ongelman erityisvaatimuksista.

Joten mitkä ovat näiden kahden menetelmän edut ja haitat, ja mitä ongelmia ne sopivat ratkaisemaan?

vahvistava oppiminen

Vahvistusoppiminen on koneoppimismenetelmä, joka oppii yrityksen ja erehdyksen kautta. Se sopii erityisen hyvin monimutkaisen dynamiikan tai tuntemattomien järjestelmämallien ongelmien ratkaisemiseen. Vahvistusoppimisessa agentti oppii toimimaan ympäristössä palkitsemissignaalien maksimoimiseksi. Agentti on vuorovaikutuksessa ympäristön kanssa, tarkkailee syntyviä tiloja ja toimii. Agenttia palkitaan tai rangaistaan tulosten perusteella. Ajan myötä agentti oppii ryhtymään toimiin, jotka johtavat positiivisempaan palkintoon. Vahvistusoppimisessa on useita sovelluksia ohjausjärjestelmissä, joiden tavoitteena on tarjota dynaamisia mukautuvia menetelmiä järjestelmän käyttäytymisen optimoimiseksi. Joitakin yleisiä sovelluksia ovat:

Autonomiset järjestelmät: Vahvistusoppimista käytetään autonomisissa ohjausjärjestelmissä, kuten autonomisessa ajamisessa, droneissa ja roboteissa, jotta voidaan oppia optimaaliset ohjausstrategiat navigointia ja päätöksentekoa varten.

Robotiikka: Vahvistusoppimisen avulla robotit voivat oppia ja mukauttaa ohjausstrategioitaan suorittamaan tehtäviä, kuten esineiden tarttumista, manipulointia ja liikkumista monimutkaisissa dynaamisissa ympäristöissä.

......

Vahvistusoppimisen (RL) työnkulku.

Agentit: oppijat ja päättäjät.

Ympäristö: Ympäristö tai kokonaisuus, jonka kanssa agentti on vuorovaikutuksessa. Agentit tarkkailevat ja ryhtyvät toimiin vaikuttaakseen ympäristöön.

Tila: Täydellinen kuvaus maailman tilasta. Agentti voi tarkkailla tilaa kokonaan tai osittain.

Palkkio: Skalaaripalaute, joka osoittaa agentin suorituskyvyn. Agentin tavoitteena on maksimoida pitkän aikavälin kokonaispalkkio. Agentti muuttaa strategiaansa palkkioiden perusteella.

Toimintotila: Joukko kelvollisia toimintoja, jotka agentti voi suorittaa tietyssä ympäristössä. Äärelliset toiminnot muodostavat erillisen toimintatilan;

mallin ennakoiva ohjaus

Model Predictive Control (MPC) on laajalti käytetty ohjausstrategia, jota on sovellettu monilla aloilla, mukaan lukien prosessinohjaus, robotiikka, autonomiset järjestelmät jne.

MPC:n perusperiaatteena on käyttää järjestelmän matemaattista mallia tulevan käyttäytymisen ennustamiseen ja käyttää tätä tietämystä ohjaustoimintojen luomiseen tiettyjen suoritustavoitteiden maksimoimiseksi.

Vuosien jatkuvan parantamisen ja jalostuksen jälkeen MPC pystyy nyt käsittelemään yhä monimutkaisempia järjestelmiä ja vaikeita ohjausongelmia. Kuten alla olevasta kuvasta näkyy, MPC-algoritmi laskee jokaisella ohjausvälillä avoimen silmukan ohjausalueen sekvenssin optimoidakseen laitoksen käyttäytymisen ennustetulla alueella.

Diskreetti MPC-järjestelmä.

MPC:n sovelluksia ohjausjärjestelmissä ovat:

prosessiteollisuus

sähköjärjestelmä

auton ohjaus

robotiikkaa

Niistä MPC:tä käytetään robottijärjestelmissä liikeratojen suunnitteluun ja optimointiin, jotta voidaan varmistaa robottikäsivarsien ja robottialustojen sujuva ja tehokas liike eri sovelluksissa, mukaan lukien valmistus ja logistiikka.

Seuraavassa taulukossa on lueteltu vahvistusoppimisen ja MPC:n väliset erot mallien, oppimismenetelmien, nopeuden, kestävyyden, näytteen tehokkuuden, sovellettavien skenaarioiden jne. Yleisesti ottaen vahvistusoppiminen on sopiva valinta ongelmiin, joita on vaikea mallintaa tai joilla on monimutkainen dynamiikka. MPC on hyvä valinta ongelmiin, jotka ovat hyvin mallinnettuja ja dynaamisesti ennustettavissa.

Yksi MPC:n viimeisimmistä edistysaskeleista on integrointi koneoppimisteknologiaan, joka tunnetaan nimellä ML-MPC. ML-MPC käyttää eri menetelmää kuin perinteinen MPC ohjaukseen käyttämällä koneoppimisalgoritmeja järjestelmämallien arvioimiseen, ennustamiseen ja ohjaustoimintojen luomiseen. Sen pääideana on käyttää tietopohjaisia malleja perinteisen MPC:n rajoitusten voittamiseksi.

Koneoppimiseen perustuva MPC voi mukautua muuttuviin olosuhteisiin reaaliajassa, mikä tekee siitä sopivan dynaamisiin ja arvaamattomiin järjestelmiin. Mallipohjaiseen MPC:hen verrattuna koneoppimiseen perustuva MPC voi tarjota suuremman tarkkuuden erityisesti monimutkaisissa ja vaikeasti mallinnettavissa järjestelmissä.

Lisäksi koneoppimiseen perustuva MPC voi vähentää mallin monimutkaisuutta, mikä helpottaa sen käyttöönottoa ja ylläpitoa. Perinteiseen MPC:hen verrattuna ML-MPC:llä on kuitenkin myös joitain rajoituksia, kuten tarve suurelle datamäärälle mallin kouluttamiseen, huono tulkitavuus ja niin edelleen.

Näyttää siltä, että tietojenkäsittelytieteilijöillä on vielä pitkä matka kuljettavanaan ennen kuin he voivat todella ottaa MPC:n käyttöön tekoälyn alalla.

Viitelinkki: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

uutiset

Yang Likun ei ole optimistinen vahvistusoppimisen suhteen: "Pidän parempana MPC:tä"

Johdanto

Yhteystietoni