notizia

Yang Likun non è ottimista sull'apprendimento per rinforzo: "Preferisco MPC"

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Titolo originale: Yann LeCun non è ottimista sull'apprendimento per rinforzo: "Preferisco MPC"

Editore: Zhang Qian, Xiaozhou

Vale la pena studiare di nuovo la teoria di più di cinquant’anni fa?

“Preferisco il controllo predittivo del modello (MPC) all’apprendimento per rinforzo (RL), lo dico almeno dal 2016. L’apprendimento per rinforzo richiede un numero estremamente elevato di prove per apprendere qualsiasi nuovo compito. Al contrario, il controllo predittivo del modello è zero. -shot: se hai un buon modello del mondo e un buon obiettivo del compito, il controllo predittivo del modello può risolvere nuovi compiti senza richiedere alcun apprendimento specifico per il compito. Ciò non significa che l'apprendimento per rinforzo sia inutile, ma lo è l’uso dovrebbe essere l’ultima risorsa.”

In un post recente, Yann LeCun, capo scienziato dell’intelligenza artificiale presso Meta, ha espresso questo punto di vista.

Yann LeCun è da tempo un critico dell’apprendimento per rinforzo. Crede che l'apprendimento per rinforzo richieda molti esperimenti e sia molto inefficiente. Questo è molto diverso da come apprendono gli esseri umani: invece di identificare gli oggetti osservando un milione di campioni dello stesso oggetto, o provando cose pericolose e imparando da loro, i bambini imparano da loro osservandoli, prevedendoli e interagendo con loro, anche senza supervisione. .

In un discorso di sei mesi fa, ha addirittura sostenuto "l'abbandono dell'apprendimento per rinforzo" (vedi "Il percorso di ricerca di GPT-4 non ha futuro? Yann LeCun condannato a morte per l'autoregressione"). Ma in una successiva intervista, spiegò che non intendeva arrendersi del tutto, ma ridurre al minimo l'uso dell'apprendimento per rinforzo, e che il modo corretto di addestrare un sistema è prima fargli imparare principalmente dalle osservazioni (e forse da un scarsa interazione) Imparare buone rappresentazioni di mondi e modelli del mondo.

Allo stesso tempo, LeCun ha anche sottolineato che preferisce l’MPC (controllo predittivo del modello) all’apprendimento per rinforzo.

MPC è una tecnologia che utilizza modelli matematici per ottimizzare i sistemi di controllo in tempo reale in un tempo limitato. Fin dal suo avvento negli anni '60 e '70, è stata ampiamente utilizzata in vari campi come l'ingegneria chimica, la raffinazione del petrolio, la produzione avanzata, la robotica. e aerospaziale. Ad esempio, qualche tempo fa, Boston Dynamics ha condiviso la sua pluriennale esperienza nell'uso di MPC per il controllo dei robot (vedi "Rivelata la tecnologia Boston Dynamics: salti mortali all'indietro, flessioni e ribaltamenti, riepilogo di 6 anni di esperienza e lezioni").

Uno degli ultimi sviluppi di MPC è la sua integrazione con tecniche di apprendimento automatico, note come ML-MPC. In questo approccio, gli algoritmi di apprendimento automatico vengono utilizzati per stimare modelli di sistema, fare previsioni e ottimizzare le azioni di controllo. Questa combinazione di machine learning e MPC ha il potenziale per fornire miglioramenti significativi nelle prestazioni e nell’efficienza del controllo.

La ricerca relativa al modello mondiale di LeCun utilizza anche teorie relative a MPC.

Recentemente, la preferenza di LeCun per MPC ha attirato una certa attenzione nella comunità dell'intelligenza artificiale.

Alcuni sostengono che l’MPC funzioni bene se il nostro problema è ben modellato e ha dinamiche prevedibili.

Forse per gli informatici c’è ancora molto da esplorare nel campo dell’elaborazione e del controllo del segnale.

Tuttavia, alcune persone hanno sottolineato che risolvere un modello MPC accurato è un problema difficile e che, dal punto di vista di LeCun, la premessa "se si dispone di un buon modello mondiale" è di per sé difficile da raggiungere.

Alcune persone dicono anche che l'apprendimento per rinforzo e l'MPC non sono necessariamente una relazione uno o uno, ed entrambi possono avere i propri scenari applicabili.

Ci sono stati alcuni studi precedenti che utilizzavano una combinazione dei due, con buoni risultati.

Apprendimento per rinforzo vs MPC

Nella discussione precedente, alcuni netizen hanno consigliato un articolo di Medium che analizzava e confrontava l'apprendimento per rinforzo e l'MPC.

Successivamente, analizziamo in dettaglio i vantaggi e gli svantaggi dei due sulla base di questo blog tecnico.

L'apprendimento per rinforzo (RL) e il controllo predittivo del modello (MPC) sono due potenti tecniche per ottimizzare i sistemi di controllo. Entrambi gli approcci presentano vantaggi e svantaggi e il modo migliore per risolvere un problema dipende dai requisiti specifici di un particolare problema.

Quali sono quindi i vantaggi e gli svantaggi dei due metodi e quali problemi sono adatti a risolvere?

apprendimento per rinforzo

L'apprendimento per rinforzo è un metodo di apprendimento automatico che apprende attraverso prove ed errori. È particolarmente adatto per risolvere problemi con dinamiche complesse o modelli di sistemi sconosciuti. Nell'apprendimento per rinforzo, un agente impara a intraprendere azioni nell'ambiente per massimizzare i segnali di ricompensa. L'agente interagisce con l'ambiente, osserva gli stati risultanti e intraprende azioni. L'agente viene quindi premiato o punito in base ai risultati. Nel tempo, l'agente imparerà a intraprendere azioni che portano a ricompense più positive. L'apprendimento per rinforzo ha una varietà di applicazioni nei sistemi di controllo, con l'obiettivo di fornire metodi adattivi dinamici per ottimizzare il comportamento del sistema. Alcune applicazioni comuni includono:

Sistemi autonomi: l’apprendimento per rinforzo viene utilizzato nei sistemi di controllo autonomo, come guida autonoma, droni e robot, per apprendere strategie di controllo ottimali per la navigazione e il processo decisionale.

Robotica: l'apprendimento per rinforzo consente ai robot di apprendere e adattare le proprie strategie di controllo per completare compiti come afferrare oggetti, manipolare e muoversi in ambienti dinamici complessi.

......

Flusso di lavoro dell'apprendimento per rinforzo (RL).

Agenti: studenti e decisori.

Ambiente: l'ambiente o l'entità con cui l'agente interagisce. Gli agenti osservano e intraprendono azioni per influenzare l’ambiente.

Stato: una descrizione completa dello stato del mondo. L'agente può osservare completamente o parzialmente lo stato.

Ricompensa: feedback scalare che indica le prestazioni dell'agente. L'obiettivo dell'agente è massimizzare la ricompensa totale a lungo termine. L'agente cambia la sua strategia in base ai premi.

Spazio di azione: un insieme di azioni valide che un agente può eseguire in un determinato ambiente. Le azioni finite costituiscono uno spazio d'azione discreto; le azioni infinite costituiscono uno spazio d'azione continuo.

controllo predittivo del modello

Il Model Predictive Control (MPC) è una strategia di controllo ampiamente utilizzata che è stata applicata in molti campi, tra cui il controllo di processo, la robotica, i sistemi autonomi, ecc.

Il principio fondamentale dell’MPC è utilizzare un modello matematico di un sistema per prevedere il comportamento futuro e quindi utilizzare tale conoscenza per generare azioni di controllo per massimizzare determinati obiettivi prestazionali.

Dopo anni di continui miglioramenti e perfezionamenti, MPC è ora in grado di gestire sistemi sempre più complessi e difficili problemi di controllo. Come mostrato nella figura seguente, ad ogni intervallo di controllo, l'algoritmo MPC calcola una sequenza ad anello aperto dell'intervallo di controllo per ottimizzare il comportamento dell'impianto all'interno dell'intervallo previsto.

Schema MPC discreto.

Le applicazioni di MPC nei sistemi di controllo includono:

industria di processo

sistema di potere

controllo dell'auto

robotica

Tra questi, l’MPC viene utilizzato nei sistemi robotici per pianificare e ottimizzare le traiettorie di movimento per garantire un movimento fluido ed efficiente di bracci robotici e piattaforme robotiche in varie applicazioni, tra cui produzione e logistica.

La tabella seguente elenca le differenze tra apprendimento per rinforzo e MPC in termini di modelli, metodi di apprendimento, velocità, robustezza, efficienza del campione, scenari applicabili, ecc. In generale, l’apprendimento per rinforzo è una scelta adatta per problemi difficili da modellare o che hanno dinamiche complesse. MPC è una buona scelta per problemi ben modellati e dinamicamente prevedibili.

Uno degli ultimi progressi in MPC è l'integrazione con la tecnologia di apprendimento automatico, nota come ML-MPC. ML-MPC adotta un metodo diverso dal tradizionale MPC per il controllo, utilizzando algoritmi di apprendimento automatico per stimare modelli di sistema, prevedere e generare azioni di controllo. L’idea principale alla base è quella di utilizzare modelli basati sui dati per superare i limiti dell’MPC tradizionale.

L’MPC basato sull’apprendimento automatico può adattarsi alle mutevoli condizioni in tempo reale, rendendolo adatto a sistemi dinamici e imprevedibili. Rispetto all’MPC basato su modello, l’MPC basato sull’apprendimento automatico può fornire una maggiore precisione, soprattutto in sistemi complessi e difficili da modellare.

Inoltre, l’MPC basato sull’apprendimento automatico può ridurre la complessità del modello, semplificandone l’implementazione e la manutenzione. Tuttavia, rispetto all’MPC tradizionale, l’ML-MPC presenta anche alcune limitazioni, come la necessità di una grande quantità di dati per addestrare il modello, scarsa interpretabilità e così via.

Sembra che gli informatici abbiano ancora molta strada da fare prima di poter veramente introdurre l’MPC nel campo dell’intelligenza artificiale.

Link di riferimento: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27