Yang Likun não está otimista em relação ao aprendizado por reforço: "Eu prefiro MPC"

2024-08-26

Título original: Yann LeCun não está otimista em relação ao aprendizado por reforço: "Eu prefiro MPC"

Editor: Zhang Qian, Xiaozhou

Vale a pena estudar novamente a teoria de mais de cinquenta anos atrás?

“Eu prefiro o controle preditivo do modelo (MPC) ao aprendizado por reforço (RL). Venho dizendo isso pelo menos desde 2016. O aprendizado por reforço requer um número extremamente grande de tentativas para aprender qualquer nova tarefa. Em contraste, o controle preditivo do modelo é zero. -shot: se você tiver um bom modelo do mundo e um bom objetivo de tarefa, o controle preditivo do modelo pode resolver novas tarefas sem exigir nenhum aprendizado específico da tarefa. A magia do planejamento não significa que o aprendizado por reforço seja inútil. o uso deve ser o último recurso.”

Em uma postagem recente, Yann LeCun, cientista-chefe de inteligência artificial da Meta, expressou essa opinião.

Yann LeCun há muito é um crítico da aprendizagem por reforço. Ele acredita que a aprendizagem por reforço requer muitos experimentos e é muito ineficiente. Isto é muito diferente de como os humanos aprendem – em vez de identificarem objetos olhando para um milhão de amostras do mesmo objeto, ou tentarem coisas perigosas e aprenderem com elas, os bebés aprendem com eles observando, prevendo e interagindo com eles, mesmo sem supervisão. .

Em um discurso há meio ano, ele até defendeu o "abandono do aprendizado por reforço" (veja "O caminho de pesquisa do GPT-4 não tem futuro? Yann LeCun condenou a autorregressão à morte"). Mas numa entrevista subsequente, ele explicou que não pretendia desistir completamente, mas sim minimizar o uso da aprendizagem por reforço, e que a forma correcta de treinar um sistema é primeiro fazê-lo aprender principalmente através de observações (e talvez de uma pouca interação) Aprender boas representações de mundos e modelos de mundo.

Ao mesmo tempo, LeCun também destacou que prefere MPC (modelo de controle preditivo) ao aprendizado por reforço.

MPC é uma tecnologia que utiliza modelos matemáticos para otimizar sistemas de controle em tempo real dentro de um tempo limitado. Desde seu advento nas décadas de 1960 e 1970, tem sido amplamente utilizada em diversos campos, como engenharia química, refino de petróleo, manufatura avançada, robótica, e aeroespacial. Por exemplo, há algum tempo, a Boston Dynamics compartilhou seus muitos anos de experiência no uso de MPC para controle de robôs (consulte "Tecnologia da Boston Dynamics revelada: backflips, push-ups e rollovers, resumo de 6 anos de experiência e lições").

Um dos mais recentes desenvolvimentos em MPC é a sua integração com técnicas de aprendizado de máquina, conhecidas como ML-MPC. Nesta abordagem, algoritmos de aprendizado de máquina são usados para estimar modelos de sistema, fazer previsões e otimizar ações de controle. Esta combinação de aprendizado de máquina e MPC tem o potencial de fornecer melhorias significativas no desempenho e na eficiência do controle.

A pesquisa relacionada ao modelo mundial de LeCun também utiliza teorias relacionadas ao MPC.

Recentemente, a preferência de LeCun pelo MPC atraiu alguma atenção na comunidade de IA.

Alguns dizem que o MPC funciona bem se o nosso problema for bem modelado e tiver uma dinâmica previsível.

Talvez para os cientistas da computação ainda haja muito que vale a pena explorar na área de processamento e controle de sinais.

No entanto, algumas pessoas apontaram que resolver um modelo MPC preciso é um problema difícil, e a premissa do ponto de vista de LeCun - "se você tiver um bom modelo mundial" em si é difícil de alcançar.

Algumas pessoas também dizem que a aprendizagem por reforço e o MPC não são necessariamente uma relação de um ou um, e ambos podem ter seus próprios cenários aplicáveis.

Houve alguns estudos anteriores usando uma combinação dos dois, com bons resultados.

Aprendizagem por reforço vs MPC

Na discussão anterior, alguns internautas recomendaram um artigo do Medium que analisava e comparava a aprendizagem por reforço e o MPC.

A seguir, vamos analisar detalhadamente as vantagens e desvantagens dos dois com base neste blog técnico.

O aprendizado por reforço (RL) e o controle preditivo de modelo (MPC) são duas técnicas poderosas para otimizar sistemas de controle. Ambas as abordagens têm suas vantagens e desvantagens, e a melhor maneira de resolver um problema depende dos requisitos específicos de um determinado problema.

Então, quais são as vantagens e desvantagens dos dois métodos e quais problemas eles são adequados para resolver?

aprendizagem por reforço

O aprendizado por reforço é um método de aprendizado de máquina que aprende por tentativa e erro. É particularmente adequado para resolver problemas com dinâmicas complexas ou modelos de sistemas desconhecidos. Na aprendizagem por reforço, um agente aprende a realizar ações no ambiente para maximizar os sinais de recompensa. O agente interage com o ambiente, observa os estados resultantes e executa ações. O agente é então recompensado ou punido com base nos resultados. Com o tempo, o agente aprenderá a realizar ações que levem a recompensas mais positivas. O aprendizado por reforço tem uma variedade de aplicações em sistemas de controle, visando fornecer métodos adaptativos dinâmicos para otimizar o comportamento do sistema. Algumas aplicações comuns incluem:

Sistemas autônomos: O aprendizado por reforço é usado em sistemas de controle autônomo, como direção autônoma, drones e robôs, para aprender estratégias de controle ideais para navegação e tomada de decisões.

Robótica: O aprendizado por reforço permite que os robôs aprendam e adaptem suas estratégias de controle para completar tarefas como agarrar objetos, manipular e se locomover em ambientes dinâmicos complexos.

......

Fluxo de trabalho de aprendizagem por reforço (RL).

Agentes: alunos e tomadores de decisão.

Ambiente: O ambiente ou entidade com a qual o agente interage. Os agentes observam e agem para influenciar o meio ambiente.

Estado: Uma descrição completa do estado do mundo. O agente pode observar total ou parcialmente o estado.

Recompensa: Feedback escalar que indica o desempenho do agente. O objetivo do agente é maximizar a recompensa total a longo prazo. O agente muda sua estratégia com base nas recompensas.

Espaço de ação: Um conjunto de ações válidas que um agente pode executar em um determinado ambiente. As ações finitas constituem um espaço de ação discreto; as ações infinitas constituem um espaço de ação contínuo.

controle preditivo de modelo

O Controle Preditivo de Modelo (MPC) é uma estratégia de controle amplamente utilizada que tem sido aplicada em muitos campos, incluindo controle de processos, robótica, sistemas autônomos, etc.

O princípio central do MPC é usar um modelo matemático de um sistema para prever o comportamento futuro e então usar esse conhecimento para gerar ações de controle para maximizar certas metas de desempenho.

Após anos de melhoria e refinamento contínuos, o MPC agora pode lidar com sistemas cada vez mais complexos e problemas de controle difíceis. Conforme mostrado na figura abaixo, em cada intervalo de controle, o algoritmo MPC calcula uma sequência de malha aberta da faixa de controle para otimizar o comportamento da planta dentro da faixa prevista.

Esquema MPC discreto.

As aplicações do MPC em sistemas de controle incluem:

indústria de processo

sistema de energia

controle do carro

robótica

Entre eles, o MPC é usado em sistemas robóticos para planejar e otimizar trajetórias de movimento para garantir movimentos suaves e eficientes de braços robóticos e plataformas robóticas em diversas aplicações, incluindo fabricação e logística.

A tabela a seguir lista as diferenças entre aprendizagem por reforço e MPC em termos de modelos, métodos de aprendizagem, velocidade, robustez, eficiência da amostra, cenários aplicáveis, etc. Em geral, a aprendizagem por reforço é uma escolha adequada para problemas difíceis de modelar ou com dinâmica complexa. MPC é uma boa escolha para problemas bem modelados e dinamicamente previsíveis.

Um dos últimos avanços em MPC é a integração com a tecnologia de aprendizado de máquina, conhecida como ML-MPC. O ML-MPC adota um método diferente do MPC tradicional para controle, utilizando algoritmos de aprendizado de máquina para estimar modelos de sistema, prever e gerar ações de controle. A ideia principal por trás disso é usar modelos baseados em dados para superar as limitações do MPC tradicional.

O MPC baseado em aprendizado de máquina pode se adaptar às mudanças nas condições em tempo real, tornando-o adequado para sistemas dinâmicos e imprevisíveis. Comparado ao MPC baseado em modelo, o MPC baseado em aprendizado de máquina pode fornecer maior precisão, especialmente em sistemas complexos e difíceis de modelar.

Além disso, o MPC baseado em aprendizado de máquina pode reduzir a complexidade do modelo, facilitando sua implantação e manutenção. No entanto, comparado ao MPC tradicional, o ML-MPC também apresenta algumas limitações, como a necessidade de uma grande quantidade de dados para treinar o modelo, pouca interpretabilidade e assim por diante.

Parece que os cientistas da computação ainda têm um longo caminho a percorrer antes de poderem realmente introduzir o MPC no campo da IA.

Link de referência: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

notícias

Yang Likun não está otimista em relação ao aprendizado por reforço: "Eu prefiro MPC"

Introdução

Minhas informações de contato