noticias

Yang Likun no es optimista sobre el aprendizaje por refuerzo: "Prefiero MPC"

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Título original: Yann LeCun no es optimista sobre el aprendizaje por refuerzo: "Prefiero MPC"

Editor: Zhang Qian, Xiaozhou

¿Vale la pena volver a estudiar la teoría de hace más de cincuenta años?

“Prefiero el control predictivo de modelo (MPC) al aprendizaje por refuerzo (RL). He estado diciendo esto desde al menos 2016. El aprendizaje por refuerzo requiere una cantidad extremadamente grande de pruebas para aprender cualquier tarea nueva. En contraste, el control predictivo de modelo es cero. -shot: si tiene un buen modelo del mundo y un buen objetivo de tarea, el control predictivo del modelo puede resolver nuevas tareas sin requerir ningún aprendizaje específico de la tarea. Esto no significa que el aprendizaje por refuerzo sea inútil, pero lo es. su uso debería ser el último recurso”.

En una publicación reciente, Yann LeCun, científico jefe de inteligencia artificial de Meta, expresó esta opinión.

Yann LeCun ha sido durante mucho tiempo un crítico del aprendizaje por refuerzo. Él cree que el aprendizaje por refuerzo requiere muchos experimentos y es muy ineficiente. Esto es muy diferente de cómo aprenden los humanos: en lugar de identificar objetos mirando un millón de muestras del mismo objeto, o probar cosas peligrosas y aprender de ellas, los bebés aprenden de ellos observándolos, prediciendo e interactuando con ellos, incluso sin supervisión. .

En un discurso hace medio año, incluso abogó por "abandonar el aprendizaje por refuerzo" (ver "¿El camino de investigación de GPT-4 no tiene futuro? Yann LeCun condenó a muerte la autorregresión"). Pero en una entrevista posterior, explicó que no pretendía darse por vencido por completo, sino minimizar el uso del aprendizaje por refuerzo, y que la forma correcta de entrenar un sistema es primero hacer que aprenda principalmente de observaciones (y tal vez de poca interacción) Aprender buenas representaciones de mundos y modelos de mundos.

Al mismo tiempo, LeCun también señaló que prefiere MPC (control predictivo de modelo) al aprendizaje por refuerzo.

MPC es una tecnología que utiliza modelos matemáticos para optimizar sistemas de control en tiempo real en un tiempo limitado. Desde su aparición en las décadas de 1960 y 1970, se ha utilizado ampliamente en diversos campos como la ingeniería química, la refinación de petróleo, la fabricación avanzada, la robótica. y aeroespacial. Por ejemplo, hace algún tiempo, Boston Dynamics compartió sus muchos años de experiencia en el uso de MPC para el control de robots (consulte "Tecnología de Boston Dynamics revelada: volteretas hacia atrás, flexiones y vuelcos, resumen de 6 años de experiencia y lecciones").

Uno de los últimos avances en MPC es su integración con técnicas de aprendizaje automático, conocidas como ML-MPC. En este enfoque, se utilizan algoritmos de aprendizaje automático para estimar modelos de sistemas, hacer predicciones y optimizar acciones de control. Esta combinación de aprendizaje automático y MPC tiene el potencial de proporcionar mejoras significativas en el rendimiento y la eficiencia del control.

La investigación relacionada con el modelo mundial de LeCun también utiliza teorías relacionadas con MPC.

Recientemente, la preferencia de LeCun por MPC ha atraído cierta atención en la comunidad de IA.

Algunos dicen que MPC funciona bien si nuestro problema está bien modelado y tiene una dinámica predecible.

Quizás para los informáticos todavía haya mucho que valga la pena explorar en el campo del procesamiento y control de señales.

Sin embargo, algunas personas señalaron que resolver un modelo MPC preciso es un problema difícil y que, desde el punto de vista de LeCun, la premisa de "si tienes un buen modelo mundial" es en sí misma difícil de lograr.

Algunas personas también dicen que el aprendizaje por refuerzo y el MPC no son necesariamente una relación uno o uno, y ambos pueden tener sus propios escenarios aplicables.

Ha habido algunos estudios previos que utilizaron una combinación de los dos, con buenos resultados.

Aprendizaje por refuerzo vs MPC

En la discusión anterior, algunos internautas recomendaron un artículo de Medium que analiza y compara el aprendizaje por refuerzo y MPC.

A continuación, analicemos en detalle las ventajas y desventajas de los dos según este blog técnico.

El aprendizaje por refuerzo (RL) y el control predictivo de modelos (MPC) son dos técnicas poderosas para optimizar los sistemas de control. Ambos enfoques tienen sus ventajas y desventajas, y la mejor manera de resolver un problema depende de los requisitos específicos de un problema en particular.

Entonces, ¿cuáles son las ventajas y desventajas de los dos métodos y qué problemas pueden resolver?

aprendizaje por refuerzo

El aprendizaje por refuerzo es un método de aprendizaje automático que aprende mediante prueba y error. Es particularmente adecuado para resolver problemas con dinámicas complejas o modelos de sistemas desconocidos. En el aprendizaje por refuerzo, un agente aprende a realizar acciones en el entorno para maximizar las señales de recompensa. El agente interactúa con el entorno, observa los estados resultantes y emprende acciones. Luego, el agente es recompensado o castigado en función de los resultados. Con el tiempo, el agente aprenderá a realizar acciones que conduzcan a recompensas más positivas. El aprendizaje por refuerzo tiene una variedad de aplicaciones en sistemas de control, con el objetivo de proporcionar métodos adaptativos dinámicos para optimizar el comportamiento del sistema. Algunas aplicaciones comunes incluyen:

Sistemas autónomos: el aprendizaje por refuerzo se utiliza en sistemas de control autónomos, como la conducción autónoma, drones y robots, para aprender estrategias de control óptimas para la navegación y la toma de decisiones.

Robótica: el aprendizaje por refuerzo permite a los robots aprender y adaptar sus estrategias de control para completar tareas como agarrar objetos, manipularlos y moverse en entornos dinámicos complejos.

......

Flujo de trabajo de aprendizaje por refuerzo (RL).

Agentes: estudiantes y tomadores de decisiones.

Entorno: El entorno o entidad con la que interactúa el agente. Los agentes observan y toman acciones para influir en el medio ambiente.

Estado: Una descripción completa del estado del mundo. El agente puede observar total o parcialmente el estado.

Recompensa: retroalimentación escalar que indica el desempeño del agente. El objetivo del agente es maximizar la recompensa total a largo plazo. El agente cambia su estrategia en función de las recompensas.

Espacio de acción: conjunto de acciones válidas que un agente puede realizar en un entorno determinado. Las acciones finitas constituyen un espacio de acción discreto; las acciones infinitas constituyen un espacio de acción continuo.

control predictivo del modelo

El Control Predictivo de Modelos (MPC) es una estrategia de control ampliamente utilizada que se ha aplicado en muchos campos, incluido el control de procesos, la robótica, los sistemas autónomos, etc.

El principio central de MPC es utilizar un modelo matemático de un sistema para predecir el comportamiento futuro y luego utilizar ese conocimiento para generar acciones de control para maximizar ciertos objetivos de rendimiento.

Después de años de mejora y refinamiento continuos, MPC ahora puede manejar sistemas cada vez más complejos y problemas de control difíciles. Como se muestra en la figura siguiente, en cada intervalo de control, el algoritmo MPC calcula una secuencia de bucle abierto del rango de control para optimizar el comportamiento de la planta dentro del rango previsto.

Esquema MPC discreto.

Las aplicaciones de MPC en sistemas de control incluyen:

industria de procesos

sistema de energía

control del coche

robótica

Entre ellos, MPC se utiliza en sistemas robóticos para planificar y optimizar trayectorias de movimiento para garantizar un movimiento suave y eficiente de brazos robóticos y plataformas robóticas en diversas aplicaciones, incluidas la fabricación y la logística.

La siguiente tabla enumera las diferencias entre el aprendizaje por refuerzo y MPC en términos de modelos, métodos de aprendizaje, velocidad, solidez, eficiencia de la muestra, escenarios aplicables, etc. En general, el aprendizaje por refuerzo es una opción adecuada para problemas que son difíciles de modelar o que tienen una dinámica compleja. MPC es una buena opción para problemas bien modelados y dinámicamente predecibles.

Uno de los últimos avances en MPC es la integración con la tecnología de aprendizaje automático, conocida como ML-MPC. ML-MPC adopta un método de control diferente al MPC tradicional, utilizando algoritmos de aprendizaje automático para estimar modelos de sistemas, predecir y generar acciones de control. La idea principal detrás de esto es utilizar modelos basados ​​en datos para superar las limitaciones del MPC tradicional.

MPC basado en aprendizaje automático puede adaptarse a condiciones cambiantes en tiempo real, lo que lo hace adecuado para sistemas dinámicos e impredecibles. En comparación con el MPC basado en modelos, el MPC basado en aprendizaje automático puede proporcionar una mayor precisión, especialmente en sistemas complejos y difíciles de modelar.

Además, el MPC basado en aprendizaje automático puede reducir la complejidad del modelo, facilitando su implementación y mantenimiento. Sin embargo, en comparación con el MPC tradicional, ML-MPC también tiene algunas limitaciones, como la necesidad de una gran cantidad de datos para entrenar el modelo, mala interpretabilidad, etc.

Parece que los científicos informáticos todavía tienen un largo camino por recorrer antes de que realmente puedan introducir MPC en el campo de la IA.

Enlace de referencia: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27