Yang Likun은 강화 학습에 대해 낙관적이지 않습니다: "나는 MPC를 선호합니다"

Yang Likun은 강화 학습에 대해 낙관적이지 않습니다. "저는 MPC를 선호합니다."

2024-08-26

원제: Yann LeCun은 강화 학습에 대해 낙관적이지 않습니다. "나는 MPC를 선호합니다"

편집자: Zhang Qian, Xiaozhou

50여년 전의 이론을 다시 연구할 가치가 있나요?

“나는 강화 학습(RL)보다 모델 예측 제어(MPC)를 선호합니다. 적어도 2016년부터 이 말을 해왔습니다. 강화 학습은 새로운 작업을 학습하기 위해 극도로 많은 수의 시도가 필요합니다. 반면에 모델 예측 제어는 0입니다. -shot: 세상에 대한 좋은 모델과 좋은 작업 목표가 있다면 모델 예측 제어는 작업별 학습 없이도 새로운 작업을 해결할 수 있습니다. 이것이 강화 학습이 쓸모 없다는 의미는 아닙니다. 사용은 최후의 수단이 되어야 합니다.”

최근 게시물에서 Meta의 수석 인공지능 과학자 Yann LeCun은 이러한 견해를 표명했습니다.

Yann LeCun은 오랫동안 강화 학습을 비판해 왔습니다. 그는 강화학습에는 많은 실험이 필요하고 매우 비효율적이라고 믿습니다. 이는 인간이 학습하는 방식과는 매우 다릅니다. 동일한 물체의 백만 개 샘플을 보고 물체를 식별하거나 위험한 것을 시도하고 그로부터 배우는 대신 아기는 감독 없이도 관찰, 예측 및 상호 작용을 통해 학습합니다. .

반년 전 연설에서 그는 "강화 학습 포기"를 옹호하기도 했습니다("GPT-4의 연구 경로에는 미래가 없습니다. Yann LeCun이 자동 회귀에 사형을 선고했습니다" 참조). 그러나 후속 인터뷰에서 그는 완전히 포기하려는 것이 아니라 강화 학습의 사용을 최소화하려는 의도였으며 시스템을 훈련하는 올바른 방법은 먼저 대부분의 관찰로부터 학습하도록 만드는 것이라고 설명했습니다. 약간의 상호 작용) 세계와 세계 모델의 좋은 표현을 학습합니다.

동시에 LeCun은 강화 학습보다 MPC(모델 예측 제어)를 선호한다고 지적했습니다.

MPC는 수학적 모델을 이용해 제한된 시간 내에 제어 시스템을 실시간으로 최적화하는 기술로, 1960~70년대 등장한 이후 화학공학, 정유, 첨단제조, 로봇공학 등 다양한 분야에서 널리 활용됐다. 그리고 항공우주. 예를 들어, 얼마 전 Boston Dynamics는 로봇 제어를 위해 MPC를 사용한 다년간의 경험을 공유했습니다("Boston Dynamics 기술 공개: 백플립, 푸시업 및 롤오버, 6년간의 경험 및 교훈 요약" 참조).

MPC의 최신 개발 중 하나는 ML-MPC로 알려진 기계 학습 기술과의 통합입니다. 이 접근 방식에서는 기계 학습 알고리즘을 사용하여 시스템 모델을 추정하고, 예측하고, 제어 작업을 최적화합니다. 이러한 기계 학습과 MPC의 결합은 제어 성능과 효율성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다.

LeCun의 세계모델 관련 연구 역시 MPC 관련 이론을 활용하고 있다.

최근 AI 커뮤니티에서는 르쿤의 MPC 선호도가 주목을 받고 있다.

어떤 사람들은 문제가 잘 모델링되고 예측 가능한 역학을 가지고 있으면 MPC가 잘 작동한다고 말합니다.

아마도 컴퓨터 과학자들에게는 신호 처리 및 제어 분야에서 아직 탐구할 가치가 많이 있을 것입니다.

그러나 어떤 사람들은 정확한 MPC 모델을 해결하는 것이 어려운 문제이며, 르쿤의 관점에서 전제한 '좋은 세계 모델이 있다면' 자체도 달성하기 어렵다는 점을 지적했다.

어떤 사람들은 강화 학습과 MPC가 반드시 일대일 관계가 아니며 둘 다 고유한 적용 가능한 시나리오가 있을 수 있다고 말합니다.

두 가지를 조합하여 사용한 이전 연구에서 좋은 결과가 나왔습니다.

강화 학습과 MPC

앞선 토론에서 일부 네티즌들은 강화학습과 MPC를 분석하고 비교한 미디엄 기사를 추천하기도 했다.

다음으로, 본 기술 블로그를 바탕으로 두 가지의 장단점을 자세히 분석해 보겠습니다.

강화 학습(RL)과 모델 예측 제어(MPC)는 제어 시스템을 최적화하기 위한 두 가지 강력한 기술입니다. 두 접근 방식 모두 장점과 단점이 있으며 문제를 해결하는 가장 좋은 방법은 특정 문제의 특정 요구 사항에 따라 달라집니다.

그렇다면 두 가지 방법의 장단점은 무엇이며, 어떤 문제를 해결하는데 적합한가?

강화 학습

강화 학습은 시행착오를 통해 학습하는 기계 학습 방법입니다. 특히 복잡한 역학이나 알려지지 않은 시스템 모델의 문제를 해결하는 데 적합합니다. 강화 학습에서 에이전트는 보상 신호를 최대화하기 위해 환경에서 조치를 취하는 방법을 학습합니다. 에이전트는 환경과 상호 작용하고 결과 상태를 관찰하며 조치를 취합니다. 그런 다음 에이전트는 결과에 따라 보상을 받거나 처벌을 받습니다. 시간이 지남에 따라 에이전트는 더 긍정적인 보상으로 이어지는 조치를 취하는 방법을 배우게 됩니다. 강화 학습은 시스템 동작을 최적화하기 위한 동적 적응 방법을 제공하는 것을 목표로 제어 시스템에 다양한 응용 프로그램을 가지고 있습니다. 몇 가지 일반적인 응용 분야는 다음과 같습니다.

자율 시스템: 강화 학습은 자율 주행, 드론, 로봇 등 자율 제어 시스템에서 탐색 및 의사 결정을 위한 최적의 제어 전략을 학습하는 데 사용됩니다.

로봇 공학: 강화 학습을 통해 로봇은 복잡한 동적 환경에서 물체 잡기, 조작 및 이동과 같은 작업을 완료하기 위해 제어 전략을 학습하고 적응할 수 있습니다.

......

강화 학습(RL) 워크플로.

에이전트: 학습자 및 의사 결정자.

환경: 에이전트가 상호 작용하는 환경 또는 엔터티입니다. 에이전트는 환경에 영향을 미치기 위해 관찰하고 조치를 취합니다.

상태(State): 세계의 상태에 대한 완전한 설명입니다. 에이전트는 상태를 완전히 또는 부분적으로 관찰할 수 있습니다.

보상: 에이전트의 성과를 나타내는 스칼라 피드백입니다. 에이전트의 목표는 장기적인 총 보상을 최대화하는 것입니다. 에이전트는 보상에 따라 전략을 변경합니다.

행동 공간(Action space): 주어진 환경에서 에이전트가 수행할 수 있는 유효한 행동의 집합입니다. 유한한 행동은 이산적인 행동 공간을 구성하고, 무한한 행동은 연속적인 행동 공간을 구성합니다.

모델 예측 제어

모델 예측 제어(MPC)는 프로세스 제어, 로봇공학, 자율 시스템 등 다양한 분야에 적용되어 널리 사용되는 제어 전략입니다.

MPC의 핵심 원칙은 시스템의 수학적 모델을 사용하여 미래 동작을 예측한 다음 해당 지식을 사용하여 특정 성능 목표를 극대화하기 위한 제어 작업을 생성하는 것입니다.

수년간의 지속적인 개선과 개선 끝에 MPC는 이제 점점 더 복잡해지는 시스템과 어려운 제어 문제를 처리할 수 있습니다. 아래 그림에 표시된 것처럼 각 제어 간격에서 MPC 알고리즘은 제어 범위의 개방 루프 시퀀스를 계산하여 예측 범위 내에서 플랜트의 동작을 최적화합니다.

이산 MPC 방식.

제어 시스템에 MPC를 적용하는 방법은 다음과 같습니다.

공정 산업

전력 시스템

자동차 제어

로봇공학

그중 MPC는 제조 및 물류를 포함한 다양한 응용 분야에서 로봇 팔과 로봇 플랫폼의 부드럽고 효율적인 움직임을 보장하기 위해 모션 궤적을 계획하고 최적화하는 로봇 시스템에 사용됩니다.

다음 표에는 모델, 학습 방법, 속도, 견고성, 샘플 효율성, 적용 가능한 시나리오 등의 측면에서 강화 학습과 MPC의 차이점이 나열되어 있습니다. 일반적으로 강화 학습은 모델링하기 어렵거나 역학이 복잡한 문제에 적합한 선택입니다. MPC는 잘 모델링되고 동적으로 예측 가능한 문제에 적합한 선택입니다.

MPC의 최신 발전 중 하나는 ML-MPC로 알려진 기계 학습 기술과의 통합입니다. ML-MPC는 기계 학습 알고리즘을 사용하여 시스템 모델을 추정하고 제어 작업을 예측 및 생성하는 등 기존 MPC와는 다른 제어 방법을 채택합니다. 그 이면의 주요 아이디어는 데이터 기반 모델을 사용하여 기존 MPC의 한계를 극복하는 것입니다.

머신러닝 기반 MPC는 변화하는 조건에 실시간으로 적응할 수 있어 역동적이고 예측 불가능한 시스템에 적합합니다. 모델 기반 MPC와 비교하여 기계 학습 기반 MPC는 특히 복잡하고 모델링하기 어려운 시스템에서 더 높은 정확도를 제공할 수 있습니다.

또한 기계 학습 기반 MPC는 모델의 복잡성을 줄여 배포 및 유지 관리를 더 쉽게 만듭니다. 그러나 기존 MPC와 비교하여 ML-MPC에는 모델 교육을 위해 많은 양의 데이터가 필요하고 해석성이 좋지 않은 등 몇 가지 제한 사항이 있습니다.

컴퓨터 과학자들이 MPC를 AI 분야에 실제로 도입하기까지는 아직 갈 길이 먼 것 같습니다.

참조 링크: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

소식

Yang Likun은 강화 학습에 대해 낙관적이지 않습니다. "저는 MPC를 선호합니다."

소개

내 연락처 정보