Yang Likun 氏は強化学習について楽観的ではない:「私は MPC の方が好きだ」

Yang Likun 氏は強化学習について楽観的ではない: 「私は MPC の方が好きだ」

2024-08-26

原題: Yann LeCun は強化学習について楽観的ではない: 「MPC の方が好きだ」

編集者: Zhang Qian、Xiaozhou

50 年以上前の理論をもう一度研究する価値はあるでしょうか?

「私は強化学習 (RL) よりもモデル予測制御 (MPC) の方が好きです。これは少なくとも 2016 年から言い続けています。強化学習では、新しいタスクを学習するために非常に多くの試行回数が必要です。対照的に、モデル予測制御はゼロです。 -ショット: 優れた世界モデルと優れたタスク目標があれば、モデル予測制御はタスク固有の学習を必要とせずに新しいタスクを解決できます。これは、強化学習が役に立たないという意味ではありません。使用は最後の手段であるべきです。」

Meta社の主任人工知能科学者であるYann LeCun氏は最近の投稿でこの見解を表明した。

Yann LeCun は長年にわたって強化学習を批判してきました。彼は、強化学習には多くの実験が必要であり、非常に非効率的であると考えています。これは人間の学習方法とは大きく異なります。赤ちゃんは、同じ物体の 100 万個のサンプルを見て物体を特定したり、危険なことを試してそこから学ぶのではなく、たとえ監督なしでも、それらを観察、予測し、対話することで学習します。。

半年前の講演では、「強化学習の放棄」まで主張していた（「GPT-4の研究路線に未来はない?ヤン・ルカン氏、自己回帰に死刑宣告」を参照）。しかし、その後のインタビューで彼は、完全に諦めるつもりはなく、強化学習の使用を最小限に抑えるつもりであり、システムをトレーニングする正しい方法は、まず主に観察から学習させることであると説明した（そしておそらくは相互作用はほとんどありません）世界と世界モデルの適切な表現を学びます。

同時に、LeCun 氏は強化学習よりも MPC (モデル予測制御) を好むと指摘しました。

MPC は、数理モデルを使用して限られた時間内で制御システムをリアルタイムに最適化する技術であり、1960 年代から 1970 年代に登場して以来、化学工学、石油精製、先端製造、ロボット工学などのさまざまな分野で広く使用されてきました。そして航空宇宙。たとえば、少し前に、ボストンダイナミクスは、ロボット制御に MPC を使用した長年の経験を共有しました (「ボストンダイナミクスのテクノロジーが明らかに: バックフリップ、腕立て伏せ、ロールオーバー、6 年間の経験と教訓の要約」を参照)。

MPC の最新の開発の 1 つは、ML-MPC として知られる機械学習技術との統合です。このアプローチでは、機械学習アルゴリズムを使用してシステムモデルを推定し、予測を行い、制御動作を最適化します。この機械学習と MPC の組み合わせにより、制御のパフォーマンスと効率が大幅に向上する可能性があります。

LeCun の世界モデル関連の研究でも、MPC 関連の理論が使用されています。

最近、LeCun 氏の MPC に対する好みが AI コミュニティで注目を集めています。

問題が適切にモデル化され、ダイナミクスが予測可能であれば、MPC はうまく機能すると言う人もいます。

おそらくコンピューター科学者にとって、信号処理と制御の分野にはまだ探求する価値のあることがたくさんあります。

しかし、正確な MPC モデルを解くのは難しい問題であり、LeCun の観点における前提である「優れた世界モデルがあれば」自体を達成するのが難しいとの指摘もありました。

また、強化学習と MPC は必ずしも 1 つまたは 1 つの関係ではなく、どちらにも独自の適用可能なシナリオがある可能性があると言う人もいます。

この 2 つの組み合わせを使用した以前の研究がいくつかあり、良好な結果が得られています。

強化学習と MPC

前回の議論では、一部のネチズンが強化学習と MPC を分析および比較した Medium の記事を推奨しました。

次に、この技術ブログを基に、両者の長所と短所を詳しく分析してみましょう。

強化学習 (RL) とモデル予測制御 (MPC) は、制御システムを最適化するための 2 つの強力な手法です。どちらのアプローチにも長所と短所があり、問題を解決する最良の方法は、特定の問題の特定の要件によって異なります。

では、2 つの方法の長所と短所は何で、どのような問題の解決に適しているのでしょうか?

強化学習

強化学習は、試行錯誤を通じて学習する機械学習手法です。これは、複雑なダイナミクスや未知のシステムモデルの問題を解決するのに特に適しています。強化学習では、エージェントは報酬シグナルを最大化するために環境内でアクションを実行することを学習します。エージェントは環境と対話し、結果の状態を観察してアクションを実行します。その後、エージェントは結果に基づいて報酬または罰を受けます。時間が経つにつれて、エージェントはよりポジティブな報酬につながるアクションを取ることを学びます。強化学習は制御システムにさまざまな用途があり、システムの動作を最適化する動的適応手法を提供することを目的としています。一般的なアプリケーションには次のようなものがあります。

自律システム: 強化学習は、自動運転、ドローン、ロボットなどの自律制御システムで使用され、ナビゲーションや意思決定のための最適な制御戦略を学習します。

ロボティクス: 強化学習により、ロボットは制御戦略を学習して適応させ、複雑な動的環境での物体の把握、操作、移動などのタスクを完了できます。

......

強化学習 (RL) ワークフロー。

エージェント: 学習者と意思決定者。

環境: エージェントが対話する環境またはエンティティ。エージェントは環境を観察し、環境に影響を与えるための行動をとります。

状態: 世界の状態の完全な説明。エージェントは状態を完全または部分的に観察できます。

報酬: エージェントのパフォーマンスを示すスカラーフィードバック。エージェントの目標は、長期的な総報酬を最大化することです。エージェントは報酬に基づいて戦略を変更します。

アクションスペース: エージェントが特定の環境で実行できる一連の有効なアクション。有限アクションは離散アクション空間を構成し、無限アクションは連続アクション空間を構成します。

モデル予測制御

モデル予測制御 (MPC) は、プロセス制御、ロボット工学、自律システムなどの多くの分野で適用されている、広く使用されている制御戦略です。

MPC の中核となる理念は、システムの数学的モデルを使用して将来の動作を予測し、その知識を使用して特定のパフォーマンス目標を最大化するための制御アクションを生成することです。

長年にわたる継続的な改善と改良を経て、MPC はますます複雑化するシステムと困難な制御問題を処理できるようになりました。以下の図に示すように、MPC アルゴリズムは各制御間隔で制御範囲の開ループシーケンスを計算し、予測範囲内でプラントの動作を最適化します。

ディスクリート MPC 方式。

制御システムにおける MPC のアプリケーションには次のものがあります。

プロセス産業

電源システム

車の制御

ロボット工学

その中でも、MPC はロボットシステムで使用され、動作軌道を計画および最適化し、製造や物流などのさまざまな用途でロボットアームやロボットプラットフォームのスムーズかつ効率的な動作を保証します。

次の表は、モデル、学習方法、速度、堅牢性、サンプル効率、適用可能なシナリオなどの観点から強化学習と MPC の違いを示しています。一般に、強化学習は、モデル化が難しい問題や複雑なダイナミクスがある問題に適しています。 MPC は、適切にモデル化され、動的に予測可能な問題に適しています。

MPC の最新の進歩の 1 つは、ML-MPC として知られる機械学習テクノロジーとの統合です。 ML-MPC は、従来の MPC とは異なる制御方法を採用し、機械学習アルゴリズムを使用してシステムモデルを推定し、制御アクションを予測および生成します。その背後にある主なアイデアは、データ駆動型モデルを使用して従来の MPC の制限を克服することです。

機械学習ベースの MPC は、変化する条件にリアルタイムで適応できるため、動的で予測不可能なシステムに適しています。モデルベースの MPC と比較して、機械学習ベースの MPC は、特に複雑でモデル化が困難なシステムにおいて、より高い精度を提供できます。

さらに、機械学習ベースの MPC によりモデルの複雑さが軽減され、展開と保守が容易になります。ただし、従来の MPC と比較すると、ML-MPC にはモデルのトレーニングに大量のデータが必要であること、解釈性が低いことなど、いくつかの制限もあります。

コンピューター科学者が MPC を AI 分野に本格的に導入できるようになるまでには、まだ長い道のりがあるようです。

参考リンク：https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

ニュース

Yang Likun 氏は強化学習について楽観的ではない: 「私は MPC の方が好きだ」

導入

私の連絡先情報