Ян Ликунь не испытывает оптимизма по поводу обучения с подкреплением: «Я предпочитаю MPC»

2024-08-26

Оригинальное название: Ян ЛеКун не испытывает оптимизма по поводу обучения с подкреплением: «Я предпочитаю MPC»

Монтажер: Чжан Цянь, Сяочжоу

Стоит ли изучать теорию, созданную более пятидесяти лет назад, еще раз?

«Я предпочитаю прогностическое управление моделью (MPC) обучению с подкреплением (RL). Я говорю это как минимум с 2016 года. Обучение с подкреплением требует чрезвычайно большого количества испытаний для изучения любой новой задачи. В отличие от этого, прогностическое управление моделью равно нулю. -Выстрел: если у вас есть хорошая модель мира и хорошая цель задачи, прогнозирующее управление моделью может решать новые задачи, не требуя какого-либо специального обучения. Это не означает, что обучение с подкреплением бесполезно, но оно бесполезно. использование должно быть последним средством».

В недавнем сообщении Ян ЛеКун, главный научный сотрудник Meta по искусственному интеллекту, выразил такую точку зрения.

Янн ЛеКун долгое время критиковал обучение с подкреплением. Он считает, что обучение с подкреплением требует множества экспериментов и очень неэффективно. Это сильно отличается от того, как учатся люди: вместо того, чтобы идентифицировать объекты, рассматривая миллион образцов одного и того же объекта, или пробовать опасные вещи и учиться на них, младенцы учатся на них, наблюдая, предсказывая и взаимодействуя с ними, даже без присмотра. .

В своей речи полгода назад он даже выступил за «отказ от обучения с подкреплением» (см. «Путь исследований GPT-4 не имеет будущего? Ян ЛеКун приговорил авторегрессию к смерти»). Но в последующем интервью он объяснил, что не собирался полностью сдаваться, а хотел свести к минимуму использование обучения с подкреплением, и что правильный способ обучения системы — сначала заставить ее учиться, в основном, на наблюдениях (а может быть, и на наблюдениях). мало взаимодействия) Изучение хороших представлений миров и моделей мира.

В то же время ЛеКун также отметил, что он предпочитает MPC (модель прогнозирующего управления) обучению с подкреплением.

MPC — это технология, которая использует математические модели для оптимизации систем управления в реальном времени в течение ограниченного времени. С момента своего появления в 1960-х и 1970-х годах она широко использовалась в различных областях, таких как химическое машиностроение, нефтепереработка, передовое производство, робототехника и т. д. и аэрокосмическая промышленность. Например, некоторое время назад компания Boston Dynamics поделилась своим многолетним опытом использования MPC для управления роботами (см. «Раскрытие технологии Boston Dynamics: сальто назад, отжимания и перевороты, сводка 6-летнего опыта и уроков»).

Одной из последних разработок MPC является его интеграция с методами машинного обучения, известными как ML-MPC. В этом подходе алгоритмы машинного обучения используются для оценки моделей системы, прогнозирования и оптимизации управляющих действий. Такое сочетание машинного обучения и MPC потенциально может обеспечить значительное улучшение производительности и эффективности управления.

В исследованиях Лекуна, связанных с моделями мира, также используются теории, связанные с MPC.

В последнее время предпочтение Лекуна MPC привлекло некоторое внимание в сообществе искусственного интеллекта.

Некоторые говорят, что MPC работает хорошо, если наша проблема хорошо смоделирована и имеет предсказуемую динамику.

Возможно, ученым-компьютерщикам еще многое предстоит изучить в области обработки сигналов и управления.

Однако некоторые люди отметили, что решение точной модели MPC является сложной проблемой, а саму предпосылку с точки зрения Лекуна - «если у вас есть хорошая модель мира» трудно достичь.

Некоторые люди также говорят, что обучение с подкреплением и MPC не обязательно являются взаимосвязью «один или один», и оба могут иметь свои собственные применимые сценарии.

Ранее были проведены некоторые исследования, в которых использовалась комбинация этих двух методов, и они дали хорошие результаты.

Обучение с подкреплением против MPC

В предыдущем обсуждении некоторые пользователи сети рекомендовали статью на Medium, в которой анализировались и сравнивались обучение с подкреплением и MPC.

Далее давайте подробно проанализируем преимущества и недостатки этих двух вариантов на основе этого технического блога.

Обучение с подкреплением (RL) и управление с прогнозированием моделей (MPC) — два мощных метода оптимизации систем управления. Оба подхода имеют свои преимущества и недостатки, и лучший способ решения проблемы зависит от конкретных требований конкретной проблемы.

Итак, каковы преимущества и недостатки этих двух методов и для решения каких задач они подходят?

обучение с подкреплением

Обучение с подкреплением — это метод машинного обучения, который учится методом проб и ошибок. Он особенно подходит для решения задач со сложной динамикой или неизвестными моделями систем. При обучении с подкреплением агент учится предпринимать действия в окружающей среде, чтобы максимизировать сигналы вознаграждения. Агент взаимодействует с окружающей средой, наблюдает за результирующими состояниями и предпринимает действия. Затем агент вознаграждается или наказывается в зависимости от результатов. Со временем агент научится предпринимать действия, которые приведут к более положительному вознаграждению. Обучение с подкреплением имеет множество применений в системах управления с целью предоставления динамических адаптивных методов оптимизации поведения системы. Некоторые распространенные приложения включают в себя:

Автономные системы. Обучение с подкреплением используется в автономных системах управления, таких как автономное вождение, дроны и роботы, для изучения оптимальных стратегий управления для навигации и принятия решений.

Робототехника: обучение с подкреплением позволяет роботам учиться и адаптировать свои стратегии управления для выполнения таких задач, как захват объектов, манипулирование и передвижение в сложных динамических средах.

......

Рабочий процесс обучения с подкреплением (RL).

Агенты: обучающиеся и лица, принимающие решения.

Среда: среда или объект, с которым взаимодействует агент. Агенты наблюдают и принимают меры, чтобы повлиять на окружающую среду.

Состояние: Полное описание состояния мира. Агент может полностью или частично наблюдать за состоянием.

Награда: скалярная обратная связь, показывающая производительность агента. Цель агента — максимизировать долгосрочное общее вознаграждение. Агент меняет свою стратегию в зависимости от вознаграждения.

Пространство действий: набор допустимых действий, которые агент может выполнять в данной среде. Конечные действия составляют дискретное пространство действий; бесконечные действия составляют непрерывное пространство действий.

прогнозирующее управление моделью

Model Predictive Control (MPC) — это широко используемая стратегия управления, которая применяется во многих областях, включая управление процессами, робототехнику, автономные системы и т. д.

Основной принцип MPC — использовать математическую модель системы для прогнозирования будущего поведения, а затем использовать эти знания для создания управляющих действий для максимизации определенных целей производительности.

После многих лет непрерывных улучшений и усовершенствований MPC теперь может справляться со все более сложными системами и сложными задачами управления. Как показано на рисунке ниже, на каждом интервале управления алгоритм MPC вычисляет последовательность разомкнутого контура диапазона управления для оптимизации поведения объекта в пределах прогнозируемого диапазона.

Дискретная схема МПК.

Приложения MPC в системах управления включают:

перерабатывающая промышленность

энергосистема

управление автомобилем

робототехника

Среди них MPC используется в робототехнических системах для планирования и оптимизации траекторий движения, чтобы обеспечить плавное и эффективное движение роботизированных манипуляторов и роботизированных платформ в различных приложениях, включая производство и логистику.

В следующей таблице перечислены различия между обучением с подкреплением и MPC с точки зрения моделей, методов обучения, скорости, надежности, эффективности выборки, применимых сценариев и т. д. В целом обучение с подкреплением — подходящий выбор для задач, которые сложно моделировать или которые имеют сложную динамику. MPC — хороший выбор для задач, которые хорошо смоделированы и динамически предсказуемы.

Одним из последних достижений MPC является интеграция с технологией машинного обучения, известной как ML-MPC. ML-MPC использует метод управления, отличный от традиционного MPC, используя алгоритмы машинного обучения для оценки моделей системы, прогнозирования и генерации управляющих воздействий. Основная идея заключается в использовании моделей, управляемых данными, для преодоления ограничений традиционного MPC.

MPC на основе машинного обучения может адаптироваться к изменяющимся условиям в режиме реального времени, что делает его пригодным для динамических и непредсказуемых систем. По сравнению с MPC на основе моделей, MPC на основе машинного обучения может обеспечить более высокую точность, особенно в сложных и трудно моделируемых системах.

Кроме того, MPC на основе машинного обучения может снизить сложность модели, упрощая ее развертывание и обслуживание. Однако по сравнению с традиционным MPC, ML-MPC также имеет некоторые ограничения, такие как необходимость большого объема данных для обучения модели, плохая интерпретируемость и так далее.

Похоже, ученым-компьютерщикам еще предстоит пройти долгий путь, прежде чем они смогут по-настоящему внедрить MPC в область ИИ.

Справочная ссылка: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27.

новости

Ян Ликунь не испытывает оптимизма по поводу обучения с подкреплением: «Я предпочитаю MPC»

Введение

Моя контактная информация