Моя контактная информация
Почта[email protected]
2024-08-26
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Оригинальное название: Ян ЛеКун не испытывает оптимизма по поводу обучения с подкреплением: «Я предпочитаю MPC»
Монтажер: Чжан Цянь, Сяочжоу
Стоит ли изучать теорию, созданную более пятидесяти лет назад, еще раз?
«Я предпочитаю прогностическое управление моделью (MPC) обучению с подкреплением (RL). Я говорю это как минимум с 2016 года. Обучение с подкреплением требует чрезвычайно большого количества испытаний для изучения любой новой задачи. В отличие от этого, прогностическое управление моделью равно нулю. -Выстрел: если у вас есть хорошая модель мира и хорошая цель задачи, прогнозирующее управление моделью может решать новые задачи, не требуя какого-либо специального обучения. Это не означает, что обучение с подкреплением бесполезно, но оно бесполезно. использование должно быть последним средством».
В недавнем сообщении Ян ЛеКун, главный научный сотрудник Meta по искусственному интеллекту, выразил такую точку зрения.
Янн ЛеКун долгое время критиковал обучение с подкреплением. Он считает, что обучение с подкреплением требует множества экспериментов и очень неэффективно. Это сильно отличается от того, как учатся люди: вместо того, чтобы идентифицировать объекты, рассматривая миллион образцов одного и того же объекта, или пробовать опасные вещи и учиться на них, младенцы учатся на них, наблюдая, предсказывая и взаимодействуя с ними, даже без присмотра. .
В своей речи полгода назад он даже выступил за «отказ от обучения с подкреплением» (см. «Путь исследований GPT-4 не имеет будущего? Ян ЛеКун приговорил авторегрессию к смерти»). Но в последующем интервью он объяснил, что не собирался полностью сдаваться, а хотел свести к минимуму использование обучения с подкреплением, и что правильный способ обучения системы — сначала заставить ее учиться, в основном, на наблюдениях (а может быть, и на наблюдениях). мало взаимодействия) Изучение хороших представлений миров и моделей мира.
В то же время ЛеКун также отметил, что он предпочитает MPC (модель прогнозирующего управления) обучению с подкреплением.
MPC — это технология, которая использует математические модели для оптимизации систем управления в реальном времени в течение ограниченного времени. С момента своего появления в 1960-х и 1970-х годах она широко использовалась в различных областях, таких как химическое машиностроение, нефтепереработка, передовое производство, робототехника и т. д. и аэрокосмическая промышленность. Например, некоторое время назад компания Boston Dynamics поделилась своим многолетним опытом использования MPC для управления роботами (см. «Раскрытие технологии Boston Dynamics: сальто назад, отжимания и перевороты, сводка 6-летнего опыта и уроков»).
Одной из последних разработок MPC является его интеграция с методами машинного обучения, известными как ML-MPC. В этом подходе алгоритмы машинного обучения используются для оценки моделей системы, прогнозирования и оптимизации управляющих действий. Такое сочетание машинного обучения и MPC потенциально может обеспечить значительное улучшение производительности и эффективности управления.
В исследованиях Лекуна, связанных с моделями мира, также используются теории, связанные с MPC.
В последнее время предпочтение Лекуна MPC привлекло некоторое внимание в сообществе искусственного интеллекта.
Некоторые говорят, что MPC работает хорошо, если наша проблема хорошо смоделирована и имеет предсказуемую динамику.
Возможно, ученым-компьютерщикам еще многое предстоит изучить в области обработки сигналов и управления.
Однако некоторые люди отметили, что решение точной модели MPC является сложной проблемой, а саму предпосылку с точки зрения Лекуна - «если у вас есть хорошая модель мира» трудно достичь.
Некоторые люди также говорят, что обучение с подкреплением и MPC не обязательно являются взаимосвязью «один или один», и оба могут иметь свои собственные применимые сценарии.
Ранее были проведены некоторые исследования, в которых использовалась комбинация этих двух методов, и они дали хорошие результаты.
Обучение с подкреплением против MPC
В предыдущем обсуждении некоторые пользователи сети рекомендовали статью на Medium, в которой анализировались и сравнивались обучение с подкреплением и MPC.
Далее давайте подробно проанализируем преимущества и недостатки этих двух вариантов на основе этого технического блога.
Обучение с подкреплением (RL) и управление с прогнозированием моделей (MPC) — два мощных метода оптимизации систем управления. Оба подхода имеют свои преимущества и недостатки, и лучший способ решения проблемы зависит от конкретных требований конкретной проблемы.
Итак, каковы преимущества и недостатки этих двух методов и для решения каких задач они подходят?
обучение с подкреплением
Обучение с подкреплением — это метод машинного обучения, который учится методом проб и ошибок. Он особенно подходит для решения задач со сложной динамикой или неизвестными моделями систем. При обучении с подкреплением агент учится предпринимать действия в окружающей среде, чтобы максимизировать сигналы вознаграждения. Агент взаимодействует с окружающей средой, наблюдает за результирующими состояниями и предпринимает действия. Затем агент вознаграждается или наказывается в зависимости от результатов. Со временем агент научится предпринимать действия, которые приведут к более положительному вознаграждению. Обучение с подкреплением имеет множество применений в системах управления с целью предоставления динамических адаптивных методов оптимизации поведения системы. Некоторые распространенные приложения включают в себя:
Автономные системы. Обучение с подкреплением используется в автономных системах управления, таких как автономное вождение, дроны и роботы, для изучения оптимальных стратегий управления для навигации и принятия решений.
Робототехника: обучение с подкреплением позволяет роботам учиться и адаптировать свои стратегии управления для выполнения таких задач, как захват объектов, манипулирование и передвижение в сложных динамических средах.
......
Рабочий процесс обучения с подкреплением (RL).
Агенты: обучающиеся и лица, принимающие решения.
Среда: среда или объект, с которым взаимодействует агент. Агенты наблюдают и принимают меры, чтобы повлиять на окружающую среду.
Состояние: Полное описание состояния мира. Агент может полностью или частично наблюдать за состоянием.
Награда: скалярная обратная связь, показывающая производительность агента. Цель агента — максимизировать долгосрочное общее вознаграждение. Агент меняет свою стратегию в зависимости от вознаграждения.
Пространство действий: набор допустимых действий, которые агент может выполнять в данной среде. Конечные действия составляют дискретное пространство действий; бесконечные действия составляют непрерывное пространство действий.
прогнозирующее управление моделью
Model Predictive Control (MPC) — это широко используемая стратегия управления, которая применяется во многих областях, включая управление процессами, робототехнику, автономные системы и т. д.
Основной принцип MPC — использовать математическую модель системы для прогнозирования будущего поведения, а затем использовать эти знания для создания управляющих действий для максимизации определенных целей производительности.
После многих лет непрерывных улучшений и усовершенствований MPC теперь может справляться со все более сложными системами и сложными задачами управления. Как показано на рисунке ниже, на каждом интервале управления алгоритм MPC вычисляет последовательность разомкнутого контура диапазона управления для оптимизации поведения объекта в пределах прогнозируемого диапазона.
Дискретная схема МПК.
Приложения MPC в системах управления включают:
перерабатывающая промышленность
энергосистема
управление автомобилем
робототехника
Среди них MPC используется в робототехнических системах для планирования и оптимизации траекторий движения, чтобы обеспечить плавное и эффективное движение роботизированных манипуляторов и роботизированных платформ в различных приложениях, включая производство и логистику.
В следующей таблице перечислены различия между обучением с подкреплением и MPC с точки зрения моделей, методов обучения, скорости, надежности, эффективности выборки, применимых сценариев и т. д. В целом обучение с подкреплением — подходящий выбор для задач, которые сложно моделировать или которые имеют сложную динамику. MPC — хороший выбор для задач, которые хорошо смоделированы и динамически предсказуемы.
Одним из последних достижений MPC является интеграция с технологией машинного обучения, известной как ML-MPC. ML-MPC использует метод управления, отличный от традиционного MPC, используя алгоритмы машинного обучения для оценки моделей системы, прогнозирования и генерации управляющих воздействий. Основная идея заключается в использовании моделей, управляемых данными, для преодоления ограничений традиционного MPC.
MPC на основе машинного обучения может адаптироваться к изменяющимся условиям в режиме реального времени, что делает его пригодным для динамических и непредсказуемых систем. По сравнению с MPC на основе моделей, MPC на основе машинного обучения может обеспечить более высокую точность, особенно в сложных и трудно моделируемых системах.
Кроме того, MPC на основе машинного обучения может снизить сложность модели, упрощая ее развертывание и обслуживание. Однако по сравнению с традиционным MPC, ML-MPC также имеет некоторые ограничения, такие как необходимость большого объема данных для обучения модели, плохая интерпретируемость и так далее.
Похоже, ученым-компьютерщикам еще предстоит пройти долгий путь, прежде чем они смогут по-настоящему внедрить MPC в область ИИ.
Справочная ссылка: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27.