Главный научный сотрудник Tencent Чжан Чжэнъю: Просто запихивая большие модели в роботов, невозможно создать настоящий воплощенный интеллект

Чжан Чжэнъю, главный научный сотрудник Tencent: Просто запихивание больших моделей в роботов не может создать настоящий воплощенный интеллект

2024-07-17

Чжан Чжэнъю Главный научный сотрудник Tencent, директор лаборатории Tencent Robotics X

Чтобы глубоко изучить взаимоотношения человека и машины в эпоху искусственного интеллекта и побудить общество совместно задуматься о возможностях экономического развития и стратегиях социального реагирования в эпоху симбиоза человека и машины, исследовательский институт Tencent совместно организовал Институт международных отношений Цяньхай. , Цинтэн, Гонконгская корпорация научно-технических парков и другие учреждения. “Перспективы взаимоотношений человека и машины в эпоху ИИ”Форум, это тоже“Серия высококлассных семинаров по искусственному интеллекту и социальному развитию”второго выпуска.

На форуме Чжан Чжэнъю, главный научный сотрудник Tencent и директор Tencent Robotics «Иерархический» включает три уровня контроля над онтологией, средой и задачами. Преимущество иерархического воплощенного интеллекта заключается в том, что знания на каждом уровне могут постоянно обновляться и накапливаться, а возможности между уровнями могут быть разделены.Робототехника Tencent

Что касается того, как интеллектуальные роботы войдут в жизнь людей, Чжан Чжэнъю сказал: «В долгосрочной перспективе роботы обязательно войдут в тысячи домохозяйств. В настоящее время роботы могут впервые привести к огромным изменениям в области реабилитации, ухода за пожилыми людьми и персонализированного образования». .»

Ниже приводится полный текст выступления Чжан Чжэнъю:

Уважаемые руководители, уважаемые гости, уважаемые преподаватели и уважаемые студенты! Добрый день всем. Сегодня я хочу поделиться с вами некоторыми проблемами и достижениями в области воплощенного интеллекта.

Что касается того, что такое «воплощенный интеллект», то в прошлом году этот термин внезапно стал популярным, и все подумали, что это круто. Фактически, воплощенный разум соотносится с невоплощенным разумом. ChatGPT обладает разумом без тела. Для меня воплощенный агент — это разумный робот. Что касается того, должен ли этот интеллект иметь тело или нет, мы, создатели роботов, определенно хотим иметь тело. Только имея тело, интеллект может развиваться лучше.

В начале 2018 года председатель и генеральный директор Tencent Ма Хуатенг решил создать Tencent Robotics. Ходячие мертвецы, душа без тела — это призрак небытия. Мы не создаем ходячих мертвецов, мы не хотим, чтобы призраки бродили, мы. создавайте роботов, которые гармонично помогают людям!» То есть мы хотим создать интеллектуальных роботов для развития человеческого интеллекта и раскрытия физического потенциала человека, заботясь о человеческих эмоциях, способствуя взаимодействию между людьми и роботами и приветствуя эпоху сосуществования. -созидание и взаимовыгодное взаимодействие между людьми и роботами — это наша первоначальная цель создания Tencent Robotics X.

На самом деле остается спорным вопрос о том, требует ли интеллект воплощения. Этот спор в основном вращается вокруг когнитивной науки. В этой области все считают, что многие когнитивные характеристики требуют общих характеристик организма для формирования интеллекта организма. Однако некоторые люди считают, что для интеллекта не требуется тело, потому что в основном мы сталкиваемся с обработкой информации, решением проблем. а также принятие решений, управление и другие задачи, которые могут быть решены с помощью программного обеспечения и алгоритмов. Термин и концепция воплощенного интеллекта существуют уже давно. Для многих людей тело имеет решающее значение для интеллекта, поскольку интеллект возникает в результате взаимодействия между организмом и его средой, а взаимодействие между ними способствует росту и развитию. развитие интеллекта.

Оглядываясь назад, Тьюринг в 1950 году написал статью, в которой обсуждал, как достичь машинного интеллекта. Видно, что некоторые люди думают, что некоторые очень абстрактные действия, такие как игра в шахматы, могут быть использованы для достижения (интеллекта), а некоторые люди думают, что машина должна иметь какой-то Орган (орган), например динамик (микрофон). чтобы помочь Мы быстрее реализуем машинный интеллект. Однако сам Тьюринг говорил, что не знает, какая категория лучше. Когда Open AI впервые купила сотни роботов-манипуляторов, они напрямую надеялись использовать роботов для реализации AGI. После более чем года упорной работы они обнаружили, что этот путь временно неработоспособен, поэтому сдались и сосредоточились на текстовом A big. модель, и, наконец, был успешно разработан ChatGPT.

Роботы имеют долгую историю. Первоначально это была автоматизация механических рук на производственных линиях, что означает выполнение серии действий в известной среде и требует точного контроля. Я называю это нулевым интеллектом, потому что этот процесс не требует никакого интеллекта. Хотя этот тип робота обладает очень сильными эксплуатационными возможностями, эти рабочие возможности заранее запрограммированы для фиксированной среды и не имеют нулевого интеллекта.

Вступая в эпоху больших моделей, некоторые люди думают, что большие модели очень мощны и могут быть немедленно реализованы на роботах. На самом деле это не так. Какова ситуация сейчас? Если использовать аналогию, это эквивалентно помещению 20-летнего мозга в 3-летнее тело. Хотя у робота есть определенные возможности движения, его эксплуатационные возможности очень слабы. Настоящий воплощенный интеллект должен быть способен самостоятельно учиться и решать проблемы, а также автоматически приспосабливаться и планировать, когда окружающая среда меняется и становится неопределенной. Это очень важный процесс, который, по нашему мнению, может привести к AGI или созданию общего интеллектуального робота.

Конкретно,Воплощенный интеллект – это способность агента с физическим носителем (интеллектуальным роботом) накапливать знания и навыки посредством восприятия, управления и автономного обучения в серии взаимодействий, формируя интеллект и влияя на физический мир. Это отличается от ChatGPT. Воплощенный интеллект приобретает знания с помощью методов восприятия, подобных человеческим (зрение, слух, язык, осязание), и абстрагирует их в семантику выражения, чтобы понимать мир, предпринимать действия и взаимодействовать с миром. Это предполагает интеграцию нескольких дисциплин, включая автоматизацию машиностроения, оптимизацию управления встроенными системами, когнитивную науку, нейронауку и т. д. Это возможность, которая может появиться после того, как все области разовьются в определенной степени.

Воплощенный интеллект сталкивается со многими проблемами.

Во-первых, это сложные возможности восприятия, включая зрение и слух. Теперь большая модель, включающая GPT-4o, включает только зрение и слух, но не осязание. Для воплощенного интеллекта очень важно прикосновение. Роботы должны обладать сложными способностями восприятия, чтобы воспринимать и понимать непредсказуемую и неструктурированную среду и объекты вокруг них.

Второе — это мощные возможности выполнения, включая перемещение, хватание и манипулирование, позволяющие взаимодействовать с окружающей средой и объектами.

Третий — способность к обучению, способность учиться и адаптироваться на основе опыта и данных, чтобы лучше понимать изменения в окружающей среде и реагировать на них.

Четвертое — адаптивная способность, способность самостоятельно корректировать свое поведение и стратегии, чтобы лучше справляться с различными условиями и задачами.

Пятое очень важно. Дело не в том, что суперпозиция этих способностей приведет к достижению воплощенного интеллекта, а в органической и эффективной совместной интеграции этих способностей для действительного достижения желаемого воплощенного интеллекта, о котором мы говорим.

В-шестых, в этом процессе необходимых нам данных очень мало. Первоначально Open AI надеялся достичь AGI напрямую с помощью роботов, но позже отказался от этого из-за нехватки данных. Однако данные все еще необходимо решить, а также из-за нехватки данных. данные — это огромные проблемы. Конфиденциальность пользователей также должна быть защищена при сборе данных в реальных сценариях.

В-седьмых, поскольку воплощенному разуму необходимо жить в среде обитания человека, он должен обеспечивать безопасность себя и своего окружения.

Восьмой — вопрос социальной этики. Когда роботы взаимодействуют с людьми, они должны следовать моральным и правовым нормам и защищать интересы и достоинство человека.

Для достижения воплощенного интеллекта необходимо проделать большую работу. В настоящее время все думают, что большие модели могут решить проблему интеллектуальных роботов. Я нарисовал здесь картину, которая эквивалентна помещению большой модели в голову робота. Кажется, это решено. Но это только часть истории. Мы ожидаем, что интеллект и онтология будут органично интегрированы, так что настоящий интеллект сможет возникнуть в результате взаимодействия между роботами и окружающей средой.

Чтобы достичь этого видения,Я думаю, что парадигма управления должна измениться. Если вы посмотрите на учебники по роботам, традиционная парадигма управления представляет собой замкнутый процесс восприятия, за которым следует планирование, за планированием следует действие, и за действием следует восприятие. Эта парадигма управления не может достичь интеллекта. В 2018 году я предложил «парадигму SLAP», где S — восприятие, L — обучение, A — действие, а P — планирование. Восприятие и действие должны быть тесно связаны, чтобы реагировать на изменение окружающей среды в режиме реального времени. Над ними планы решения более сложных задач. Обучение пронизывает каждый модуль, позволяя учиться на основе опыта и данных, а также самостоятельно корректировать свое поведение и стратегии. Эта парадигма SLAP очень похожа на человеческий интеллект.

Лауреат Нобелевской премии Дэниел Канеман написал книгу «Думай быстро и медленно», в которой утверждается, что человеческий мозг состоит из двух систем. Первая система, Система 1, более интуитивна и быстро решает проблемы. Вторая система – это более глубокое мышление, рациональное мышление, называемое Системой 2. Фактически, люди проводят 95% своего времени в Системе 1, а Систему 2 нужно запланировать только для немногих и сложных задач. Так почему же человеческий мозг настолько эффективен, что для решения мыслительных задач требуется всего несколько десятков ватт? GPU потребляет энергию. Это связано с тем, что люди могут решить 95% проблем в Системе 1, а в Систему 2 передаются только сложные задачи.

Предложенная мной парадигма SLAP на нижнем уровне тесно связана между восприятием и действием по решению реактивной автономии, что соответствует Системе 1. Сознательная автономия заключается в достижении Системы 2 рационального мышления и мышления.

В соответствии с парадигмой SLAP в сочетании со знаниями о том, как человеческий мозг и мозжечок управляют конечностями, мы разработали иерархическую воплощенную интеллектуальную систему, разделенную на три уровня: нижний уровень — это проприоцепция, то есть восприятие роботом самого себя, которому соответствует место. сигнал двигателя, который управляет движением двигателя.

Второй уровень — это экстероцепция, то есть восприятие окружающей среды. Благодаря интеллекту восприятия окружающей среды он знает, какие способности необходимо задействовать для выполнения задачи.

Верхний уровень связан с задачей и называется планировщиком стратегического уровня. Только путем планирования конкретной задачи, окружающей среды и возможностей тела робота задача может быть решена хорошо.

Ниже я приведу вам несколько конкретных демонстраций. Управление движением на самом низком уровне (уровень проприоцепции) также изучается на основе данных. Здесь настоящей собаке разрешено непрерывно бегать по беговой дорожке, а сбор данных выполняется одновременно. Благодаря имитационному обучению и обучению с подкреплением робот может обучаться движениям, похожим на движения настоящих собак. Мы используем мир интегрированного виртуального и реального мира, цифрового двойника, единого виртуального и реального мира. Здесь мы видим только метод движения собаки наружу, но то, как движется робот, сколько силы требуется, а также силу сигнала суставов и моторов, которые нужно отправить, — все это необходимо получить с помощью обучения с подкреплением.

Еще одно видео, в котором нет особого контроля со стороны человека, позволяет собаке-роботу освоить метод движения настоящей собаки. После того, как она научится, она бегает самостоятельно, что кажется немного реалистичным.

Это самая базовая способность (двигательная способность). Следующий шаг — воспринимать окружающую среду и выполнять эти задачи в окружающей среде. Я только что говорил о передвижении по ровной местности. Второй шаг — добавить информацию об окружающей среде. Как естественно подниматься по ступенькам, как преодолевать препятствия и как перепрыгивать препятствия.

В это время собака-робот научилась прыгать и преодолевать препятствия в мире симуляции. Эта собака выведена нами самостоятельно, ее зовут Макс. Отличие от обычных собак в том, что у нее на коленях есть колеса. Она может быстрее ходить по ровной поверхности с помощью колес и может использовать четыре ноги на неровных местах, поэтому она другая. модальные сочетания.

Когда у нас есть способность адаптироваться к окружающей среде, мы можем позволить ей делать разные вещи. Например, мы просим одну из собак догнать другую, и, догнав, она победит. Еще больше усложняет то, что если появляется флаг, собака, которая изначально убегала, может стать преследователем, когда коснется флага. Вы можете посмотреть, это также изучается автоматически посредством обучения с подкреплением. Собака гонится за другой собакой. Конечно, мы ограничиваем скорость, чтобы собака бежала медленнее. Теперь преследует бегущая собака. После того, как преследующая собака сменилась, она поворачивает за угол и обманывает другую собаку.

Преимущество такого иерархического воплощенного интеллекта заключается в том, что знания на каждом уровне могут постоянно обновляться и накапливаться, а возможности между уровнями могут быть разделены. Обновление других уровней не повлияет на другие существующие уровни знаний.

Например, когда одна собака только что преследовала другую собаку, я научился тренироваться только на ровной местности во время интенсивного обучения, вообще не добавляя препятствий. Теперь после добавления препятствий нет необходимости переучиваться, она автоматически это выучила. знаю, как преодолевать препятствия, когда нахожусь на первом этаже. Вы можете посмотреть видео. Это то, что мы вообще не переобучали. Встретившись с палкой, он перепрыгнет через нее. является автоматическим (обучение).

Эта работа была завершена в начале прошлого года и в ближайшем будущем будет опубликована в ведущем международном академическом журнале Nature Machine Intelligence. Она также будет использоваться в качестве прикрытия, указывая на то, что все считают, что такая работа по-прежнему лидирует. .

Давайте поговорим о том, что мы сделали за прошедший годПрогресс в объединении больших моделей то есть интеграция больших языковых моделей и моделей мультимодального восприятия в нашу иерархическую воплощенную интеллектуальную систему. Например, если человек поручает роботу задачу по приготовлению омлета, большая модель планирования, основанная на LLM, декомпозирует задачу по приготовлению омлета, то есть сначала достаньте яйца из холодильника, разбейте яйца в кастрюлю, а затем поджарьте яйца. Из мультимодального восприятия мы сначала должны знать, что яйцо помещено в холодильник, и необходимо использовать следующие навыки среднего уровня. Робот должен сначала подойти к холодильнику, чтобы достать яйцо, открыть дверцу холодильника и т. д. возьмите яйцо и верните его на плиту. Внизу находится управление нижнего уровня, контролирующее, как робот подходит к холодильнику, как открывать дверцу холодильника и т. д. Как только он научится, это будет делаться автоматически. Наконец, вернитесь к планировщику стратегического уровня верхнего уровня. Обратите внимание, что в этом замкнутом цикле действия робота действуют в интегрированном виртуально-реальном мире, в котором цифровой мир и физический мир тесно интегрированы. В пространстве цифрового моделирования есть роботы и очень реалистичные сцены, так что Навыкам робота можно научиться в виртуальном пространстве, непосредственно применимом к реальному пространству.

Посмотрите видео здесь. Мы помещаем умного робота в среду, которую он никогда раньше не видел. Первый шаг — робот развернется и исследует мир. Например, в видео задача робота отправить мусор в мусорное ведро, поэтому он должен сначала найти мусорное ведро, а затем, найдя мусорное ведро, положить его туда. Также переместите мусорный бак в другое место. Предположим, что он не знает окружающей среды, находит мусорный бак путем исследования, а затем отправляет мусор туда.

В следующей сцене мышка передается человеку в синей одежде и джинсах. Здесь много других людей. Он должен найти человека в синей одежде и джинсах, и он автоматически исследует и найдет их. Многие из людей, которых я встретил в этот период, были либо в синей одежде, либо в джинсах, пока робот не увидел синюю одежду и джинсы, он послал мышь.

В процессе исследования робот может запоминать окружающую среду, и ему не нужно каждый раз исследовать заново. В следующей сцене лекарство сначала передается коллеге, а затем робот выбрасывает холодную сумку с лекарствами. Он уже знает, где находится мусорное ведро во время исследования и моделирования, и направляется прямо в мусорное ведро. Вы также можете использовать взаимосвязь между пространством, например, где находится табурет и где находится доска. Если вы хотите отправить объект человеку между доской и высоким табуретом, если посередине есть препятствия, это может быть. автоматически избегается.

В прошлом году мы также сделали робота-бармена. В то время у него использовалась трехпалая рука собственной разработки, а шасси было фиксированным. Вы можете посмотреть.

Этот модный бармен тоже сначала собрал реального человека, чтобы сделать бармена, изучил его траекторию, а затем реализовал ее на роботе. На пальцах также есть тактильные датчики. Теперь, чтобы вставить палочку в отверстие, одних лишь зрительных способностей недостаточно и недостаточно точности, поэтому нужно полагаться на тактильное восприятие, чтобы увидеть, вставлена ли палочка. Если она не вставлена. , его нужно сдвинуть в сторону и, наконец, вставить палочку.

Это была прошлогодняя работа. Работа этого года включает в себя пятипалую руку собственной разработки и роботизированную руку, которую мы также разработали сами. В прошлом году у нас не было роботизированной руки собственной разработки. Теперь у нас также есть мобильное шасси в сочетании с роботом-манипулятором. большая сенсорная модель и большая модель планирования, которая может выполнять операции. Робот может свободно разговаривать и выполнять задачи. Посмотрите видео.

В правом нижнем углу видно то, что видно из мобильного интеллектуального робота. На столе находится бутылка виски, и его просят налить стакан виски. Это видно из поля зрения робота, и он может распознавать различные предметы. виды вина в режиме реального времени.

Поделитесь этим здесь и сейчас. Спасибо вам всем.

Новости

Чжан Чжэнъю, главный научный сотрудник Tencent: Просто запихивание больших моделей в роботов не может создать настоящий воплощенный интеллект

Введение

моя контактная информация