Новости

Первый в мире!Обследовано около 400 документов, лаборатория Пэнчэн.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Воплощенный интеллект — единственный способ достичь общего искусственного интеллекта. Его суть — выполнение сложных задач посредством взаимодействия интеллектуальных агентов с цифровым пространством и физическим миром. За последние годы мультимодальные большие модели и технологии робототехники добились большого прогресса, а воплощенный интеллект стал новым фокусом глобальных технологий и промышленной конкуренции. Однако в настоящее время отсутствует обзор, который мог бы всесторонне проанализировать текущее состояние развития воплощенного интеллекта. поэтому,Институт многоагентного и воплощенного интеллекта лаборатории Пэнчэн сотрудничает с исследователями из лаборатории HCP Университета Сунь Ятсена., всесторонний анализ последних разработок в области воплощенного интеллекта,Запущен первый в мире обзор воплощенного интеллекта в эпоху мультимодальных больших моделей.

В этом обзоре было рассмотрено около 400 документов и проведен всесторонний анализ исследований воплощенного интеллекта во многих измерениях.В этом обзоре впервые представлены некоторые репрезентативныеВоплощенные роботы и воплощенные платформы моделирования , обеспечивает углубленный анализ фокуса и ограничений исследования. Затем тщательно анализируются четыре основных содержания исследования: 1)воплощенное восприятие,2)воплощенное взаимодействие,3)воплощенный интеллекти 4)Миграция из виртуальной реальности в реальность Содержание этих исследований охватывает самые современные методы, базовые парадигмы и комплексные наборы данных. Кроме того, в обзоре исследуются проблемы, с которыми сталкиваются воплощенные агенты в цифровых пространствах и физических мирах, подчеркивая их важность для активного взаимодействия в динамичных цифровых и физических средах. Наконец, в обзоре суммируются проблемы и ограничения воплощенного интеллекта и обсуждаются его потенциальные будущие направления. Целью этого обзора является предоставление базового справочного материала для исследований в области воплощенного интеллекта и продвижения соответствующих технологических инноваций. Кроме того, в этом обзоре также опубликован список аналитических документов на Github. Сопутствующие документы и репозитории кода будут постоянно обновляться, поэтому обратите внимание.



Адрес статьи: https://arxiv.org/pdf/2407.06886.

Список документов Embodied Intelligence: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. Прошлые и настоящие жизни воплощенного разума

Концепция воплощенного интеллекта была впервые предложена Аланом Тьюрингом в «Воплощенном тесте Тьюринга», созданном в 1950 году для определения того, может ли агент проявлять интеллект (интеллект), который не ограничивается решением абстрактных задач в виртуальной среде (цифровом пространстве). основе воплощенного интеллекта, существующего в цифровом пространстве и физическом мире и воплощенного в виде различных сущностей, включая не только роботов, но и другие устройства), и может справиться со сложностью и невозможностью предсказательного мира. Поэтому развитие воплощенного интеллекта рассматривается как основной путь достижения общего искусственного интеллекта. Особенно важно углубиться в сложность воплощенного интеллекта, оценить текущий статус его развития и рассмотреть его будущую траекторию.Сегодня воплощенный интеллект охватывает множество ключевых технологий, таких как компьютерное зрение, обработка естественного языка и робототехника, наиболее представительной из которых являетсяВоплощенное восприятие, воплощенное взаимодействие, воплощенный интеллект и переход из виртуальной реальности в реальность. . В воплощенных задачах воплощенные агенты должны полностью понимать намерения человека в языковых инструкциях, активно исследовать окружающую среду, всесторонне воспринимать мультимодальные элементы виртуальной и физической среды и выполнять соответствующие операции для выполнения сложных задач. Быстрый прогресс мультимодальных моделей демонстрирует большее разнообразие, гибкость и возможности обобщения, чем традиционные методы глубокого обучения с подкреплением в сложных средах. Визуальные представления, предварительно обученные современными визуальными кодировщиками, обеспечивают точную оценку категорий, поз и геометрии объектов, позволяя воплощенным моделям всесторонне воспринимать сложную и динамичную среду. Мощные большие языковые модели позволяют роботам лучше понимать инструкции на человеческом языке и предоставляют реальный способ согласовать визуальные и лингвистические представления для воплощенных роботов. Модели мира демонстрируют значительные возможности моделирования и хорошее понимание физических законов, что позволяет воплощенным моделям полностью понимать физику и реальную среду. Эти достижения позволяют воплощенному интеллекту всесторонне воспринимать сложную окружающую среду, естественным образом взаимодействовать с людьми и надежно выполнять задачи. На рисунке ниже показана типичная архитектура воплощенного агента.



Встроенная интеллектуальная структура

В этом обзоре мы предоставляем всесторонний обзор текущих достижений в области воплощенного интеллекта, в том числе: (1)воплощенный робот——Аппаратные решения для воплощения интеллекта в физическом мире (2);Встроенная платформа моделирования——Цифровое пространство для эффективного и безопасного обучения воплощенных агентов (3);воплощенное восприятие—— Активно воспринимать трехмерное пространство и интегрировать несколько сенсорных модальностей (4)воплощенное взаимодействие—— Взаимодействовать с окружающей средой эффективно и разумно и даже изменять среду для выполнения поставленных задач (5)воплощенный интеллект—— Используйте мультимодальные большие модели, чтобы понять абстрактные инструкции и разбить их на ряд подзадач, а затем выполнить их шаг за шагом (6).Миграция из виртуальной реальности в реальность ——Перенос и обобщение навыков, полученных в цифровом пространстве, в физический мир. На рисунке ниже показана системная структура воплощенного интеллекта от цифрового пространства до физического мира. Целью этого обзора является предоставление всесторонних базовых знаний, тенденций исследований и технических знаний о воплощенном интеллекте.



Общая структура обзора

2. Воплощенные роботы

Воплощенный интеллект активно взаимодействует с физической средой и охватывает широкий спектр воплощенных форм, включая роботов, умную бытовую технику, умные очки и автономные транспортные средства. Среди них большое внимание привлекли роботы как одна из наиболее выдающихся форм воплощения. В зависимости от различных сценариев применения роботы проектируются в различных формах, чтобы в полной мере использовать возможности своего оборудования для выполнения конкретных задач. Как показано на рисунке ниже, воплощенные роботы в целом можно разделить на: (1) роботы с фиксированной базой, такие как роботизированные манипуляторы, которые часто используются в синтезе автоматизации лабораторий, образовании, промышленности и других областях; (2) колесные роботы, которые; обладают высокой эффективностью Известны своей мобильностью, широко используются в логистике, складировании и проверке безопасности; (3) Гусеничные роботы, обладающие сильными внедорожными возможностями и мобильностью, показали потенциал в сельском хозяйстве, строительстве и реагировании на места стихийных бедствий; (4) Четвероногие Робот, известный своей стабильностью и адаптируемостью, идеально подходит для обнаружения на сложной местности, спасательных операций и военного применения. (5) Роботы-гуманоиды, ключом к которым являются ловкие руки, широко используются в сфере услуг, здравоохранении и совместной работе. (6) Бионические роботы выполняют задачи в сложных и динамичных средах, имитируя эффективные движения и функции природных организмов.



Различные формы воплощенных роботов

3. Встроенная интеллектуальная платформа моделирования.

Платформы моделирования воплощенного интеллекта имеют решающее значение для воплощенного интеллекта, поскольку они предоставляют экономически эффективные средства экспериментирования, возможность обеспечить безопасность путем моделирования потенциально опасных сценариев, масштабируемость для тестирования в различных средах и возможность быстрого прототипирования. Возможности проектирования, которые облегчают более широкие задачи. исследовательское сообщество, обеспечивает контролируемую среду для точных исследований, генерирует данные для обучения и оценки, а также предоставляет стандартизированный эталон для сравнения алгоритмов. Чтобы агент мог взаимодействовать с окружающей средой, необходимо создать реалистичную моделируемую среду. Для этого необходимо учитывать физические характеристики окружающей среды, свойства объектов и их взаимодействия. Как показано на рисунке ниже, в этом обзоре будут проанализированы две платформы моделирования: общая платформа, основанная на базовом моделировании, и платформа моделирования, основанная на реальных сценариях.



Универсальная платформа моделирования



Платформа моделирования, основанная на реальных сценариях

4. Воплощенное восприятие

«Полярная звезда» будущего зрительного восприятия — это зрительное мышление, ориентированное на воплощение, и социальный интеллект. Как показано на рисунке ниже, вместо того, чтобы просто распознавать объекты на изображениях, агенты с воплощенным восприятием должны перемещаться в физическом мире и взаимодействовать с окружающей средой, что требует более глубокого понимания трехмерного пространства и динамической среды. Воплощенное восприятие требует возможностей визуального восприятия и рассуждения, понимания трехмерных отношений в сцене, а также прогнозирования и выполнения сложных задач на основе визуальной информации. В этом обзоре представлены активное зрительное восприятие, трехмерная визуальная локализация, визуальная языковая навигация, невизуальное восприятие (тактильные датчики) и т. д.



Система активного зрительного восприятия

5. Воплощенное взаимодействие

Воплощенное взаимодействие относится к сценариям, в которых агент взаимодействует с людьми и окружающей средой в физическом или моделируемом пространстве. Типичные задачи воплощенного взаимодействия включают воплощенный ответ на вопрос и воплощенный захват. Как показано на рисунке ниже, в воплощенной задаче вопросов и ответов агенту необходимо исследовать окружающую среду от первого лица, чтобы собрать информацию, необходимую для ответа на вопрос. Агент с возможностями автономного исследования и принятия решений должен не только учитывать, какие действия предпринять для исследования окружающей среды, но также решать, когда прекратить исследование, чтобы ответить на вопросы, как показано на рисунке ниже.



Встроенная структура вопросов и ответов

Помимо взаимодействия с людьми в форме вопросов и ответов, воплощенное взаимодействие также включает в себя выполнение операций, основанных на человеческих инструкциях, таких как захват и размещение объектов, тем самым завершая взаимодействие между агентами, людьми и объектами. Как показано, воплощенное схватывание требует всестороннего семантического понимания, осознания сцены, принятия решений и надежного планирования управления. Воплощенный метод захвата сочетает в себе традиционный кинематический захват робота с крупномасштабными моделями (такими как большие языковые модели и базовые модели визуального языка), позволяя агентам выполнять задачи захвата в условиях мультисенсорного восприятия, включая визуальное активное восприятие, понимание языка и рассуждение.



Платформа интерактивного сканирования с языковым управлением

6. Воплощенный интеллект

Агент определяется как автономная сущность, способная воспринимать окружающую среду и предпринимать действия для достижения конкретных целей. Недавние достижения в области мультимодальных больших моделей еще больше расширили возможности применения агентов в реальных сценариях. Когда эти мультимодальные крупные агенты, основанные на моделях, воплощаются в физические объекты, они способны эффективно переносить свои возможности из виртуального пространства в физический мир, тем самым становясь воплощенными агентами. Чтобы воплощенные агенты могли действовать в богатом информацией и сложном реальном мире, они были разработаны с мощными мультимодальными возможностями восприятия, взаимодействия и планирования. Как показано на рисунке ниже, для выполнения задачи воплощенный агент обычно включает следующие процессы:

(1) Разложить абстрактные и сложные задачи на конкретные подзадачи, то есть реализовать планирование задач на высоком уровне.

(2) Постепенно реализовывать эти подзадачи, эффективно используя воплощенные модели восприятия и воплощенного взаимодействия или используя стратегические функции базовой модели, которая называется воплощенным планированием действий низкого уровня.

Стоит отметить, что планирование миссии предполагает размышление, прежде чем действовать, и поэтому часто рассматривается в цифровом пространстве. Напротив, планирование действий должно учитывать эффективное взаимодействие с окружающей средой и передавать эту информацию обратно планировщику миссии для корректировки планирования миссии. Поэтому для воплощенных агентов крайне важно согласовать и обобщить свои возможности из цифрового пространства в физический мир.



Встроенная агентская структура на основе мультимодальных больших моделей.

7. Миграция из виртуала в реальность

Адаптация Sim-to-Real в воплощенном интеллекте относится к процессу переноса способностей или поведения, изученных в моделируемой среде (цифровом пространстве), в реальный мир (физический мир). Этот процесс включает проверку и повышение эффективности алгоритмов, моделей и стратегий управления, разработанных в ходе моделирования, чтобы гарантировать их стабильную и надежную работу в физической среде. Для достижения адаптации от симуляции к реальности тремя ключевыми элементами являются воплощенные модели мира, методы сбора и обучения данных, а также встроенные алгоритмы управления. На рисунке ниже показаны пять различных парадигм преобразования Sim-to-Real.



Пять вариантов миграции из виртуальной реальности в реальность

8. Проблемы и направления дальнейшего развития

Хотя воплощенный интеллект быстро развивается, он сталкивается с рядом проблем и открывает захватывающие направления на будущее:

(1)Высококачественный набор данных робота . Получение достаточного количества реальных роботизированных данных остается серьезной проблемой. Сбор этих данных требует много времени и ресурсов. Опора исключительно на смоделированные данные усугубит проблему разрыва между симуляцией и реальностью. Создание разнообразных наборов данных по робототехнике в реальном мире требует тесного и широкого сотрудничества между учреждениями. Более того, разработка более реалистичных и эффективных симуляторов имеет решающее значение для улучшения качества данных моделирования. Чтобы построить универсальную воплощенную модель, которая может реализовать межсценарные и межзадачные приложения в области робототехники, необходимо создать крупномасштабные наборы данных и использовать высококачественные данные смоделированной среды для поддержки реальных данных.

(2)Эффективное использование демонстрационных данных с участием людей . Эффективное использование демонстрационных данных человека предполагает использование продемонстрированных человеком действий и поведения для обучения и совершенствования роботизированных систем. Этот процесс включает в себя сбор, обработку и обучение на основе крупномасштабных наборов высококачественных данных, при этом люди выполняют задачи, которые должен изучить робот. Поэтому важно эффективно использовать большие объемы неструктурированных, мультиметочных и мультимодальных демонстрационных данных с участием людей в сочетании с данными меток действий для обучения воплощенных моделей, которые могут изучить множество задач за относительно короткое время. Эффективно используя демонстрационные данные с участием людей, роботизированные системы могут достичь более высокого уровня производительности и адаптируемости, что позволяет им лучше выполнять сложные задачи в динамичных средах.

(3)Комплексное познание окружающей среды . Познание сложной среды относится к способности воплощенных агентов воспринимать, понимать и ориентироваться в сложных средах реального мира в физических или виртуальных средах. Для неструктурированных открытых сред текущая работа обычно опирается на механизм декомпозиции задач предварительно обученного LLM, используя обширные знания здравого смысла для простого планирования задач, но не хватает конкретного понимания сцены. Улучшение передачи и обобщения знаний в сложных условиях имеет решающее значение. По-настоящему универсальная роботизированная система должна быть способна понимать и выполнять инструкции на естественном языке в самых разных и невидимых сценариях. Это требует разработки адаптируемых и масштабируемых архитектур агентов.

(4)Выполнение задач на большие расстояния . Выполнение одной команды обычно предполагает выполнение роботом задачи дальнего действия, например такой команды, как «Убрать кухню», которая включает в себя такие действия, как перестановка предметов, подметание пола, протирание столов и т. д. Для успешного выполнения этих задач робот должен уметь планировать и выполнять серию действий низкого уровня в течение длительного периода времени. Хотя нынешние планировщики задач высокого уровня показали первоначальный успех, они часто терпят неудачу в различных сценариях из-за отсутствия адаптации к воплощенным задачам. Решение этой проблемы требует развития эффективных планировщиков с сильными способностями восприятия и обширными знаниями здравого смысла.

(5)Причинное открытие . Существующие воплощенные агенты, управляемые данными, принимают решения на основе корреляций внутри данных. Однако этот метод моделирования не может позволить модели по-настоящему понять причинно-следственную связь между знаниями, поведением и окружающей средой, что приводит к предвзятым стратегиям. Это затрудняет их интерпретируемую, робастную и надежную работу в реальных условиях. Следовательно, воплощенный интеллект должен опираться на мировые знания и обладать возможностями автономного причинно-следственного мышления.

(6)Непрерывное обучение . В приложениях робототехники непрерывное обучение имеет решающее значение для внедрения стратегий обучения роботов в различных средах, но эта область остается недостаточно изученной. Хотя некоторые недавние исследования изучали подтемы непрерывного обучения, такие как постепенное обучение, адаптация к быстрым движениям и обучение взаимодействию человека и компьютера, эти решения обычно разрабатываются для одной задачи или платформы и еще не учитывают базовую модель. Открытые исследовательские вопросы и возможные подходы включают в себя: 1) смешивание различных пропорций предыдущих распределений данных при точной настройке последних данных для смягчения катастрофического забывания, 2) разработку эффективных прототипов из предыдущих распределений или курсов для обучения новым задачам, 3) улучшение стабильность обучения и эффективность выборки алгоритмов онлайн-обучения, 4) определить принципиальные методы плавной интеграции моделей большой емкости в системы управления, возможно, посредством иерархического обучения или медленного управления, для достижения рассуждений в реальном времени.

(7)Единый эталон оценки . Хотя существует множество критериев для оценки стратегий контроля низкого уровня, они часто существенно различаются по своим навыкам оценки. Более того, объекты и сцены, включенные в эти тесты, часто ограничены возможностями симулятора. Для полной оценки воплощенных моделей необходимы тесты, охватывающие несколько навыков с использованием реалистичных симуляторов. Что касается планирования задач высокого уровня, многие тесты оценивают способности к планированию с помощью задач вопросов и ответов. Однако более идеальным подходом было бы всесторонне оценить исполнительские возможности планировщиков миссий высокого уровня и стратегии контроля на низком уровне, особенно при выполнении долгосрочных миссий, и измерить показатели успеха, а не полагаться исключительно на оценку только планировщиков. Такой комплексный подход позволяет более комплексно оценить возможности встроенных интеллектуальных систем.

Короче говоря, воплощенный интеллект позволяет интеллектуальным агентам воспринимать, распознавать и взаимодействовать с различными объектами в цифровом пространстве и физическом мире, демонстрируя свою важность в реализации общего искусственного интеллекта. В этом обзоре представлен всесторонний обзор воплощенных роботов, воплощенных платформ моделирования, воплощенного восприятия, воплощенного взаимодействия, воплощенных агентов, управления роботами из виртуальной реальности и будущих направлений исследований, которые имеют значение для содействия развитию воплощенного интеллекта.

О лаборатории Пэнчэнского института многоагентного и воплощенного интеллекта

Институт многоагентного и воплощенного интеллекта, входящий в лабораторию Пэнчэн, объединяет десятки ведущих молодых ученых в области интеллектуальной науки и робототехники. Опираясь на независимую и контролируемую инфраструктуру искусственного интеллекта, такую ​​​​как Pengcheng Cloud Brain и China Computing Network, он является стремится создавать универсальные базовые платформы, такие как платформы многоагентной совместной работы и моделирования моделирования, а также облачные совместные воплощенные мультимодальные большие модели, удовлетворяющие основные потребности приложений, такие как промышленный Интернет, социальное управление и услуги.