Новости

«Воплощенный умный город» уже здесь! Робот ходит в супермаркет, покупает продукты и бегает по улицам из Шанхайской лаборатории искусственного интеллекта.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Минмин родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Ультрареалистичный город роботов уже здесь!

Здесь роботы могут делать покупки в супермаркетах, как люди:



Покупка продуктов и приготовление пищи дома:



Берете кофе в офисе (рядом с вами коллеги-люди):



Не только роботы-гуманоиды, но также собаки-роботы и роботы-манипуляторы могут свободно перемещаться по этому «городу».



Это первый смоделированный интерактивный 3D-мир, недавно предложенный Шанхайской лабораторией искусственного интеллекта:ГРУтопия(Китайское название: Таоюань).

Здесь до100кИнтерактивные, тщательно аннотированные сцены свободно собираются в реалистичную городскую среду.

В том числе в помещении и на открытом воздухе, в ресторанах, супермаркетах, офисах, домах и т. д.89Различные категории сцен.



Большие NPC, управляемые моделями, вы можете разговаривать и взаимодействовать с роботами в этом мире.



Таким образом, различные роботы могут выполнять различные поведенческие симуляции в виртуальных городах, что является в последнее время популярным маршрутом Sim2Real, который может значительно снизить сложность и стоимость сбора данных из реального мира воплощенного интеллекта.

Проект планирует иметь открытый исходный код, а демо-руководство по установке в настоящее время доступно на GitHub.

После успешной установки вы можете управлять роботом-гуманоидом, который будет перемещаться по комнате в демо-версии, а также поддерживать настройку различных углов обзора.



Виртуальный рай для роботов

Есть три основные задачи:

  • GRSцены
  • GRResidents
  • GRBench

Среди них GRScenes — это набор данных, содержащий крупномасштабные данные сцен.

Это значительно расширяет диапазон сред, в которых роботы могут передвигаться и работать. Предыдущие работы больше фокусировались на домашних сценах.

В исследовании говорится, что их цель — расширить возможности роботов общего назначения для различных сценариев обслуживания, таких как супермаркеты, больницы и т. д. Он также охватывает внутренние и внешние помещения, включая парки развлечений, музеи, выставочные залы и т. д.

Для каждой сцены они выполнили детальное и качественное моделирование, а 100 сцен содержали 2956 интерактивных объектов и 22001 неинтерактивный объект в 96 категориях.



GRResidents — это система NPC.

Он основан на больших моделях и глубоко понимает информацию о сцене в моделируемой среде. Таким образом, NPC могут определять пространственные отношения между объектами и участвовать в динамических разговорах и назначении задач.

С помощью этой системы GRUtopia может генерировать большое количество заданий сцены для выполнения роботами.



Благодаря перекрестной проверке с людьми система NPC имеет хорошую точность описания и определения местоположения объектов.

В эксперименте по описанию пусть система NPC случайным образом выберет объект для описания. Если люди смогут найти соответствующий объект, он будет считаться успешным.

В эксперименте по позиционированию все наоборот. Если система NPC сможет найти соответствующий объект на основе описания, данного людьми, он будет успешным.



Показатели успешности вызова разных больших моделей различны. В целом GPT-4o работает лучше всего.



GRBench — это тест, который оценивает производительность встроенного интеллекта.

Он содержит 3 теста, включая объектную локо-навигацию, социальную локо-навигацию и локо-манипуляцию. Сложность этих трех тестов постепенно возрастает.



Для анализа производительности NPC и API управления в исследовании предлагается базовый уровень на основе LLM и VLM для проверки рациональности базового дизайна.



Результаты экспериментов показывают, что использование больших моделей в качестве бэкэнд-агентов дает лучшие результаты во всех тестах по сравнению со случайными стратегиями.

иQwen-VL превосходит GPT-4o по диалогу



В конечном сравнении другие платформы GRUtopia более мощные во всех измерениях.



Исследовательскую работу возглавила Шанхайская лаборатория искусственного интеллекта OpenRobot Lab.

Лаборатория специализируется на исследованиях воплощенного общего искусственного интеллекта и стремится создать общую систему алгоритмов роботов, которая объединяет программное обеспечение, оборудование, виртуальную реальность и реальность.

В мае этого года команда также выпустила Grounded 3D-LLM, воплощенную мультимодальную большую модель, которая может автоматически генерировать описания сцен и воплощать данные диалога от объектов к локальным областям, эффективно снимая ограничения текущего понимания трехмерных сцен.



Бумажный адрес:
https://arxiv.org/abs/2407.10943

Адрес ГитХаба:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file