моя контактная информация
Почтамезофия@protonmail.com
2024-07-22
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Минмин родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Ультрареалистичный город роботов уже здесь!
Здесь роботы могут делать покупки в супермаркетах, как люди:
Покупка продуктов и приготовление пищи дома:
Берете кофе в офисе (рядом с вами коллеги-люди):
Не только роботы-гуманоиды, но также собаки-роботы и роботы-манипуляторы могут свободно перемещаться по этому «городу».
Это первый смоделированный интерактивный 3D-мир, недавно предложенный Шанхайской лабораторией искусственного интеллекта:ГРУтопия(Китайское название: Таоюань).
Здесь до100кИнтерактивные, тщательно аннотированные сцены свободно собираются в реалистичную городскую среду.
В том числе в помещении и на открытом воздухе, в ресторанах, супермаркетах, офисах, домах и т. д.89Различные категории сцен.
Большие NPC, управляемые моделями, вы можете разговаривать и взаимодействовать с роботами в этом мире.
Таким образом, различные роботы могут выполнять различные поведенческие симуляции в виртуальных городах, что является в последнее время популярным маршрутом Sim2Real, который может значительно снизить сложность и стоимость сбора данных из реального мира воплощенного интеллекта.
Проект планирует иметь открытый исходный код, а демо-руководство по установке в настоящее время доступно на GitHub.
После успешной установки вы можете управлять роботом-гуманоидом, который будет перемещаться по комнате в демо-версии, а также поддерживать настройку различных углов обзора.
Виртуальный рай для роботов
Есть три основные задачи:
Среди них GRScenes — это набор данных, содержащий крупномасштабные данные сцен.
Это значительно расширяет диапазон сред, в которых роботы могут передвигаться и работать. Предыдущие работы больше фокусировались на домашних сценах.
В исследовании говорится, что их цель — расширить возможности роботов общего назначения для различных сценариев обслуживания, таких как супермаркеты, больницы и т. д. Он также охватывает внутренние и внешние помещения, включая парки развлечений, музеи, выставочные залы и т. д.
Для каждой сцены они выполнили детальное и качественное моделирование, а 100 сцен содержали 2956 интерактивных объектов и 22001 неинтерактивный объект в 96 категориях.
GRResidents — это система NPC.
Он основан на больших моделях и глубоко понимает информацию о сцене в моделируемой среде. Таким образом, NPC могут определять пространственные отношения между объектами и участвовать в динамических разговорах и назначении задач.
С помощью этой системы GRUtopia может генерировать большое количество заданий сцены для выполнения роботами.
Благодаря перекрестной проверке с людьми система NPC имеет хорошую точность описания и определения местоположения объектов.
В эксперименте по описанию пусть система NPC случайным образом выберет объект для описания. Если люди смогут найти соответствующий объект, он будет считаться успешным.
В эксперименте по позиционированию все наоборот. Если система NPC сможет найти соответствующий объект на основе описания, данного людьми, он будет успешным.
Показатели успешности вызова разных больших моделей различны. В целом GPT-4o работает лучше всего.
GRBench — это тест, который оценивает производительность встроенного интеллекта.
Он содержит 3 теста, включая объектную локо-навигацию, социальную локо-навигацию и локо-манипуляцию. Сложность этих трех тестов постепенно возрастает.
Для анализа производительности NPC и API управления в исследовании предлагается базовый уровень на основе LLM и VLM для проверки рациональности базового дизайна.
Результаты экспериментов показывают, что использование больших моделей в качестве бэкэнд-агентов дает лучшие результаты во всех тестах по сравнению со случайными стратегиями.
иQwen-VL превосходит GPT-4o по диалогу。
В конечном сравнении другие платформы GRUtopia более мощные во всех измерениях.
Исследовательскую работу возглавила Шанхайская лаборатория искусственного интеллекта OpenRobot Lab.
Лаборатория специализируется на исследованиях воплощенного общего искусственного интеллекта и стремится создать общую систему алгоритмов роботов, которая объединяет программное обеспечение, оборудование, виртуальную реальность и реальность.
В мае этого года команда также выпустила Grounded 3D-LLM, воплощенную мультимодальную большую модель, которая может автоматически генерировать описания сцен и воплощать данные диалога от объектов к локальным областям, эффективно снимая ограничения текущего понимания трехмерных сцен.
Бумажный адрес:
https://arxiv.org/abs/2407.10943
Адрес ГитХаба:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file