Новости

От пространственного интеллекта к воплощенному интеллекту: наиболее эффективный путь применения искусственного интеллекта Sim2Real в разных измерениях.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Сердце машины выпущено

Редакция «Машинное сердце»

За более чем год, прошедший с момента появления увлечения воплощением интеллекта, произошли революционные изменения в методах производства и взаимодействия физического мира и информации.

В то же время потихоньку начинается новая битва: крупные производители ломают голову, чтобы заполучить самое ценное «топливо» ИИ — данные. В настоящее время недостаток данных по-прежнему является высокой стеной перед универсальным воплощенным интеллектом. За последние три года в исследованиях воплощенного интеллекта таких известных компаний, как Google, NVIDIA и OpenAI, мы еще не видели появления закона масштабирования. Это связано с отсутствием различных типов данных.

Как решить эту фундаментальную проблему? С технологической точки зрения Sim2Real AI — это давний путь. Однако из-за «концептуальной предвзятости» при устранении пробела в Sim2Real научные круги и промышленность рассматривают его скорее как вспомогательный метод дополнения данных.

Но так ли это на самом деле?

Цзя Куй, штатный профессор Китайского университета Гонконга (Шэньчжэнь) и основатель компании Cross-Dimension Intelligence, дал ответ на основе многолетней практики от академических кругов до промышленности: «Sim2Real AI — это наиболее эффективный путь к воплощению интеллекта».

От двухмерного видения к трехмерному, от пространственного интеллекта к воплощенному интеллекту, от научных исследований к продуктам и коммерческому внедрению — Цзя Куй исследует эту область более двадцати лет. Недавно в WAIC состоялся разговор о том, как воплощенный интеллект может решить дилемму данных.

Если бы вы использовали ИИ, чтобы попытаться понять этот разговор, это могло бы помочь вам суммировать следующие ключевые моменты:

Какова природа пространственного интеллекта и воплощенного интеллекта, которые в настоящее время являются самыми горячими темами?

В чем конкретное значение реализации пространственного и телесного интеллекта с использованием парадигмы закона масштабирования?

Какой наиболее эффективный путь достижения универсального воплощенного интеллекта?

Как воплощенный интеллект переходит от технологии к продукту и к внедрению в бизнес?

Какие идеи могут воплотиться в жизнь в будущем и прорвать производственную парадигму отрасли?

Конечно, есть и моменты, которые ИИ пока не может понять — этот научный исследователь и предприниматель продемонстрировал свою твёрдую уверенность и историческую миссию.

Ниже приводится стенограмма интервью:

Постройте «модель мира»

Запуск робота «духовность»

Вопрос: Профессор Ли Фейфэй, известный как «Крестная мать искусственного интеллекта», выбрал направление «пространственного интеллекта», когда начал свой первый бизнес, который привлек широкое внимание в этой области. Можете ли вы рассказать о своем понимании пространственного интеллекта и воплощенного интеллекта?

Жаки: Пространственный интеллект и воплощенный интеллект — это темы, которые в последние годы привлекли большое внимание на социальном уровне, но научные исследования, стоящие за ними, продолжаются уже долгое время. Пространственный интеллект — это многомерная концепция, которая обычно относится к когнитивным и рассуждениям человека в трехмерном физическом пространстве и четырехмерном времени и пространстве, включая восприятие, рассуждение, принятие решений и т. д. Воплощенный интеллект относится к интеллекту, при котором интеллектуальная система имеет физическую форму и взаимодействует с окружающей средой через эту форму. Воплощенный интеллект не только фокусируется на восприятии, но также включает в себя действия и реакции разумных агентов на окружающую среду. Точно так же, как люди используют свои глаза для восприятия мира, воплощенный интеллект требует, чтобы роботы были способны воспринимать, взаимодействовать и принимать решения с помощью мультимодальных датчиков для формирования комплексных пространственных познавательных и операционных возможностей.

Вопрос: Каковы сходства и различия между пространственным интеллектом и воплощенным интеллектом?

Жаки: Как упоминалось ранее, пространственный интеллект дает ИИ способность воспринимать и понимать реальный мир, в то время как воплощенный интеллект не только требует восприятия и когнитивного рассуждения об объектах, средах и других агентах, участвующих в пространственном интеллекте, но также охватывает планирование движения на высоком уровне. и низкоуровневое управление движением, необходимое для работы робота, а также различные «навыки» робота, аналогичные рабочим возможностям человека, определяемые взаимодействием между корпусом робота и управляющим объектом. Овладение каждым навыком означает, что робот может обращаться с различными объектами, связанными с этим навыком, а не просто с конкретным и конкретным предметом.

Эти навыки включают в себя набор «поднавыков» и «атомарных навыков», образующих библиотеку навыков робота или «пространство навыков». Суть воплощенного интеллекта заключается в изучении и обобщении этого пространства навыков, тем самым достигая общего искусственного интеллекта (AGI) с воплощенными атрибутами, такими как люди.

В конкретных приложениях пространственный интеллект имеет более широкую сферу применения и может быть прикреплен к роботу или отделен от него. По сути, это вопрос понимания пространства, например, его важного приложения AR/VR. Воплощенный интеллект в основном отражен в роботах, особенно в роботах общего назначения (гуманоидах).

В целом пространственный интеллект больше фокусируется на когнитивных и рассуждениях в четырехмерном пространстве и времени, в то время как воплощенный интеллект дополнительно включает в себя способность напрямую взаимодействовать с окружающей средой через физические формы.

Вопрос: Почему вы решили начать бизнес в направлении космоса и воплощения интеллекта?

Жаки: Можно сказать, что мы очень рано обратили внимание на эту область и имеем глубокие исторические накопления и накопления технологий. Команда создала «Лабораторию восприятия и анализа геометрии» на заре, когда эта область еще не была задействована известными «крупными производителями».Мы являемся одними из первых ученых и команд в Китае, которые применили технологию искусственного интеллекта к неевропейским данным, таким как 3D.

Наша команда провела большое количество перекрестных инновационных исследований в направлениях геометрического глубокого обучения, 3D-моделирования, пространственного восприятия и робототехнических приложений и добилась ряда репрезентативных результатов, включая Grasp Proposal Networks (NeurIPS 2020), Analytic Marching. (ICML 2020/TPAMI 2021), Разреженная управляемая свертка (NeurIPS 2021), 3D AffordanceNet (CVPR 2021), Fantasia3D (ICCV 2023), SAM-6D (CVPR 2024) и другие.



DexVerse™ 2.0 представляет новую технологию 4D Mesh, которая специально разработана для динамического физического моделирования и создания рендеринга данных и может единообразно обрабатывать несколько объектов, таких как твердые тела, мягкие тела и жидкости. Являясь основной формой выражения движка, 4D Mesh будет выполнять весь процесс: от физического моделирования, создания аннотаций данных до обучения большой модели.

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5 ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

Вопрос: Как вы понимаете основные концепции космоса и воплощенного разума? Каковы преимущества межпространственности на этом горячем пути?

Жаки:Мы верим что,Суть пространственного и воплощенного интеллекта заключается в создании «модели мира», чтобы роботы обладали «духовностью», аналогичной человеческому восприятию.В частности, необходимо создать «модель мира», которая сможет точно моделировать, понимать и обосновывать пространственную геометрию и физические процессы, чтобы различные датчики роботов, включая зрение, силу, прикосновение и т. д., могли обладать способностью человеческого восприятия.

В рамках нынешней парадигмы архитектуры и модели ИИ наша команда надеетсяПосредством генеративного физического моделирования мы захватываем четырехмерное пространственно-временное зеркало живого мира человека, чтобы получить бесконечные данные о физических атрибутах — это ключ к реализации пространственного и телесного интеллекта.

Таким образом, с момента своего создания компания Kuan Dimension создала базовое пространство DexVerse™ и воплотила в себе интеллектуальный механизм, который может реализовать полную автоматизацию цепочки «физическое моделирование – синтез данных – обучение модели» для конкретных бизнес-сценариев, и на основе этого Формирования большой набор моделей пространственного и телесного интеллекта и чисто визуальных интеллектуальных датчиков, наделяющий универсальных роботов интеллектуальными мозгом и глазами.

В настоящее время Kuandimension добилась успеха миссии более чем на 99,9% со 100% синтетическими данными и требованиями к точности работы в миллиметрах и субмиллиметрах в различных коммерческих сценариях.

Универсальное пространство и воплощенный разум

Как далеко от конца?

Вопрос: Вы только что говорили об использовании парадигмы закона масштабирования для реализации пространственного и телесного интеллекта. Можете ли вы уточнить его конкретное значение? Труднее ли реализовать универсальное пространство и воплощенный разум, чем реализовать универсальность больших языковых моделей? В чем трудность?

Жаки: Действительно, труднее достичь универсального пространства и воплощенного интеллекта, чем достичь универсальности больших языковых моделей. Большие языковые модели, представленные серией GPT OpenAI, достигают нулевой выборки (нулевого выстрела), то есть общих возможностей, что свидетельствует о зарождении так называемого AGI.

Естественный язык человека можно рассматривать как семантический код, уточненный за счет высокой степени абстракции вселенной и природной среды, в которой мы живем. Следовательно, большие языковые модели относительно легко изучать и обобщать непосредственно на абстрактном уровне.

Сравнительно говоря,Пространственный интеллект требует обучения на необработанных сигналах, получаемых датчиками, что означает преодоление «семантического разрыва» от необработанных цифровых сигналов к человеческим семантическим символам.Чтобы изучить общий интеллект с помощью парадигмы закона масштабирования, аналогичной GPT, требуется большой объем обучающих данных;Данные для обучения пространственной разведке не только требуют большого объема данных, но также требуют точной калибровки исходных сигналов, полученных датчиками, чтобы гарантировать, что они имеют измерения в абсолютном физическом масштабе. Это гораздо сложнее, чем получение массивных изображений и текстовых данных. из Интернета.

Воплощенный интеллект идет еще дальше. Помимо изучения общего интеллекта с помощью многомерных сенсорных сигналов, таких как зрение, сила и прикосновение, Его более важной целью является изучение «пространства навыков» робота, совместно определяемого онтологией робота и управляющим объектом. Общность воплощенного интеллекта отражается в обобщении пространства навыков, что увеличивает сложность изучения различных парадигм.

Вопрос: Можете ли вы рассказать о конкретных возможностях мультимодальной большой модели, необходимых для пространственного и воплощенного интеллекта?

Жаки:Пространственный интеллект включает в себя такие задачи, как восприятие, взаимодействие, рассуждение и принятие решений в трехмерном физическом мире. Воплощенный интеллект также требует формирования библиотеки навыков автономной работы робота, основанной на интеллектуальном анализе сигналов пространственного восприятия, таких как зрение, сила. , и коснитесь.

Поэтому необходимы возможности мультимодальной большой модели, включая естественный язык, силовое прикосновение, состояние тела робота и другие модальности.Эти мультимодальности могут быть «интегрированы» в общее семантическое, пространственно-временное и навыковое пространство, тем самым достигая человеческого пространственного и телесного интеллекта.

Вопрос: По вашему мнению, насколько далеко всеобщее пространство и воплощенный разум от того, чтобы стать финалом?

Жаки:В настоящее время парадигма ИИ, основанная на законе масштабирования, которая характеризуется большими объемами данных, большими моделями и огромной вычислительной мощностью, может стабильно массово производиться экономически эффективным способом при условии, что универсальное аппаратное обеспечение робота является зрелым, то есть базовыми компонентами. такие как гуманоидные роботы, ловкие руки и гуманоидные датчики, по крайней мере, они могут поддерживать пространственный и телесный интеллект для формирования независимой бизнес-ценности в нескольких бизнес-сценариях с замкнутым контуром с границами и разумной рентабельностью инвестиций.

В частности, в различных сценариях, таких как промышленность, логистика, торговля и дом, роботы могут выполнять различные задачи в обобщенном виде. Конечно, для этого требуется сбор массивных мультимодальных данных с физическими свойствами, а также автоматический расчет обширных аннотаций, которые поддерживают несколько стратегий обучения, таких как контролируемое обучение, имитационное обучение и обучение с подкреплением.

Самый эффективный путь к достижению универсального воплощенного интеллекта

Вопрос: Я заметил, что в своей речи на WAIC вы упомянули: «Sim2Real AI — это наиболее эффективный путь реализации воплощенного интеллекта». Можете ли вы рассказать об этом подробнее?

Жаки: Для достижения воплощенного интеллекта необходимо учитывать характер и цель данных. Цель воплощенного интеллекта — дать роботам возможность реализовать общие функциональные возможности в постоянно меняющемся физическом мире на основе сигналов датчиков, таких как зрение, сила и прикосновение, точно так же, как мы, люди, делаем каждый день в нашей повседневной жизни.

В соответствии с парадигмой ИИ закона масштабирования, то есть модели машинного обучения не обладают реальным общим интеллектом или обобщением, а имеют только способность «интерполировать» при изучении статистических распределений и их статистических распределений. Обучение интеллектуальных роботов требует приобретения большого количества роботов. объем данных.

Эти данные должны охватывать различные условия эксплуатации, связанные с каждым навыком робота, например, все условия эксплуатации с утра до вечера, весной, летом, осенью и зимой, в помещении и на открытом воздухе. Если вы полагаетесь на роботизированные системы сбора данных или носимые устройства, такие как знакомое «телеоперирование», то для сбора достаточного количества данных вам сначала необходимо создать бизнес-модель, которая позволит пользователям пользоваться услугами и коммерческой ценностью, а также поможет собирать данные. данные, но на данный момент такого способа нет.

В сравнении,Sim2Real AI может более эффективно охватить все вышеперечисленные изменения посредством физического моделирования и синтетических данных. Этот метод позволяет моделировать различные рабочие объекты, изменения окружающей среды, конфигурации роботов и изменения датчиков в виртуальной среде, а также может использовать базовые возможности физического моделирования и генерации данных для различных бизнес-сценариев. Любые рабочие объекты, включая твердые тела, шарниры, мягкие тела, жидкости и т. д., могут поддерживать генерацию данных посредством точного физического моделирования.

Итак, в общем,Хотя использование систем сбора данных роботов или «телеуправления» носимых устройств может быстро продемонстрировать некоторые рабочие действия, подобные человеческим, по сравнению с воплощенными интеллектуальными возможностями, необходимыми для достижения обычных роботов, этот метод кажется «противоположным». Это наиболее эффективный путь достижения ваших целей.

Вопрос: Как при таком техническом подходе устранить разрыв между синтетическими и реальными данными?

Жаки: С академической точки зрения Sim2Real AI — это давний технологический путь и один из основных путей достижения пространственного и телесного интеллекта. Наша команда также начинала с академических кругов. В процессе внедрения продукта и бизнеса мы успешно проложили уникальный путь: смогли достичь точности 99,9% в различных сценариях со 100% синтетическими данными при требованиях к точности до миллиметра или субмиллиметра. ставка, которая может быть уникальной в мире.

Любой успех не случаен, а основан на глубоком понимании проблемы и системном решении. Отталкиваясь от первых принципов и размышляя над внутренним смыслом вещей, межпространственная команда нашла эффективные решения, упрощая сложные проблемы и разбирая их слой за слоем.

Проще говоря, использование искусственного интеллекта Sim2Real для достижения воплощенного интеллекта требует:

1) Моделирование тела робота, моделирование мультимодальных датчиков, различные формы моделирования рабочих объектов и моделирование динамических процессов;

2) Данные и аннотации, соответствующие моделированию, визуализируются и генерируются;

3) Создайте автоматизированную цепочку, которую можно будет перенести на Sim2Real в таких аспектах, как воплощенное интеллектуальное проектирование и обучение больших моделей, и необходимо преодолеть, по крайней мере, следующие основные технические пороги:

Низкоуровневое управляемое физическое моделирование

Эффективное мультимодальное обучение большим моделям и непрерывное обучение

Эффективно справляться с различиями между синтетическими и реальными областями данных.

Недорогое приобретение крупных цифровых активов

Вопрос: Каковы практические результаты на основе только что упомянутой вами технологии Sim2Real AI?

Жаки: Компания Kuandimension создала встроенный интеллектуальный механизм DexVerse™ снизу вверх, включая такие модули, как физическое моделирование, рендеринг и генерация данных, автоматический расчет аннотаций, проектирование моделей и обучение. Этот двигатель не требует участия научно-исследовательского персонала.SDK может автоматически генерировать SDK модели ИИ для воплощенных интеллектуальных задач по всей цепочке. Скорость генерации данных находится на той же частоте, что и скорость итерации обучения модели ИИ, поэтому необходимости хранить данные вообще нет. независимо от того, сколько данных обучения будет накоплено, они больше не будут считаться воплощенным интеллектом. Количественный стандарт для реализации.В настоящее время DexVerse™ поддерживает внедрение программных и аппаратных продуктов Kuaodi в нескольких сценариях.



Как показано выше, DexVerse™ 2.0 идет еще дальше:

Прежде всего, при наличии бизнес-сценария с четкими границами и конфигурацией оборудования робота DexVerse™ 2.0 может использовать большую языковую модель для автоматического разбора задействованных навыков и поднавыков робота.

Во-вторых, для любого навыка или поднавыка DexVerse™ 2.0 может автоматически генерировать цифровые активы, такие как объекты и сцены, необходимые для моделирования, а также моделировать и визуализировать на основе этих активов для создания полос данных процесса работы робота в виртуальном пространстве.

Затем воплощенная интеллектуальная 3D-модель VLA (Vision Language Action) обучается посредством генерации данных в виртуальном пространстве.

Наконец, обученная модель может управлять онтологией робота в выбранных бизнес-сценариях для универсального выполнения различных операций по навыкам робота.



Благодаря DexVerse™ Embodied Intelligence Engine 2.0 вся цепочка разборки задач, создания сцен, создания конфигурации обучения и обучения модели автоматизируется, а обученная модель импортируется в реальную машину, чтобы помочь роботу завершить сборку оленя. строительные блоки.

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5 ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

Благодаря этому полностью автоматизированному механизму маховик универсальных роботов, практикующих воплощенные интеллектуальные навыки/поднавыки, будет вращаться наиболее эффективно, способствуя внедрению универсальных роботов в большем количестве сценариев.Kuanwei будет сотрудничать с большим количеством промышленных сторон, чтобы открыть экосистему и добиться взаимовыгодного сотрудничества, чтобы совместно способствовать быстрому развитию воплощенного интеллекта и общей индустрии роботов в Китае.

Вопрос: Почему Куаоди выбрал движок собственной разработки? В чем разница между межпространственным движком DexVerse™ и NVIDIA Omniverse™?

Жаки:Концепция создания межпространственного встроенного интеллектуального механизма полностью отличается от таких механизмов, как Omniverse™ от NVIDIA.

Если Omniverse™ — это горизонтальное расширение, охватывающее различные отрасли, такие как робототехника, научные вычисления и искусственный интеллект для науки, а также обслуживающее вычислительные продукты NVIDIA с искусственным интеллектом, тоМежпространственный DexVerse™ представляет собой сквозное вертикальное проникновение, а итеративное развитие движка служит реализации воплощенных интеллектуальных задач в вертикальных сценариях.

В настоящее время Sim2Real AI все еще находится на стадии внедрения инновационного продукта. Только опираясь на механизм самоисследования, можно поддерживать все аспекты процесса исследований и разработок, включая физическое моделирование, рендеринг и генерацию данных, автоматический расчет аннотаций. интеллектуальное проектирование моделей и обучение, поэтапно. Только решение ключевых проблем и освоение ноу-хау позволит по-настоящему реализовать продукт в бизнес-сценариях.

Путь L1-L5 воплощения интеллектуального бизнеса

Вопрос: Как вы думаете, каков путь реализации воплощенного интеллекта: от технологии к продукту и к коммерческому внедрению?

Жаки:Суть воплощенного интеллекта заключается в том, чтобы предоставить всем типам роботов общие эксплуатационные возможности в различных сценариях применения путем изучения библиотеки навыков роботов, которая содержит различные обобщаемые навыки, поэтому ее коммерциализация должна быть основана на промышленности, сельском хозяйстве, торговле и личном/ориентированном бизнесе; сценарии с границами, такие как семьи, «начинаются с учетом конечной цели» и формируют ценность продукта и его коммерческую реализацию путем установления общих навыков для роботов в независимых бизнес-сценариях.

Технически, воплощенный интеллект должен использовать Sim2Real AI, чтобы открыть автоматизированную цепочку понимания задач, создания цифровых активов, моделирования данных и обучения модели искусственного интеллекта для достижения универсального обучения задачам робота наиболее эффективным способом и формирования применимых программных и аппаратных продуктов. для различных бизнес-сценариев, включая встроенные интеллектуальные SoC, интеллектуальные датчики, универсальные контроллеры роботов и т. д.

На этом пути воплощенный интеллект должен сначала расширить возможности относительно зрелых онтологий аппаратного обеспечения, таких как роботизированные руки и составные роботы. С развитием массового производства универсальных онтологий, таких как ловкие руки и роботы-гуманоиды, общие возможности будут дополнительно улучшены, и их коммерческая ценность увеличится. быть сгенерирован.



Вопрос: На основании предложенных вами пяти стадий высокоразностороннего воплощенного разума L1-L5, на какой стадии в настоящее время находится Межпространственное?

Жаки:Основываясь на встроенном интеллектуальном механизме DexVerse™ собственной разработки, компания Kuandimension создала возможности полной цепочки, такие как понимание задач сценария, генерация цифровых активов, генерация моделирования данных и обучение модели искусственного интеллекта для обслуживания сценариев применения, таких как интеллектуальное производство и интеллектуальное сельское хозяйство, а также сформировала комплексную сеть, включающую интеллектуальные датчики технического зрения, программное обеспечение PickWiz, составных роботов и другие интеллектуальные продукты.

В настоящее время Kuanwei внедрила бизнес-модель «Моделирование в реальность» и внедрила ее в более чем 30 отраслях, таких как автозапчасти, производство 3C, новая энергетика, бытовая техника, химическая промышленность и логистика. Он сотрудничает с такими компаниями, как GAC, Midea. , Haier, Многие ведущие клиенты отрасли, включая Panasonic и Lens Technology.

Ссылаясь на L1-L5 на рисунке выше, Kuandimension завершил развитие стадии L1 воплощенного интеллекта и неуклонно движется к уровню L2, который является одним из немногих в мире.

Вопрос: Как вы думаете, какой будет финальная экологическая цепочка воплощенного разума и роботов-гуманоидов? Будет ли Kuan Dimension производить полноценное (гуманоидное) оборудование для роботов?

Жаки: Универсальная экологическая цепочка роботов состоит из производителей гуманоидных тел, производителей компонентов, производителей визуальных и тактильных датчиков, поставщиков встроенных интеллектуальных чипов и решений и т. д. Межпространственный интеллектуальный механизм DexVerse™ будет играть решающую роль в технологическом пути, форме продукта, реализации сценария бизнеса и т. д. в процессе достижения конечного состояния производственной цепочки благодаря возможностям полной цепочки Sim2Real AI DexVerse™. , он начнется с осознания конечной цели, с коммерческого подхода с замкнутым контуром для продвижения унифицированных стандартов для встроенных интеллектуальных роботов с точки зрения конфигурации оборудования, выбора датчиков, парадигм модальных данных и мультимодальных больших моделей.

Компания Kuan Dimension создала воплощенные интеллектуальные продукты, такие как составные роботы, интеллектуальные визуальные датчики и программное обеспечение PickWiz. В процессе реализации большего количества бизнес-сценариев Kuan Dimension сначала расширит возможности относительно зрелого мобильного / колесного шасси + двойных роботизированных рук, а также интеллектуальной онтологии. в конечном итоге объединить усилия с производителями онтологий роботов-гуманоидов, чтобы добиться широкого внедрения общего воплощенного интеллекта.