ニュース

空間インテリジェンスから身体化インテリジェンスまで、さまざまな次元で Sim2Real AI を実践するための最も効率的な道

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ハート・オブ・ザ・マシンがリリースされました

マシーンハート編集部

身体化された知性の流行の到来から 1 年以上の間に、物理世界と情報の生成および相互作用の方法に革命的な変化が起こりました。

同時に、新たな戦いが静かに始まっている。大手メーカーは最も価値のある AI の「燃料」であるデータを獲得するために知恵を絞っている。現在、普遍的な身体化された知性にとって、データ不足は依然として高い壁となっています。過去 3 年間を通じて、Google、NVIDIA、OpenAI などの有名企業による身体化インテリジェンスの研究では、まだスケーリング則の出現が見られませんでした。これは、さまざまな種類のデータの欠如に関係しています。

この根本的な問題点を解決するにはどうすればよいでしょうか?テクノロジーの観点から見ると、Sim2Real AI は長年にわたる道のりです。しかし、Sim2Real のギャップを解消する際の「概念的な偏り」のため、学界や産業界はそれを補助的なデータ補完方法として捉えています。

しかし、本当にそうなのでしょうか?

香港中文大学 (深セン) の終身教授であり、Cross-Dimensional Intelligence の創設者でもある Jia Kui 氏は、学界から産業界までの長期にわたる実践を通じて、「Sim2Real AI は、身体化されたインテリジェンスへの最も効率的な道である」という答えを与えました。

2 次元の視覚から 3 次元の視覚へ、空間知性から身体化された知性へ、科学研究から製品、商業的実装に至るまで、Jia Kui は 20 年以上にわたってこの分野を探求してきました。最近、WAIC で、身体化されたインテリジェンスがデータのジレンマをどのように打開できるかについての会話が行われました。

AI を使用してこの会話を理解しようとすると、次の重要なポイントを要約するのに役立つかもしれません。

今最も注目されている空間知能や身体性知能とはどのようなものなのでしょうか?

スケーリング則パラダイムを使用して空間的および身体的知能を実現することの具体的な意味は何ですか?

普遍的な身体化された知能を達成するための最も効率的な方法はどれですか?

身体化されたインテリジェンスは、テクノロジーから製品、そしてビジネス実装にどのように移行するのでしょうか?

将来、業界の生産パラダイムを打ち破る想像力はどのようなものを実現できるでしょうか?

もちろん、AIにはまだ理解できない部分もあります。この科学研究者であり起業家は、確固たる自信と歴史的使命を示しています。

以下はインタビューの記録です。

「世界モデル」を構築する

トリガーロボット「スピリチュアル」

Q: 「AI のゴッドマザー」として知られる李飛飛教授は、最初のビジネスを立ち上げる際に「空間知能」の方向性を選択し、この分野で広く注目を集めました。空間知性と身体化知性についてのあなたの理解について話していただけますか?

ジャッキー:空間知能と身体知能は近年社会レベルで大きな注目を集めているテーマですが、その背後にある学術研究は古くから行われてきました。空間的知性は多次元の概念であり、通常、知覚、推論、意思決定などを含む、3 次元の物理空間および 4 次元の時間と空間における個人の認知能力と推論能力を指します。身体化されたインテリジェンスとは、インテリジェント システムが物理的な形式を持ち、この形式を通じて環境と相互作用するインテリジェンスを指します。身体化された知能は、知覚に焦点を当てるだけでなく、環境に対する知的エージェントの行動や反応も含みます。人間が目を使って世界を認識するのと同じように、身体化された知能では、ロボットがマルチモーダル センサーを通じて認識、対話、意思決定を行い、包括的な空間認識と操作能力を形成できることが必要です。

Q: 空間知能と身体的知能の類似点と相違点は何ですか?

ジャッキー:前述したように、空間インテリジェンスは AI に現実世界を認識して理解する能力を与えますが、身体化インテリジェンスは空間インテリジェンスに関与する物体、環境、その他のエージェントの知覚と認知的推論を必要とするだけでなく、高レベルの動作計画もさらにカバーします。ロボットの操作に必要な低レベルの動作制御や、ロボット本体と操作対象との相互作用によって定義される人間の操作能力に類似したさまざまなロボットの「スキル」。各スキルを習得するということは、ロボットが特定の特定のオブジェクトだけでなく、そのスキルに関連するさまざまなオブジェクトを処理できることを意味します。

これらのスキルには、「サブスキル」と「アトミック スキル」の集合が含まれており、ロボット スキル ライブラリまたは「スキル スペース」を形成します。身体化された知能の本質は、このスキル空間を学習して一般化し、それによって人間のような身体化された属性を備えた汎用人工知能 (AGI) を実現することです。

特定のアプリケーションでは、空間インテリジェンスはより広い範囲を持ち、ロボットに取り付けることも、ロボットから切り離すこともできます。これは、重要なアプリケーションである AR/VR など、本質的には空間を理解することです。身体化された知能は主にロボット、特に汎用 (ヒューマノイド) ロボットに反映されます。

一般に、空間知能は 4 次元の時空における認知能力と推論能力に重点を置きますが、身体的知​​能にはさらに、物理的形態を通じて環境と直接相互作用する能力が含まれます。

Q: なぜ宇宙と身体化された知性の方向でビジネスを始めようと思ったのですか?

ジャッキー:当社はこの分野に早くから注目しており、歴史的蓄積と技術蓄積が深いと言えます。チームは、この分野にまだ有名な「大手メーカー」が関与していなかった初期に、「幾何知覚と知能研究所」を設立しました。私たちは、人工知能技術を 3D などの非ヨーロッパのデータに適用した中国の最初の学者およびチームの 1 つです。

私たちのチームは、幾何学的深層学習、3D モデリング、空間認識、ロボット応用の方向で多数のクロスイノベーション研究を実施し、Grasp Proposal Networks (NeurIPS 2020)、Analytic Marching などの一連の代表的な成果を達成しました。 (ICML 2020/TPAMI 2021)、Sparse Steerable Convolution (NeurIPS 2021)、3D AffordanceNet (CVPR 2021)、Fantasia3D (ICCV 2023)、SAM-6D (CVPR 2024) など。



DexVerse™ 2.0 は、動的物理シミュレーションとデータ レンダリング生成用に特別に設計された新しい 4D メッシュ テクノロジを導入しており、剛体、ソフト ボディ、流体などの複数のオブジェクトを均一に処理できます。エンジンの中核となる表現形式として、4D メッシュは物理シミュレーション、データ アノテーションの生成から大規模モデルのトレーニングまでのプロセス全体を実行します。

動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5ca60fb8 582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

Q: 宇宙と身体化された知性の中核概念についてはどのように理解していますか?このホットなトラックにおいて、次元間の利点は何でしょうか?

ジャッキー:私たちは、と信じています、空間的および身体的知能の核心は、ロボットが人間の知覚と同様の「精神性」を持つように「世界モデル」を確立することです。具体的には、視覚、力、触覚などを含むさまざまなロボットセンサーが人間の知覚能力を持つことができるように、空間幾何学と物理プロセスを正確にモデル化、理解、推論できる「世界モデル」を確立する必要があります。

現在の AI アーキテクチャとモデル パラダイムの下で、私たちのチームは次のことを望んでいます。生成物理シミュレーションを通じて、人間の生活世界の時空四次元ミラーをキャプチャし、無限の物理属性データを取得します。これが空間的および身体的知性を実現するための鍵です。

したがって、KuanDimensional は設立以来、特定のビジネス シナリオに合わせて「物理シミュレーション - データ合成 - モデル トレーニング」の完全なチェーン自動化を実現できる、基礎となる自社開発の DexVerse™ 空間と具体化されたインテリジェンス エンジンを作成してきました。空間的および具体化された知性と純粋な視覚的インテリジェント センサーの大型モデル キットで、汎用ロボットにインテリジェントな脳と目を与えます。

現在、Kuandimension は、複数の商用シナリオにおいて、100% 合成データとミリメートル/サブミリメートルの動作精度要件により、99.9% 以上のミッション成功率を達成しています。

ユニバーサルスペースと身体化された知性

終わりからどれくらい離れていますか?

Q: 空間的および身体的インテリジェンスを実現するためにスケーリング則パラダイムを使用することについて話しましたが、その具体的な意味について詳しく教えていただけますか。普遍的な空間と身体化された知性を実現することは、大きな言語モデルの普遍性を実現することより難しいのでしょうか? 何が難しいのでしょうか?

ジャッキー:確かに、普遍的な空間と身体化された知性を達成することは、大規模な言語モデルの普遍性を達成することよりも困難です。 OpenAIのGPTシリーズに代表される大規模言語モデルはゼロサンプル(ゼロショット)、つまり汎用的な機能を実現し、いわゆるAGIの黎明期を示している。

人間の自然言語は、私たちが住む宇宙や自然環境を高度に抽象化することによって洗練された意味コードとみなすことができます。したがって、大規模な言語モデルを抽象レベルで直接学習して一般化することは比較的簡単です。

比較的に言うと、空間インテリジェンスには、センサーによって取得された生の信号から学習する必要があります。これは、生のデジタル信号から人間の意味論的なシンボルまでの「意味論的なギャップ」を越えることを意味します。GPT と同様のスケーリング則パラダイムを通じて一般知能を学習するには、大量のトレーニング データが必要です。空間インテリジェンスのトレーニング データには大量のデータが必要なだけでなく、絶対的な物理スケールでの測定値を確保するためにセンサーによって取得された元の信号を正確に校正する必要があります。これは、大量の画像データやテキスト データを取得するよりもはるかに困難です。インターネットから。

身体化された知能は、視覚、力、触覚などの高次元の感覚信号から一般的な知能を学習することに加えて、さらに一歩進みます。そのより本質的な目標は、ロボット オントロジーと操作オブジェクトによって共同定義されるロボットの「スキル空間」を学習することです。身体化された知性の一般性は、スキル領域における一般化に反映され、さまざまなパラダイムを学習することがより困難になります。

Q: 空間インテリジェンスと身体化インテリジェンスに必要な特定のマルチモーダル大規模モデル機能について話してもらえますか?

ジャッキー:空間インテリジェンスには、3 次元の物理世界における知覚、インタラクション、推論、意思決定などのタスクが含まれます。さらに、身体化インテリジェンスには、視覚、力などの空間認識信号のインテリジェントな分析に基づくロボットの自律操作スキル ライブラリの形成が必要です。 、タッチします。

したがって、自然言語、フォースタッチ、ロボットのボディ状態、その他のモダリティを含むマルチモーダルな大規模モデル機能が必要です。これらのマルチモダリティは、共通の意味論的、時空間的およびスキル空間に「統合」することができ、それによって人間のような空間的および身体的知性を実現します。

Q: あなたの意見では、宇宙空間と身体化された知性は最終段階までどのくらい遠いと思いますか?

ジャッキー:現時点では、膨大なデータ、大規模なモデル、巨大な計算能力を特徴とするスケーリング則 AI パラダイムは、汎用ロボットのハードウェア、つまりコアコンポーネントが成熟していることを前提として、コスト効率の高い方法で安定して量産することができます。人型ロボット、器用な手、人型センサーなど、少なくとも空間的および具体的なインテリジェンスをサポートして、境界と合理的な ROI を備えた複数の閉ループ ビジネス シナリオで独立したビジネス価値を形成できます。

具体的には、産業、物流、商業、家庭などの複数のシナリオで、ロボットはさまざまなタスクを一般化可能な方法で実行できます。もちろん、これには、物理​​特性を含む大量のマルチモーダル データの取得と、教師ありトレーニング、模倣学習、強化学習などの複数の学習戦略をサポートする豊富なアノテーションの自動計算が必要です。

普遍的な身体化された知能を達成するための最も効率的な道

Q: WAIC のスピーチで「Sim2Real AI は身体化されたインテリジェンスを実現するための最も効率的な方法である」と言及していましたが、それについて詳しく説明していただけますか。

ジャッキー:身体化されたインテリジェンスを実現するには、データの性質と目的を考慮する必要があります。身体化インテリジェンスの目標は、人間が日常生活で毎日行っていることと同じように、視覚、力、触覚などのセンサー信号に基づいて、ロボットが絶えず変化する物理世界で一般的な操作能力を達成できるようにすることです。

スケーリング則 AI パラダイムの下では、つまり、機械学習モデルは実際の一般知性や一般化を持たず、統計分布とその統計分布を学習する際に「補間」する機能のみを持ちます。具体化されたインテリジェント ロボットのトレーニングには、大規模な学習が必要です。データ量。

これらのデータは、朝から夕方、春、夏、秋、冬、屋内から屋外までのすべての動作条件など、ロボットの各スキルに含まれるさまざまな動作条件をカバーする必要があります。ロボットによるデータ収集システムや、おなじみの「遠隔操作」などのウェアラブルデバイスに依存して十分なデータを収集する場合、まずユーザーがデータ収集を支援しながらサービスや商品価値を享受できるビジネスモデルを確立する必要があります。データを取得できますが、現時点ではそのような方法はありません。

比較において、Sim2Real AI は、物理シミュレーションと合成データを通じて、上記のすべての変更をより効率的にカバーできます。この方法により、仮想環境におけるさまざまな操作オブジェクト、環境変化、ロボット構成、センサー変化のシミュレーションが可能になり、さまざまなビジネス シナリオの基礎となる物理シミュレーションとデータ生成機能を共有できます。剛体、ヒンジ、ソフトボディ、流体などを含むあらゆる操作オブジェクトは、正確な物理シミュレーションを通じてデータ生成をサポートできます。

したがって、一般的には、ロボット データ収集システムやウェアラブル デバイスの「遠隔操作」を使用すると、人間に似た操作動作をすぐに実証できますが、一般的なロボットを実現するために必要な身体化された知能と比較すると、この方法は Sim2Real AI が実現できるのは「逆」であるように見えます。それが目標を達成するための最も効率的な方法です。

質問: この技術的アプローチの下で、合成データと実際のデータの間のギャップを解消するにはどうすればよいですか?

ジャッキー:学術的な観点から見ると、Sim2Real AI は長年にわたるテクノロジーの道筋であり、空間的および身体的インテリジェンスを実現するための主流の道筋の 1 つです。私たちのチームも学界から出発し、製品とビジネスの実装のプロセスで、ミリ/サブミリの精度要件の下で 100% 合成データを使用して、複数のシナリオで 99.9% の精度を達成するという独自の道を切り開くことに成功しました。これは世界でもユニークかもしれません。

あらゆる成功は偶然ではなく、問題の深い理解と体系的な解決策に基づいています。第一原理から出発し、物事の内なる意味を考え、次元を超えたチームは複雑な問題を単純化し、層ごとに解体することで効果的な解決策を見つけました。

簡単に言うと、Sim2Real AI を使用して身体化されたインテリジェンスを実現するには、次のことが必要です。

1) ロボット本体シミュレーション、マルチモーダルセンサーシミュレーション、さまざまな形式の操作オブジェクトシミュレーション、および動的プロセスシミュレーション。

2) シミュレーションに対応するデータと注釈がレンダリングおよび生成されます。

3) 具現化されたインテリジェントな大規模モデルの設計やトレーニングなどの側面で Sim2Real に移行できる自動化チェーンを確立し、少なくとも次の中核となる技術的しきい値を克服する必要があります。

低レベルで制御可能な具体化された物理シミュレーション

効率的なマルチモーダル大規模モデルのトレーニングと継続的学習

合成データドメインと実際のデータドメインの違いに効果的に対処します

大量のデジタル資産を低コストで取得

Q: 先ほど述べた Sim2Real AI テクノロジー パスに基づいて、さまざまな次元での実際的な結果は何ですか?

ジャッキー: KuanDimension は、物理シミュレーション、データのレンダリングと生成、自動アノテーション計算、モデル設計とトレーニングなどのモジュールを含む、具体化されたインテリジェンス エンジン DexVerse™ をボトムアップで構築しました。このエンジンには研究開発担当者の参加は必要ありません。SDK は、チェーン全体にわたって具体化されたインテリジェンス タスク用の AI モデル SDK を自動的に生成できます。データ生成速度は AI モデルのトレーニング反復速度と同じであるため、データを保存する必要はまったくありません。トレーニング データがどれだけ蓄積されても、それは実装の定量的な基準とはみなされなくなります。現在、DexVerse™ は、複数のシナリオで Kuaodi のソフトウェアおよびハードウェア製品の実装をサポートしています。



上に示したように、DexVerse™ 2.0 はさらに一歩進んでいます。

まず、明確な境界とロボット ハードウェア構成を持つビジネス シナリオが与えられると、DexVerse™ 2.0 は大規模な言語モデルを使用して、関連するロボット スキルとサブスキルを自動的に分解できます。

第二に、DexVerse™ 2.0 は、あらゆるスキルまたはサブスキルに対して、シミュレーションに必要なオブジェクトやシーンなどのデジタル アセットを自動的に生成し、これらのアセットに基づいてシミュレーションおよびレンダリングして、仮想空間内にロボット動作プロセス データ ストリップを生成できます。

次に、仮想空間でのデータ生成を通じて、具体化されたインテリジェント 3D VLA (Vision Language Action) モデルがトレーニングされます。

最後に、トレーニングされたモデルは、選択されたビジネス シナリオでロボット オントロジーを駆動し、さまざまなロボット スキル操作を普遍的な方法で完了できます。



DexVerse™ Embodied Intelligence Engine 2.0 を通じて、タスクの分解、シーン生成、トレーニング構成の生成、モデルのトレーニングのチェーン全体が自動化され、トレーニングされたモデルが実機にインポートされて、ロボットが鹿の組み立てを完了するようにガイドされます。ビルディングブロック。

動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5ca60fb8 582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

この完全に自動化されたエンジンを通じて、ユニバーサルロボットが身体化されたインテリジェントスキル/サブスキルを練習するためのフライホイールが最も効率的に回転し、より多くのシナリオでのユニバーサルロボットの実装が促進されます。Kuanweiは、より多くの業界関係者と協力してエコシステムを開放し、Win-Winの協力を実現し、中国の身体化インテリジェンスおよび一般ロボット産業の急速な発展を共同で促進します。

Q: なぜKuaodiは自社開発エンジンを選んだのですか?異次元 DexVerse™ エンジンと NVIDIA の Omniverse™ の違いは何ですか?

ジャッキー:次元を超えた具体化されたインテリジェンス エンジンを構築するという概念は、NVIDIA の Omniverse™ などのエンジンとはまったく異なります。

Omniverse™ が水平方向の拡張であり、ロボット工学、科学技術コンピューティング、科学のための AI などのさまざまな分野をカバーし、同時に NVIDIA の AI コンピューティング パワー製品にもサービスを提供するものである場合、次元を越えた DexVerse™ はエンドツーエンドの垂直浸透であり、エンジンの反復進化により、垂直シナリオにおける具体化されたインテリジェント スキル タスクの実現に役立ちます。

現時点では、Sim2Real AI はまだイノベーション主導の製品ビジネス実装の段階にあり、物理シミュレーション、データのレンダリングと生成、自動アノテーション計算、具体化に至るまで、研究開発プロセスのあらゆる側面をサポートできるのは自己研究エンジンのみです。重要な問題に取り組み、ノウハウを習得することによってのみ、製品をビジネス シナリオに真に実装することができます。

具現化されたインテリジェント ビジネス実装の L1 ~ L5 パス

Q: テクノロジーから製品、商業実装に至るまでの、身体化されたインテリジェンスの実装パスはどのようなものだと思いますか?

ジャッキー:身体化されたインテリジェンスの本質は、さまざまな汎用化可能なスキルを含むロボット スキル ライブラリを学習することで、あらゆる種類のロボットにさまざまなアプリケーション シナリオでの一般的な操作能力を与えることです。したがって、その商品化は産業、農業、商業、および個人/ビジネスを対象とする必要があります。家族などの境界のあるシナリオを「目的を念頭に置き」、独立したビジネスシナリオでロボットの共通スキルを確立することで製品価値と商業実装を形成します。

技術的には、身体化されたインテリジェンスは Sim2Real AI を使用してタスクの理解、デジタル アセットの生成、データ シミュレーションの生成、AI モデルのトレーニングの自動化されたチェーンを開き、最も効率的な方法でユニバーサル ロボット タスクの学習を達成し、適用可能なソフトウェアおよびハードウェア製品を形成する必要があります。組み込み型スマート SoC、スマート センサー、ユニバーサル ロボット コントローラーなど、さまざまなビジネス シナリオに対応します。

その過程で、身体化されたインテリジェンスは、まずロボット アームや複合ロボットなどの比較的成熟したハードウェア オントロジーを強化する必要があります。器用なハンドやヒューマノイド ロボットなどのユニバーサル オントロジーが成熟して大量生産されることで、全体的な機能がさらに向上し、商業的価値が高まります。が生成されます。



質問: あなたが提案した、汎用性の高い身体化知能 L1 ~ L5 の 5 つの段階に基づいて、インターディメンションは現在どの段階にありますか?

ジャッキー:自社開発の DexVerse™ 組み込みインテリジェンス エンジンに基づいて、Kuandimension は、シナリオ タスクの理解、デジタル アセット生成、データ シミュレーション生成、AI モデル トレーニングなどのフルチェーン機能を確立し、スマート製造やスマート農業などのアプリケーション シナリオに対応します。は、インテリジェントビジョンセンサー、PickWizソフトウェア、複合ロボット、その他の具体化されたインテリジェント製品を含む包括的なネットワークを形成しています。

現在、Kuanweiは「Simulation to Reality」ビジネスモデルを実装し、自動車部品、3C製造、新エネルギー、家電、化学、物流など30以上の業界で導入しており、GAC、美的などの企業と協力している。 、ハイアール、パナソニックやレンズテクノロジーなど、業界をリードする多くの顧客。

上図の L1 ~ L5 を参照すると、Kuandimension は身体化知能の L1 段階の開発を完了し、世界でも数少ない L2 レベルに向けて着実に進んでいます。

Q: 身体化された知能と人型ロボットの最終的な生態系チェーンはどのようなものになると思いますか? Kuan Dimension は完全な (人型) ロボット ハードウェアを作成するでしょうか?

ジャッキー:ユニバーサルロボットエンドのエコロジカルチェーンは、人型本体メーカー、コンポーネントメーカー、視覚および触覚センサーメーカー、具現化スマートチップおよびソリューションサプライヤーなどで構成されています。異次元の DexVerse™ に組み込まれたインテリジェンス エンジンは、DexVerse™ の Sim2Real AI フル チェーン機能を通じて、産業チェーンが最終状態に達するプロセスにおける技術的パス、製品形式、シナリオ ビジネスの実装などにおいて決定的な役割を果たします。 、それは、ハードウェア構成、センサーの選択、データモーダルパラダイム、およびマルチモーダル大規模モデルの観点から、身体化されたインテリジェントロボットの統一標準を促進する商業的な閉ループアプローチから、目的を念頭に置いて開始されます。

KuanDimension は、複合ロボット、インテリジェント視覚センサー、PickWiz ソフトウェアなどの具体化されたインテリジェント製品を形成し、より多くのビジネス シナリオを実装する過程で、まず比較的成熟したモバイル/ホイールフット シャーシ + デュアル ロボット アームを強化します。最終的には、ヒューマノイドロボットオントロジーのメーカーと提携して、一般的な身体化されたインテリジェンスの広範な実装を実現します。