「体現型スマートタウン」が登場！ロボットはスーパーマーケットで買い物をしたり、街を走り回ったりします。上海 AI Lab

2024-07-22

ミンミンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

超リアルなロボットタウンが登場！

ここでは、ロボットも人間と同じようにスーパーマーケットで買い物をすることができます。

食料品の購入と自宅での調理：

オフィスでコーヒーを買うとき (隣に人間の同僚がいる場合):

人型ロボットだけでなく、犬型ロボットやアーム型ロボットもこの「都市」を自由に行き来することができます。

これは、上海 AI 研究所が最近提案した、最初のシミュレートされたインタラクティブ 3D 世界です。GRUtopia（中国名：桃園）。

ここでは、最大で10万インタラクティブで細かく注釈が付けられたシーンは、現実的な都市環境に自由に組み立てられます。

屋内と屋外、レストラン、スーパーマーケット、オフィス、家庭などを含みます。89さまざまなシーンのカテゴリー。

大規模なモデル駆動の NPC、この世界でロボットと会話したり対話したりできます。

このようにして、さまざまなロボットが、最近人気の Sim2Real ルートである仮想都市でのさまざまな行動シミュレーションを完了することができ、具体化されたインテリジェントな現実世界データを収集する困難とコストを大幅に削減できます。

このプロジェクトはオープンソースになる予定で、デモのインストールガイドは現在 GitHub で入手できます。

インストールが成功すると、デモ内で人型ロボットを制御して室内を移動したり、さまざまな視野角の調整をサポートしたりできます。

ロボットのための仮想楽園

次の 3 つの主要なタスクがあります。

その中でも GRScenes は大規模なシーンデータを含むデータセットです。

これにより、ロボットが移動および動作できる環境の範囲が大幅に拡大されました。これまでの研究は家庭のシーンに重点を置いていました。

研究では、その目標は、汎用ロボットの機能をスーパーマーケットや病院などのさまざまなサービスシナリオに拡張することであると述べられています。遊園地、博物館、展示場などの屋内外の環境もカバーします。

シーンごとに詳細かつ高品質なモデリングが実行され、100 シーンには 96 のカテゴリに含まれる 2956 個のインタラクティブオブジェクトと 22001 個の非インタラクティブオブジェクトが含まれていました。

GRResidents は NPC システムです。

これは、シミュレートされた環境のシーン情報についての豊富な知識を備えながら、大規模なモデルによって駆動されます。したがって、NPC はオブジェクト間の空間関係を推測し、動的な会話やタスクの割り当てに参加できます。

このシステムの助けを借りて、GRUtopia はロボットが完了するための多数のシーンタスクを生成できます。

人間との相互検証により、NPC システムはオブジェクトの記述と位置特定において優れた精度を実現します。

記述実験では、NPC システムに記述するオブジェクトをランダムに選択させ、人間が対応するオブジェクトを見つけることができれば成功とみなされます。

測位実験では、その逆が当てはまり、NPC システムが人間による説明に基づいて対応するオブジェクトを見つけることができれば、実験は成功します。

さまざまな大規模モデルの呼び出しの成功率は、全体として、GPT-4o が最高のパフォーマンスを示します。

GRBench は、身体化されたインテリジェンスのパフォーマンスを評価するベンチマークです。

これには、オブジェクトロコナビゲーション、ソーシャルロコナビゲーション、ロコ操作の 3 つのベンチマークが含まれており、これら 3 つの評価の難易度は徐々に高くなります。

NPC と制御 API のパフォーマンスを分析するために、この研究では LLM と VLM に基づくベースラインを提案し、ベースライン設計の合理性を検証します。

実験結果は、大規模なモデルをバックエンドエージェントとして使用すると、ランダム戦略と比較してすべてのベンチマークでパフォーマンスが向上することを示しています。

そしてQwen-VL は対話に関して GPT-4o を上回ります。

最終的な比較では、他の GRUtopia プラットフォームはあらゆる面でより強力です。

この研究作業は、上海人工知能研究所 OpenRobot Lab によって主導されました。

この研究室は、身体化された汎用人工知能の研究に焦点を当てており、ソフトウェア、ハードウェア、仮想現実、現実を統合する汎用ロボットアルゴリズムシステムの構築に取り組んでいます。

今年5月、チームはまた、具体化されたマルチモーダル大規模モデルであるGrounded 3D-LLMをリリースした。これは、物体から局所領域までのシーン記述と具体化された対話データを自動的に生成することができ、現在の3次元シーン理解の制限を効果的に緩和することができる。

用紙のアドレス:
https://arxiv.org/abs/2407.10943

GitHub アドレス:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file

ニュース