ニュース

世界初!彭城研究所、約400件の文書を調査

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

身体化された知能は、一般的な人工知能を実現する唯一の方法です。その核心は、インテリジェント エージェントとデジタル空間および物理世界との相互作用を通じて複雑なタスクを完了することです。近年、マルチモーダル大型モデルとロボット技術が大きく進歩し、身体化された知能が世界的な技術競争と産業競争の新たな焦点となっています。しかし、身体性知能の開発の現状を包括的に分析できるレビューは現時点では不足しています。したがって、Pengcheng 研究所のマルチエージェントおよび身体性知能研究所は、中山大学の HCP 研究所の研究者と協力しています、身体化インテリジェンスの最新開発の包括的な分析、マルチモーダル大型モデルの時代における身体化されたインテリジェンスの世界初のレビューを開始しました。

このレビューでは、約 400 の文書を調査し、身体化された知能に関する研究を多面的に包括的に分析しました。このレビューでは、まず代表的なものを紹介します。身体化ロボットと身体化シミュレーション プラットフォーム 、研究の焦点と限界についての詳細な分析を提供します。次に、4つの主要な研究内容を徹底的に分析します。1)身体化された知覚,2)身体化された相互作用,3)身体化された知性そして4)仮想から現実への移行 、これらの研究内容は、最先端の手法、基本的なパラダイム、および包括的なデータセットをカバーしています。さらに、このレビューでは、デジタル空間と物理世界において身体化エージェントが直面する課題を調査し、動的なデジタル環境と物理環境におけるアクティブなインタラクションにとって身体エージェントの重要性を強調しています。最後に、このレビューでは、身体化されたインテリジェンスの課題と限界を要約し、その潜在的な将来の方向性について議論します。このレビューは、身体化知能研究の基本的な参考資料を提供し、関連する技術革新を促進することを目的としています。また、このレビューでは、具体化されたインテリジェンスの論文リストも Github 上に公開されており、関連する論文やコードリポジトリは継続的に更新されますので、ご注目ください。



論文アドレス: https://arxiv.org/pdf/2407.06886

Embodied Intelligence 論文リスト: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 肉体化された知性の過去と現在

身体化された知能の概念は、エージェントが仮想環境(デジタル空間)における抽象的な問題の解決に限定されない知性(知性)を発揮できるかどうかを判定するために、1950年に確立された身体化チューリング・テストにおいてアラン・チューリングによって最初に提案されました。身体化された知能の基盤であり、デジタル空間と物理世界に存在し、ロボットだけでなく他のデバイスを含むさまざまなエンティティの形で具現化されており、物理世界の複雑さと不可能性に対処できます。したがって、身体性知能の開発は、一般的な人工知能を実現するための基本的な方法とみなされます。身体化された知能の複雑さを掘り下げ、現在の開発状況を評価し、将来の軌道を検討することが特に重要です。今日、身体化されたインテリジェンスは、コンピューター ビジョン、自然言語処理、ロボティクスなどの多くの主要テクノロジーをカバーしています。その代表的なものは次のとおりです。身体化された知覚、身体化されたインタラクション、身体化された知性、そして仮想から現実への移行 。身体化されたタスクでは、身体化されたエージェントは言語命令における人間の意図を完全に理解し、周囲の環境を積極的に探索し、仮想環境と物理環境からマルチモーダルな要素を包括的に認識し、複雑なタスクを完了するために適切な操作を実行する必要があります。マルチモーダル モデルの急速な進歩により、複雑な環境において従来の深層強化学習手法よりも優れた多様性、柔軟性、一般化機能が実証されています。最先端のビジュアル エンコーダによって事前トレーニングされたビジュアル表現は、オブジェクト カテゴリ、ポーズ、ジオメトリの正確な推定を提供し、具体化されたモデルが複雑で動的な環境を包括的に認識できるようにします。強力な大規模言語モデルにより、ロボットは人間の言語による指示をよりよく理解できるようになり、身体化されたロボットの視覚表現と言語表現を調整する実現可能な方法が提供されます。ワールド モデルは、重要なシミュレーション機能と物理法則の十分な理解を実証し、具体化されたモデルが物理学と実際の環境を完全に理解できるようにします。これらの進歩により、身体化された知能が複雑な環境を包括的に認識し、人間と自然に対話し、タスクを確実に実行できるようになります。以下の図は、具体化されたエージェントの典型的なアーキテクチャを示しています。



身体化されたインテリジェンスフレームワーク

このレビューでは、次のような身体化インテリジェンスの現在の進歩の包括的な概要を提供します。(1)具現化ロボット——物理世界に具現化されたインテリジェンスのためのハードウェア ソリューション (2)身体化されたシミュレーションプラットフォーム——実体化したエージェントを効率的かつ安全に訓練するためのデジタル空間 (3)身体化された知覚—— 3D 空間を積極的に認識し、複数の感覚モダリティを統合します。(4)身体化された相互作用——環境と効果的かつ合理的に対話し、指定されたタスクを完了するために環境を変更することさえあります。身体化された知性——マルチモーダルな大規模モデルを使用して抽象的な命令を理解し、それらを一連のサブタスクに分割し、それらを段階的に完了します (6)。仮想から現実への移行 ——デジタル空間で学んだスキルを物理世界に移転し、一般化します。以下の図は、デジタル空間から物理世界に至る身体化された知性のシステムフレームワークを示しています。このレビューは、身体化された知能に関する包括的な背景知識、研究傾向、技術的洞察を提供することを目的としています。



このレビューの全体構成

2. 身体化ロボット

身体化されたインテリジェンスは物理環境と積極的に相互作用し、ロボット、スマート家電、スマート グラス、自動運転車など、幅広い身体化された形態をカバーします。その中でも代表的な具現化形態の一つとしてロボットが注目を集めている。さまざまなアプリケーション シナリオに応じて、ロボットはハードウェア機能を最大限に活用して特定のタスクを完了できるようにさまざまな形で設計されています。以下の図に示すように、具体化されたロボットは一般に次の 2 つに分類できます。(1) 研究室の自動化合成、教育、産業などの分野でよく使用されるロボット アームなどの固定ベース ロボット。(2) 車輪付きロボット。非常に効率的であり、その機動性で有名で、物流、倉庫保管、保安検査で広く使用されています。四足歩行ロボットは、その安定性と適応性で知られており、複雑な地形での探知、救助任務、軍事用途に最適です。 (5) 人型ロボットは、器用な手を鍵として、サービス産業、医療、コラボレーション環境などで広く使用されています。 (6) バイオニックロボットは、自然生物の効果的な動きと機能をシミュレートすることにより、複雑で動的な環境でタスクを実行します。



さまざまな形態の具現化ロボット

3. 具現化されたインテリジェントシミュレーションプラットフォーム

身体化インテリジェンス シミュレーション プラットフォームは、費用対効果の高い実験手段、潜在的に危険なシナリオをシミュレートすることで安全性を確保する機能、多様な環境でテストする拡張性、およびより広範な開発を容易にする設計機能を迅速にプロトタイプ化する機能を提供するため、身体化インテリジェンスにとって不可欠です。研究コミュニティに提供し、正確な研究のための制御された環境を提供し、トレーニングと評価のためのデータを生成し、アルゴリズム比較のための標準化されたベンチマークを提供します。エージェントが環境と対話するには、現実的なシミュレート環境を構築する必要があります。これには、環境の物理的特性、オブジェクトの特性、およびそれらの相互作用を考慮する必要があります。以下の図に示すように、このレビューでは、基礎となるシミュレーションに基づく一般的なプラットフォームと実際のシナリオに基づくシミュレーション プラットフォームの 2 つのシミュレーション プラットフォームを分析します。



ユニバーサルシミュレーションプラットフォーム



実際のシナリオに基づいたシミュレーション プラットフォーム

4. 身体化された知覚

将来の視覚認識の「北極星」は、具体化を中心とした視覚的推論と社会的知性です。下の図に示すように、身体化された知覚を持つエージェントは、画像内のオブジェクトを認識するだけでなく、物理世界を移動して環境と対話する必要があり、そのためには 3 次元空間と動的環境をより徹底的に理解する必要があります。身体化された知覚には、視覚的な知覚と推論能力、シーン内の 3 次元の関係の理解、視覚情報に基づいた複雑なタスクの予測と実行が必要です。このレビューでは、能動視覚知覚、3D視覚定位、視覚言語ナビゲーション、非視覚知覚(触覚センサー)などを紹介します。



アクティブな視覚認識フレームワーク

5. 身体化されたインタラクション

身体的インタラクションとは、エージェントが物理空間またはシミュレートされた空間で人間および環境と対話するシナリオを指します。典型的な身体化された対話タスクには、身体化された質問応答と身体化された把握が含まれます。以下の図に示すように、具現化された質問と回答のタスクでは、エージェントは一人称視点で環境を探索し、質問に答えるために必要な情報を収集する必要があります。自律的な探索機能と意思決定機能を持つエージェントは、環境を探索するためにどのようなアクションを実行するかを検討するだけでなく、次の図に示すように、質問に答えるためにいつ探索を停止するかを決定する必要もあります。



具現化された Q&A フレームワーク

人間との質疑応答のインタラクションに加えて、身体的インタラクションには、オブジェクトを掴んだり配置したりするなど、人間の指示に基づいた操作の実行も含まれ、それによってエージェント、人間、オブジェクト間のインタラクションが完了します。示されているように、身体化された把握には、包括的な意味の理解、シーンの認識、意思決定、および堅牢な制御計画が必要です。身体化された把握方法は、従来のロボットの運動学的把握と大規模モデル (大規模言語モデルや視覚言語基本モデルなど) を組み合わせたもので、エージェントが視覚的能動的知覚、言語理解、推論などの多感覚認識の下で把握タスクを実行できるようにします。



言語ガイド付きのインタラクティブなクロール フレームワーク

6. 身体化された知性

エージェントは、環境を感知し、特定の目標を達成するために行動を起こすことができる自律的なエンティティとして定義されます。マルチモーダル大規模モデルの最近の進歩により、現実世界のシナリオにおけるエージェントの適用がさらに拡大しました。これらのマルチモーダルな大規模なモデルベースのエージェントが物理エンティティに具体化されると、その機能を仮想空間から物理世界に効果的に移すことができ、それによって具体化されたエージェントになることができます。具現化エージェントが情報が豊富で複雑な現実世界で動作するために、強力なマルチモーダルな認識、対話、および計画機能を備えて開発されています。以下の図に示すように、タスクを完了するために、実体化されたエージェントは通常、次のプロセスを実行します。

(1) 抽象的で複雑なタスクを特定のサブタスク、つまり高レベルで具体化されたタスク計画に分解します。

(2) 身体化された知覚モデルと身体化されたインタラクションモデルを効果的に活用するか、低レベルの身体化された行動計画と呼ばれる基本モデルの戦略機能を活用することによって、これらのサブタスクを段階的に実装します。

ミッション計画には行動する前に考えることが含まれるため、デジタル空間で検討されることが多いことは注目に値します。対照的に、行動計画では、環境との効果的な相互作用を考慮し、この情報をミッション計画者にフィードバックしてミッション計画を調整する必要があります。したがって、肉体を持ったエージェントにとって、デジタル空間から物理世界までその能力を調整し、一般化することが重要です。



マルチモーダル大規模モデルに基づく具体化されたエージェント フレームワーク

7. 仮想から現実への移行

身体化された知能における Sim-to-Real 適応とは、シミュレートされた環境 (デジタル空間) で学習した能力や行動を現実世界 (物理世界) に移すプロセスを指します。このプロセスには、シミュレーションで開発されたアルゴリズム、モデル、制御戦略の有効性の検証と改善が含まれており、それらが物理環境で安定して確実に動作することを保証します。シミュレーションから現実への適応を実現するには、具体化された世界モデル、データ収集とトレーニング方法、および具体化された制御アルゴリズムが 3 つの重要な要素です。以下の図は、5 つの異なる Sim-to-Real パラダイムを示しています。



仮想から現実への 5 つの移行オプション

8. 課題と今後の開発の方向性

身体化されたインテリジェンスは急速に発展していますが、いくつかの課題に直面しており、エキサイティングな将来の方向性を示しています。

(1)高品質なロボットデータセット 。十分な現実世界のロボット データを取得することは依然として大きな課題です。このデータの収集には時間とリソースが大量にかかります。シミュレーションされたデータのみに依存すると、シミュレーションと現実のギャップの問題が悪化します。現実世界の多様なロボット データセットを作成するには、機関間の緊密かつ広範な協力が必要です。さらに、シミュレーション データの品質を向上するには、より現実的で効率的なシミュレータを開発することが重要です。ロボット工学の分野でクロスシナリオおよびクロスタスクのアプリケーションを実現できる普遍的な具現化モデルを構築するには、大規模なデータセットを構築し、実世界のデータを支援する高品質のシミュレート環境データを使用する必要があります。

(2)人体実証データの有効活用 。人間のデモンストレーション データを効率的に利用するには、人間がデモンストレーションしたアクションや行動を活用してロボット システムをトレーニングおよび改善することが含まれます。このプロセスには、大規模で高品質のデータセットからの収集、処理、学習が含まれ、ロボットが学習する必要があるタスクを人間が実行します。したがって、比較的短時間でさまざまなタスクを学習できる身体化モデルをトレーニングするには、アクション ラベル データと組み合わせた、大量の非構造化マルチラベルおよびマルチモーダルの人間のデモンストレーション データを効果的に利用することが重要です。人間のデモンストレーション データを効率的に活用することで、ロボット システムはより高いレベルのパフォーマンスと適応性を達成し、動的な環境で複雑なタスクをより適切に実行できるようになります。

(3)複雑な環境の認識 。複雑な環境の認知とは、物理環境または仮想環境における複雑な現実世界の環境を知覚、理解、ナビゲートする、身体化されたエージェントの能力を指します。非構造化オープン環境の場合、現在の作業は通常、事前トレーニングされた LLM のタスク分解メカニズムに依存しており、広範な常識知識を使用して単純なタスク計画を立てていますが、特定のシーンの理解が不足しています。複雑な環境における知識の伝達と一般化を強化することが重要です。真に多用途なロボット システムは、さまざまな目に見えないシナリオにわたって自然言語命令を理解して実行できなければなりません。これには、適応性とスケーラブルな組み込みエージェント アーキテクチャの開発が必要です。

(4)長距離タスクの実行 。通常、単一コマンドの実行には、ロボットによる長距離タスクの実行が含まれます。たとえば、「キッチンを掃除してください」などのコマンドには、アイテムの並べ替え、床の掃除、テーブルの拭き掃除などの作業が含まれます。これらのタスクを正常に完了するには、ロボットが長期間にわたって一連の低レベルのアクションを計画し、実行できる必要があります。現在の高レベルのタスク プランナーは初期の成功を示していますが、具体化されたタスクへの適応が不足しているため、さまざまなシナリオでは不十分なことがよくあります。この課題に対処するには、強力な知覚能力と広範な常識知識を備えた効率的なプランナーの育成が必要です。

(5)因果関係の発見 。既存のデータ駆動型の身体エージェントは、データ内の相関関係に基づいて意思決定を行います。ただし、このモデリング手法では、モデルが知識、行動、環境の間の因果関係を真に理解することはできず、偏った戦略が生じます。このため、現実世界の環境で解釈可能で堅牢かつ信頼性の高い方法で運用することが困難になります。したがって、身体化された知能は世界の知識によって駆動され、自律的な因果推論能力を備えている必要があります。

(6)継続的な学習 。ロボット工学アプリケーションでは、さまざまな環境でロボット学習戦略を展開するために継続的な学習が重要ですが、この分野はまだ研究されていません。最近の研究では、増分学習、急速動作適応、人間とコンピューターの相互作用学習などの継続学習のサブトピックが検討されていますが、これらのソリューションは通常、単一のタスクまたはプラットフォーム向けに設計されており、基礎となるモデルはまだ考慮されていません。未解決の研究質問と考えられるアプローチには、1) 最新のデータを微調整するときに以前のデータ分布をさまざまな割合でブレンドして壊滅的な忘却を軽減する、2) 新しいタスクの推論学習用に以前の分布またはコースから効率的なプロトタイプを開発する、3) タスクを改善する、などがあります。オンライン学習アルゴリズムのトレーニングの安定性とサンプル効率、4) リアルタイム推論を達成するために、おそらく階層学習または低速制御を通じて、大容量モデルを制御フレームワークにシームレスに統合するための原則に基づいた方法を特定します。

(7)統合評価ベンチマーク 。低レベルの制御戦略を評価するためのベンチマークは多数ありますが、評価スキルが大きく異なることがよくあります。さらに、これらのベンチマークに含まれるオブジェクトやシーンは、多くの場合シミュレーターに制限されています。具現化されたモデルを完全に評価するには、現実的なシミュレーターを使用して複数のスキルをカバーするベンチマークが必要です。高レベルのタスク計画に関しては、多くのベンチマークが質疑応答タスクを通じて計画能力を評価します。しかし、より理想的なアプローチは、計画立案者のみの評価にのみ依存するのではなく、特に長期ミッションの実行において、上位レベルのミッション計画立案者と下位レベルの管制戦略の実行能力を総合的に評価し、成功率を測定することである。この包括的なアプローチにより、組み込まれたインテリジェント システムの機能をより包括的に評価できるようになります。

つまり、身体化知能により、インテリジェントエージェントはデジタル空間や物理世界のさまざまなオブジェクトを認識、認識し、相互作用できるようになり、一般的な人工知能の実現におけるその重要性が実証されています。このレビューは、身体化ロボット、身体化シミュレーションプラットフォーム、身体化知覚、身体化インタラクション、身体化エージェント、仮想現実ロボット制御、および身体化知能の開発促進に影響を与える将来の研究の方向性についての包括的なレビューを提供します。

Pengcheng Laboratory について マルチエージェントおよび身体性知能研究所

Pengcheng Laboratory に所属するマルチエージェントおよび身体知能研究所は、Pengcheng Cloud Brain や China Computing Network などの独立した制御可能な AI インフラストラクチャを利用して、インテリジェント科学とロボット工学の分野でトップの若手科学者を数十人集めています。マルチエージェントコラボレーションやシミュレーショントレーニングプラットフォームなどのユニバーサル基本プラットフォームと、クラウドベースの協調的な具体化されたマルチモーダル大規模モデルの構築に注力し、産業用インターネット、社会ガバナンス、サービスなどの主要なアプリケーションのニーズを強化します。