私の連絡先情報
郵便管理者@information.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
マシンハートレポート
編集者:張騫
80本以上の論文で「ロボット+3D」の研究進展がわかる。
少し前に、著名な AI 学者でスタンフォード大学教授のリー・フェイフェイ氏が設立した新興企業 World Labs が、わずか 3 か月で 2 回の資金調達を完了したと複数のメディアが報じました。今回の資金調達では約 1 億米ドルを調達しました。評価額は10億米ドルを超え、新たなユニコーンとなった。
World Labs の開発方向は「空間インテリジェンス」、つまり 3 次元の物理世界を理解し、物体の物理的特性、空間的位置、機能をシミュレートできるモデルの開発に焦点を当てています。 Li Feifei 氏は、「空間知能」が AI 開発の重要な部分であると考えています。彼女のチームは、スタンフォード大学の研究室で、大規模な言語モデルを使用して 3 次元世界で行動できるようにコンピューターとロボットを訓練しています。ドアを開けたり、サンドイッチやその他のタスクを口頭で指示に従って実行したりするロボットアーム。 (詳細は「李飛飛氏、AIに世界を真に理解させるための起業の方向性「空間知能」を解説」を参照)
「空間知性」の概念を説明するために、リー・フェイフェイ氏は、前足を伸ばしてグラスをテーブルの端に押しつけている猫の写真を見せた。彼女によると、人間の脳はほんの一瞬で「このガラスの形状、三次元空間での位置、テーブルや猫、その他すべてのものとの関係」を評価し、何が起こるかを予測し、それを防ぐために行動を起こしてください。
実際、現在、李飛飛氏以外にも多くの研究チームが3Dビジョン+ロボットの方向性に注目している。これらのチームは、現在の AI の制限の多くは、モデルが 3D 世界を深く理解していないことに起因すると考えています。このパズルを完成させたい場合は、3D ビジョンの方向により多くの研究エネルギーを投資する必要があります。さらに、3D ビジョンは、環境の奥行き認識と空間理解を提供します。これは、複雑な 3 次元世界でのロボットのナビゲーション、操作、意思決定に重要です。
では、この方向の研究者が参考にできる体系的な研究資料はあるのでしょうか? Heart of the Machine は最近、次のようなものを発見しました。
プロジェクトリンク: https://github.com/zubair-irshad/Awesome-Robotics-3D
「Awesome-Robotics-3D」と呼ばれるこの GitHub リポジトリには、「3D ビジョン + ロボット」に関する合計 80 以上の論文が収集されており、ほとんどの論文には対応する論文、プロジェクト、およびコードのリンクが提供されています。
これらの文書は次のトピックに分類できます。
これらの論文には、arXiv のプレプリント、RSS、ICRA、IROS、CORL などの主要なロボット工学カンファレンスの論文、CVPR、ICLR、ICML などのコンピューター ビジョンと機械学習の分野のトップ カンファレンスの論文が含まれます。とても貴重なものです。
各パートの論文リストは以下の通りです。
1. 戦略的な学習
2. 事前トレーニング
3. VLM と LLM
4.エクスプレス
5. シミュレーション、データセット、ベンチマーク
さらに、著者は参照できる 2 つのレビュー ペーパーも提供しています。
論文の紹介: この論文では、LLM が 3D データを処理、理解、生成できるようにする方法論の包括的な概要を提供し、コンテキスト内の学習、ステップバイステップの推論、オープンな語彙機能、および広範な語彙機能などの LLM の独自の利点を強調します。世界の知識によれば、これらの利点は、身体化された人工知能システムにおける空間理解と相互作用を大幅に進歩させると期待されています。この研究では、点群から神経放射線場 (NeRF) までのさまざまな 3D データ表現方法をカバーし、3D シーンの理解、説明の生成、質問応答と対話のための LLM との統合、および次のような空間タスクのための LLM ベースのエージェントを調査しています。推論、計画、ナビゲーション。さらに、この論文では 3D と言語を統合する他の方法について簡単にレビューします。この論文は、これらの研究のメタ分析を通じて、大きな進歩があったことを明らかにし、3D-LLM の可能性を最大限に活用するための新しい方法を開発する必要性を強調しています。
この調査をサポートするために、著者らは、このトピックに関連する論文を整理してリストするプロジェクト ページを設立しました: https://github.com/ActiveVisionLab/Awesome-LLM-3D
論文紹介: この記事は、ロボット制御分野における 3D ビジョンの最新の進歩、特に人間の知能を模倣し、ロボットにより柔軟な作業能力を与える点について包括的に分析します。この記事では、従来のロボット制御が通常依存している 2D ビジョン システムとその限界について説明し、乱雑な背景での一般的なオブジェクト認識、オクルージョン推定、人間のような柔軟性など、オープンワールドで 3D ビジョン システムが直面する課題を指摘しています。コントロール。この記事では、3D データの取得と表現、ロボットのビジョン キャリブレーション、3D オブジェクトの検出/認識、6 自由度の姿勢推定、把握推定、動作計画などの主要なテクノロジについて説明します。さらに、いくつかの公開データセット、評価基準、比較分析、現在の課題も紹介されています。最後に、この記事ではロボット制御の関連応用分野を調査し、将来の研究の方向性と未解決の問題について説明します。
興味のある読者は、プロジェクトのリンクをクリックして学習を開始できます。