2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
기계 심장 보고서
편집자: 장첸
80개 이상의 논문이 "로봇공학+3D"의 연구 진행 상황을 이해하고 있습니다.
얼마 전 여러 언론에서는 유명한 AI 학자이자 스탠포드 대학교 교수인 리 페이페이(Li Feifei)가 설립한 스타트업 회사인 World Labs가 단 3개월 만에 두 차례의 자금 조달을 완료했다고 보도했습니다. 가치가 10억 달러를 넘어 새로운 유니콘이 됐다.
월드랩스의 개발 방향은 '공간지능', 즉 3차원 물리적 세계를 이해하고 사물의 물리적 특성, 공간적 위치, 기능을 시뮬레이션할 수 있는 모델 개발에 중점을 두고 있다. Li Feifei는 "공간 지능"이 AI 개발의 핵심 부분이라고 믿습니다. 그녀의 팀은 대규모 언어 모델을 사용하여 3차원 세계에서 작업을 수행하도록 컴퓨터와 로봇을 훈련하고 있습니다. 문을 열고 샌드위치 및 기타 작업을 수행하는 로봇 팔입니다. (자세한 내용은 "Li Feifei가 AI가 세상을 진정으로 이해할 수 있도록 하는 기업 방향 "공간 지능"을 설명합니다"를 참조하세요.)
리페이페이는 '공간 지능' 개념을 설명하기 위해 고양이가 발을 뻗어 유리잔을 테이블 가장자리로 밀고 있는 사진을 보여줬다. 그녀는 짧은 순간에 인간의 뇌는 "이 유리의 기하학적 구조, 3차원 공간에서의 위치, 테이블, 고양이 및 기타 모든 것들과의 관계"를 평가한 다음 무슨 일이 일어날지 예측하고 이를 해결하기 위한 조치를 취하세요.
실제로 현재 리페이페이(Li Feifei) 외에도 많은 연구팀이 3D 비전+로봇의 방향에 주목하고 있다. 이 팀은 현재 AI의 많은 한계가 모델이 3D 세계에 대한 깊은 이해가 부족하기 때문에 발생한다고 믿습니다. 이 퍼즐을 완성하려면 3D 비전 방향에 더 많은 연구 에너지를 투자해야 합니다. 또한 3D 비전은 복잡한 3차원 세계에서 로봇 탐색, 작동 및 의사 결정에 중요한 환경에 대한 깊이 인식과 공간적 이해를 제공합니다.
그렇다면 이 방향의 연구자들이 참고할 수 있는 체계적인 연구 자료가 있을까요? Heart of the Machine은 최근 다음을 발견했습니다.
프로젝트 링크: https://github.com/zubair-irshad/Awesome-Robotics-3D
"Awesome-Robotics-3D"라는 GitHub 저장소에는 "3D 비전 + 로봇" 방향으로 총 80편 이상의 논문이 수집되어 있습니다. 대부분의 논문은 해당 논문, 프로젝트 및 코드 링크를 제공합니다.
이 논문은 다음과 같은 주제로 나눌 수 있습니다.
이러한 논문에는 arXiv 사전 인쇄본뿐만 아니라 RSS, ICRA, IROS, CORL과 같은 최고의 로봇 공학 컨퍼런스의 논문뿐만 아니라 CVPR, ICLR, ICML과 같은 컴퓨터 비전 및 기계 학습 분야의 최고 컨퍼런스의 논문도 포함됩니다. 그들은 매우 귀중합니다.
각 부분의 논문 목록은 다음과 같습니다.
1. 전략적 학습
2. 사전 훈련
3. VLM 및 LLM
4. 익스프레스
5. 시뮬레이션, 데이터 세트 및 벤치마크
또한 저자는 참고할 수 있는 두 가지 리뷰 논문도 제공합니다.
논문 소개: 이 논문은 LLM이 3D 데이터를 처리, 이해 및 생성할 수 있도록 하는 방법론에 대한 포괄적인 개요를 제공하고 상황 내 학습, 단계별 추론, 개방형 어휘 기능 및 광범위한 LLM의 고유한 장점을 강조합니다. 세계지식, 이러한 장점은 구현된 인공지능 시스템의 공간적 이해와 상호작용을 크게 향상시킬 것으로 기대됩니다. 본 연구에서는 포인트 클라우드부터 NeRF(Neural Radiation Fields)까지 다양한 3D 데이터 표현 방법을 다루며, 3D 장면 이해, 설명 생성, 질문 답변 및 대화를 위한 LLM과의 통합뿐만 아니라 공간 작업을 위한 LLM 기반 에이전트도 검토합니다. 추론, 계획 및 탐색. 또한 이 논문에서는 3D와 언어를 통합하는 다른 방법을 간략하게 검토합니다. 이러한 연구에 대한 메타 분석을 통해 이 논문은 상당한 진전을 보여주고 3D-LLM의 잠재력을 완전히 활용하기 위한 새로운 방법을 개발해야 할 필요성을 강조합니다.
이 조사를 지원하기 위해 저자는 주제와 관련된 논문을 구성하고 나열하는 프로젝트 페이지(https://github.com/ActiveVisionLab/Awesome-LLM-3D)를 설정했습니다.
논문 소개: 이 기사에서는 로봇 제어 분야, 특히 인간 지능을 모방하고 로봇에게 보다 유연한 작업 기능을 제공하는 분야에서 3D 비전의 최신 진행 상황을 포괄적으로 분석합니다. 이 기사에서는 기존 로봇 제어가 일반적으로 의존하는 2D 비전 시스템과 그 한계에 대해 논의하고, 어수선한 배경에서의 일반적인 객체 인식, 폐색 추정, 인간과 같은 유연성 등 개방형 세계에서 3D 비전 시스템이 직면한 과제를 지적합니다. 제어. 이 기사에서는 3D 데이터 수집 및 표현, 로봇 비전 보정, 3D 물체 감지/인식, 6자유도 자세 추정, 파악 추정 및 모션 계획과 같은 핵심 기술을 다룹니다. 또한 일부 공개 데이터 세트, 평가 기준, 비교 분석 및 현재 과제가 소개됩니다. 마지막으로, 본 논문에서는 로봇 제어와 관련된 응용 분야를 살펴보고 향후 연구 방향과 현안을 논의합니다.
관심 있는 독자는 프로젝트 링크를 클릭하여 학습을 시작할 수 있습니다.