소식

세계 최초!Pengcheng Laboratory에서 약 400개 문서를 조사했습니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

구체화된 지능은 일반 인공지능을 달성할 수 있는 유일한 방법이며, 그 핵심은 지능형 에이전트와 디지털 공간 및 물리적 세계의 상호 작용을 통해 복잡한 작업을 완료하는 것입니다. 최근 몇 년 동안 다중 모드 대형 모델과 로봇 공학 기술이 큰 발전을 이루었고, 체화된 지능이 글로벌 기술과 산업 경쟁의 새로운 초점이 되었습니다. 그러나 현재는 체화지능 개발 현황을 종합적으로 분석할 수 있는 검토가 부족한 실정이다. 그러므로,Pengcheng 연구소의 다중 에이전트 및 구현 지능 연구소는 Sun Yat-sen University의 HCP 연구소 연구원과 협력합니다., 구체화된 지능의 최신 개발에 대한 포괄적인 분석,다중 모드 대형 모델 시대에 세계 최초로 체화된 지능에 대한 검토를 시작했습니다.

이번 리뷰에서는 거의 400개에 달하는 문서를 조사하고 다양한 차원에서 체화된 지능에 관한 연구를 포괄적으로 분석했습니다.이 리뷰에서는 먼저 몇몇 대표자를 소개합니다.구현된 로봇 및 구현된 시뮬레이션 플랫폼 , 연구 초점과 한계에 대한 심층 분석을 제공합니다. 그리고 다음과 같은 네 가지 주요 연구 내용을 철저히 분석한다. 1)구체화된 인식,2)구체화된 상호작용,3)구체화된 지능그리고 4)가상에서 현실로의 마이그레이션 , 이러한 연구 내용은 최첨단 방법, 기본 패러다임 및 포괄적인 데이터 세트를 다루고 있습니다. 또한, 이 리뷰에서는 디지털 공간과 물리적 세계에서 구현된 에이전트가 직면한 과제를 탐색하고 동적 디지털 및 물리적 환경에서 적극적인 상호 작용의 중요성을 강조합니다. 마지막으로, 검토에서는 구체화된 지능의 과제와 한계를 요약하고 잠재적인 미래 방향에 대해 논의합니다. 본 리뷰를 통해 체화된 지능 연구에 대한 기본 참고 자료를 제공하고 관련 기술 혁신을 촉진할 수 있기를 바랍니다. 또한, 이번 리뷰에서는 구체화된 지능 논문 목록도 Github에 공개했습니다. 관련 논문과 코드 리포지토리는 지속적으로 업데이트될 예정이니 많은 관심 부탁드립니다.



논문 주소: https://arxiv.org/pdf/2407.06886

구현된 지능 논문 목록: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 체화된 지능의 과거와 현재의 삶

구체화된 지능의 개념은 에이전트가 가상 환경(디지털 공간)에서 추상적인 문제를 해결하는 데 국한되지 않는 지능(intelligence)을 보여줄 수 있는지 여부를 확인하기 위해 1950년에 확립된 Embodied Turing Test에서 Alan Turing에 의해 처음 제안되었습니다. 디지털 공간과 물리적 세계에 존재하며, 로봇뿐만 아니라 다른 장치를 포함한 다양한 개체의 형태로 구현되며, 물리적 세계의 복잡성과 불가능성에 대처할 수 있습니다. 따라서 체화된 지능의 개발은 일반적인 인공지능을 달성하기 위한 기본적인 방법으로 간주된다. 구현된 지능의 복잡성을 조사하고, 현재 개발 상태를 평가하고, 미래 궤적을 고려하는 것이 특히 중요합니다.오늘날 구체화된 지능은 컴퓨터 비전, 자연어 처리, 로봇공학 등 다양한 핵심 기술을 포괄하며, 그 중 가장 대표적인 것이구체화된 인식, 구체화된 상호작용, 구체화된 지능 및 가상에서 현실로의 전송 . 구체화된 작업에서 구체화된 에이전트는 언어 지시에서 인간의 의도를 완전히 이해하고, 주변 환경을 적극적으로 탐색하고, 가상 및 물리적 환경의 다중 모드 요소를 포괄적으로 인식하고, 복잡한 작업을 완료하기 위해 적절한 작업을 수행해야 합니다. 다중 모드 모델의 급속한 발전은 복잡한 환경에서 기존의 심층 강화 학습 방법보다 더 큰 다양성, 유연성 및 일반화 기능을 보여줍니다. 최첨단 시각적 인코더로 사전 훈련된 시각적 표현은 객체 범주, 포즈 및 기하학적 구조에 대한 정확한 추정을 제공하여 구현된 모델이 복잡하고 역동적인 환경을 포괄적으로 인식할 수 있도록 합니다. 강력한 대규모 언어 모델을 통해 로봇은 인간의 언어 지침을 더 잘 이해할 수 있으며 구현된 로봇에 대한 시각적 및 언어적 표현을 정렬할 수 있는 실행 가능한 방법을 제공합니다. 월드 모델은 중요한 시뮬레이션 기능과 물리 법칙에 대한 올바른 이해를 보여줌으로써 구현된 모델이 물리학과 실제 환경을 완전히 이해할 수 있도록 해줍니다. 이러한 발전을 통해 구체화된 지능은 복잡한 환경을 포괄적으로 인식하고 인간과 자연스럽게 상호 작용하며 작업을 안정적으로 수행할 수 있습니다. 아래 그림은 구현된 에이전트의 일반적인 아키텍처를 보여줍니다.



구체화된 지능 프레임워크

이 리뷰에서는 다음을 포함하여 구체화된 지능의 현재 발전에 대한 포괄적인 개요를 제공합니다.구체화된 로봇——실제 세계의 지능 구현을 위한 하드웨어 솔루션(2)구현된 시뮬레이션 플랫폼——체화된 에이전트를 효율적이고 안전하게 훈련하기 위한 디지털 공간입니다.구체화된 인식—— 3D 공간을 적극적으로 인식하고 다양한 감각 양식을 통합합니다. (4)구체화된 상호작용——환경과 효과적이고 합리적으로 상호 작용하고 지정된 작업을 완료하기 위해 환경을 변경하기도 합니다. (5)구체화된 지능——다중 모드 대형 모델을 사용하여 추상 지침을 이해하고 이를 일련의 하위 작업으로 나눈 다음 단계별로 완료합니다(6).가상에서 현실로의 마이그레이션 ——디지털 공간에서 배운 기술을 물리적 세계로 전이하고 일반화합니다. 아래 그림은 디지털 공간에서 물리적 세계까지 구현된 지능의 시스템 프레임워크를 보여줍니다. 본 리뷰는 구체화된 지능에 대한 포괄적인 배경 지식, 연구 동향 및 기술적 통찰력을 제공하는 것을 목표로 합니다.



이 리뷰의 전체 구조

2. 구체화된 로봇

구체화된 지능은 물리적 환경과 적극적으로 상호 작용하며 로봇, 스마트 가전, 스마트 안경, 자율주행차 등 다양한 구체화된 형태를 포괄합니다. 그 중에서도 가장 대표적인 구현 형태 중 하나로 로봇이 많은 주목을 받고 있다. 다양한 적용 시나리오에 따라 로봇은 하드웨어 기능을 최대한 활용하여 특정 작업을 완료할 수 있도록 다양한 형태로 설계되었습니다. 아래 그림에서 볼 수 있듯이 구현된 로봇은 일반적으로 다음과 같이 나눌 수 있습니다. (1) 실험실 자동화 합성, 교육, 산업 및 기타 분야에서 자주 사용되는 로봇 팔과 같은 고정 기반 로봇, (2) 바퀴 달린 로봇; 매우 효율적이며 이동성으로 유명하며 물류, 창고 보관 및 보안 검사에 널리 사용됩니다. (3) 강력한 오프로드 기능과 이동성을 갖춘 크롤러 로봇은 농업, 건설 및 재난 현장 대응에서 잠재력을 보여주었습니다. 네 발 달린 동물 안정성과 적응성으로 잘 알려진 이 로봇은 복잡한 지형 탐지, 구조 임무 및 군사 응용 분야에 이상적입니다. (5) 손재주가 뛰어난 휴머노이드 로봇은 서비스 산업, 의료, 협업 환경에서 널리 사용되고 있습니다. (6) 바이오닉 로봇은 자연 유기체의 효과적인 움직임과 기능을 시뮬레이션하여 복잡하고 역동적인 환경에서 작업을 수행합니다.



다양한 형태의 로봇 구현

3. 구현된 지능형 시뮬레이션 플랫폼

구현된 지능 시뮬레이션 플랫폼은 비용 효율적인 실험 수단, 잠재적으로 위험한 시나리오를 시뮬레이션하여 안전을 보장하는 기능, 다양한 환경에서 테스트할 수 있는 확장성, 신속한 프로토타입화 기능을 제공하므로 구현된 지능에 매우 중요합니다. 연구 커뮤니티, 정확한 연구를 위한 통제된 환경 제공, 교육 및 평가를 위한 데이터 생성, 알고리즘 비교를 위한 표준화된 벤치마크 제공. 에이전트가 환경과 상호작용하기 위해서는 현실적인 시뮬레이션 환경을 구축해야 합니다. 이를 위해서는 환경의 물리적 특성, 물체의 속성 및 상호 작용을 고려해야 합니다. 아래 그림에서 볼 수 있듯이 본 검토에서는 기본 시뮬레이션을 기반으로 한 일반 플랫폼과 실제 시나리오를 기반으로 한 시뮬레이션 플랫폼이라는 두 가지 시뮬레이션 플랫폼을 분석합니다.



범용 시뮬레이션 플랫폼



실제 시나리오 기반의 시뮬레이션 플랫폼

4. 구체화된 인식

미래 시지각의 북극성은 체현 중심의 시각적 추론과 사회적 지능이다. 아래 그림에서 볼 수 있듯이, 체화된 지각을 가진 에이전트는 단순히 이미지 속 사물을 인식하는 것이 아니라 물리적 세계에서 이동하고 환경과 상호작용해야 하므로 3차원 공간과 동적 환경에 대한 보다 철저한 이해가 필요합니다. 구체화된 인식에는 시각적 인식 및 추론 능력, 장면의 3차원 관계 이해, 시각적 정보를 기반으로 복잡한 작업 예측 및 수행이 필요합니다. 본 리뷰에서는 능동시각지각, 3차원시각위치지정, 시각언어탐색, 비시각지각(촉각센서) 등을 소개한다.



능동적인 시각적 인식 프레임워크

5. 구체화된 상호작용

구체화된 상호작용은 에이전트가 물리적 또는 시뮬레이션된 공간에서 인간 및 환경과 상호작용하는 시나리오를 의미합니다. 전형적인 구체화된 상호작용 작업에는 구체화된 질문 답변과 구체화된 이해가 포함됩니다. 아래 그림에서 볼 수 있듯이, 구체화된 질문 및 답변 작업에서 에이전트는 질문에 답변하는 데 필요한 정보를 수집하기 위해 1인칭 관점에서 환경을 탐색해야 합니다. 자율 탐색 및 의사 결정 능력을 갖춘 에이전트는 아래 그림과 같이 환경을 탐색하기 위해 어떤 조치를 취해야 할지 고려해야 할 뿐만 아니라, 질문에 답하기 위해 탐색을 중단할 시기도 결정해야 합니다.



구현된 Q&A 프레임워크

인간과의 질의응답 상호작용 외에도 구체화된 상호작용에는 인간의 지시에 따라 물건을 잡고 놓는 등의 작업을 수행하는 것도 포함되어 에이전트, 인간, 사물 간의 상호작용이 완성됩니다. 표시된 대로 구체화된 파악에는 포괄적인 의미론적 이해, 장면 인식, 의사 결정 및 강력한 제어 계획이 필요합니다. 구체화된 파악 방법은 전통적인 로봇 운동학적 파악과 대규모 모델(예: 대형 언어 모델 및 시각적 언어 기본 모델)을 결합하여 에이전트가 시각적 활성 인식, 언어 이해 및 추론을 포함한 다감각 인식 하에서 파악 작업을 수행할 수 있도록 합니다.



언어 기반 대화형 크롤링 프레임워크

6. 구체화된 지능

에이전트는 환경을 감지하고 특정 목표를 달성하기 위해 조치를 취할 수 있는 자율적인 개체로 정의됩니다. 최근 다중 모드 대형 모델의 발전으로 실제 시나리오에서 에이전트 적용이 더욱 확장되었습니다. 이러한 다중 모드 대형 모델 기반 에이전트가 물리적 개체로 구현되면 가상 공간에서 물리적 세계로 자신의 기능을 효과적으로 이전하여 구현된 에이전트가 될 수 있습니다. 정보가 풍부하고 복잡한 현실 세계에서 구현된 에이전트가 작동할 수 있도록 강력한 다중 모드 인식, 상호 작용 및 계획 기능을 갖추고 개발되었습니다. 아래 그림에서 볼 수 있듯이, 구현된 에이전트는 작업을 완료하기 위해 일반적으로 다음과 같은 프로세스를 포함합니다.

(1) 추상적이고 복잡한 작업을 특정 하위 작업으로 분해합니다. 즉, 높은 수준의 구체화된 작업 계획입니다.

(2) 구체화된 인식 및 구체화된 상호 작용 모델을 효과적으로 활용하거나 하위 수준의 구체화된 행동 계획이라고 하는 기본 모델의 전략적 기능을 활용하여 이러한 하위 작업을 점진적으로 구현합니다.

임무 계획에는 행동하기 전에 생각하는 것이 포함되므로 디지털 공간에서 종종 고려된다는 점은 주목할 가치가 있습니다. 대조적으로, 행동 계획은 환경과의 효과적인 상호 작용을 고려해야 하며 이 정보를 임무 계획자에게 다시 제공하여 임무 계획을 조정해야 합니다. 따라서 구체화된 에이전트가 디지털 공간에서 물리적 세계에 이르기까지 자신의 역량을 정렬하고 일반화하는 것이 중요합니다.



다중 모드 대형 모델을 기반으로 하는 구체화된 에이전트 프레임워크

7. 가상에서 현실로의 전환

구체화된 지능에서의 Sim-to-Real 적응은 시뮬레이션된 환경(디지털 공간)에서 학습한 능력이나 행동을 현실 세계(물리 세계)에 전달하는 과정을 의미합니다. 이 프로세스에는 시뮬레이션에서 개발된 알고리즘, 모델 및 제어 전략의 효율성을 검증하고 개선하여 물리적 환경에서 안정적이고 안정적으로 작동하는지 확인하는 작업이 포함됩니다. 시뮬레이션에서 현실로의 적응을 달성하기 위해 구현된 세계 모델, 데이터 수집 및 훈련 방법, 구현된 제어 알고리즘은 세 가지 핵심 요소입니다. 아래 그림은 5가지 Sim-to-Real 패러다임을 보여줍니다.



5가지 가상-현실 마이그레이션 옵션

8. 과제와 향후 발전방향

구체화된 지능은 빠르게 발전하고 있지만 몇 가지 과제에 직면해 있으며 흥미로운 미래 방향을 제시합니다.

(1)고품질 로봇 데이터 세트 . 충분한 실제 로봇 데이터를 얻는 것은 여전히 ​​중요한 과제로 남아 있습니다. 이 데이터를 수집하는 데는 시간이 많이 걸리고 리소스 집약적입니다. 시뮬레이션된 데이터에만 의존하면 시뮬레이션과 현실의 격차 문제가 더욱 악화됩니다. 다양한 실제 로봇 공학 데이터 세트를 생성하려면 기관 간의 긴밀하고 광범위한 협력이 필요합니다. 또한, 시뮬레이션 데이터의 품질을 향상시키기 위해서는 보다 현실적이고 효율적인 시뮬레이터를 개발하는 것이 중요합니다. 로봇공학 분야에서 교차 시나리오 및 교차 작업 적용을 달성할 수 있는 보편적인 구현 모델을 구축하려면 대규모 데이터 세트를 구축하고 고품질 시뮬레이션 환경 데이터를 사용하여 실제 데이터를 지원해야 합니다.

(2)인간 실증 데이터의 효과적인 활용 . 인간의 시연 데이터를 효율적으로 활용하려면 인간이 시연한 행동과 행동을 활용하여 로봇 시스템을 교육하고 개선해야 합니다. 이 프로세스에는 로봇이 학습해야 하는 작업을 인간이 수행하면서 대규모의 고품질 데이터 세트를 수집, 처리 및 학습하는 과정이 포함됩니다. 따라서 상대적으로 짧은 시간에 다양한 작업을 학습할 수 있는 구체화된 모델을 훈련시키기 위해서는 액션 레이블 데이터와 결합된 대량의 비정형 다중 레이블 및 다중 모드 인간 데모 데이터를 효과적으로 활용하는 것이 중요합니다. 인간의 시연 데이터를 효율적으로 활용함으로써 로봇 시스템은 더 높은 수준의 성능과 적응성을 달성할 수 있어 동적 환경에서 복잡한 작업을 더 잘 수행할 수 있습니다.

(3)복잡한 환경 인지 . 복잡한 환경 인식은 물리적 또는 가상 환경에서 복잡한 실제 환경을 인식하고, 이해하고, 탐색할 수 있는 구체화된 에이전트의 능력을 의미합니다. 구조화되지 않은 개방형 환경의 경우 현재 작업은 일반적으로 사전 훈련된 LLM의 작업 분해 메커니즘에 의존하며 간단한 작업 계획을 위해 광범위한 상식 지식을 사용하지만 특정 장면에 대한 이해가 부족합니다. 복잡한 환경에서는 지식 전달과 일반화를 강화하는 것이 중요합니다. 진정한 다용도 로봇 시스템은 보이지 않는 다양한 시나리오에서 자연어 명령을 이해하고 실행할 수 있어야 합니다. 이를 위해서는 적응 가능하고 확장 가능한 구체화된 에이전트 아키텍처의 개발이 필요합니다.

(4)장거리 작업 실행 . 단일 명령을 실행하는 것은 일반적으로 로봇이 품목 재배치, 바닥 청소, 테이블 닦기 등과 같은 활동을 포함하는 "주방 청소"와 같은 명령과 같은 장거리 작업을 수행하는 것과 관련됩니다. 이러한 작업을 성공적으로 완료하려면 로봇이 장기간에 걸쳐 일련의 낮은 수준의 작업을 계획하고 실행할 수 있어야 합니다. 현재의 높은 수준의 작업 계획자는 초기 성공을 보였지만 구현된 작업에 대한 적응이 부족하여 다양한 시나리오에서 부족한 경우가 많습니다. 이러한 과제를 해결하려면 강력한 지각 능력과 광범위한 상식 지식을 갖춘 효율적인 계획가의 개발이 필요합니다.

(5)인과관계 발견 . 기존의 데이터 기반 구체화 에이전트는 데이터 내의 상관 관계를 기반으로 결정을 내립니다. 그러나 이 모델링 방법은 모델이 지식, 행동 및 환경 사이의 인과 관계를 실제로 이해할 수 없게 하여 편향된 전략을 초래합니다. 이로 인해 실제 환경에서 해석 가능하고 강력하며 안정적인 방식으로 작동하기가 어렵습니다. 그러므로 체화된 지능은 세계지식을 바탕으로 구동되어야 하며 자율적인 인과추론 능력을 갖추어야 한다.

(6)지속적인 학습 . 로봇 공학 응용 분야에서 지속적인 학습은 다양한 환경에서 로봇 학습 전략을 배포하는 데 중요하지만 이 영역은 아직 충분히 탐구되지 않은 상태입니다. 최근 일부 연구에서는 증분 학습, 빠른 동작 적응, 인간-컴퓨터 상호 작용 학습과 같은 연속 학습의 하위 주제를 탐구했지만 이러한 솔루션은 일반적으로 단일 작업 또는 플랫폼용으로 설계되었으며 아직 기본 모델을 고려하지 않았습니다. 공개 연구 질문 및 가능한 접근 방식에는 다음이 포함됩니다. 1) 최신 데이터를 미세 조정할 때 이전 데이터 분포의 다양한 비율을 혼합하여 치명적인 망각을 완화합니다. 2) 이전 배포에서 효율적인 프로토타입을 개발하거나 새로운 작업 추론 학습을 위한 과정을 개발합니다. 온라인 학습 알고리즘의 훈련 안정성 및 샘플 효율성, 4) 실시간 추론을 달성하기 위해 계층적 학습 또는 느리고 빠른 제어를 통해 대용량 모델을 제어 프레임워크에 원활하게 통합하기 위한 원칙적인 방법을 식별합니다.

(7)통합 평가 벤치마크 . 낮은 수준의 제어 전략을 평가하기 위한 많은 벤치마크가 있지만 평가 기술에서는 크게 다른 경우가 많습니다. 또한 이러한 벤치마크에 포함된 개체와 장면은 시뮬레이터에 국한된 경우가 많습니다. 구현된 모델을 완전히 평가하려면 현실적인 시뮬레이터를 사용하여 다양한 기술을 다루는 벤치마크가 필요합니다. 높은 수준의 작업 계획 측면에서 많은 벤치마크는 질문 및 답변 작업을 통해 계획 능력을 평가합니다. 그러나 특히 장기 임무 수행 시에는 기획자 단독의 평가에만 의존하기보다는 상위 임무 기획자의 실행 능력과 하위 수준의 통제 전략을 종합적으로 평가하고 성공률을 측정하는 것이 보다 이상적인 접근 방식이 될 것이다. 이러한 포괄적인 접근 방식을 통해 구현된 지능형 시스템의 기능을 보다 포괄적으로 평가할 수 있습니다.

즉, 체화된 지능은 지능형 에이전트가 디지털 공간과 물리적 세계의 다양한 사물을 인식하고 상호작용할 수 있도록 하여 일반 인공지능을 구현하는 데 있어 그 중요성을 입증합니다. 이 리뷰는 구현된 지능의 개발을 촉진하는 데 영향을 미치는 구현된 로봇, 구현된 시뮬레이션 플랫폼, 구현된 인식, 구현된 상호 작용, 구현된 에이전트, 가상-현실 로봇 제어 및 향후 연구 방향에 대한 포괄적인 검토를 제공합니다.

Pengcheng Laboratory 다중 에이전트 및 구현 지능 연구소 소개

Pengcheng Laboratory에 소속된 다중 에이전트 및 구현 지능 연구소는 Pengcheng Cloud Brain 및 China Computing Network와 같은 독립적이고 제어 가능한 AI 인프라를 기반으로 지능형 과학 및 로봇 공학 분야의 최고 젊은 과학자 수십 명을 모았습니다. 다중 에이전트 협업 및 시뮬레이션 교육 플랫폼과 같은 범용 기본 플랫폼과 클라우드 기반 협업 구현 다중 모드 대형 모델을 구축하는 데 전념하여 산업 인터넷, 사회 거버넌스 및 서비스와 같은 주요 애플리케이션 요구 사항을 강화합니다.