Tencent 수석 과학자 Zhang Zhengyou: 대형 모델을 로봇에 채우는 것만으로는 실제 구현 지능을 생성할 수 없습니다.

Tencent 수석 과학자 Zhang Zhengyou: 로봇에 대형 모델을 채우는 것만으로는 실제 구현 지능을 생성할 수 없음

2024-07-17

장정유 Tencent 수석 과학자, Tencent Robotics X 연구소 소장

AI 시대의 인간-기계 관계를 깊이 탐구하고 사회가 인간-기계 공생 시대의 경제 발전 기회와 사회적 대응 전략에 대해 공동으로 생각하도록 유도하기 위해 Tencent 연구소는 Qianhai Institute of International Affairs를 공동으로 조직했습니다. , Qingteng, 홍콩 과학 기술 단지 공사 및 기타 기관 “AI시대 인간-기계 관계 전망”포럼, 이것도“인공 지능 + 사회 발전 시리즈 고급 세미나”두 번째 문제의.

포럼에는 Tencent의 수석 과학자이자 Tencent Robotics의 이사인 Zhang Zhengyou가 참석했습니다. "계층적"에는 온톨로지, 환경 및 작업에 대한 세 가지 수준의 제어가 포함됩니다. 계층적 구현 지능의 장점은 각 수준의 지식이 지속적으로 업데이트되고 축적될 수 있으며 수준 간 기능이 분리될 수 있다는 것입니다.텐센트의 로봇공학

지능형 로봇이 사람들의 삶에 어떻게 들어갈 것인지에 대해 Zhang Zhengyou는 "장기적으로 로봇은 분명히 수천 가구에 들어갈 것입니다. 현재 로봇은 먼저 재활, 노인 돌봄, 맞춤형 교육 분야에서 큰 변화를 가져올 수 있습니다"라고 말했습니다. .

다음은 Zhang Zhengyou가 공유한 전문입니다.

존경하는 지도자 여러분, 귀빈 여러분, 귀빈 여러분, 귀빈 여러분. 안녕하세요. 오늘 저는 구체화된 지능에 관한 몇 가지 과제와 진행 상황을 여러분과 공유하고 싶습니다.

체화된 지능(embodied Intelligence)이 무엇인지에 대해 말하자면, 이 용어는 작년에 갑자기 인기를 얻었고 모두가 멋지다고 생각했습니다. 실제로 체화된 지능은 비구체 지능과 관련이 있습니다. ChatGPT는 신체가 없는 지능을 가지고 있습니다. 나에게 있어 구체화된 에이전트는 지능형 로봇입니다. 이 지능이 몸을 가져야 할지 말아야 할지에 대해 말하자면, 로봇을 만드는 우리는 몸이 있어야만 지능이 더 잘 발달할 수 있습니다.

2018년 초, Tencent 회장 겸 CEO인 Ma Huateng은 Tencent Robotics를 설립하기로 결정했습니다. 워킹 데드, 몸 없는 영혼은 무의 유령입니다. 우리는 워킹 데드를 만들지 않으며, 유령이 방황하는 것을 원하지 않습니다. 인간의 지능을 향상시키고 인간의 신체적 잠재력을 최대한 발휘할 수 있는 지능형 로봇을 만들고자 합니다. 인간과 로봇의 상호작용을 촉진하며 공존의 시대를 맞이합니다. - 인간과 로봇 사이의 창조와 상생, 이것이 Tencent Robotics X 설립의 원래 의도입니다.

실제로 지능에 구체화가 필요한지 여부에 대해서는 논란의 여지가 있습니다. 이 논쟁은 주로 인지과학을 중심으로 이루어집니다. 이 분야에서는 많은 인지적 특성이 유기체의 지능을 형성하기 위해 유기체의 전반적인 특성을 필요로 한다고 모든 사람들이 믿습니다. 그러나 어떤 사람들은 지능이 신체를 필요로 하지 않는다고 믿습니다. 왜냐하면 우리가 주로 직면하는 것은 정보 처리, 문제 해결, 의사결정과 거버넌스, 기타 작업은 모두 소프트웨어와 알고리즘을 통해 달성될 수 있습니다. 체화된 지능(embodied Intelligence)이라는 용어와 개념은 오랫동안 존재해 왔으며, 많은 사람들에게 신체는 지능에 매우 중요합니다. 왜냐하면 지능은 유기체와 환경 사이의 상호 작용에서 비롯되고, 둘 사이의 상호 작용은 성장과 성장에 도움이 되기 때문입니다. 지능의 발달.

돌이켜보면 Turing은 1950년에 기계 지능을 달성하는 방법을 논의하는 기사를 썼습니다. 어떤 사람들은 체스 게임과 같은 매우 추상적인 활동을 사용하여 (지능)을 달성할 수 있다고 생각하고, 어떤 사람들은 기계에 스피커(마이크)와 같은 오르간(기관)이 있어야 한다고 생각하는 것을 볼 수 있습니다. 우리는 기계 지능을 더 빠르게 실현할 수 있도록 돕습니다. 그러나 튜링 자신은 어떤 범주가 가장 좋은지 모른다고 말했습니다. Open AI가 처음 수백 개의 로봇 팔을 구입했을 때 로봇을 사용하여 AGI를 구현하기를 직접 희망했지만 1년 이상의 노력 끝에 이 길이 일시적으로 작동하지 않는다는 것을 발견하고 포기하고 텍스트 기반의 AGI에 집중했습니다. 모델을 개발하여 마침내 ChatGPT가 성공적으로 개발되었습니다.

로봇은 오랜 역사를 가지고 있으며, 원래는 생산 라인의 기계 팔을 자동화하는 것이었습니다. 이는 알려진 환경에서 일련의 작업을 완료하고 정밀한 제어가 필요함을 의미합니다. 이 프로세스에는 지능이 필요하지 않기 때문입니다. 이러한 유형의 로봇은 매우 강력한 작동 기능을 가지고 있지만 이러한 작동 기능은 고정된 환경에 맞게 사전 프로그래밍되어 있으며 지능이 전혀 없습니다.

대형 모델 시대에 접어들면서 대형 모델이 매우 강력하고 로봇에 즉시 구현될 수 있다고 생각하는 사람들도 있습니다. 실제로는 그렇지 않습니다. 지금 상황은 어떤가요? 비유하자면 3살짜리 몸에 20살짜리 뇌를 집어넣은 셈이다. 로봇이 어느 정도 움직일 수는 있지만 작동 능력은 매우 약하다. 실제 구체화된 지능은 독립적으로 문제를 학습하고 처리할 수 있어야 하며, 환경이 변화하고 불확실할 때 자동으로 조정하고 계획할 수 있어야 하며 이는 AGI로 이어지거나 일반적인 지능형 로봇을 만들 수 있다고 믿는 매우 중요한 프로세스입니다.

구체적으로,구체화된 지능은 물리적 캐리어(지능형 로봇)를 갖춘 에이전트가 일련의 상호 작용에서 인식, 제어 및 자율 학습을 통해 지식과 기술을 축적하고 지능을 형성하고 물리적 세계에 영향을 미치는 능력입니다. 이것이 ChatGPT와 다른 점입니다. 체화된 지능은 인간과 유사한 인식 방식(시각, 청각, 언어, 촉각)을 통해 지식을 획득하고 이를 표현 의미론으로 추상화하여 세상을 이해하고 행동하며 세상과 상호작용합니다. 여기에는 기계 공학 자동화, 임베디드 시스템 제어 최적화, 인지 과학, 신경 과학 등 여러 학문 분야의 통합이 포함됩니다. 이는 모든 분야가 어느 정도 발전한 후에 나타날 수 있는 능력입니다.

구체화된 지능은 많은 과제에 직면해 있습니다.

첫 번째는 시각과 청각을 포함한 복잡한 인식 기능입니다. 이제 GPT-4o를 포함한 대형 모델에는 시각과 청각만 포함되고 촉각은 포함되지 않습니다. 체화된 지능을 위해서는 촉각이 매우 중요합니다. 로봇은 주변의 예측할 수 없고 구조화되지 않은 환경과 물체를 인식하고 이해하기 위해 복잡한 인식 능력을 갖추어야 합니다.

두 번째는 환경 및 사물과 상호작용할 수 있는 이동, 잡기, 조작 등 강력한 실행 능력이다.

세 번째는 학습 능력, 즉 환경 변화를 더 잘 이해하고 대응하기 위해 경험과 데이터를 통해 학습하고 적응하는 능력입니다.

네 번째는 적응 능력, 즉 다양한 환경과 업무에 더 잘 대처하기 위해 자신의 행동과 전략을 독립적으로 조정하는 능력입니다.

다섯 번째는 매우 중요합니다. 이러한 능력의 중첩이 구체화된 지능을 달성한다는 것이 아니라, 우리가 말하는 원하는 구체화된 지능을 진정으로 달성하기 위해 이러한 능력을 유기적이고 효율적으로 협력적으로 통합하는 것입니다.

여섯째, 이 과정에서 우리에게 필요한 데이터가 매우 부족하다. Open AI는 처음에는 로봇을 통해 직접 AGI를 달성하기를 희망했지만 나중에 데이터 부족으로 인해 포기했다. 데이터는 엄청난 과제입니다. 실제 시나리오에서 데이터를 수집할 때도 사용자 개인정보를 보호해야 합니다.

일곱째, 체화된 지능은 인간의 서식지에서 생활해야 하기 때문에 자신과 주변 환경의 안전을 보장해야 한다.

여덟째는 사회윤리의 문제이다. 로봇은 인간과 상호작용할 때 도덕적, 법적 규범을 준수하고 인간의 이익과 존엄성을 보호해야 한다.

구현된 지능을 달성하려면 많은 작업이 필요합니다. 현재 모든 사람들은 대형 모델이 지능형 로봇의 문제를 해결할 수 있다고 생각합니다. 여기에는 대형 모델을 로봇의 머리에 넣는 것과 같습니다. .. 해결된 것 같습니다. 그러나 이것은 이야기의 일부일 뿐입니다. 지능과 온톨로지가 유기적으로 통합되어 로봇과 환경의 상호작용을 통해 실제 지능이 나올 수 있을 것으로 기대합니다.

이러한 비전을 달성하기 위해,제어 패러다임이 바뀌어야 한다고 생각합니다. 로봇 교과서를 보면 전통적인 제어 패러다임은 먼저 인식하고, 인식하고 계획하고, 계획하고 행동하고, 행동하고 인식하는 폐쇄 루프 프로세스입니다. 2018년에는 S가 인식, L이 학습, A가 행동, P가 계획이라는 'SLAP 패러다임'을 제안했습니다. 변화하는 환경에 실시간으로 대응하려면 인식과 행동이 긴밀하게 연결되어야 합니다. 그 위에는 더 복잡한 작업을 해결하려는 계획이 있습니다. 학습은 모든 모듈에 스며들어 경험과 데이터를 통해 학습할 수 있고 자신의 행동과 전략을 독립적으로 조정할 수 있습니다. 이 SLAP 패러다임은 인간 지능과 매우 유사합니다.

노벨상 수상자인 다니엘 카너먼(Daniel Kahneman)은 인간의 두뇌에 두 가지 시스템이 있다고 믿는 책 "Thinking, Fast and Slow"를 가지고 있습니다. 첫 번째 시스템인 시스템 1은 더 직관적이고 문제를 빠르게 해결합니다. 두 번째 시스템은 시스템 2라고 불리는 보다 심층적인 사고, 합리적인 사고입니다. 실제로 사람들은 시스템 1에서 시간의 95%를 보내고 소수의 복잡한 작업에만 시스템 2를 예약하면 됩니다. 그렇다면 인간의 두뇌는 왜 사고 문제를 해결하는 데 수십 와트만 필요합니까? GPU는 에너지를 소비하지 않습니다. 이는 인간이 시스템 1에서 문제의 95%를 해결할 수 있고 어려운 작업만 시스템 2로 이동하기 때문입니다.

최하위 수준에서 제가 제안한 SLAP 패러다임은 인식과 행동이 밀접하게 연결되어 반응적 자율성을 해결하는 시스템 1에 해당합니다. 의식적 자율성은 시스템 2의 합리적 사고와 사고를 달성하는 것입니다.

인간의 뇌와 소뇌가 사지를 제어하는 방법에 대한 지식과 결합된 SLAP 패러다임에 따라 우리는 세 가지 계층으로 구분된 계층적 구현 지능 시스템을 개발했습니다. 맨 아래 계층은 고유 감각(Proprioception)으로, 이는 로봇 자체의 인식에 해당합니다. 모터의 움직임을 제어하는 모터 신호.

두 번째 계층은 환경에 대한 인식인 외부감각(Exteroception)입니다. 환경에 대한 인식 지능을 통해 작업을 완료하기 위해 어떤 기능을 호출해야 하는지를 알 수 있습니다.

최상위 계층은 작업과 관련되어 있으며 특정 작업에 대한 계획을 세워야만 로봇 본체의 환경과 기능을 잘 해결할 수 있습니다.

아래에서는 가장 낮은 수준(고유 수용 수준)에서의 동작 제어도 데이터를 통해 학습되는 몇 가지 구체적인 데모를 제공합니다. 여기서는 실제 개를 런닝머신 위에서 연속적으로 달리게 하는 동시에 데이터 수집도 수행한다. 모방 학습과 강화 학습을 통해 로봇은 실제 개와 유사한 동작을 학습할 수 있습니다. 우리는 통합된 가상과 현실 세계, 디지털 트윈, 통합된 가상과 현실 세계를 사용합니다. 여기서 보이는 것은 개가 바깥쪽으로 움직이는 방식일 뿐이지만, 로봇이 어떻게 움직이는지, 어느 정도의 힘이 필요한지, 보내려는 관절과 모터의 신호 세기 등 모두 강화학습을 통해 얻어야 한다.

특별한 인간의 통제가 없는 또 다른 영상은 로봇 개가 실제 개의 움직임 방법을 배우게 한 후 스스로 실행하는 것인데, 이는 약간 생생한 느낌을 줍니다.

이것이 가장 기본적인 능력(운동 능력)입니다.다음 단계는 환경을 인식하고 이러한 작업을 완료하는 것입니다.두 번째 단계는 환경 정보를 추가하는 것입니다. 자연스럽게 계단을 오르는 방법, 장애물을 뛰어 넘는 방법.

이때 로봇 개는 시뮬레이션 세계에서 점프하고 장애물을 건너는 방법을 배웠습니다. 이 개는 우리가 자체 개발한 개로 맥스라고 불립니다. 일반 개와 다른 점은 바퀴가 있어서 평지에서도 더 빨리 걸을 수 있고, 울퉁불퉁한 곳에서도 네 개의 다리를 사용할 수 있다는 점입니다. 모달 조합.

환경에 적응하는 능력이 있으면 다양한 일을 하게 할 수 있습니다. 예를 들어, 한 마리에게 다른 개를 따라잡으라고 하면 따라잡은 후에는 이기는 것입니다. 설상가상으로 깃발이 나타나면 원래 도망치던 개가 깃발에 닿으면 추격자가 될 수 있습니다. 확인해 보세요. 이것도 강화 학습을 통해 자동으로 학습됩니다. 개가 다른 개를 쫓고 있는 것은 물론, 개가 더 느리게 달리도록 속도를 제한합니다. 이제는 쫓아오던 개가 바뀌더니 모퉁이를 돌면서 다른 개를 속였습니다.

이러한 계층적 구체화 지능의 장점은 각 수준의 지식이 지속적으로 업데이트되고 축적될 수 있으며, 수준 간 기능이 분리될 수 있다는 점입니다.

예를 들어, 방금 한 개가 다른 개를 쫓았을 때, 장애물을 전혀 추가하지 않고 집중 학습 중에 평지에서만 훈련하도록 배웠습니다. 이제 장애물을 추가한 후에는 다시 학습할 필요가 없이 자동으로 학습되기 때문입니다. 1층에 있을 때 장애물을 처리하는 방법을 알고 있습니다. 영상을 보시면 아시겠지만, 이것은 우리가 전혀 재훈련하지 않은 것입니다. 장애물을 만나면 그것을 뛰어 넘습니다. 자동(학습)입니다.

이 작업은 지난해 초 완성됐으며 조만간 국제 최고 학술지 네이처 머신 인텔리전스(Nature Machine Intelligence)에 게재될 예정이다. 이는 커버스토리로도 활용될 예정이다. .

지난 1년 동안 우리가 무엇을 했는지 이야기해 봅시다.대형 모델 융합의 진행 즉, 대규모 언어 모델과 다중 모드 인식 모델을 계층적 구현 지능 시스템에 통합하는 것입니다. 예를 들어, 인간이 로봇에게 오믈렛 작업을 할당하면 LLM 기반 대형 계획 모델은 오믈렛 작업을 분해합니다. 즉, 먼저 냉장고에서 계란을 꺼내 냄비에 깨뜨린 다음 계란을 튀깁니다. 달걀. 다중 모드 인식을 통해 먼저 계란이 냉장고에 있는지 알아야 하며 다음과 같은 중간 수준의 기술을 호출해야 합니다. 로봇은 먼저 냉장고로 가서 계란을 꺼내고 냉장고 문을 열어야 합니다. 계란을 잡고 스토브에 다시 넣으십시오. 하단은 로봇이 냉장고로 이동하는 방법, 냉장고 문을 여는 방법 등을 제어하는 최하위 수준의 제어입니다. 로봇이 학습하면 자동으로 수행됩니다. 마지막으로 최상위 전략 수준 계획자로 돌아갑니다. 이 폐쇄 루프에서 로봇의 행동은 디지털 세계와 물리적 세계가 밀접하게 통합된 가상-현실 통합 세계에서 작동합니다. 디지털 시뮬레이션 공간에는 로봇과 매우 실제처럼 보이는 장면이 있습니다. 로봇의 기술을 가상공간에서 직접 학습할 수 있습니다.

여기에서 비디오를 시청하세요. 이전에 본 적이 없는 환경에 지능형 로봇을 배치하는 첫 번째 단계는 로봇이 돌아서 세상을 탐험하는 것입니다. 예를 들어, 영상에서 로봇의 임무는 쓰레기를 쓰레기통에 보내는 것이므로 먼저 쓰레기통을 찾은 다음 쓰레기통을 찾은 후 거기에 놓아야 합니다. 또한 쓰레기통을 다른 곳으로 옮겨 환경을 모른다고 가정하고 탐색을 통해 쓰레기통을 찾은 후 그곳으로 쓰레기를 보낸다.

다음 장면은 파란색 옷과 청바지를 입은 사람에게 쥐를 주는 장면입니다. 여기에는 다른 많은 사람들이 있으며 파란색 옷과 청바지를 입은 사람을 찾아야 하며 자동으로 탐색하고 찾습니다. 이 기간 동안 제가 만난 사람들 중 상당수는 파란색 옷이나 청바지를 입고 있었습니다. 로봇이 파란색 옷과 청바지를 보기 전까지는 쥐를 보냈습니다.

탐색 과정에서 로봇은 주변 환경을 기억할 수 있으므로 매번 다시 탐색할 필요가 없습니다. 다음 장면에서는 동료에게 먼저 약을 주고, 로봇이 감기약 봉지를 버리는 장면은 탐색과 모델링 과정에서 이미 쓰레기통이 어디에 있는지 알고 바로 쓰레기통으로 가는 모습이다. 스툴이 어디에 있는지, 화이트보드가 어디에 있는지 등 공간과의 관계를 활용해 화이트보드와 높은 스툴 사이에 물체를 사람에게 보내고자 할 때 중간에 장애물이 있으면 그럴 수도 있다. 자동으로 피합니다.

작년에 우리도 바텐더 로봇을 만들었었는데, 당시 자체 개발한 세 손가락 손을 사용했고, 섀시가 고정되어 있었습니다.

이 화려한 바텐딩 역시 먼저 바텐딩을 할 실제 사람을 모아 그의 궤적을 학습한 후 이를 로봇에 구현했습니다. 손가락에도 촉각 센서가 달려 있다. 이제 막대기를 구멍에 집어넣는 데는 시각 능력만으로는 부족하고 정확도도 부족해 꽂혀 있는지 여부를 촉각에 의존한다. , 옆으로 움직여야 하며 마지막으로 스틱을 삽입해야 합니다.

이것은 작년의 작업입니다. 올해의 작업에는 자체 개발한 다섯 손가락 손과 작년에 자체 개발한 로봇 팔이 포함되어 있습니다. 이제 우리는 모바일 섀시도 보유하고 있습니다. 로봇이 자유롭게 말하고 작업을 완료할 수 있는 대형 감지 모델과 대형 계획 모델을 확인하세요.

오른쪽 하단은 이동형 지능형 로봇에서 본 모습입니다. 테이블 위에 위스키 한 병이 있는데, 이를 로봇의 시야에서 보면 다양한 것을 인식할 수 있습니다. 실시간으로 와인 종류를 확인할 수 있습니다.

지금 여기에서 공유해 보세요. 다들 감사 해요.

소식

Tencent 수석 과학자 Zhang Zhengyou: 로봇에 대형 모델을 채우는 것만으로는 실제 구현 지능을 생성할 수 없음

소개

내 연락처 정보