소식

90년대 이후 북경대학교 박사 지도교수, 인간형 로봇 제작, 테슬라에게서 배우지 않음

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

미국은 중국의 모델이 아니다.

문자丨왕위통(Wang Yutong)
편집자丨Cheng Manqi

올해 5월 미국 텍사스 공장에 키 1.72m의 새로운 작업자 그룹이 출근해 원통형 4680 배터리 셀을 이송 테이블에서 앞에 있는 빨간색 상자에 적재하는 일을 맡았다. . 그들은 능숙하지도 않고 느리고 서투르기도 합니다. 하지만 이 노동자들은 테슬라가 2022년 출시할 휴머노이드 로봇인 옵티머스(Optimus)이고, 모든 것이 다르다.

테슬라가 공개한 로봇 영상 아래에는 '완벽한 사용 시나리오', '빠른 발전', '실업 경고' 등 감탄부터 걱정까지 다양한 댓글이 달렸다.

왕허는 그렇게 생각하지 않는다. 그는 옵티머스가 현 단계에서는 '아직 연구(연구)'라고 생각한다.

Wang He는 1992년에 태어나 현재 Peking University의 Frontier Computing Research Center에서 조교수이자 박사 과정을 밟고 있으며, Stanford University에서 학사 및 박사 학위를 취득했습니다. 컴퓨터 비전, 로봇 공학 및 인공 지능 분야의 최고 컨퍼런스인 CVPR ICCV에 참여했습니다.

왕허는 지난해 5월에 이어 지능형 로봇 기업 '갤럭시제너럴'의 조타수로 임명돼 더욱 주목받았다. 올해 6월 갤럭시제너럴은 7억 위안의 자금을 조달해 2024년 엔젤라운드 자금조달 기록을 경신했다.

대부분의 회사는 완전한 인간형 로봇을 만듭니다. Wang He는 현 단계에서는 다리가 최적의 솔루션이 아니며 비용만 증가할 뿐이라고 믿습니다. "휴머노이드 로봇의 조작 능력이 충분히 강한 것은 아니지만 다리가 부족하다는 점입니다. 전통적인 로봇 팔이 조작할 수 없는 작업이 여전히 많다는 것입니다." 왕허는 현장에 착륙할 때 손이 더 중요하다고 판단했습니다. 그리고 많은 장면에서는 실제로 로봇이 필요하지 않습니다. 검사, 순찰 등 충분한 모터 기능을 갖춘 로봇 개는 자동차와 동일한 작업을 수행할 수 있습니다.

갤럭시 유니버셜의 갤봇은 다리가 없지만 접이식 단일 다리 + 바퀴 달린 섀시로 쓰레기를 줍고 있습니다.

충분한 데이터를 얻는 것은 구체화된 지능의 개발에서 어려운 일입니다. Tesla와 Google은 데이터를 수집하기 위해 "원격 조작"을 사용하기로 결정했습니다. 즉, 로봇이 학습해야 하는 동작을 완료하기 위해 실제 사람이 일부 수집 장비를 착용하도록 하는 것입니다. Wang He는 이것이 좋은 거래가 아니라고 느꼈습니다. "Google이 수십만 개의 데이터를 생성하는 데 10개월 이상과 수천만 달러가 걸렸습니다." Galaxy Universal은 "Sim2Real(시뮬레이션에서 실제 기계로 마이그레이션)"에서 모두 선택했습니다. )" 즉, 주로 합성 시뮬레이션 데이터에 의존합니다.

미국의 휴머노이드 로봇 회사는 돈이 많고 대담합니다. Wang He의 관찰 중 하나는 이것이 PMF(Product Market Fit, 제품 및 시장 적합성)를 엄격하게 찾는 것을 방해한다는 것입니다. 돈이 있으면 한 번에 다 모아요.” 하지만 실제 데이터 부족, 하드웨어 불안정 등 업계 문제는 시나리오에서 해결해야 하기 때문에 상용화는 첫날부터 검토해야 한다고 본다.

왕허는 “테슬라가 하는 일을 지침으로 여겨서는 안 된다”며 “중국 스타트업이 미국에 풍부한 자본 없이 여전히 다른 사람들의 이야기를 전한다면 그것은 막다른 골목일 수밖에 없다”고 말했다.

왕허는 테슬라에 동의하지 않으며 업계의 많은 사람들은 갤럭시 GM에 동의하지 않습니다. Wang He가 관심을 갖고 있는 Sim2Real을 예로 들면, 많은 실무자들은 시뮬레이션된 합성 데이터와 실제 세계 사이에 자연스러운 차이가 있어 훈련 효과에 영향을 미칠 것이라고 믿습니다. 갤럭시유니버설의 첫 번째 로봇 가봇이 출시된 후 일부 반대자들은 "데모와 실제 적용 사이에 큰 격차가 있다", "잡기에 관한 논문을 많이 썼는데 마지막 손이 흡입컵이었다"며 "안심했다"고 말했다. .

더 큰 문제는 지금은 휴머노이드 로봇을 만드는 사업을 시작할 때가 아니라는 점이다. 일부 투자자들은 하드웨어, 소재, 에너지 등 많은 기술이 아직 성숙하지 않았기 때문에 이들 기업이 순교할 것이라고 믿습니다. Kaifu Lee는 구체화된 지능에 대해 "10년 후에 일어날 일에 지금은 확실히 투자할 수 없습니다"라고 말했습니다. Zhenge의 파트너인 Dai Yusen은 구현은 아직 BlackBerry 시대이므로 iPhone에 투자할 수 없다고 말했습니다. .

휴머노이드 로봇과 구체화된 지능은 아직 초기 단계에 있으며 AI, 재료, 에너지, 기계 제어 개발, 제조, 공급망 관리, 고객 개발 및 궁극적으로 이를 포함하는 긴 체인과 복잡한 기술 스택이 있는 산업입니다. 살아남는 기업에는 단점이 있을 수 없습니다.

승자를 말하기에는 너무 이르지만, 이 인터뷰는 한 젊은 과학자가 출발한 지 1년 후에 본 것을 기록하고 있습니다. 이제 그는 대기업이 더 많은 자원을 보유하고 있지만 이것이 반드시 올바른 기회는 아니라고 믿습니다.

구체화된 지능과 인간 사회최대 공약수

"나중에": 당신은 2016년부터 시각적 모델, 자연어 모델 및 로봇 작동 모델을 결합하여 오늘날의 구체화된 지능을 연구해 왔습니다. 수년간의 연구와 개발을 통해 무엇을 보셨나요?

Wang He: 저는 박사 과정을 공부할 때 구체화된 지능에 대해 연구하고 있었습니다. 그 당시에는 구체화된 지능이라고 불리지 않았습니다. 처음에는 이 세 가지 별도의 작은 모델을 결합하여 범주 수준 개체 자세 추정을 달성했습니다. 물체 3차원 공간에서의 위치와 자세, 위치 추정: 물체의 자세 찾기)는 실제로 양손 작업입니다.

중국에 돌아와 이곳에서 창업하기 전에는 유슈 로봇견의 등에 팔을 설치해 일련의 동작을 하게 하려고 했다. 그러나 우리는 컴퓨팅, 리소스, 심지어 전체 시스템의 여러 측면이 우리의 요구 사항을 충족할 수 없다는 사실을 발견했습니다.

당시 저는 우리가 하드웨어를 만들지 않으면 전적으로 다른 사람에게 의존해야 하고 시스템 개발 반복이 제한될 것이라고 느꼈습니다. 로봇산업이 존재하지 않을 때에는 지능만으로는 어렵다.

"나중에": 나중에 어떤 변화가 일어났나요? 2023년에 창업을 결심한 이유는 무엇인가요?

Wang He: 구체화된 스마트 기업가 정신은 미국보다 중국에서 더 일찍 발효되기 시작했습니다. 주된 이유는 하드웨어와 온톨로지의 성숙입니다.

미국의 제조 산업은 구현된 지능의 완전한 데모를 신속하게 생산하는 것을 허용하지 않습니다. 미국의 부품 공급이 불완전하고, 많은 것을 수입해야 하며, 하드웨어 엔지니어가 부족합니다. 중국의 하드웨어 생산은 최저 비용과 최고 신뢰성을 달성할 수 있습니다. 예를 들어 Yushu의 휴머노이드 로봇은 몇 사람이 반년 만에 제작할 수 있습니다.

하지만 본체는 그저 큰 장난감일 뿐이다. 다음 단계는 지능 측면에서 어떻게 경쟁할 것인가이다. 2023년까지 PaLM-E와 같은 대형 구현형 다중 모드 모델이 전 세계적으로 등장하고 다중 모드 인식과 구현된 작동 간의 불꽃이 점화되었습니다. 나는 이때 창업을 결심했다.

"나중에": 휴머노이드 로봇을 시작하기로 선택한 이유는 무엇입니까? 구체화된 지능의 전달자는 반드시 인간형일 필요는 없습니다.

왕허: 개, 비행기, 자동차 등 정말 다양한 형태가 있어요. 그러나 모든 형태 중에서, 신체화된 지능과 인간 사회 사이의 가장 큰 공통분모는 오직 "인간 형태"일 수 있다.

생산과 생활환경 전체가 인간을 위해 설계되었기 때문에 휴머노이드는 가장 많은 작업을 할 수 있고, 앞으로도 가장 많은 숫자를 갖게 될 것이며, 가장 큰 경제적 생산 가치를 갖게 될 것입니다. 비전의 관점에서 보면 구체화된 지능과 휴머노이드 로봇은 동일시될 수 있습니다.

"늦음": 많은 사람들은 구체화된 지능을 위한 기업가적 창이 아직 도래하지 않았다고 믿습니다. 이제 이러한 기업은 순교자가 될 것이며 하드웨어, 재료, 에너지와 같은 많은 기술은 아직 성숙하지 않았습니다. 예를 들어, Kaifu Lee가 구체화된 지능에 대해 이야기했을 때 그는 "우리는 10년 후에 일어날 일에 절대 투자할 수 없습니다"라고 말했습니다. Zhenge의 파트너인 Dai Yusen은 그 구체화는 여전히 BlackBerry 시대에 있다고 말했습니다. 그리고 우리는 아이폰에 투자할 수 없습니다.

왕허: 2019년에 리 카이푸 씨를 만났을 때 그는 앞으로 50년이 더 걸릴 것이라고 말했습니다. 이제 그는 50년에서 10년으로 단축되었습니다.

휴대폰을 구체화된 지능에 비유할 수는 없습니다. 기능성 휴대폰에서 스마트폰으로 기술은 많이 변화했으며 이제 구체화된 지능의 기술적 방향은 명확해졌습니다. 온톨로지는 대형 모델과 통합되어 만능 로봇이 됩니다. .

이때, 게임이 일찍 종료될수록 더 많은 기술과 데이터가 축적되어 후반부 격차가 더욱 벌어질 것이다. 로봇이 현장에 진입한 후 실제 현장의 데이터가 로봇의 지능을 보완합니다. 이미 수만 대의 로봇을 보유하고, 지속적으로 실제 데이터를 제공하고 있으며, 이미 현장에서 함정을 경험한 회사를 후발자가 능가하는 것은 극히 어렵습니다.

이것과자율주행마찬가지로, 충분한 수의 자동차를 판매해야만 충분한 데이터가 있을 수 있으며, 데이터를 사용하여 알고리즘을 더 빠르게 개선할 수 있습니다. 구글과 테슬라의 싸움에서 테슬라는 자동차가 충분하기 때문에 승리한다.

구체화된 지능은 자동차에 버금가는 시장으로 성장할 수 있는 잠재력을 갖고 있다. 이전 기술 변화와 동일한 특성을 가지고 있습니다. 처음에는 느리고 점차적으로 특수 목적 로봇을 대체하지만, 일단 규모가 10,000대에 도달하면 전통 산업의 대체를 가속화할 것입니다.

"늦은": 한 가지 사실은 구체화된 지능 기업가 정신의 붐이 2009년에 일어났다는 것입니다. 채팅GPT 그리고 빅 모델 열풍. 그러나 실제로 대형 모델은 체화된 지능 문제 중 작은 부분만을 해결할 수 있기 때문에 아직 이르다고 생각하는 사람들도 있습니다.

Wang He: 구체화된 지능은 소프트웨어, 하드웨어 및 알고리즘이 통합된 산물입니다. 이 단계에서 대형 모델과의 통합 지점은 상호작용 문제를 해결하는 일반적인 인식 및 언어 의사소통입니다. 예를 들어, 누군가 약국에 와서 불편할 때 어떤 약을 먹어야 하는지 로봇에게 묻는다. 약의 이름과 위치를 아는 로봇만이 사람과 대화할 수 있다.

또 다른 조합은 이제 로봇이 물건을 집거나 놓는 등의 특정 작업을 수행할 때 대형 모델 기반의 엔드 투 엔드(감각 정보 입력 후 직접 로봇 궤적 출력)를 구현했다는 것입니다. 앞으로는 대형 모델이 플레이하게 됩니다. 전체 글로벌 계획에서의 역할.

전반적으로 대형 모델은 이제 보조적이지만 대형 모델과 소형 모델을 결합하면 만능 로봇이 탄생할 수도 있다.

"후기": 은하계의 경로는 작은 입체 시각적 모델 + 큰 기본 모델입니다. 어떻게 이해합니까?

왕허: 우리 인간에게 시스템 1과 시스템 2가 있듯이, 빠른 사고와 느린 사고는 전자의 능력이고, 로봇에서는 작은 모델이 다룰 수 있는 대화형 제어, 민첩한 조작 등의 기술입니다. 후자는 인지, 이해, 계획, 대형 모델 문제 해결 등의 능력입니다.

이는 3계층 시스템으로, 맨 아래 계층은 하드웨어, 중간 계층은 다양한 기술을 수행할 수 있는 소형 모델, 상위 계층은 작업 계획을 담당하는 기본 대형 모델입니다. 로봇이 지시를 받은 후, 대형 모델은 중간 계층의 소형 모델을 호출하는 역할을 담당하며, 소형 모델이 실행된 후 대형 모델은 결과를 바탕으로 다음 단계를 연구합니다.

발은 그다지 중요하지 않습니다.손이 핵심이다

"나중에": 그들은 모두 휴머노이드입니다. 업계의 대부분의 회사는 다리가 있는 로봇을 가지고 있습니다. 첫 번째 로봇인 Galbot은 바퀴 달린 섀시와 손입니다.

Wang He: 가장 중요한 질문은 귀하의 제품이 현장에 어떤 가치를 가져올 수 있느냐는 것입니다. 바이페드는 교통 문제만 해결하고 작전 능력은 없어 순찰, 점검 등의 장면만 수행할 수 있다. 이는 과거 자동차나 개를 이용했던 것에 비해 질적인 변화는 없다.

하지만 손은 기존 로봇이 할 수 없는 유연한 생산을 할 수 있다. 노동집약적인 산업에서는 대부분 거친 작업이고 일반화하기 쉽기 때문에 하체보다 상체가 더 중요하다.

"나중에": 손을 조작하는 능력과 발을 복합적으로 움직이는 능력 중 어느 것이 더 어렵습니까? 모두가 꿈꾸는 최종 형태는 완전한 인간의 형태일 것입니다. 처음 시작한 회사가 운동 능력을 보완하려고 하면 따라잡을 수 없을까요?

왕허: 요즘에는 대부분의 작업이 양손으로 이루어지기 때문에 먼저 "손"을 사용하여 현장에 들어가고 다리에는 교체 가능한 저가형 범용 바퀴형 섀시를 먼저 상용화하고 실제 데이터를 얻습니다.

다리의 문제는 실제 시나리오에서 구현이 불가능하다는 점인데, 다리를 만드는 기업은 지속가능한 자금 조달 역량을 위해 노력해야 하며, 향후 3년 안에 큰 파도가 닥칠 것이다. 물론, 다리의 성능이 좋아지고 가격도 적당해지면 다리도 교체해드리겠습니다.

"나중에": 왜 함께 하는 것이 선택 사항이 아닌가?

왕허: 휴머노이드 로봇의 작동 능력이 충분히 강하지 않은데 다리가 없기 때문이죠. 아직도 전통적인 로봇 팔이 처리할 수 없는 작업이 많이 있습니다.

실제 사용을 고려하면 바퀴 달린 로봇이 이족보행 로봇에 비해 비용과 안정성이 훨씬 좋다. 동일한 높이에서 두 다리의 BOM(원자재 비용)은 바퀴 달린 섀시보다 10배 더 비쌉니다. 게다가 발이 넘어지기 쉬우며, 로봇이 넘어지면 완전히 파손될 수 있다.

현재 다리의 기술적 어려움은 여전히 ​​극복되어야 하며 양손 장면에 비해 훨씬 뒤쳐져 있습니다. 예를 들어, 무언가가 선반에서 바닥으로 떨어지면 전 세계의 어떤 다리 달린 인간형 로봇도 그것을 집어들기 위해 몸을 구부릴 수 없습니다.

"나중에": 쪼그리고 앉는 것은 인간에게는 아주 쉬운데 왜 로봇은 할 수 없습니까?

왕허: 가장 어려운 것은 전체 과정에서 신체의 균형을 유지하는 것입니다. 다리의 균형 능력에는 여러 단계가 있습니다. 첫 번째 단계는 걷는 것이고, 두 번째 단계는 계단을 오르는 것입니다. 이는 이미 많은 회사를 난처하게 만들었습니다. 세 번째 단계는 몸을 굽히는 것인데, 무게 중심이 나오는 것이 어렵다. 그다음에는 현재 연구실에서 할 수 없는 스쿼트와 스플릿 스쿼트가 있다.

다리의 발달은 손에 비해 뒤떨어져 있으며, 사람도 마찬가지입니다. 아기가 기어다닐 수만 있을 때는 손이 어디든 탐색할 수 있지만, 일어서서 안정적으로 걷는 데는 오랜 시간이 걸립니다. 여섯 살이나 일곱 살.

사실 20년 전에는 이족보행 시연이 있었지만, 현재는 실제로 10분 동안 아무 문제 없이 땅 위를 걸을 수 있는 사람은 소수에 불과합니다. 많은 이족 보행 로봇의 안정성은 모든 사람의 기대를 충족시키지 못합니다. 체화지능 분야에서는 뇌의 발달이 팔과 손보다 먼저 일어나고, 팔과 손이 다리보다 먼저 발달한다.

"늦음": Tesla의 휴머노이드 로봇 Optimus는 손과 발이 모두 가능하며 이제 공장에서 일할 수 있습니다.

왕허: 현재 옵티머스의 작업 현장은 다리와는 관련이 없습니다. 공장에서 배터리를 잡고 주차장을 순찰하는 데에는 다리 능력의 향상이 필요하지 않습니다.

그리고 계산하기는 어렵습니다. 로봇의 비용은 수십만 달러에서 20만 달러에 달하지만 로봇의 임무는 정확히 동일한 배터리를 총 30개의 그리드가 있는 5x6 상자에 넣는 것입니다. 표준 배터리를 표준에 넣으십시오. 바스켓에서는 바스켓의 위치가 고정되어 있습니다. 왜 이런 일에 구체화된 지능이 필요한가요? 전통적인 것을 사용하지 않는 이유산업 자동화

"후기": 은하 장군 Galbot은 Meituan의 약국에서 약을 분류합니다. 이는 로봇 팔로도 수행할 수 있지만 인간형 상체도 사용했습니다.

왕허: 우리가 구현한 능력을 보여주기 위해 이 장면을 만들었습니다. 뭔가 너무 어렵고 기술이 아직까지 발전하지 않았다면 먼저 할 수 있는 것을 찾아야 합니다. 테슬라의 장면은 원래 사람을 대체하지도 않고 로봇 팔로 구현됐다. 약국에서 하는 일은 사람이 하는 일이고, 난이도 자체가 Tesla의 일보다 높습니다. 둘째, 다양한 약품이 표준 제품이 아니고, 다른 주문이 표준 요구 사항이 아니기 때문에 산업 자동화만으로는 달성할 수 없습니다.

테슬라를 모델로 여기지 마세요.원격 작업으로는 데이터 문제를 해결할 수 없습니다

"늦음": 데이터 부족은 오늘날 구현 지능의 어려움 중 하나입니다. 이제 텍스트 데이터는 15T, 사진은 6B, 비디오는 2.6B이지만 로봇 데이터는 2.4M에 불과합니다. Tesla와 Google은 모두 "원격 조작"을 통해 데이터를 수집합니다. 즉, 실제 사람이 수집 장비를 착용하여 로봇이 학습해야 하는 동작을 완료하도록 하는 반면, Galaxy General은 "all in Sim2Real", 즉 시뮬레이션된 합성 데이터를 사용합니다. 당신은 왜 그들과 다른가요?

Wang He: 원격 제어는 스타트업 기업이 감당할 수 있는 것이 아닙니다. 원격 작업을 수행하려면 다양한 작업을 반복적으로 수행하기 위해 많은 사람을 고용해야 합니다. 유효한 데이터 조각을 얻으려면 로봇과 사람이 함께 30초 또는 1분을 보내야 합니다.

휴머노이드 로봇이 자율주행과 크게 다른 점은 바로 여기에 있다. Tesla의 자율 주행을 통해 백만 명의 자동차 소유자는 데이터에 추가 비용을 들이지 않고도 돈을 들여 자동차를 구입하고 수억 시간 동안 운전할 수 있습니다. 그리고 운전은 단지 한 가지일 뿐이지만 공장에는 접착제를 바르는 사람, 배터리를 넣는 사람, 나사를 조이는 사람 등 다양한 유형의 직업이 있습니다... 서로 다른 작업 간의 상관관계는 강할 수도 있고 약할 수도 있습니다.

테슬라는 배터리를 배치하는 현장에서 원격 작업을 수행하기 위해 수십 명의 인력을 찾았지만 그 뒤에는 와인딩, 조립 등의 작업 장면이 더 많았고 그게 전부가 아니었습니다. Tesla는 자체 로봇을 구입할 수 있는 많은 돈과 자체 공장을 보유하고 있지만 스타트업은 그렇지 않습니다.

이제 무인 자동차에 원격 모니터가 있는 것처럼 원격 조작도 원격 인수 역할을 할 수 있습니다. 로봇이 현장에서 작업하는 동안 문제가 발생하고 현장에 사람이 없으면 원격 제어를 사용하여 개입할 수 있습니다.

"나중에": 그럼 리모콘은 대기업에서 만드는 게임인가요?

왕허: 이것이 머스크가 말하는 이야기입니다. 솔직히 말해서 이것은 연구입니다.

구글이 RT(로봇 트랜스포머, 로봇 제어 알고리즘) 작업을 할 당시 200명이 넘는 'Every day Robots' 팀이 있었는데, RT-1을 마친 뒤 이 부서는 비즈니스 모델이 없어 폐지됐다.

현재 중국의 체화된 정보기관 중 자신만의 루트가 없는 기업만이 미국의 테슬라와 구글을 흉내낼 수 있다. 자본이 풍부하고 남의 이야기를 전하는 미국 기업이 없다면 막다른 골목이 될 것이다.

"나중에": 이것도 만능 로봇을 만드는 데 필요한 데이터의 양에 따라 달라지나요? 한 자릿수 미만이라면 특히 부유한 대기업이나 자금을 조달할 수 있는 스타트업 회사도 운영할 수 있을 것입니다. 원격 작전 경로?

Wang He: 우리의 실험에 따르면, 예를 들어 크롤링 작업에서 10억 개의 데이터를 크롤링할 때 데이터 양을 1만분의 1로 줄이면 로봇의 성공률이 87%에 도달할 수 있습니다. 즉, 100,000 처음 크롤링을 했을 때 성공률은 58%에 불과했습니다. 이는 구체화된 지능에도 명확한 확장 법칙이 있으며 데이터에 대한 갈증이 더 크다는 것을 보여줍니다.

현실 세계에서는 수십억 개의 데이터를 얻기가 어렵습니다. Google이 수십만 개의 데이터를 수집하는 데 10개월 이상과 수천만 달러가 걸렸습니다.

"늦음": 시뮬레이션을 통해 비용을 얼마나 절감할 수 있나요?

Wang He: 시뮬레이션 합성을 통해 60장의 사진을 모두 1초 안에 렌더링할 수 있습니다. 실제 데이터를 수집하는 것에 비해 합성 데이터는 거의 무료입니다. 두 번째 곡선은 실제 세계에서 데이터를 얻는 것입니다.

시뮬레이터에서는 각 객체의 모션을 200개의 비디오로 합성한 다음 단일 객체를 시뮬레이션하고 객체 클래스로 합성합니다. 이는 로봇의 파악 능력을 훈련하는 데 사용되는 많은 양의 데이터를 생성합니다.

"늦음": 많은 사람들은 에뮬레이터(시뮬레이션된 가상 환경을 제공하는 시스템)를 사용하여 얻은 합성 데이터가 실제 데이터와 자연스럽게 다르기 때문에 훈련 효과에 영향을 미칠 것이라고 생각합니다. 어떻게 해결하나요?

Wang He: 시뮬레이터는 결코 완전히 실제일 수는 없지만 Sim2Real 경로는 시뮬레이터가 완전히 시뮬레이션될 것을 요구하지 않습니다. 이는 하드웨어, 알고리즘 및 시뮬레이션을 공동으로 최적화하는 프로세스입니다.

이 단계에서 시뮬레이터는 검증 도구이며, 알고리즘으로 표현된 수학적 물리적 모델은 크롤링 자격 획득의 핵심이다.

시뮬레이터에는 몇 가지 제한 사항이 있습니다. 예를 들어 우리 손이 생수병을 만질 때, 즉 유연하고 변형 가능한 손이 딱딱해 보이지만 실제로는 변형될 수 있는 물체를 만질 때 이 과정은 점 접촉이 아니라 마찰입니다. . 물리적으로 완벽하게 모델링된 것은 없습니다.

이때 우리의 알고리즘은 시뮬레이션의 가장 어려운 부분을 피할 수 있도록 터치 추가, 힘 제어 추가, "모양" 학습 및 제어와 같은 강력한 적응 기능을 갖추어야 합니다. 또 다른 전제는 하드웨어가 충분히 견고해야 한다는 것입니다(견고함이란 비정상적인 조건에서도 시스템이 비교적 안정적으로 실행될 수 있음을 의미함).

"후기": 수학적, 물리적 모델과 같은 시뮬레이터와 알고리즘은 정확히 어떻게 함께 작동합니까?

Wang He: 우리는 효율적인 검색을 포착하기 위한 일련의 수학적, 물리적 모델을 제안한 다음 시뮬레이터를 사용하여 그러한 포착이 가능한지 검증합니다.

강화 학습과 지도 학습의 차이점도 여기서 다룹니다. 강화 학습이라면 시뮬레이터와 여러 번 상호작용하고 시행착오를 거쳐 해결책을 찾아내는 것을 의미합니다. 이는 시뮬레이터의 신뢰성에 대한 많은 요구 사항을 갖게 되며, 발 걷기는 시뮬레이터 강화 학습 Sim2Real에 전적으로 의존하게 됩니다. 그러나 이것은 시도되었으며 효율성은 상대적으로 낮습니다.

로봇에게 잡는 방법을 알려준다면 지도학습으로 전환될 수 있어 학습 효율이 높아진다. 우리는 지도 학습을 사용하여 두 손가락과 다섯 손가락 잡기를 학습합니다.

첫날부터 고려해보세요상업화

"나중에": 휴머노이드를 만드는 대부분의 중국 회사는 다른 제품도 만들고 있습니다. 예를 들어 Zhiyuan은 상업용 청소 로봇을 보유하고 있으며 Zhuji와 Yushu는 모두 로봇 개를 만들고 있으며 미국은 대부분 휴머노이드 로봇을 직접 출시하고 있습니다. 왜 이런 차이가 있는 걸까요?

왕허: 중국과 미국의 자본 풍부도는 다릅니다. 미국에서는 돈이 있으니까 한꺼번에 다 해요. Figure AI 및 Tesla와 같은 회사는 모두 휴머노이드 모델을 사용합니다. 그러나 Figure AI의 현재 가치는 25억 달러이며 데모에 표시된 작업은 운동 능력과 관련이 없습니다. 미국의 거품은 그들이 매우 엄격한 PMF(제품 시장 적합성) 측면에서 생각하는 것을 방해합니다.

올해 8월 FigureAI는 BMW 자동차 공장에서 이미 일부 조립 데모를 수행할 수 있는 새로운 로봇인 Figure 02를 출시했습니다.

"나중에": 제품 구현을 처음부터 생각하는 것이 더 올바른 방법이라고 생각하십니까? 휴머노이드 로봇과 같은 최첨단 분야에서는 이것이 너무 불안합니까?

왕허: 한편으로는 여전히 데이터 문제입니다. 체화된 지능은 하드웨어에 묶여 있기 때문에 로봇이 현장에 배치되지 않으면 많은 양의 데이터를 얻기가 어렵습니다. 하지만 본체를 만드는 데 드는 비용이 너무 비싸서 대량으로 무료로 배포할 수는 없습니다. 대형 모델은 대중화 비용이 로봇에 비해 여전히 훨씬 낮기 때문에 데이터를 얻기 위해 상용화할 필요가 없습니다.

동시에 로봇에도 연마가 필요합니다. 현장에서 로봇을 장기간 관찰하지 않으면 로봇을 안정적인 작업 상태로 반복하는 것은 불가능합니다. 로봇트랙에 PPT회사가 없는 이유이기도 합니다.

"나중에": 어떤 종류의 제품 구현을 보셨나요?

Wang He: 첫 번째 단계는 동일한 공장이나 동일한 생산 라인에서 서로 다른 물건을 옮기는 등 단일 환경에서 여러 개체에 대해 단일 작업을 수행하는 것입니다. 이것이 현재 Google RT-1과 Tesla Optimus가 수행하는 작업이지만 Optimus는 더 적은 수의 개체를 처리합니다. 이 두 가지 모두 실제로 일반화, 즉 보편적이지 않으며 아직 실제로 돈을 벌 수 없습니다.

다음 단계는 로봇이 동일한 업계의 다양한 시나리오에서 다양한 개체에 대해 동일한 작업을 수행하는 것입니다. 예를 들어, 산업 제조업에서는 자동차 공장에서 부품을 구할 수 있는 것에서 모든 공장에서 모든 부품을 구할 수 있는 것으로 확장했고, 소매 산업에서는 작은 슈퍼마켓에 물건을 보관할 수 있는 것에서 월마트에 상품을 보관할 수 있습니다. 동일한 업계의 다양한 시나리오를 분석하는 한 번의 교육 세션은 큰 가치가 있습니다.

다음 단계는 더 많은 작업, 더 많은 시나리오를 보유하고 산업 전반에 걸쳐 처리하며 계속해서 보편화되는 것입니다.

"나중에": 업계 전체가 이제 첫 걸음을 내딛고 있습니다. 이때 첫 번째 장면 또는 첫 번째 장면을 어떻게 선택합니까?

Wang He: 어느 산업에서나 유연한 생산이 가능하지만 완전한 자동화가 아닌 한 구현된 지능형 로봇이 구현될 가능성이 높습니다. 특히, 제조업에서는 눈에 띄지 않는 운영이 있을 수 있으며, 수요가 많을 수도 있고 필요한 기술이 복잡하지 않을 수도 있습니다.

쉬운 것부터 어려운 것까지, 인건비가 높은 것부터 낮은 것까지, 수요가 많은 것부터 낮은 것까지 하나씩 해나가야 합니다.

"나중에": 약국에서 약을 구입하는 것이 당신이 언급한 논리와 일치합니까? 아니면 메이투안이 당신에게 투표했기 때문에 이 장면을 찍은 건가요?

Wang He: 우리는 더 강력한 다용도로 전환할 수 있는 고수익, 고가치 시나리오를 최초로 포착하고 싶습니다. 우리의 미래 목표는 가정에 진출하는 것입니다.

B to C는 Pure to B보다 가정용으로 더 적합하기 때문에 소매점에 B to C 장면을 설정하여 사람들과 상호 작용합니다.

"나중에": 첫 번째 로봇은 언제 출시되나요?

Wang He: 올해 4분기에 가격이 500,000인 소량 주문을 받을 예정입니다.

"나중에": 약국에서 약을 구입하는 데 비용이 너무 많이 드나요?

Wang He: 이제 우리는 과학 연구 시나리오와 Meituan과 같은 상업 시나리오라는 두 가지 주요 판매 방향을 가지고 있습니다. 이러한 시나리오의 가격과 구성은 다릅니다.

우리가 과학 연구 시나리오에 판매하는 것은 충분한 컴퓨팅 성능을 갖춘 개발 가능한 버전입니다. 우리가 상업용 시나리오에 판매하는 제품은 개발을 지원하지 않으며 일부 기능을 추가하고 기타 불필요한 기능과 컴퓨팅 성능을 줄입니다. 예를 들어 로봇에는 이제 OrinX 카드가 장착되어 있지만 상업용 시나리오에서는 컴퓨팅을 클라우드에 배치할 수 있습니다. .

현재 과학 연구 현장에 대한 예약이 수십 건에 달합니다. 비즈니스 시나리오에서는 기계부터 서비스까지 전체 프로세스를 우리 팀이 책임집니다.

"나중에": 갤럭시가 로봇 세트의 가격을 50,000위안으로 통제할 것으로 예상된다고 말한 적이 있습니까?

왕허: 올해는 할 수 없지만, 1,000~10,000대에 도달하면 계속해서 이 목표에 더 가까워질 것입니다.

'나중에': 중국에서 휴머노이드 로봇 판매가 스타트업, 대학 연구소, 기타 동료들의 지원을 받는다는 농담이 있다.

왕허: 과학 연구의 한계는 확실히 낮습니다. 하지만 과학 연구는 첫 번째 단계입니다. 1년 된 회사가 장난감이 아닌 이상 로봇 천 대를 파는 것은 불가능합니다.

"나중에": 현재 구현지능 업계의 비합의에 대해 많이 이야기해왔습니다. 현재의 합의는 무엇이라고 생각하시나요?

왕허: 지금까지 대규모 경제적 이익을 창출할 수 있는 구체화된 지능 시나리오는 등장하지 않았습니다. 어떻게 돈을 벌 것인가에 대한 합의가 없기 때문에 제품 형태, 기술, 산업, 후퇴할 시나리오에 대한 합의가 없습니다.

합의가 없는 것은 좋은 일이다. 즉, 모두가 합의에 도달하면 최종 전투는 비용, 자원, 연결이 될 것입니다. 이러한 요소는 기업가가 잘하는 것이 아니며 기업가 정신에 해를 끼칩니다.

하지만 미래, 기술의 종말, 집에 들어가기 + 완전한 인간형 + 대형 모델을 상상해 보면 모두가 이에 동의할 수 있을 것 같습니다.

"나중에": 현재 Embodied를 추구하는 수많은 새로운 회사를 어떻게 설명하시겠습니까? AGI 여행?

왕허: 이것이 인간이 다시 창조자의 역할을 하는 과정입니다. 자동차산업도 전적으로 사람이 만들어가는 산업이고, 앞으로 범용로봇도 마찬가지일 것이다. 우리 중에는 Tesla와 같은 선도적인 자동차 회사도 있을 것입니다.