소식

openai의 로봇은 너무 인간과 비슷합니까? 투자자들은 놀랐습니다. 그들은 옷 속에 실제 사람이 있다고 생각했습니다.

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

클래스 대표 시리즈 - ai 주요 이벤트에 대한 가장 빠르고 가장 완벽한 해석 이 기사는 openai가 투자한 휴머노이드 로봇인 1x technologies에서 출시한 최신 neo 로봇에 초점을 맞추고 이를 단서로 활용하여 특별한 기술 경로와 포지셔닝 고려 사항을 밝힙니다. 1x robots에서 채택한 제품입니다.

hao boyang과 zhou xiaoyan의 ai 미래 가이드 북으로

편집자 정커준

세계 로봇 회의를 방문한 후 일부 투자자는 tencent technology에 휴머노이드 로봇 트랙이 있다고 말했습니다., 하지만 참조하세요openai가 투자한 휴머노이드 로봇 기업 1x가 제작neo 로봇 이후 그들은 다시 자신감을 가지기 시작했습니다.

항상 로봇을 인간형 형태로 만드는 것을 반대해 온 하이인 캐피털(haiyin capital)의 왕위취안(wang yuquan) 창업자는 텐센트 테크놀로지에 "네오의 움직임은 매우 자연스럽고 조화로워 로봇에 대한 사람들의 고정관념을 완전히 벗어났다"고 말했다. 처음 이 로봇을 봤을 때 첫 반응은 옷 밑에 진짜 사람이 있다는 거였어요.”

오픈ai가 투자한 로봇이 집안일을 시작했는데, 인간 껍데기냐는 의심이 들 정도로 생생하다.

우리도 그 부드러움에 놀랐지만, 추가적으로 우리가 더 알고 싶은 것은 가족 장면에서 "바퀴" 모드의 세계에서 왜 "양각대" 모드를 선택하는가입니다.

위 보고서에서 우리는 산업 현장에 사용되는 로봇의 80% 이상이 하체 설계에 "바이페달" 모드를 채택할 것이라고 언급했습니다. 홈 현장에서는 작업이 덜 표준화되고 작업이 더 사소하며 긴급 상황이 더 자주 발생하므로 홈 로봇이 안전하고 조용해야 합니다. 걷거나 서 있을 때 불안정하고 높은 소음을 초래하는 "양각대"의 고비용 및 미성숙한 제어 알고리즘에 비해 바퀴형은 평탄한 도로에서 더 조용하고 안정적입니다.

neo는 다른 접근 방식을 취합니다. 홈 씬에서는 보기 드문 '2족 보행' 모드 로봇입니다.

디스플레이 비디오에서 neo는 매우 "부드럽습니다".등에 끈이 달려 있지 않으면 마치 실제 인간이 부엌에서 잔을 싸고 있는 것처럼 보일 것입니다.

어떤 지시도 없이 오직 자신의 '관찰'에만 의존하여 인간이 집안일을 하는 다음 단계를 예측할 수 있습니다.

neo는 매우 조용하게 움직이지만 디스플레이 영상의 볼륨을 높이면 neo가 배낭을 들기 위해 몸을 기울일 때 나는 미묘한 윙윙거리는 소리를 들을 수 있습니다.

'키가' 커 보이는 많은 휴머노이드 로봇과 달리 neo는 평상복을 입고 집에 찾아와 집안일을 도와줄 수 있는 이웃처럼 보입니다.

neo는 키가 1.65미터이고 몸 전체에 55도의 자유도를 가지고 있습니다. 무게는 30kg에 불과합니다. 이는 같은 높이의 대부분의 휴머노이드 로봇보다 거의 1/3~1/2 정도 가볍습니다. 그러나 neo의 힘은 작지 않습니다. medium 보고서에 따르면 neo의 페이로드는 20kg이며 그립력은 70kg(154lbs)을 들어 올릴 수 있을 만큼 강력합니다.

(사진설명: 국내외 '성인신장' 범위 휴머노이드 로봇의 무게 비교)

매개변수로 볼 때 neo는 크기는 작지만 그 강도는 업계의 주류 휴머노이드 로봇보다 열등하지 않습니다. 이러한 이족 보행 휴머노이드 로봇 중에서 neo만이 가정용 애플리케이션 시나리오를 제공할 수 있는 확실한 위치에 있으며 다른 이족 보행 로봇은 기본적으로 산업 시나리오를 제공합니다.

그렇다면 neo는 집에서 어떻게 "가볍게" 걸을 수 있을까요? 인간의 행동을 관찰하는 것만으로도 어떻게 예측할 수 있습니까? 휴머노이드 로봇의 일반화 문제를 극복한 것이 아닐까?

바퀴와 다리 사이의 디자인 차이는 어디에서 비롯됩니까?

이족 보행 휴머노이드 로봇은 산업 시나리오에 적합하지만 일단 가정용 모드로 전환하면 많은 어려움에 직면합니다.

과제의 핵심은 '양각대'의 기계적 구조가 복잡하고, 로봇의 작동을 유지하려면 더 많은 관절을 동원해야 하기 때문에 가정에서 사용하려면 필연적으로 더 높은 전력이 필요하다는 것입니다. 높은 전력 손실로 인한 일련의 문제(예: 열 방출 및 소음)를 해결해야 합니다.

대조적으로, 산업 시나리오에서 로봇은 일반적으로 창고나 폐쇄된 공장에서 작동합니다. 이러한 장소에는 열 방출을 돕기 위한 냉장 또는 냉각 장비가 장착되어 있으므로 이족 보행 로봇은 이러한 환경의 고온에 대해 크게 걱정할 필요가 없습니다. .

"노동자"로서 그들은 외모에 대한 높은 요구 사항이 없으며 반쯤 노출된 상태로 있을 수도 있고, "옷"이 없기 때문에 열을 발산하는 데 도움이 됩니다. boston dynamics의 유압식 atlas와 같이 "맹렬하게" 앞뒤로 달릴 수 있습니다.

(사진설명: 보스턴 파워 유압 아틀라스)

또한, 산업 환경 자체가 다양한 기계음으로 가득 차 있어서, 이족 보행 로봇의 관절이 움직이는 소리나 걸을 때의 발자국 소리는 그다지 눈에 띄지 않습니다.

하지만 일단 홈 씬으로 전환하면 산업 현장에서는 눈에 띄지 않는 이러한 문제들이 모두 버그가 됩니다. 로봇의 열 방출 성능이 좋지 않아 화재가 발생할 수 있고, 소음이 너무 많으면 신경 쇠약이 발생할 수 있으며, 노출된 부품은 특히 어린이가 있는 가족에게 적합합니다. 안전상의 위험이 큽니다.

바퀴형은 소비전력이 낮아 발열, 소음 등의 문제가 자연스럽게 줄어듭니다.

이는 "2족 보행" 로봇을 홈 장면으로 이동하려면 온톨로지에서 최적화되고 변환되어야 함을 의미합니다.

1x robot ai 부사장 eric jiang은 최근 인터뷰에서 neo 생산을 위한 솔루션을 제공하고 로봇 '모터'의 핵심 구성 요소를 최적화했다고 말했습니다.많은 휴머노이드 로봇이 사용하는 '작은 모터, 큰 기어비, 높은 운동에너지'라는 개념과 달리 neo의 핵심 비밀번호는 모터의 '높은 토크, 작은 기어비, 낮은 운동에너지'이다.

그렇다면 eric jiang이 말한 내용을 어떻게 이해할 수 있습니까? 먼저 휴머노이드 로봇의 '모터'와 '기어비'의 관계를 간략하게 이해할 수 있습니다.

인간과 유사하게, 휴머노이드 로봇의 움직임에는 실제로 선형 움직임과 회전 움직임의 두 가지 유형만 있습니다. 예를 들어, 1x 디스플레이 비디오에는 neo가 인간에게 "손을 흔드는" 몇 초가 있습니다. 이 동작의 해부학적 구성 요소는 먼저 오른손을 뻗은 다음(선형 동작) 손을 흔드는 것입니다(회전 동작). ).

분해해 보면 휴머노이드 로봇의 전체 동작 시스템이 이 두 가지 동작의 조합이라는 것을 알 수 있습니다.

그 중 휴머노이드 로봇의 '모터+나사' 조합으로 직선운동을 구현하는 반면, '모터+감속기'로 회전운동을 구현하는 것은 로봇을 돕는 '모터+감속기'의 구현에 중점을 두고 있다. "조인트" 회전을 완료하고 바퀴 유형에 비해 "양각대"에 관련된 주요 움직임이 관절에도 반영됩니다.

"기어비"의 핵심은 "모터 + 감속기"의 결합 속도인 회전 속도에 영향을 미칩니다.

간단히 말해서,"기어비"는 모터의출력 속도그리고컴포넌트가 실제로 실행되는 속도사이의 비율. 예를 들어, 휴머노이드 로봇 다리의 이동 속도가 v라고 하면, 기어비가 높다는 것은 모터가 고속으로 회전한다는 것을 의미하고, 기어비가 낮다는 것은 모터가 저속으로 회전한다는 것을 의미한다.

많은 휴머노이드 로봇은 높은 기어비를 가지고 있습니다.(예를 들어 10:1) 기어에 의해 모터의 속도가 감소한 후에는 로봇 관절의 이동 속도가 느려집니다. 이 구성은 높은 강도가 필요하지만 고속 이동이 필요하지 않은 경우에 더 적합합니다.

낮은 기어비를 사용하는 경우(예: 3:1) 모터 속도의 감속도가 낮아지고 로봇 관절이 더 빠르게 움직입니다. 이 구성은 빠른 응답과 유연한 작동이 필요한 상황에 적합합니다.

neo는 낮은 기어비를 설정하고 모터의 출력 속도를 줄여 코어 조인트의 전력 소비를 줄일 수 있습니다.

모터의 낮은 기어비는 모터의 작동 속도가 희생된다는 것을 의미합니다. eric jiang은 기술 문서 "motor physics"에서 neo가 발생할 수 있는 전력 부족을 보완하기 위해 "높은 토크"를 사용한다고 썼습니다. 그는 또한 "대부분의 모터는 많은 양의 토크를 발휘할 만큼 강력하지 않기 때문에 기계 엔지니어는 고속 모터에 기어를 추가하여 토크를 위해 속도를 교환합니다"라고 말했습니다.

(사진: 기계 엔지니어가 모터 속도를 토크로 교환하는 방법을 설명하는 eric jiang이 발행한 기술 문서 "모터 물리학"의 스크린샷)

이는 많은 이족 보행 로봇이 산업 시나리오에서만 사용될 수 있는 이유를 설명합니다."대부분의 휴머노이드 로봇 회사는 견고하고 고도로 기어가 장착된 구동 시스템에 의존하기 때문에 집이 아닌 공장에 로봇을 배치하는 것을 선택합니다. 이러한 시스템은 사람 주위에서 안전하지 않으며 우리 안에 갇혀 있어야 합니다."

이러한 관점에서 1x 팀은 이족보행 로봇이 가정에서 안전하게 작동할 수 있는 하드웨어 경로를 찾았으므로 neo는 열 방출 성능이 좋지 않아 옷이 타는 걱정 없이 인간의 옷을 입을 수 있습니다.

사실 1x의 이전 세대 로봇인 eve는 바퀴 달린 로봇이었는데, neo 세대에서만 이족 보행이 되는 근본적인 이유는 여전히 장면 적응의 문제입니다.

홈 장면은 매우 복잡하며 로봇이 물건을 집거나 카운터에서 물건을 집기 위해 테이블 ​​아래로 손을 뻗어야 하기 때문에 바퀴 달린 섀시가 있는 로봇은 일부 모서리에 도달하기 위해 팔을 "확장"해야 합니다. eric jiang은 "이 경우 로봇은 무게 중심의 변화를 이용해 인간과 같은 물건을 집어 들어야 한다"고 믿습니다. 로봇은 사람처럼 한쪽 다리를 들어올릴 수 있어야 하며, 한 손을 테이블 위에 올려놓고 무게 중심을 이용해 물체에 닿을 수 있어야 합니다.

eric jiang도 인터뷰에서 한 가지 예를 들었습니다. 많은 책장은 왜 하단에 일정한 공간을 남겨두는 걸까요? "그냥 인간이 발가락을 넣기 쉽도록 하기 위한 것입니다." 사람들이 책장에 몸을 기대어 책을 집어들 수 있도록 하는 것입니다.

따라서 두 발은 로봇의 이동 공간을 줄일 수 있는 반면 휠 베이스는 사소한 가정 장면에 적응할 수 없습니다.

이것은 바퀴 달린 자세에서 발의 자세로 이동하는 1x의 논리입니다. 아마도 가족 환경에서는 바퀴 달린 자세가 발 자세만큼 "달릴" 수 없습니다. 또한 neo에는 일반화 및 데이터 수집 측면에서 몇 가지 "독특한" 공식이 있습니다.

일반화 능력을 갖춘 로봇이 이미 한계점에 도달했나요?

집에서 사용할 수 있는 로봇으로서 안전성과 더불어 가장 중요한 것은 진정한 다각적인 도우미가 될 수 있다는 점이다. 이를 위해서는 로봇이 "스마트"해야 하고, 소유자의 요구 사항을 이해할 수 있어야 하며, 자율적으로 작동할 수 있어야 하고, 충분히 일반화되어야 합니다.

openai가 투자한 모든 로봇 회사를 살펴보면, 그들의 제품의 공통점은 매우 "스마트하다"는 것, 즉 대형 모델과 로봇을 매우 잘 결합할 수 있다는 것입니다.

예를 들어, figure 01의 놀라운 성능은 주로 지침을 이해하고 판단을 내릴 항목을 식별하는 능력에서 비롯됩니다. 이것이 바로 다중 모드 대형 모델과 로봇의 결합의 결과입니다.

또 다른 투자 회사인 physical intelligence는 현재까지 웹페이지만 있고 제품은 없습니다. 그러나 인터뷰에서 회사는 자사의 비전이 "창고나 공장에서 반복적인 작업을 수행하는 로봇에 전력을 공급하는 것이 아니라 광범위한 시나리오에 적용할 수 있는 범용 인공 지능 모델을 구축하는 것"이라고 밝혔습니다.

기계적인 부분에 대해서는 하드웨어를 직접 제작하지 않고, 소프트웨어 교육을 위해 여러 종류의 로봇을 구매할 것이라고 발표하기도 했습니다.

(사진설명: 물리지능)

이곳은 로봇회사라기보다는 대규모 모형회사입니다.

1x의 로봇도 예외는 아닙니다.

1x의 ai 부문 에릭 장 부사장은 2022년 1x에 합류하기 전, 한때 google deepmind의 saycan 프로젝트에서 팀을 이끌었습니다. 이 프로젝트는 언어 모델과 로봇을 통합하기 위한 구체화된 지능에 대한 최초의 시도입니다.

올해 2월 1x는 eve가 전체 신경망 임무를 수행하는 영상을 공개해 작은 히트를 쳤다. 4월 24일 grasp sfi 공유 회의에서 우리는 이 모델의 전반적인 운영 로직을 확인할 수 있습니다.

파이프라인(워크플로우 형태)으로도 나누어집니다. 먼저 dit(diffusion-transformer) 모델을 자연어 명령과 결합하여 difussion을 사용하여 미래 위치에 대한 예측 이미지를 생성합니다. 그런 다음 이 예측, 현재 이미지 및 대상을 새로운 transformer 모델에 넣어 후속 필수 기계적 활동을 예측합니다.

영상에서 우리는 eve가 품목을 분류하고, 운반하고, 심지어 스스로 충전할 수도 있다는 것을 알 수 있습니다(eve라고 불리는 것은 당연합니다). 이러한 작업 중 일부는 두 손으로 잡을 수도 있습니다. 하지만 이 영상을 자세히 보면 당시 eve의 능력은 물건을 식별하고, 집고, 배치하는 것에만 국한되어 있었고, 나중에 이러한 기본 능력은 포장, 이동, 분류와 같은 특정 작업으로 결합되었습니다.

올해 8월이나 9월까지는 기본적으로 대규모 모델 회로에 접근할 수 있는 모든 로봇 회사가 이러한 기능을 달성할 수 있을 것입니다.

예를 들어 피규어01은 지난 2월 말 대형 모델을 이용해 커피를 운전하는 로봇이 자체적으로 오류까지 수정하는 영상을 공개한 바 있다.

(사진설명: 시연영상 속 figure 01 커피 브루잉 모습)

하지만 이후 피규어와 1x는 모델 측면에서 서로 다른 길을 걸었다.

지난 3월 figure는 로봇에 강력한 대화 및 논리 기능을 제공하기 위해 gpt-4o를 직접 사용하기로 결정했습니다. 그들은 세 가지 모델을 통합하기 위해 파이프라인(워크플로)을 사용했습니다.

첫째, gpt-4o 대형 모델은 언어를 인식하고 행동을 계획하는 데 사용됩니다. 그런 다음 자체 신경 정책 계층, 즉 자체 훈련된 엔드투엔드 작업 모델이 작업을 실행합니다. 동시에 로봇의 균형을 유지하기 위해 자체 몸체 제어 모델을 사용합니다.

(사진설명: 피규어 공식 모델 구성 설명)

상호 작용이 로봇의 가장 큰 특징이 된 후 figure 02는 3배의 컴퓨팅 성능으로 인한 두뇌 수준 향상도 강조했습니다. 모델 측면에서는 openai 모델의 더 나은 통합이 개발 초점이 되었습니다.

그러나 5월 31일이 되어서야 1x는 언어 지침 업데이트를 발표했습니다. 시연 영상에서 로봇은 최종적으로 음성 커뮤니케이션을 통해 작업을 이해하고 해당 작업을 수행할 수 있게 됐다. 그러나 지금까지도 1x는 여전히 대규모 고급 언어 모델을 사용하지 않습니다. 공식 웹사이트 디스플레이 페이지의 문서에서 그들은 다음과 같이 언급했습니다. “시각-자연어 명령 쌍의 데이터세트를 구축한 후 다음 단계는 gpt-4o, vila 및 gemini vision과 같은 시각적 언어 모델을 사용하여 높은 수준의 명령을 자동으로 예측하는 것입니다. "이로 인해 로봇에는 복잡한 작업을 계획하는 능력이 부족하게 됩니다.

스마트 성능 면에서는 1x가 크게 뒤처진 것 같습니다.

하지만 이는 그들의 노력이 서로 다른 방향으로 진행되고 있기 때문일 수도 있습니다. 상호 작용 및 계획 기능과 비교하여 1x는 작업 일반화에 더 중점을 둡니다.

1x는 지난 3월 공식 블로그에서 자사가 구축 중인 모델을 설명했습니다. 그들은 집을 청소하고 정리하는 것에서부터 물건을 집는 것, 인간 및 다른 로봇과의 사회적 상호 작용에 이르기까지 광범위한 신체적 행동을 이해하기 위해 "기본 모델"을 훈련시키려고 노력하고 있습니다. 그런 다음 더 많은 기술 훈련 데이터를 축적하여 모델에 보다 구체적인 기술 세트(예: 일반 문 운영을 위한 하나의 모델과 창고 작업을 위한 다른 모델)를 추가했습니다. 즉, 다중 작업 일반화를 지원하는 로봇 '기본 모델'을 구축하려고 합니다.

이는 단일 로봇이 단일 모델을 사용하여 여러 작업에 참여할 수 있도록 하는 작업 기능의 일반화입니다. 이는 사실 특별한 것이 아닙니다. 로봇 소프트웨어를 만드는 거의 모든 회사는 여러 단일 작업을 교육하고 있습니다. 그러나 각종 로봇 시연 영상이나 각종 학회 전시회에서 로봇이 방 전체를 청소하고 요리를 하는 등 복잡한 작업을 동시에 지속적으로 수행하는 모습은 거의 볼 수 없었다.

이는 현재 작업 전반에 걸쳐 일반화할 수 있는 모델이 없기 때문입니다.

에릭장은 '로봇리포트'와의 인터뷰에서 "우리는 이전에 로봇이 단순한 물체를 집어 들고 조작할 수 있다는 것을 시연했지만, 진정한 실용적인 홈 로봇을 갖기 위해서는 여러 작업을 연속적으로 원활하게 수행할 수 있어야 한다"고 말했다. " 하지만 이는 단순히 "뇌"와 같은 상위 수준 모델을 통해 복잡한 작업을 여러 작업으로 분할하는 것만으로는 달성할 수 없습니다. 작업마다 시작 위치와 조건이 다르기 때문입니다.

로봇이 두 번째 작업을 수행해야 한다면 먼저 첫 번째 작업의 단점을 보완해야 합니다. 예를 들어, 첫 번째 로봇이 테이블 옆의 올바른 위치에 도달하지 못하면 두 번째 로봇은 물체를 잡기 위해 팔을 뻗어야 하며 세 번째 작업에는 추가 보상이 필요합니다. 실수는 쌓이는 경향이 있습니다.

1x 솔루션은 모델을 분할하는 것입니다. 현재 해당 모델은 두 부분으로 구성되어 있습니다. 하나는 모든 작업과 "작업 체인"을 이해하는 기본 모델이고, 다른 하나는 특정 작업을 더 잘 이해하는 많은 작은 모델입니다. 일종의 파이프라인(워크플로)이 되기도 했습니다.

직원들이 음성을 통해 로봇을 안내해 여러 소형 모델의 결합된 동작을 완료하고 그 과정에서 오류를 개입할 수 있는 자연어 인터페이스를 개발했습니다. 이를 통해 모델을 장기적인 "작업 체인"에 직렬로 연결할 수 있습니다. 이러한 개입 및 전체 다중 작업과 관련된 데이터는 대규모 "기본 모델"을 훈련하는 데 사용됩니다. 결국 축적된 작업 데이터와 '작업 체인' 데이터를 통해 '기본 모델'을 조정하고 학습시켜 이 기본 모델이 단일 작업의 실행을 해결할 수 있을 뿐만 아니라 작업 간의 연결 문제도 해결할 수 있도록 하게 됩니다.

(사진설명: 1x가 개발한 자연어 제어 인터페이스)

그러므로 상호작용과 기획을 강조하는 피규어가 선택한 길과는 다르다. 현재 1x가 해결하기로 선택한 핵심 문제는 작업 간의 일반화 능력입니다. 그리고 이것이 현재 로봇이 진정한 보편화를 이루는 데 있어 핵심적인 걸림돌이 될 수 있습니다.

그렇다면 1x의 작업간 일반화 진행은 어떤가요?

최근 다큐멘터리에서는 직원이 음성을 사용해 로봇에게 문 열기, 변기 들어가기, 변기 닫기, 나가는 작업을 단계별로 완료하도록 지시하는 모습을 볼 수 있다. 이 과제는 한번에 주어지는 것이 아니라, 개별적으로, 연결되어 주어지는 것입니다.

이는 그다지 "자동"처럼 보이지는 않지만 실제로 1x 로봇이 여러 명령 작업 간에 지속적으로 작업할 수 있는 예비 능력을 이미 갖추고 있음을 증명합니다. '태스크 체인'의 기본 실행 능력과 gpt-4 등 첨단 모델의 기획 능력만 갖췄다면 머지않아 복잡하고 연속적인 작업을 자율적으로 완료하는 것이 가능해질 전망이다.

에릭장도 그렇게 생각하는 것 같다. 그는 올해 3월 '모든 길은 로봇공학으로 통한다'라는 제목의 블로그에서 "많은 인공지능 연구자들은 아직도 범용 로봇이 구현되려면 수십 년이 걸릴 것으로 믿고 있다. 하지만 기억해라, chatgpt의 탄생은 하루아침에 이루어진 것처럼 보였다. 로봇공학 분야도 그러한 변화를 가져올 것이라고 생각합니다.”

그의 눈에는 일반화할 수 있는 범용 로봇이 보이는 듯하다.

그러나 업계의 비관론은 정당하다. 그들의 주요 관심은 알고리즘에 있는 것이 아니라, 현재 구현된 지능의 데이터가 풍부하지 않고, 수집하기가 매우 어렵고, 표준이 부족하다는 사실입니다.

그러나 스케일링 법칙의 일반화를 달성하려면 대량의 데이터가 핵심입니다. 단순한 대규모 언어 모델과 비교할 때, 구체화된 지능은 이미지와 동작을 포함하므로 보편화되기 위해 더 많은 양의 데이터가 필요할 수 있습니다. 그리고 이 데이터를 수집하는 데는 많은 시간이 걸립니다.

"똑똑한" 데이터를 수집하기 위해 "멍청한" 방법을 사용함

에릭장은 다큐멘터리에서 업계 전반의 우려에 어긋나는 발언을 한 적이 있다."많은 사람들이 데이터 수집의 병목 현상을 과대평가합니다. 실제로 향후 12개월 동안 데이터의 중요성은 점점 더 줄어들 수 있습니다."

데이터에 대한 그의 자신감은 과거의 관행에서 비롯됩니다. 1x의 데이터 수집 논리는 항상 다른 로봇 회사와 약간 달랐습니다.

다른 회사들은 일반적으로 가능한 한 많은 데이터를 수집하기 위해 가능한 모든 수단을 사용합니다. 방법에는 unreal 5와 같은 시뮬레이션된 물리적 환경에 시뮬레이션 로봇을 배치하여 대량의 데이터를 수집하거나 비디오 데이터를 사용하여 인간이 물체를 조작하는 비디오를 가로채서 정보를 추출하는 방법이 있습니다.

하지만 실제로 현재 가장 일반적으로 사용되는 주류 방식은 원격조종(training from demostration)을 활용해 인간이 vr을 착용하고 로봇에게 시연함으로써 데이터를 얻는 것이다.

이러한 종류의 원격 작업 수집은 일반적으로 로봇을 매우 고정된 "데이터 수집 공장" 환경에 배치하여 최대한 효율적으로 충분한 데이터를 수집합니다. 약간의 반복과 유사점이 있더라도 말이죠.

(사진설명: 테슬라 데이터 수집공장)

에릭 장에 따르면 현재 그들이 사용하는 방식은 매우 '멍청한' 방식이다. tesla가 사용하는 효율적으로 보이는 중앙 집중식 수집 모드와 비교하여 1x는 수집을 위해 다양한 생활 현장으로 돌아가는 것을 고집했습니다. 그래서 우리는 그것들이 공장과는 매우 다른 다양한 공간에서 수집되는 것을 봅니다. 또한 영상훈련이나 시뮬레이션 데이터도 사용하지 않고 원격조종으로 수집한 데이터만 사용할 것을 고집했다.

(사진설명: eve의 트레이닝 장면은 놀라울 정도로 다양하다)

베른트 보니치(bernt bornich) ceo는 인터뷰에서 “다양성은 휴머노이드 로봇 데이터의 가장 중요한 측면”이라며 “소비자 로봇의 비정형 환경에서 학습하면 진정한 지능형 범용 로봇이 가능해진다”고 말했다.

x1의 관점에서 로봇이 결국 착륙하게 될 가정과 사무실 환경은 고정된 구조가 없고 인간의 사용에 따라 끊임없이 변화하므로 의미가 있으려면 다양한 데이터가 충분히 있어야 합니다. 따라서 에릭장이 제시한 1x 데이터 수집 공식은 "다양성>질>수량>알고리즘"이다.

이러한 컬렉션의 다양성을 달성하기 위해 1x는 특별히 엄선된 로봇 운영자 팀을 구성했습니다. 이들은 모두 간단한 nle 그래픽 인터페이스 세트를 통해 일부 행동 모델을 개인적으로 훈련할 수 있습니다. 이에 대해 장에릭 대표는 기술 블로그에 “내가 아는 회사 중 데이터 수집자가 스스로 로봇 역량을 훈련할 수 있는 회사는 1x가 처음이다. 데이터가 얼마나 좋은지, 그리고 로봇 작업을 해결하는 데 실제로 얼마나 많은 데이터가 필요한지에 대한 피드백을 신속하게 얻는 것이 앞으로 로봇 데이터 수집의 일반적인 패턴이 될 것으로 예상됩니다.”

그래서 컬렉션 작업자만 있는 것이 아니라 모델을 직접 미세 조정할 수 있는 컬렉션 엔지니어 그룹이 있습니다. 그들은 특정 작업에서 작동하지 않는 것을 식별하고 해당 시나리오에 대한 데이터를 수집한 다음 모델을 재교육 및 조정하고 모델이 완벽해질 때까지 프로세스를 반복합니다. 올인원 교육.

(사진설명: 1x의 링크드인에서 이들 운영자 채용은 모두 아웃소싱이 아닌 정규직으로, 월급은 6000~8000달러로 미국 평균 월급의 약 1.5배 수준이다)

이러한 "어리석은" 방법은 수집된 데이터의 품질과 다양성을 보장하며 각 데이터는 가능한 한 "유용합니다". 최근 인터뷰에서 rric은 "공장에 로봇을 배치하고 똑같은 작업을 반복적으로 수행한다면 데이터는 기본적으로 쓸모가 없습니다"라고 말했습니다.

상대적으로 미세한 이러한 수집은 의심할 여지 없이 데이터 규모의 증가를 늦추지만 그 효과는 매우 중요합니다.

(상단: 1x가 수집한 데이터의 시간, 하단: 1x가 수집한 활동의 ​​다양성)

에릭장의 기술 공유에 따르면, 2024년 3월까지 7,000가지의 고유한 동작을 포함한 총 1,400시간의 훈련 데이터를 수집했습니다. 그는 또한 이 데이터의 훈련을 통해 eve 로봇이 현재 수백 가지의 독립적인 능력을 가질 수 있다고 말했습니다.

이와 대조적으로 rt-2는 훈련에 130,000개의 사례를 사용했으며 13개의 로봇이 이를 수집하는 데 17개월을 보냈습니다. 각 예시가 평균 5초라면 이러한 예시의 총 길이는 수만 시간에 달할 수 있습니다. 700가지의 다양한 명령어로 작업을 수행할 수 있습니다.

이런 관점에서 보면 정제된 데이터 수집의 효과는 참으로 좋습니다. 데이터의 1/10을 사용하여 능력 수준의 최소 절반에 도달하세요. 서두르면 낭비가 된다는 생각은 로봇공학 세계에서도 마찬가지입니다.

결론

전체적으로 1x의 가장 큰 '비장의 카드'는 사람에 초점을 맞춘다는 점입니다.

1x가 전달하는 기업 문화는 '편안함'을 드러냅니다. 이전 eve든 최근 neo든 홍보 영상은 냉정하고 기술적인 수치와는 전혀 다르며 날카로운 모서리를 피하고 의도적으로 대규모를 유발하지 않습니다. 의사소통도 일종의 이상주의이다.

네오 프로모션 영상을 보면 1x가 '옆집 형님' 같은 '따뜻한 남자' 이미지를 연출하고 있는 모습이 엿보이며, 몸에 딱 붙는 캐주얼룩을 입고 인간 남자다운 근육 라인을 강조했다. 가족의 일상을 챙겨주고, 나가기 전에 짐을 싸주고, 떠나기 전에 따뜻하게 안아준다.

또한 neo가 인간의 몸짓을 이해할 수 있다는 점을 시연 영상에서 확인할 수 있는데, 이는 인간의 의사소통에 대한 심층적인 이해이기도 하다. 사람들 사이의 많은 의사소통은 언어에 의존하지 않습니다. 인간이 "말을 잃을" 때가 있습니다. 따라서 neo는 인간의 다음 단계를 "읽고" 말 없이도 서로 이해를 줄 수 있습니다. 특히 땅에는 "인간"의 풍미가 있습니다.

작업 일반화와 유연한 설계 측면에서 neo는 홈 씬 최초의 2족 보행 휴머노이드 로봇이라고 할 수 있습니다.

미래에도 로봇이 영원할 수 있다면, 우리 자신은 물론 미래 세대까지 동행하려면 어떤 로봇이 필요할까요? 아마도 neo가 좋은 대답일 것입니다.