소식

웨이샤오리 엔드투엔드: 형태는 다르지만 기쁨과 슬픔이 얽혀 있다

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


중국 인터넷에서는 머스크를 '원조신'으로 조롱하는 경우가 많다.테슬라오픈소스가 없으면 중국은 순수 전기차를 만들 수 없다”고 조국을 싫어하는 당이다.

하지만 지능형 주행 분야에서는 테슬라가 기술 세부사항을 공유하는 AI Day를 개최하는 등 오랫동안 업계 전망의 방향을 선도하는 비콘 역할을 해왔다.

하지만 지난해부터 테슬라는 AI 데이를 취소하고 기술 진보만 발표하고 기술 구현에 대해서는 더 이상 언급하지 않았다. 올해 각종 스마트 드라이빙 업체들이 테슬라가 제공하는 엔드투엔드 연습문제를 공개했는데 갑자기 답변란에 '문제를 해결하라'라는 작은 단어 한 줄이 발견됐다.과정은 생략합니다.

참조 답변 없이 엔드투엔드를 수행하는 방법은 무엇입니까? 엔드투엔드 스마트 드라이빙의 연구개발은 합리적인 비즈니스 모델로 뒷받침되는가?

이 질문은 처음으로 신차 제조 세력의 대표인 웨이 샤오리(Wei Xiaoli)에게 주어졌습니다.


01 

블랙박스를 열어보세요



지난해부터 올해 상반기까지 국내 스마트 드라이빙 업체 간 경쟁의 주요 주제는 전통적인 모듈형 기술 아키텍처 하에서 인파전술로 도시 개방 속도를 놓고 경쟁하는 것이었다.

이 과정에서 Wei Xiaoli의 스마트 운전 팀은 천 명(또는 그 이상)으로 확대되어 Corner Case를 정복하기 위해 밤낮으로 훈련, 테스트 및 검증을 수행했습니다.

Tesla FSD는 누구에게나 중복된 작업에서 벗어날 수 있는 기회를 제공함으로써 End-to-End 효과를 검증했습니다.하지만 가격은 전통적인 스마트 드라이빙 기술 스택의 각 모듈을 테스트하고 검증할 수 있는 반면, 엔드투엔드 스마트 드라이빙 시스템은 결과만 알고 프로세스는 알 수 없는 블랙박스라는 점입니다.Wei Xiaoli는 엔드 투 엔드를 향해 나아가고 있으며 그들이 직면하는 일반적인 문제는 다음과 같습니다.

스마트 드라이빙 등 안전 요구사항이 강한 기능에서는 완전한 블랙박스는 용납할 수 없다. 이 블랙박스를 열어 "시스템이 왜 이렇게 하려는지"를 이해하거나 적어도 상대적으로 출력을 내도록 하는 방법을 찾아야 한다. 통제 가능.

샤오펑선택은 분할된 end-to-end 진행 경로이며, 그 기술 솔루션은 장면 이해에 중점을 둔 지각 신경망 XNet + 계획 신경망 XPlanner + 시각적 언어 모델 XBrain입니다.

Xpeng은 엔드 투 엔드로 분할됩니다.


엔드투엔드 기술 체인에서는 분할된 엔드투엔드가 현재 다운스트림입니다.

급진주의자들은 분할된 엔드 투 엔드가 여전히 기존 솔루션의 범위에서 벗어나지 않는다고 믿습니다. 인식과 계획 모두 신경 네트워크를 구현했지만 한 가지 핵심 사항은 변하지 않았습니다. 두 신경 네트워크를 연결하는 인터페이스는 여전히 인간입니다. 정의된 인터페이스는 정보 손실과 많은 양의 수동 주석을 의미합니다. 전체 프로세스는 전역 최적화 및 자동화에 도움이 되지 않습니다.

그러나 세그먼트화된 엔드투엔드의 장점도 여기에 있습니다. 인간이 정의한 인터페이스가 있습니다. 즉 인간이 이해할 수 있는 중간 결과가 출력될 것이며 문제를 확인하고 찾는 데 편리하며 전신에 영향을 미치지 않습니다. , 감지 문제와 같이 전체 네트워크를 재교육할 필요가 없습니다. 두 개의 작은 모델을 함께 훈련하는 것은 하나의 큰 엔드투엔드 모델을 훈련하는 것보다 덜 어렵고 컴퓨팅 리소스도 덜 소비합니다.

더 중요한 것은 이 방법이 이론적으로 지능형 주행 성능의 하한을 유지하는 것이 더 쉽다는 것입니다.

지난 7월 30일 전국적으로 전면 공개된 Xpeng의 XNGP 스마트 드라이빙이 출시된 후 He Xiaopeng은 "건물은 층층이 쌓아야 하며 비약적으로 발전하는 것이 가능할 수도 있지만 위험은 극도로 클 것입니다."라고 말했습니다. 높은."

이 문장은 친절한 사업가들에 대한 훈계로 해석되었습니다.

7월 초 Lili는 여름 컨퍼런스에서 개발 중인 1단계 엔드 투 엔드 솔루션인 4D One Model 엔드 투 엔드를 소개했습니다. 1단계 엔드투엔드에서는 인식과 계획이 수억 개의 매개변수를 가진 신경망에 패키징되며, 숙련된 운전자의 운전 영상이 가장 중요한 훈련 데이터가 됩니다. 이 솔루션은 무손실 정보 전송을 지원하고 데이터 흐름에 있어 더 높은 수준의 자동화를 제공하며 Xiaopeng과 Huawei의 엔드투엔드 솔루션보다 더 혁신적입니다.

그러나 이 end-to-end 솔루션은 취약한 일반화, 빈약한 해석성, 불안정한 하한 등의 문제를 안고 있습니다. 이러한 이유로 Ideal은 22억 개의 매개변수 규모를 가진 VLM(Vision-Language Model)을 end-to-end에 연결했습니다. 투엔드 모델. 이 모델은 복잡한 교통 상황과 교통 문자 표지판에 대한 이해도를 높이고, 엔드투엔드 모델에서 운전 결정에 대한 참고 자료를 제공하여 지능형 운전 시스템의 성능을 향상시킬 수 있습니다.

이상적인엔드투엔드+VLM빠르고 느린 시스템 스마트 드라이빙 솔루션

지난 8월 아이디얼의 엔드 투 엔드 + VLM 빠르고 느린 듀얼 시스템 스마트 드라이빙 솔루션은 전문 사용자를 대상으로 수천 명을 대상으로 내부 테스트를 시작했으며, 올해 말이나 내년 초 일반 사용자에게도 출시될 것으로 예상된다. .

이전에는 Ideal이 Zhijia에 대한 사용자 인식을 선도하지 못하여 매출에 부정적인 영향을 미쳤습니다(특히세상에 물어보세요시간). 엔드투엔드 + VLM은 코너에서 추월하고 첫 번째 계층이 되기 위한 지능형 주행 능력을 위한 핵심 전투로 이상적으로 정의됩니다.

대조적으로,니오엔드투엔드(end-to-end)에 대해 보수적이고 급진적인 태도를 취합니다.

NIO는 현재 엔드 투 엔드 사용이 매우 제한적이며 도시 NoA에는 사용되지 않고 능동 안전 기능에만 사용된다는 점에서 보수적입니다. 7월 11일 NIO는 기존 솔루션에서 AEB 시나리오의 적용 범위가 부족한 문제를 해결하기 위해 엔드투엔드 솔루션을 사용하여 AEB를 추진하기 시작했습니다.

NIO의 급진적인 측면은 올해 후반에 출시될 스마트 드라이빙이 현재 인기 있는 엔드 투 엔드 온보딩 트렌드를 건너뛰고 다음 단계인 월드 모델 온보딩으로 직접 이동할 준비가 되어 있는 것 같다는 것입니다.

월드 모델은 스마트 드라이빙 산업에서 발견되는 최신 방법론이다. 테슬라는 2023년 최고의 인공지능 컨퍼런스인 CVPR에서 월드 모델의 연구개발 성과를 시연했다. 자율주행 월드 모델 GAIA-1로 업계에 알려진 스타트업 웨이브닷에이아이(Wayve.ai)가 10억 달러를 투자했다. 올해 5월.

월드 모델은 방대한 양의 실제 주행 장면 영상을 학습함으로써 미래의 특정 시간 내 주행 장면 영상을 예측하고 생성하여 올바른 주행 판단을 내릴 수 있습니다. 그 본질은 시공간 추론이다. 이는 인간의 운전 행동과 유사합니다. 숙련된 운전자는 다른 교통 참여자의 행동과 교통 흐름의 변화를 마음 속으로 예측하고 추론하며 이를 바탕으로 운전 계획을 세웁니다.

현재의 엔드 투 엔드 월드 모델에서 더 나아가는 것은 계획된 경로를 제공하는 것뿐만 아니라 "운전 장면의 픽셀 변화를 예측"하는 것이 핵심 임무라는 것입니다. 이 매우 어려운 작업은 모델이 뛰어난 운전자의 행동을 학습할 뿐만 아니라 광범위한 교통 지식과 물리학을 학습하도록 강제합니다.

NIO IN에서 Weilai가 제안한 것은 훨씬 더 어려운 "월드 모델 PLUS"입니다. 이는 더 복잡하고 더 많은 출력 차원을 가지며, 이는 실제 값과 비교하여 더 많은 감독 신호를 형성할 수 있고 신경 훈련을 가속화할 수 있음을 의미합니다. 네트워크의 성능을 저하시키고, 시스템 운용의 블랙박스 수준도 감소시킵니다. 그러나 가격은 개발 난이도가 높습니다.

NIO 월드 모델,많이있다예측 작업 출력


참고로 데모용으로만 사용하고 계획된 경로와 영상만 출력하는 월드 모델 GAIA-1을 학습시키기 위해 Wayve.ai에서는 4700시간의 영상 데이터를 사용하고 160개의 A100 블록으로 15일 동안 학습시켰습니다. NIO가 훈련시키려는 세계 모델에는 훨씬 더 높은 데이터와 컴퓨팅 리소스가 필요합니다.

훈련이 완료된 후, 컴퓨팅 성능과 대역폭이 매우 제한된 Orin-X에 복잡하고 거대한 세계 모델을 압축하여 정확성과 실행 속도를 보장하는 방법은 또 다른 복잡한 문제입니다.

현재 처음으로 엔드투엔드를 시도하는 웨이샤오리는 (신중하게 채택하더라도) 엔드투엔드의 '상한은 높이고 하한은 낮추는' 효과를 느낀다. 다양한 정도.

예를 들어, Xpeng의 최신 버전인 XNGP는 전례 없는 유턴 기능을 얻었지만 피드백에 따르면 고속에서의 지능형 주행 성능이 퇴보한 것으로 나타났습니다.

내부 테스트 중인 Ideal의 end-to-end + VLM 솔루션은 상한이 높고 하한이 변동합니다.

NIO가 추진하는 엔드 투 엔드 AEB는 곡선의 사각지대 등 비표준 시나리오에서 고스트 프로브를 극도로 피하는 성능을 제공할 뿐만 아니라 잘못된 제동이 증가한다는 이유로 사용자로부터 비판을 받기도 했습니다.


02 

L4 연구개발, L2 유망주?



하한선을 파악하기 어려운 상황에서 자동차 회사들은 어김없이 End-to-End로 방향을 틀었습니다. 이는 End-to-End의 상한선이 충분한 사용자 경험 개선과 그에 따른 비즈니스 기회를 가져올 것이기 때문입니다.

하지만 자동차 회사들이 엔드투엔드(end-to-end)에 더 많이 관여할수록 그들의 마음 속에는 '스마트 드라이빙의 입출력 비율을 계산할 수 있을까?'라는 질문이 남아 있습니다.

Tesla는 FSD를 더 많이 판매하기 위해 올해 3월 구독료를 월 199달러에서 월 99달러로 인하했습니다(구매 가격은 12,000달러에서 8,000달러로 인하). 그러나 올해 5월 해외 데이터 컨설팅 업체가 이용자 3,500명의 신용카드 결제 정보를 분석한 결과 FSD의 전환율이 2%에 불과한 것으로 판단해 머스크는 X에 대한 '전환율이 멀다'는 루머를 반박했다. 2% 이상 부탁드려요."


하지만 2%가 넘는다면 충분하지 않습니다. Tesla는 텍사스 공장에 H100/H200 카드 100,000장에 달하는 슈퍼컴퓨팅 클러스터를 구축하고 있으며, H100당 25,000달러의 우대 가격으로 컴퓨팅 카드 구입에 드는 자본 지출만 25억 달러를 초과합니다(확대). 데이터 센터로 구축하고 계속 운영하는 것이 더 높으며) 가치가 있습니다.1년 동안 208만 대의 Tesla 차량에 대한 FSD 가입비

국내 자동차 기업의 스마트 드라이빙 사업 모델은 더욱 낙관적이지 않다.

Xiaopeng의 올해 AI R&D 비용은 35억 위안입니다. 이번 달 Ideal은 스마트 운전에 대한 자금 지원 기준을 10억 달러로 설정했습니다. 그러나 Xpeng의 XNGP와 Ideal의 NOA는 모두 고급 모델에 표준으로 제공됩니다. 구입. NIO는 무료 전략을 채택하지 않았다. 고급형 스마트 드라이빙 기능인 NOP+의 가격은 월 380위안으로 잠시 수익을 냈지만, 이제 신차에는 1~2년의 NOP+ 무료 사용 기간이 제공된다.

테슬라를 포함해 국내외 하이엔드 스마트 드라이빙은 여전히 ​​돈을 잃기도 하고 돈을 벌기도 하는 단계에 있다.

모순되는 점은 도시형 NOA 경쟁에 진입하고 엔드 투 엔드 패러다임으로 전환한 후 이들 기업의 지능형 운전 연구 개발의 강도가 실제로는 L3, 심지어는 L4 자율주행 쪽으로 향하고 있지만 주류 시장은 여전히 "유료 L2 보조 운전에 대한 추가 비용을 지불할 가치가 없습니다"라고 생각합니다.

이러한 '기대값과 실제값의 괴리'를 해소하기 위해서는 가장 큰 L4 자율주행 시장인 로보택시(Robotaxi) 진출이 가장 유력한 방안으로 보인다.

2018년 모건스탠리는 웨이모의 로보택시 가치를 800억 달러로 평가했습니다. 머스크의 가장 큰 팬인 Ark Investment의 Mu Jie는 올해 6월 Tesla Robotaxi의 수익이 "보수적으로" 2029년에 6,030억 달러에 도달하여 그때까지 Tesla의 시장 가치가 7조 달러에 도달할 것이라고 예측했습니다.

이에 앞서 머스크는 트위터를 통해 8월에 로보택시 모델을 출시하겠다고 발표했다.10월 10일로 연기되었습니다.)


03

사업 수익은 아직 기적적이지 않았습니다


올해 Wei Xiaoli 이전에는 Robotaxi를 할 것인지 말 것인지가 뜨거운 질문이 되었습니다.

Tesla와 가장 가까운 Xpeng의 경우 대답은 '예'입니다. 지난 7월, He Xiaopeng은 Xpeng Motors가 2026년에 Robotaxi를 출시할 것이라고 공개적으로 밝혔습니다.

He Xiaopeng은 Robotaxi의 하드웨어 요구 사항이 상상보다 훨씬 더 복잡하지만 빠르게 성장할 수 있는 엔드 투 엔드 + 대형 모델 소프트웨어 알고리즘 조합이면 L4 자율 주행을 해결하기에 충분하다고 믿습니다. He Xiaopeng의 팀 목표는 2025년 하반기에 XNGP 경험이 Google Waymo의 Robotaxi를 벤치마킹하는 것입니다.

그러나 자동차 제조 자체는 이미 자산이 많은 사업으로 다수의 로보택시를 구축하고자율주행 택시 호출 플랫폼은 비즈니스 체인과 투자 회수 주기를 무한히 연장할 것입니다.구글은 올해 Waymo에 50억 달러를 투자했는데 Xpeng이 이렇게 부자가 되는 것은 불가능합니다.

6월부터 7월까지 허샤오펑(He Xiaopeng)은 Didi CEO Cheng Wei와 Uber CEO Dara Khosrowshahi를 방문했습니다. 그는 Xpeng이 Robotaxi를 운영하고 싶지 않지만 모델과 자율주행 기술을 글로벌 파트너에게 수출하기를 희망한다고 말했습니다.

우버의 로보택시, 이제 현대자동차와 제휴


엔드 투 엔드 Robotaxi에 대한 자동차 회사의 접근 방식은 전 TuSimple CEO Hou Xiaodi, Pony.ai CTO Lou Tiancheng, Qingzhou Zhihang 사장 Hou Cong을 비롯한 많은 L4 자율 주행 실무자들로부터 반발을 불러일으켰습니다. 그들 중 일부는 자동차 회사의 엔드 투 엔드 신화를 분노하게 비판했고, 일부는 자동차 회사의 관련 역량 시스템이 건전하지 않다고 말했지만 핵심 주장은 동일합니다.

자동차 회사의 첨단 지능형 주행이 급속히 발전했지만, 기본적으로는 보조 운전의 틀 안에서 설계됩니다. 로보택시에서 가장 중요한 것은 사용성과 안전성입니다. 목표가 다르기 때문에 둘이 동일한 소프트웨어와 하드웨어를 사용하기 어렵고, 자동차 회사가 고급형 스마트 드라이빙에서 로보택시로 원활하게 전환하기가 어렵습니다[1][2][3].

이것이 리빈의 마음에 작용합니다. 7월 27일 인터뷰에서그는 "로보택시가 흥미로운 성과나 비즈니스 모델이라고 생각하지 않는다"는 점을 분명히 하고 화를 내며 이렇게 말했습니다.

"스마트 운전의 가치는 오늘날 운전사와 택시 운전사의 노고를 없애는 것이 아닙니다."

그가 로보택시에 대해 낙관적이지 않은 또 다른 이유는제한된 도로 자원과 정부 규제로 인해 로보택시는 무제한 출시가 불가능해 소프트웨어 클라우드 서비스처럼 한계 수익이 높은 비즈니스 모델을 갖기가 어렵다.

Li Bin은 사람들이 자신의 자동차를 소유하고 싶어할 것이라고 항상 주장해왔기 때문에 NIO 스마트 드라이빙의 목표는 운전자가 에너지를 절약하고 사고를 줄일 수 있도록 돕는 것입니다. 사업 경로의 핵심 단어는 규모 효과입니다. 일반 사용자와 충분한 가입비를 보유한 사용자에게는 고급 스마트 드라이빙을 위한 가입비가 부과되어 비용을 희석시키고 수익을 얻습니다.

하지만 고가의 스마트 드라이빙 앞에 NIO의 누적 사용자 규모가 60만 명도 채 되지 않아 아직은 부족해 스마트 드라이빙 역량을 수출하는 것은 선택지가 됐다. NIO의 스마트 드라이빙 책임자 Ren Shaoqing은 최근 NIO가 배터리 교체에 대해 개방적인 태도를 보인 것처럼 NIO의 스마트 드라이빙 솔루션을 처음으로 다른 자동차 회사에 공개하겠다는 의지를 표명했습니다.

이와 대조적으로 Zhijia에 대한 Li Xiang의 "기술적 판단은 급진적이며 비즈니스 전략은 보수적"입니다.

Li Xiang은 올해 충칭 자동차 포럼에서 엔드투엔드 + VLM의 조합이 3년 이내에 L4 레벨 자율주행을 달성할 것이라고 밝혔습니다. 하지만 차이점은 아이디얼은 로보택시 사업에 대해 생각해본 적이 없다는 점이다. 지금까지 아이디얼은 스마트 드라이빙 소프트웨어에 대한 과금에는 관심을 보이지 않았다. 공식 홈페이지에는 여전히 '올-시나리오 스마트 드라이빙, 평생 가입비 제로'라는 문구가 적혀 있다.

이는 이상적인 경쟁 상황과 관련이 있습니다. 지난 한 해 동안 이상에 직면했습니다.홍멍 지싱, 판매가 상당한 압박을 받았습니다. Hongmeng Zhixing의 가장 날카로운 창은 Huawei의 ADS 지능형 주행 기능입니다.

Hongmeng Zhixing이 각계각층에서 Huawei ADS 3.0(매수 가격 약 10,000위안)으로 급증하여 Ideal에 더욱 압력을 가하고 있는 이때, 이전보다 사용하기 쉽지만 무료인 Ideal의 AD MAX 스마트 드라이브가 도움이 될 수 있습니다. 더 많은 주문을 받아보세요. Xpeng이나 NIO와 달리 이상적인 스마트 드라이빙 KPI는 영업이익을 얻는 것이 아니라 매출을 제공하는 것입니다.

그러나 국내 자동차 산업이 녹아웃 단계에 접어들면서 웨이샤오리의 스마트 드라이빙 사업은 오랫동안 우호적인 상태에 머물 수 없다.

훈련 카드 비용은 100,000위안부터 시작하고, 1,000명 팀의 인건비는 연간 10억부터 시작합니다. Wei Xiaoli의 가장 비싼 사업 중 하나인 Zhijia는 기적을 달성하기 위해 더욱 자원 집약적인 길을 시작했습니다. . 그러나 기적적인 노력의 보상도 얻을 수 있을지는 여전히 불확실합니다.

참고자료:

[1] 후샤오디, 조심성 있는 용사, Jiazi Guangnian

[2] Robotaxi에 대해 Lou Tiancheng과 대화: "L2가 더 강력할수록 L4에서 멀어집니다.", Tencent Auto

[3] Tesla가 Robotaxi를 간단하게 만듭니다. Qingzhou Zhihang의 공동 창업자인 Hou Cong, Yunjian Insight와의 대화