소식

Li Auto Lang Xianpeng: 미래에 10억 달러의 이익 없이는 자율주행을 감당할 수 없습니다 36Kr 독점 인터뷰 |

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

인터뷰 | 리친, 리안치

텍스트 |

편집자 |

6월 초, 충칭 자동차 포럼에서 연설하기 전날 Li Auto의 CEO인 Li Xiang은 일시적으로 연설 대본을 변경했습니다. 팀은 원래 인공지능에 대한 주제를 준비했지만 리가 이야기하고 싶었던 것은 자율주행이었다.

Li Xiang은 회의에서 미래의 자율 주행은 신속하게 대응할 수 있는 능력과 논리적 추론을 통해 복잡한 사건을 처리할 수 있는 능력을 갖춘 인간과 같을 것이라고 말했습니다. 이상적인 대답은 end-to-end + VLM 시각적 언어 모델입니다. 이는 현재 지능형 운전 업계에서 가장 뜨거운 주제이기도 합니다.

한 달 뒤, Li Auto의 스마트 드라이빙 팀은 상세한 '엔드 투 엔드 + VLM' 솔루션을 출시했습니다. 국내 동종 업체의 '세그먼트 엔드 투 엔드'와 달리 Li Auto의 솔루션은 Tesla에 더 가깝고 'One'이라고 불립니다. 모델”, 큰 그물.

외부 세계의 인상에서 이상적인 스마트 자동차는 항상 추격자였습니다. 작년 업계의 치열한 Kaicheng 전쟁 중에 Ideal은 업계의 속도를 따라잡기 위해 고정밀 맵에서 라이트 맵(NPN 기능 네트워크)에 의존하는 등 경로를 자주 변경하기 시작했습니다. 고정밀 지도.

Li Auto의 지능형 주행 연구 개발 담당 부사장인 Lang Xianpeng과 지능형 주행 기술 연구 개발 책임자인 Jia Peng은 최근 36Kr과의 인터뷰를 수락했습니다. 이러한 추구 여정을 되돌아보면서 Lang Xianpeng은 다음과 같이 결론을 내렸습니다. 원칙은 문제의 본질을 찾아내고, 빠른 결정을 내릴 수 있느냐 하는 것입니다.”

"엔드 투 엔드" 기술 경로를 선택하는 것도 이 원칙의 연속입니다. Lang Xianpeng은 과거의 스마트 운전 솔루션이 지도 조명이든 지도가 없든 기본 기술 아키텍처는 "지도 기반"이었고 기존의 "인식-제어 프로세스"에 따라 작동했다고 말했습니다. 정보가 손상되었고, 취약점을 지속적으로 패치하려면 "많은 인력과 자원이 필요합니다"라는 다운스트림 규제 및 통제가 제한되었습니다.

물론 자원 투자는 여전히 부차적인 문제다. 핵심 문제는 “규칙 기반 지능형 운전 경험에는 한계가 있어 결코 의인화될 수 없다”는 점이다.

"End-to-end + VLM + 월드 모델"은 이상적인 인공지능 구현 패러다임입니다.

간단히 말하면, 이상적인 엔드 투 엔드 솔루션은 인공적인 규칙에 의존하는 인식, 예측, 계획 제어 등 원래 지능형 주행 시스템의 여러 독립 모듈을 제거하고 이를 대규모 신경망으로 병합합니다. "센서 데이터를 입력하고 계획된 궤적을 출력합니다."

VLM 시각적 언어 모델은 ChatGPT와 유사한 엔드투엔드 플러그인을 제공합니다. 종단간 질문은 "어떤 종류의 데이터를 제공할지, 어떤 행동을 하게 될지"이다. VLM 시각 언어 모델은 세상을 이해하는 능력과 논리적 추론 능력을 갖고 있다. 복잡한 시나리오에서 엔드투엔드 사용자는 VLM에 실시간으로 질문을 할 수 있고 VLM은 관련 운전 제안을 제공합니다.

월드 모델은 재구성 + 제작을 통해 시뮬레이션 데이터를 생성할 수 있고 Ideal 이전에 축적된 실제 사례를 생성하여 "실제 테스트 문제 + 시뮬레이션 테스트 문제"를 구성하여 엔드 투 엔드 모델을 테스트할 수 있는 거대한 잘못된 테스트 북입니다. 모델이 테스트를 통과하고 높은 점수를 얻은 후에만 사용자에게 홍보될 수 있습니다.

내부적으로는 이 세 가지 모델을 각각 시스템 1, 시스템 2, 시스템 3이라고 합니다. 시스템 1은 인간 두뇌의 실시간 사고 모드에 해당하고, 시스템 2는 인간 두뇌의 논리적 사고에 해당하며, 시스템 3은 시스템 1과 시스템 2의 훈련 및 학습 결과를 수용하는 시험 모델입니다.

엔드투엔드 지능형 주행 기술은 Tesla에서 시작되었습니다. 2023년 8월 Musk는 라이브 방송에서 엔드투엔드 FSD v12 버전 기능을 시연했습니다. 현재 FSD는 v12.5 버전으로 반복되었습니다. 그러나 Tesla와 달리 Ideal은 엔드투엔드 및 월드 모델 외에도 VLM 대규모 언어 모델 기능도 도입합니다.

Jia Peng은 36Kr에게 미국 동부 해안과 서부 해안에서 일주일 동안 Tesla의 FSD를 테스트했으며 "엔드 투 엔드"에도 상한선이 있음을 발견했다고 설명했습니다. 뉴욕, 보스턴 등 도로 사정이 복잡한 미국 동부해안에서는 테슬라의 수용률이 크게 높아졌다. 특히 크기가 크며, 모델 용량에도 자연적인 상한이 있습니다."

VLM의 이상적으로 설계된 역할은 "엔드 투 엔드"의 상한을 높이는 것입니다. 움푹 들어간 도로, 학교에 대해 학습하고 건설, 로터리 및 기타 이벤트를 담당하고 엔드 투 엔드에 대한 의사 결정을 제공할 수 있습니다. -중요한 순간에 시스템을 종료합니다.

Lang Xianpeng과 Jia Peng은 VLM이 이상적인 지능형 주행 시스템에서 더 큰 변수라고 믿습니다. VLM의 매개변수는 22억 개에 이르렀고 응답 시간은 300밀리초이기 때문에 더 큰 컴퓨팅 성능을 갖춘 칩이 있다면 VLM에서 배포할 수 있는 매개변수의 수는 수백억 개에 달할 것이며 이는 고급화로 가는 가장 좋은 길입니다. 자율주행 L3/L4.

"VLM 자체도 대규모 언어 모델 기술의 개발을 따르고 있습니다. Jia Peng은 결국 매개변수의 수가 얼마나 커질지 대답할 수 없습니다."

OpenAI, Microsoft, Tesla와 같은 기업이 주도하는 컴퓨팅 파워 게임에 지능형 운전 산업이 참여했음을 데이터 기반 및 대규모 시각적 언어 모델과 같은 특성으로 결정하는 것은 어렵지 않습니다.

Lang Xianpeng은 이 점에 관해 말을 아끼지 않았습니다. 모두가 비교하는 것은 데이터의 양과 질은 물론 컴퓨팅 파워 리저브입니다. 고품질 데이터는 절대적인 데이터 규모를 기반으로 합니다. L4 모델 교육을 지원하려면 약 수십 EFLOPS의 컴퓨팅 성능이 필요합니다.

"미화 10억 달러의 순이익이 없는 회사는 미래에 자율주행을 감당할 수 없을 것입니다."라고 직설적으로 말했습니다.

현재 Li Auto의 클라우드 컴퓨팅 성능은 4.5EFLOPS로 선두 기업인 Huawei와의 격차를 빠르게 좁혔습니다. 36Kr Auto에 따르면 Ideal은 최근 NVIDIA 클라우드 칩을 대량 구매했으며 "기본적으로 모든 카드를 채널 딜러의 손에 구매했습니다."

CEO인 Li Xiang 자신도 이 경쟁의 추세에 대한 통찰력을 가지고 있습니다. 즉, 리소스와 지능형 기술 활용을 사용하여 동료를 제거하는 것입니다. 그는 종종 Lang Xianpeng에게 "컴퓨팅 리소스가 충분합니까? Xie Yan(이상적인 CTO)이 더 많은 것을 얻을 수 있을 만큼 충분하지 않습니다."라고 질문하는 경우가 많습니다.

"우리는 남들보다 차도 있고 돈도 더 많아요. 이 길에서 상대와 격차를 벌릴 수 있는 절호의 기회가 있습니다." 재무 보고서에 따르면 올해 1분기 기준 Li Auto의 현금 보유액은 990억 위안에 가깝습니다.

Ideal은 내부 데이터를 통해 스마트 드라이빙의 비즈니스 폐쇄 루프가 조짐을 보이기 시작했음을 알 수 있습니다. 아이디얼은 지난 7월 초 스마트 드라이빙 맥스 버전 이용자를 대상으로 전국 주행이 가능한 6.0 스마트 드라이빙 버전을 출시하기 시작했으며, 리디알 맥스 모델의 비중이 빠르게 50%를 넘어섰다. 매달 10% 이상이면 2~3%는 정상적인 불안으로 이해될 수 있지만 10% 이상이면 효과적인 성장이다.”

Lang Xianpeng은 또한 L4 자율 주행의 비전이 명확해지기 시작했지만 그 구현 경로는 변하지 않았다는 것을 알고 있습니다. "우리는 회사가 자동차를 판매할 수 있도록 신속하게 도와야 합니다. 자동차를 판매해야만 스마트 교육을 위한 카드를 구입할 돈을 벌 수 있습니다. 운전."

미래 자동차 전장에서 스마트 드라이빙이 승자라면 분명 더 잔인한 자원게임이 될 것이다. 아이디얼은 최상위 전략부터 기술 준비, 자원 투자까지 사전 준비를 해왔습니다.

다음은 36Kr Automobile과 이상적인 지능형 운전 기술 R&D 부사장 Lang Xianpeng, 이상적인 지능형 운전 기술 R&D 책임자 Jia Peng 간의 대화입니다.

지능형 운전의 상한선에 대해 이야기하기: 그림이 있든 없든 동질적인 아키텍처입니다.

36Kr Auto: 내부 검토가 있었나요? 스마트 운전에 뒤처져 있는 상태에서 화웨이와 비슷한 수준에 빠르게 도달하려면 어떻게 해야 합니까?

랑셴펑: 사실 Xiaopeng, NIO, Huawei와 비교할 때 우리는 머리가 여러 개라는 의미가 아니며 다른 사람들만큼 가족이 많지 않을 수도 있지만 현실성을 요구합니다. 때때로 사람들은 문제의 본질을 찾지 못한다는 느낌을 받습니다. 어려움에 직면했을 때 그들은 지금 하고 있는 일을 수정하고 반복할 수 있는지만 생각합니다.

예를 들어 사진이 있는 것부터 없는 것까지, 가장 큰 문제는 사진 자체입니다. 예전에 지도 작업을 많이 했는데, 조금 더 고생하고 싶다. 사실 다음 단계의 연구개발에 빨리 투자하고 싶다. 근본적인 문제를 찾아내고 이를 빨리 고치겠다는 결심을 할 수 있느냐에 달려있습니다.

36Kr 자동차: 전국 지도 없는 스마트 드라이빙을 구현하는 것이 이상적입니다. 편차를 수정하는 방법은 다양합니다.

랑셴펑: 작년 상하이 오토쇼에서 모두가 도시형 NOA를 만들기 시작했습니다. 각 회사마다 비슷한 생각을 가지고 있는데, 고속도로는 고정밀 지도를 사용하기 때문에 먼저 고속도로 계획을 도시에서도 사용할 수 있는지 알아보는 것이 오토내비의 지도 대리점에 문의해야 한다고 합니다. 하지만 약 20개 도시에만 해당됩니다. 우리는 먼저 시도해 보라고 말했습니다.

그러나 계획과 지도의 반복적인 업데이트는 바인딩됩니다. 그 당시 우리는 왕징에서 작업 중이었습니다. 작업을 계속하려면 AutoNavi가 도면을 반복할 때까지 기다려야 했습니다. 지난해 6월쯤 우리는 맵을 다시 만들지 않고 NPN(Nural Prior Network) 솔루션으로 전환하기로 결정했습니다. 주요 교차로, 로터리 등에서 NPN 사전 정보를 활용하는 로컬 매핑과 동일하며, 우리 차량이 해당 기능을 업데이트합니다.

그런데 베이징, 상하이, 광저우, 선전 등 대도시에는 자동차가 많지만, 작은 도시에는 자동차가 거의 없습니다. 항상 대도시에서 하시나요? 사용자는 비용을 지불하지 않습니다. 당시 팀은 여전히 ​​주저했고 베이징, 상하이, 광저우는 괜찮게 지내고 있었습니다. 100개의 도시를 건설하는 대신 몇 개의 1급 도시를 건설해야 한다는 내부 목소리도 있습니다. 어쨌든 화웨이는 처음에는 50개 도시에만 있을 것이므로 1위나 2위가 될 필요는 없습니다.

나는 그것이 불가능하다고 말했고, 여전히 빨리 해야 한다고 말했습니다. 만약 그것이 정말로 더 큰 규모로 이루어지면 NPN 방식이 괜찮은지 여전히 알고 싶습니다. 그게 문제다. 지도에는 항상 제한이 있었고, 일부 도시에서는 도로가 두 개만 열릴 수 있다는 비판도 있다. 그래서 경험을 통해 배운 후, 작년 12월 100개 도시를 납품한 후 계획을 자르기 시작했습니다.

36Kr Auto: 그래프 없는 NOA를 처음부터 끝까지 개발하려면 무엇이 필요합니까?

랑셴펑: 사진이 없어도 여전히 문제가 있습니다. 지도가 상대적으로 정확한 정보를 제공할 수 있다는 것이 밝혀졌습니다. 지도의 사전 정보를 제거한 후에는 상류 인식에 대한 요구 사항이 특히 높아집니다. 다운스트림 규제 및 제어 분야에서는 이전에는 정보 입력이 매우 규칙적이었지만 이제는 약간의 지터 문제와 오류가 있는 것으로 인식되어 이 또한 큰 과제입니다.

계속 그렇게 하려면 많은 인력이 필요할 것이다. 예를 들어, 인식에 문제가 있는 경우 중간 환경 모델에 많은 규칙을 추가해야 하며, 후속 규제에 영향이 있는 경우 이를 보완하기 위해 규칙을 추가할 수 있습니다. 이는 팀에 엄청난 인적 자원 문제를 야기합니다. 이렇게 화웨이는 무사진이 됐다(인력 우위). 원래는 지난해 하반기에 인력을 더 채용하려고 했다.

하지만 이 것의 상한은 매우 분명합니다. 기본적으로 모든 규칙은 사람이 만들고 엔지니어가 설계합니다. 특히 올해 1월과 2월에는 이 경우가 잘되면 다른 경우는 안 되는 경우가 많아 규칙을 바꾸는 경우가 많았습니다. 상호 참여가 너무 크고 끝이 없습니다.

물론 자원 투자는 부차적입니다. 가장 중요한 것은 규칙 기반 경험에는 상한선이 있으며 결코 의인화될 수 없다는 것입니다. 그래서 우리는 현재의 엔드투엔드와 VLM을 반복했습니다. 엔드투엔드(End-to-end), 지능형 운전에 인공지능을 활용한 것은 이번이 처음이다.

36Kr Auto: 엔드투엔드 투자를 시작하기에 이상적인 시기는 언제입니까?

랑셴펑:우리는 항상 두 가지 작업 라인을 가지고 있는데, 하나는 대량 생산 및 배송을 위한 개방형 라인이고, 작년에는 이미지가 없는 NPN 라이트 이미지가 개방형 라인이고, 엔드투엔드가 어두운 라인입니다. 연구 라인.

작년에 Yanqi Lake 전략 회의에서 이를 분명히 한 것뿐입니다. 전략 회의에서 Li Xiang은 자율 주행이 우리의 핵심 전략이며 RD(기술 연구 개발)가 중요한 이정표에 도달해야 한다고 언급했습니다. 엔드투엔드 아이디어는 오랫동안 존재해 왔지만 항상 제공해야 한다는 압박감이 있었고 탐색할 리소스가 없었습니다.

36Kr Auto: Wutu는 출시 직후 엔드 투 엔드를 거쳐야 할 수도 있습니다. 이 리듬은 어떻게 고려됩니까?

랑셴펑: 연초에 저는 Li Xiang에게 이렇게 말했습니다. 우리는 끝까지 하고 싶지만 여전히 사진 없이 해야 합니다. 그래프 프리는 엔드투엔드 지원이기 때문에, 그래프리스가 없다면 엔드투엔드 지원을 위한 데이터와 경험은 어디서 나올까요?

그리고 자동차가 쉽게 팔리려면 사진 없이 업로드해야 합니다. 그렇지 않으면 어떻게 화웨이와 경쟁할 수 있겠습니까? 이제 우리는 Wutu에 있으므로 처음부터 끝까지 시간을 벌고 동시에 자동차 판매에 도움이 되도록 제품 기능을 향상시키려고 노력하고 있습니다.

36Kr Auto: 그 동안 당신은 당신의 계획을 거부해 왔습니다. 상위 경영진의 관점에서 압박감은 없나요?

랑셴펑:아니요. 첫째, 모든 사람이 자율주행을 실현하도록 이끄는 것이 나의 책임이고, 둘째, 올바른 조직은 쉽지 않은 일을 하는 등 나름의 방법론이나 프로세스가 있다는 것입니다.

Li Xiang은 Lang Bo가 자신이 이전에 한 일을 부인한 이유를 결코 말하지 않았습니다. 우리는 왜 이 일을 하는지, AI 전략에서 승리하고 싶다는 점을 그에게 분명히 설명했고, 이중 시스템 패러다임을 찾았고, 그는 이를 즉시 이해했습니다. 그는 단지 끝과 끝이 훌륭하고 빨리 이루어져야 한다고만 말할 것입니다.

인공지능에게 필요한 것은 컴퓨팅 파워와 데이터다. Li Xiang이 자주 와서 나에게 Lang Bo, 당신은 충분히 강력합니까?라고 묻습니다. 충분하지 않으면 Xie Yan에게 더 가져다 달라고 요청하세요.

Li는 우리도 남들보다 차와 돈이 많기 때문에 이 길에서 남들과의 격차를 더 벌릴 수 있는 좋은 기회가 있다고 말하고 싶었습니다. 그러니까 이런 엉터리 짓 하지 말고, 어서 그 뒤에 있는 AI를 하세요.

스마트 드라이빙의 미래를 말하다: End-to-end + VLM은 인공지능의 최고의 패러다임

36Kr: 일부 회사에서는 노맵을 한 번도 해본 적이 없고, 엔드투엔드가 차선을 변경하고 추월할 수 있는 기회라고 생각합니다. 사실인가요?

랑셴펑: 절반은 맞습니다. 그래프가 있든 NPN이 있든 없든 상관없이 솔루션의 핵심은 동일합니다. 지도를 제거하고, 인식을 강화하고, 작은 모듈을 여러 개의 큰 모델로 쌓고, 동일한 계획을 사용하여 조금씩 진화해 보세요.

하지만 끝에서 끝까지는 다릅니다. 처음으로 자율주행에 인공지능을 활용한다. One Model을 사용하여 end-to-end를 수행한 후 입력은 데이터만, 출력은 궤적이며 중간 모듈이 하나의 모델에 통합됩니다.

전체 R&D 프로세스 시스템은 완전히 다릅니다. 전통적인 제품 개발 모델에서는 수요 설계나 문제 피드백에서 원동력이 나옵니다. 이 시나리오에서는 작동하지 않습니다. 버그가 발생한 후에는 일부 수동 설계 반복 및 확인이 필요합니다.

End-to-End는 블랙박스이며 그 성능은 전적으로 어떤 종류의 데이터가 제공되는지에 따라 달라집니다. 지금 필터링하고 있는 것은 숙련된 운전자의 데이터입니다. 데이터가 좋지 않으면 생산된 모델도 좋지 않습니다. 들어가는 것도 쓰레기고, 나오는 것도 쓰레기다. 데이터 흐름을 훈련하는 과정입니다. 예전에는 제품 기능 연구개발 과정이었는데 이제는 역량 향상 과정으로 바뀌었습니다.

그래서 종단 간 차선 변경에는 문제가 없지만 추월하려면 데이터와 트레이닝 컴퓨팅 파워가 있어야 한다. 이 두 가지 전제조건이 없다면 솔직히 누구나 모델을 갖고 있고, 모델 자체도 크게 다르지 않을 것입니다. 모델이 아무리 좋아도 데이터와 컴퓨팅 성능이 없으면 매개변수 묶음일 뿐입니다.

36Kr: 데이터를 많이 축적하는 것이 이상적이지만 최근 허샤오펑 씨는 데이터가 많다고 해서 자율주행이 가능한 것은 아니라는 생각을 내놓았는데요.

랑셴펑:우리의 훈련 데이터는 시각 센서, 당시 차량 상태 정보, 액셀러레이터, 브레이크 등의 작동 데이터를 포함하여 운전자가 수십 초 동안 운전하는 전체 데이터를 포함하는 클립입니다.

하지만 데이터가 유용하려면 품질이 높아야 합니다. 고품질이란 무엇입니까? 당사는 제품 및 차량 주관적 성능 평가팀과 함께 "Human High-Quality Driver"라는 표준을 공동으로 정의했습니다. 일부 운전자는 매일 운전하며 매우 숙련되어 있습니다. 항상 갑자기 가속 및 감속을 하거나 AEB를 사용하거나 스티어링 휠을 갑자기 돌리면 작동하지 않을 수 있습니다.

이러한 기준에 따르면, 우리 80만 명의 자동차 소유자 중 단 3%만이 이전에 축적된 고품질의 데이터와 함께 최종적으로 수백만 개의 클립이 형성되는데, 이는 모두 최고입니다. He Xiaopeng의 말이 맞습니다. 고품질 데이터는 실제로 필요하지만 데이터 품질은 데이터의 절대적인 규모에 따라 결정됩니다.

36Kr Auto: 엔드투엔드 이후 데이터 도구 시스템을 업그레이드해야 합니까?

랑셴펑: 도구 체인이 많이 변경되었습니다. 이전에는 사용자 인수, 데이터 전송, 문제 수동 분석, 코드 수정, 실제 차량 평가, 온라인 출시 등의 제품 기능 개발 프로세스였지만 이 폐쇄 루프 데이터 프로세스는 이미 매우 효율적입니다. 그러나 테스트가 많아질수록 문제도 많아지고 수정해야 할 사람도 많아집니다.

현재 프로세스는 자동차 소유자가 인수하면 데이터가 돌아온 후 월드 모델을 사용하여 유사한 장면이 자동으로 생성되어 잘못된 문제 은행으로 바뀌는 것입니다. 또한, 잘못된 질문 데이터베이스에 유사한 데이터가 있는지 확인해보세요. 그렇지 않은 경우 기존 데이터베이스를 파헤쳐 합동훈련을 실시하세요.

새로운 모델을 훈련한 후 모델은 월드 모델 검사 시스템으로 돌아가 두 번 테스트됩니다. 첫 번째는 틀린 문제를 제대로 풀었는지 확인하는 것이고, 두 번째는 능력을 테스트하기 위한 실제 문제 모음입니다. 두 번 모두 문제가 없으면 해당 모델은 제외됩니다. 극단적인 경우에는 중간에 아무도 없고 매우 자동화된 폐쇄 루프 프로세스입니다.

36Kr Auto: 엔드투엔드 훈련 과정은 블랙박스이며, 세부 사항을 알아보려면 많은 코드를 추가해야 합니다. 얼마나 많은 작업이 필요한지 판단할 수 있습니까?

랑셴펑:그래픽이 있는 버전의 코드 양은 약 200만 줄이고, 그래픽이 없는 버전의 경우 전체 코드 양은 200,000개로 원본의 10%에 불과합니다.

실제로 이를 제어하는 ​​몇 가지 숨겨진 규칙이 있습니다. 센서 데이터가 처음부터 끝까지 입력되고 계획된 궤적이 실제로 출력되기 때문에 문제가 있을 수 있으므로 핸들을 180도 돌리는 등 일부 비정상적인 제어 동작을 방지하기 위해 몇 가지 폭력적인 규칙을 적용하겠습니다.

36Kr Auto: 머스크가 30만 줄의 코드를 삭제했다고 하더군요. 푸시 후 문제가 점점 더 많아지면 코드가 다시 추가될까요?

랑셴펑: 나는 그것이 크게 바뀔 것이라고 생각하지 않습니다. 가장 중요한 것은 우리가 지속적으로 반복할 수 있는 능력이 있다는 것입니다.

36Kr Auto: Ideal은 항상 내부적으로 대량 생산과 사전 연구라는 두 가지 라인을 가지고 있었습니다. 사전 연구에서 대량 생산으로의 엔드 투 엔드 전환이 이제 사전 연구입니까?

랑셴펑: L4. 이는 인공지능에 대한 우리의 이해로 거슬러 올라갑니다. 우리는 진정한 자율 주행을 달성하려면 현재의 접근 방식이 매우 다르다는 것을 발견했습니다.

엔드투엔드(End-to-End), 어떤 종류의 데이터가 주어지는지, 어떤 행동을 하게 될지. 유사한 데이터가 제공되지 않으면 처리되지 않습니다. 하지만 사람들은 그렇지 않습니다. 예를 들어 베이징에서 운전하면 미국에서도 운전할 수 있습니다. 우리가 정말로 자율주행을 실현하려면 시스템이 인간처럼 사물을 이해하고 추론할 수 있는 능력을 갖춰야 합니다.

우리는 인간의 두뇌가 어떻게 작동하고 생각하는지를 연구했습니다. 지난해 8월과 9월에 Jia Peng과 Zhan Kun은 인간 사고의 아주 좋은 틀인 이중 시스템 이론을 보았습니다. 인공지능이 이중 시스템이라고 가정해보자. 시스템 1은 빠르게 반응하는 능력이 있고, 시스템 2는 논리적으로 생각하는 능력이 있어 알 수 없는 일을 잘 처리하는 능력이 있다.

이것들은 모두 도(道)의 일부이며 이론적인 수준의 것입니다. 자율주행의 경우 엔드투엔드 모델은 시스템 1이고, 시스템 2는 VLM 시각 언어 모델이다. 이는 물리적 세계에서 인공지능을 구현하기 위한 최고의 솔루션입니다.

그렇다면 시스템 1과 시스템 2의 기능을 어떻게 측정합니까? 내부적으로는 시스템 3이라고 불리는 월드 모델도 있습니다. 월드 모델의 사용법은 시스템 1과 시스템 2를 테스트하는 데 사용됩니다.

우리는 정상적으로 운전하는 사람들에 대한 실제 데이터인 실제 테스트 은행을 보유하고 있습니다. 월드 모델은 기존 데이터에서 추론을 도출하여 다른 질문을 생성할 수 있는 생성 모델입니다. 모델이 훈련된 후 실제 질문을 한 번 수행한 다음 몇 가지 시뮬레이션 질문 세트를 수행하여 점수를 확인합니다. 각 모델에는 점수가 있으며 점수가 높을수록 모델이 더 강력해집니다.

36Kr 자동: 어떤 상황에서 시스템 2가 작동되나요?

랑셴펑: 시스템 1과 시스템 2는 항상 작동합니다. 일부 시스템이 더 복잡한 경우 고가도로, 웅덩이 및 새로 건설된 시멘트 바닥과 같이 시스템 1을 식별하기가 쉽지 않을 수 있지만 시스템 2는 이러한 시나리오에서 작동하지만 작동 주파수는 3-4Hz와 같이 낮습니다. , 시스템 1은 10Hz 이상의 고주파에서 실행될 수 있습니다. GPT와 마찬가지로 시스템 1은 항상 이 시나리오가 발생할 때 수행할 작업에 대해 시스템 2에 질문합니다.

36Kr 자동: 시스템 2 VLM 자체에 기능 경계가 있습니까?

랑셴펑: 대규모 언어 모델이라고 생각하면 됩니다. 일부 대규모 언어 모델은 수학에 능숙할 수도 있고 코딩에 능숙할 수도 있으며 다른 기능을 가질 수도 있습니다. 저희 VLM은 실제로 운전에 초점을 맞춘 대규모 언어 모델입니다.

단기적으로는 아직 어느 정도 지식이 없지만 폐쇄 루프가 점점 더 빠르게 회전할수록 성능의 상한선은 점점 더 높아질 것입니다. 현재 종단 간 매개변수는 3억 개가 넘고 VLM 시스템 매개변수는 22억 개에 불과합니다.

36Kr Auto: 그렇다면 스마트 드라이빙의 미래에 더 큰 변수는 시스템 2일까요?

랑셴펑:기본 지원은 시스템 1이지만 L3L4 수준의 자율 주행을 포함하여 더 발전하려면 현재 22억 개의 매개변수로는 충분하지 않을 수 있으며 더 많은 매개변수가 추가되어야 합니다.

펑 지아: 시스템 2는 주로 복잡한 장면에 중점을 둡니다. 22억 매개변수의 응답 시간은 300mm입니다. 어려운 장면에서는 이 추론 시간이 괜찮습니다. 하지만 시스템 1만으로는 충분하지 않습니다. 수십 밀리초 정도 걸립니다.

36Kr 자동: 모델 매개변수에 상한이 있나요? 80억 정도? 칩 컴퓨팅 성능에 대한 대략적인 요구 사항은 무엇입니까?

펑 지아:대규모 언어 모델과 마찬가지로, 그것이 얼마나 많은 매개변수를 갖고 있는지 누구도 대답할 수 없습니다.

랑셴펑:이제 우리는 지식과 기술을 모두 갖추고 있습니다. 시스템 1과 시스템 2는 훌륭한 인공 지능 패러다임이지만 이를 구체적으로 구현하는 방법은 천천히 탐색해야 합니다.

36Kr Auto: 분할된 엔드 투 엔드 모델이 하나의 모델로 진화하려면 바퀴를 다시 만들어야 합니까?

펑 지아: 우리의 그래프 없는 모델은 두 가지 모델만 있는 분할 모델과 동일합니다. 하지만 먼저, 전통적인 방식이 모두 사라졌기 때문에 기술적 과제가 상대적으로 큽니다. 좋은 결과를 얻으려면 모델을 어떻게 훈련해야 할까요? 두 번째는 인간의 과제입니다. 인식과 통제 측면에서 서로 다른 배경을 가진 두 그룹의 사람들이 어떻게 협력하여 모델을 구축할 수 있습니까?

우리 팀도 고생하고 뒹굴고 있어요. 엔드투엔드에 있어서 많은 사람들의 역할이 변경되었을 수 있습니다. 엔지니어링에 종사했던 사람들은 데이터와 시나리오를 정의할 수 있습니다. 역할을 바꾸는 것은 꽤 어려운 일입니다.

폐쇄 루프 비즈니스에 대해 이야기하기: 10억 달러 없이는 자율 주행을 감당할 수 없습니다

36Kr Auto: 자금이 소진되는 것 같군요. 엔드투엔드에 얼마나 투자할 계획인가요?

랑셴펑: 물론 현재는 10억 위안입니다. 미래에는 자율주행 모델을 훈련하는 데 카드 구입, 전기세, 인재 등 기타 비용을 제외하면 10억 달러가 필요할 수 있습니다. 10억 달러의 순이익이 없는 회사는 이를 감당할 수 없습니다.

36Kr Auto: 엔드투엔드(End-to-End)는 자동차 산업의 분수령이 될 수 있습니다. 상업적 폐쇄 루프 관점에서 볼 때 스마트 운전의 상업적 성능은 무엇입니까?

랑셴펑: 버전 6.0부터 지난 1~2개월간 AD Max 비율이 50%를 넘어 매달 10% 이상씩 성장하고 있는데, 2~3% 정도는 정상적인 지터라고 이해하면 됩니다. %는 유효 성장입니다. 베이징, 상하이, 광저우, 선전에서는 스마트 드라이빙 모델의 비중이 70%에 달했습니다. L9 모델의 AD MAX 순서는 75%, L8은 55%, L7은 65%입니다.

펑 지아: L6에도 22%가 있습니다. 스마트 드라이빙은 이미 젊은층이 자동차를 구매하는데 있어서 매우 중요한 요소이다. 스마트 드라이빙을 한 후에는 원래 상태로 돌아가기가 어렵습니다.

랑셴펑: 오늘날 고속 NOA는 모든 사람에게 잘 알려져 있지만 도시 NOA는 아직 초기 단계에 있습니다. 대체로 도시 제품의 성능은 충분하지 않습니다. 사진이 없어도 인간이 운전할 때의 편안함 수준에 비해 그다지 좋지 않습니다. 엔드투엔드가 끝나면 모든 것이 바뀔 것이며 일부 공연은 인간과 매우 가깝습니다.

데이터와 컴퓨팅 파워가 더해지면 엔드투엔드 아키텍처에서 파생된 도시형 스마트 드라이빙이 고속 주행 경험을 선사할 가능성이 높다. 이 단계에서는 사용자가 자동차를 구매하는 데 매우 도움이 됩니다.

36Kr Auto: 스마트 드라이빙의 상업적 가치는 점점 더 분명해지고 있지만, 이상적인 스마트 드라이빙 기능은 언제나 무료였습니다. 그 상업적 가치를 더욱 부각시키기 위한 전략이 다시 논의될까요?

랑셴펑: 많은 분들이 냉장고, 컬러TV, 대형소파 등을 구매하시는 분들이 많지만 앞으로는 스마트드라이빙을 위한 아이디얼도 구매하게 될 가능성이 있어 스마트드라이빙의 상업적 가치를 보여주기에 충분합니다. Max와 Pro 버전의 차이는 실제로 30,000위안입니다.

소프트웨어 충전의 경우 L4 수준에 도달하면 정말 멋질 것입니다. 사용자가 학교 정문에서 자녀를 데리러 갈 수 있도록 도울 수 있다고 상상해 보십시오. 성능이 향상되면서 일부 추가 비즈니스 모델이 등장하겠지만, 지능형 주행 성능이 크게 향상된다는 전제가 있어야 합니다.

36Kr Auto: Xiaopeng은 향후 18개월 내에 Google의 Waymo와 유사한 경험을 달성할 것이라고 언급했습니다. 그런 시간표가 있습니까?

랑셴펑: 데이터와 비즈니스가 목표를 뒷받침할 수 있다면 괜찮습니다. 우리는 몇 가지 내부 계산을 했습니다. L3L4에 대해서는 이야기하지 않겠습니다. VLM 및 엔드투엔드 교육을 지원하려면 수십 개의 EFLOPS 클라우드 컴퓨팅 성능이 필요합니다.

Xpeng의 경우 2.51EFLOPS이고 이상적인 것은 4.5EFLOPS입니다. 이를 달성하려면 최소 10EFLOPS의 컴퓨팅 성능이 필요하며 이는 연간 약 10억 달러, 60억 위안입니다. 매년 여유가 된다면 플레이할 수 있습니다.

36Kr Auto: 현재 기술 아키텍처를 기준으로 컴퓨팅 성능 외에 스마트 드라이빙 팀에 평균적으로 얼마나 많은 투자가 필요한가요?

랑셴펑: 비용의 대부분은 훈련용 칩, 데이터 저장, 트래픽으로 연간 최소 10억~20억 달러에 달합니다. 그러나 더 나아가, 특히 세계 모델의 궁극적인 목표는 실제 물리적 세계 전체를 복원하는 것입니다. 이 자체에도 교육이 필요하고 많은 컴퓨팅 리소스가 필요합니다.

상한선은 지금으로서는 상상할 수 없습니다. 적어도 10EFLOPS는 넘을 것입니다. 머스크는 이것이 말도 안 되는 일이라고 생각하지 않습니다.

36Kr Auto: 자동차 회사는 여전히 제조업의 수익 모델을 기반으로 하고 있습니다. 올해도 가격 전쟁이 있을 것이고, 이익은 기술 회사가 하는 일을 하는 것이 더 적절할까요?

랑셴펑: 고품질 데이터를 얻을 수 있고 충분한 훈련 컴퓨팅 능력을 갖춘 사람이라면 누구나 대규모 모델을 구축할 수 있습니다. 인재가 그렇게 많지는 않을지 몰라도 그에 상응하는 인재는 반드시 있을 것이다. 아이디얼, 화웨이, 테슬라 외에 누가 이 세 가지를 모두 가질 수 있을까? 나는 그것을 알아낼 수 없다.

우리의 현재 아이디어는 회사가 자동차를 판매하도록 신속하게 돕는 것입니다. 자동차를 판매해야만 스마트 운전 교육을 위한 카드를 구입할 수 있는 돈을 벌 수 있습니다.

지능형 주행이 진전될수록 격차는 더욱 커질 것입니다. 예전에는 사진이 없었지만 다들 천장이 보이는 걸 만들고 있었어요. 미래에 획기적인 발전을 이루려면 AI가 추가되어야 하며, 모두가 경쟁하는 것은 데이터와 컴퓨팅 능력입니다. 해결할 수 없으면 이전 차원으로만 롤인할 수 있으며, 다음 차원으로 이동하여 데이터 배당금을 거둘 것입니다.

36Kr Auto: 지능형 운전 기술은 빠르게 변화하고 투자 규모도 커집니다. Li Xiang은 어떻게 지능형 운전에 대한 인식을 유지할 수 있을까요?

랑셴펑: 그는 언제든지 Jia 선생님과 저와 이야기를 나누곤 했습니다. 지난해 9월부터 스마트 공간, 인프라, 교육 플랫폼 관계자 등 사내 AI 관련 모든 사람들이 모이는 인공지능 주간 회의를 진행하고 있습니다. Li Xiang의 인공 지능에 대한 이해는 여전히 매우 좋습니다.

그는 또한 다른 리소스를 보유하고 있으며 많은 사람들을 알고 있습니다. 그는 Lu Qi, Kimi CEO Yang Zhilin, Horizon Yu Kai 등과 대화를 나눴습니다. 그는 AI의 핵심 본질과 필수 기술을 이해하고 있을 뿐만 아니라 이를 대중적인 용어로 표현할 수도 있습니다.

36Kr Auto: 엔드투엔드 모델 설계에 얼마나 많은 인력이 필요합니까? 미래 스마트 드라이빙 팀의 평균 규모는 몇 명 정도 될까요?

펑 지아: 너무 많은 수가 필요하지 않을 수도 있습니다. Tesla에는 실제로 엘리트 모델 제작자가 거의 없으며 시각적 팀에는 총 20명만 있습니다. 이는 실제로 추론할 수 있습니다. 예를 들어 OrinX 칩의 경우 모델 자체가 12-15Hz에서 실행되며, 이는 기본적으로 모델 매개변수의 수와 훈련에 사용할 모델 구조의 종류를 결정합니다. 그것.

랑셴펑: Tesla는 200명이 넘는 소프트웨어 알고리즘 팀을 보유하고 있지만 칩 하나와 모델 몇 개만 만드는 것으로 더욱 극단적입니다. 우리는 지금 그 사람만큼 완벽할 수는 없지만, 여전히 그 사람보다 몇 배는 더 나아질 것입니다. 우리 칩 플랫폼이 다르고 모델도 많기 때문에 특별히 많은 수의 인력을 고용하지는 않지만 각 장소에는 여전히 일부 인력이 있습니다.

36Kr Auto: 클라우드 컴퓨팅 성능은 향후 큰 투자가 될 것입니다. 국산 칩으로 교체하는 것을 고려해 보셨나요? 전환이 어려울까요?

펑 지아: 호라이즌의 J3와 J5는 차량용으로 처음 사용됐다. 클라우드는 일부 국산 제품을 시도하고 있지만 현재 가장 큰 어려움은 생태계가 그다지 좋지 않다는 점이다. NVIDIA의 CUDA 생태계는 무적이어서 다른 생태계에 적응하는 것은 매우 어려울 것입니다. 이제는 여전히 효율성을 최우선으로 생각하고 국내 발전에 주목하고 싶습니다. 이미 교류와 시도가 시작되었습니다.

36Kr Auto : 자체 개발한 스마트 드라이빙 칩 출시 후 엔드투엔드 통합 효과는?

펑 지아: 소프트웨어와 하드웨어를 결합하면 분명 더 나은 결과를 얻을 수 있을 것이며 Tesla는 이미 프로토타입을 제작했습니다. 칩은 더 저렴하고 컴퓨팅 성능은 더 높으며 AD에 대한 지원은 더 좋습니다. 그들은 FSD V12.5에서 매개변수를 5배 확장하기를 원했고 이를 확장했습니다. 이것은 큰 장점이 있습니다.

랑셴펑:전제 조건은 L3 및 L4 알고리즘을 결정해야 한다는 것입니다.

36Kr Auto: L4 자율주행의 시점이 있을까요?

랑셴펑: 3~5년만요. 우리는 L4에 디딤돌이 되는 L3를 먼저 넘겼습니다. 첫째, 시험 시스템의 기본 기능과 데이터 폐쇄 루프를 포함하여 L4의 컴퓨팅 성능과 데이터 요구 사항을 보다 명확하게 이해할 수 있습니다.

둘째, 제품에 있어서는 사람들과 상호 신뢰관계를 구축해야 합니다. 여전히 end-to-end 자체가 블랙박스이기 때문에 사람들은 여전히 ​​시스템을 신뢰하지 않습니다. 그러면 L3 제품을 통해 사람들과 좋은 신뢰 관계를 구축할 수 있습니다.

36Kr Auto: 많은 AI 기술의 근원지는 실리콘밸리입니다. 예전에는 Tesla를 따라했지만, Ideal은 이제 기술에 대한 판단이나 감각이 정확하고 예리한지 확인하는 방법도 선택합니다. 기술 트리가 잘못됐나요?

랑셴펑:우리는 이미 완전한 시스템을 갖추고 있습니다. L4는 아직 3~5년 남았지만 이미 손대기 시작했습니다. 실수하면 일찍 실수할 것이고 아직 기회가 있습니다.

실제로 중국과 미국 사이에는 인공 지능이 갈라져 있고 실제로 중국에는 인재가 꽤 많습니다. 예를 들어 올해 우리는 240개 이상의 학교를 모집했습니다. 모두 QS(세계 100대 대학) 상위 100위 안에 들었습니다.

Tesla에 대해 이야기하기: Tesla로부터 배우고 Tesla를 능가하세요

36Kr Auto : 국산과 테슬라 스마트 드라이빙의 격차가 2년이라는 말도 있습니다.

랑셴펑: 확실히. Tesla는 지난 2년 동안 기술 솔루션에 대해 많이 언급하지 않았기 때문에 기술 솔루션에 대해서는 언급하지 않을 것입니다. 제품 경험 측면에서는 기본적으로 Tesla가 작년에 End-to-End 버전을 출시한 수준입니다. 반년 정도의 공백기가 있습니다.

36Kr Auto: Tesla는 또한 데이터가 적고 피드백이 적다고 말했습니다.

랑셴펑:이것들은 서로 다른 단계입니다. 우리가 그것들을 만난다는 것은 우리가 다음 단계에 들어갔다는 것을 의미합니다.

펑 지아: 현재 Tesla의 가장 큰 문제는 검증입니다. v12.4(Tesla FSD 버전 번호)가 제대로 작동하지 않았는데, 이후 v12.5가 출시되면서 매개변수 볼륨이 5배로 확장되었습니다. 아무래도 검증단계가 제대로 이루어지지 않았나 싶습니다. 모델이 나왔을 때는 실제로 사용자들이 사용했을 때 어떻게 작동할지 몰랐습니다.

이것이 우리가 세계 모델을 강조하는 이유입니다. 우리는 이러한 교훈을 얻었으며 사전에 검증을 완료해야 합니다. 그렇지 않으면 공원 커뮤니티를 포함하여 전국의 모든 도로에 대해 모델을 어떻게 검증할 수 있습니까?

2022년 Tesla의 AI Day를 보면 여전히 매우 전통적인 시뮬레이션으로 북미에서의 풀오픈을 뒷받침하기에는 확장성(Scalability)이 너무 열악합니다. 이 시점에서 우리가 Tesla로부터 배운 몇 가지 교훈이 있습니다. 그래서 우리는 세계 모델을 만드는 데 많은 노력을 기울였습니다.

36Kr Auto: End-to-End 솔루션을 구축하는 과정에서 어렵다고 느끼는 부분이 있나요? 데이터 도구 체인을 좋아하시나요?

펑 지아: 데이터 세트는 2019년부터 구축되었으며 적어도 중국에서는 최고입니다. 데이터와 훈련은 실제로 루틴이며 모두 따라야 할 패러다임이 있습니다. 현재로서는 검증이 가장 큰 과제입니다.

또 다른 하나는 VLM 자체로, 점차 더 큰 역할을 맡고 있습니다. 처음에는 5%의 경우에만 사용될 수 있지만 나중에는 엔드투엔드 상한선에 직면할 수 있으며 나머지 제품 경험은 VLM에 의존하여 반복될 것입니다.

이는 테슬라와도 다르다. 우리는 Tesla의 문제점을 보았기 때문에 VLM과 월드 모델을 했습니다. v12.4 검증에 문제가 있습니다. 저희는 이전에 북미에서 서해안과 동해안 모두에서 약 일주일 동안 매번 두 번 운전했습니다. 분명히 서해안에서는 좋고 동해안에서는 나쁩니다. 보스턴과 뉴욕은 그다지 좋지 않습니다. 왜냐하면 이 두 도시는 서부해안보다 훨씬 더 복잡하기 때문입니다.

동부 해안에서는 Tesla의 평균 인수율이 상당히 높으며 아마도 엔드 투 엔드 상한선 중 일부가 여기에 있습니다. 그래서 우리는 VLM을 할 때 이 한계를 깨고 싶습니다. VLM의 상한선은 매우 높으며, 이러한 경로 집합을 통해 VLM(Tesla)을 능가하는 것이 가능합니다.