2024-08-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
편집자 주: Tencent 자동차 편집부는 지난 10년간의 전동화 물결을 중국 자동차 산업의 '격동의 시대'라고 부릅니다. 이제 2024년은 '스마트 운전의 해'로 알려진 역사적 정점에 서 있습니다. Q: 업계 주요 업체들은 어떤 기술 경로를 고수할 예정인가요? 각각의 경쟁 장벽을 구축하는 방법은 무엇입니까? Tencent Auto는 인터뷰, 실제 테스트, 수평적 검토, 검토 및 기타 방법을 통해 일련의 지능형 운전 계획을 특별히 출시했으며, 역사의 근원에 서서 자동차 산업에서 발생할 수 있는 거대한 변화에 대한 더 많은 통찰력을 얻기 위해 노력하고 있습니다. 이를 통해 독자와 업계에 더 많은 정보를 제공함으로써 포괄적인 콘텐츠 지침이 업계에 귀중한 역사적 각주를 남길 수 있습니다.
텐센트 뉴스 '하이빔'
저자 아오둔
편집자 시딩
'End-to-End'(E2E) 솔루션은 업계에서 지능형 운전을 위한 최고의 솔루션으로 인정받고 있다. -end" 10,000개 자동차 회사의 눈으로 보는 솔루션. end-to-end".
지난 12월,테슬라FSD V12를 출시하고 엔드투엔드(end-to-end) 솔루션을 제안한 후, 화웨이는 스마트 드라이빙계에서 엔드투엔드(end-to-end)라는 용어를 하루아침에 높이 평가했습니다.샤오펑,수평선,니오다른 회사들도 엔드투엔드 솔루션을 제안했습니다. 7월 말 Xpeng Motors의 회장 겸 CEO인 He Xiaopeng은 Xpeng Motors가 엔드투엔드 대량 생산을 달성한 세계 유일의 자동차 회사라고 말했습니다. 대형 모델.
7월 5일이상적인 자동차 엔드투엔드 모델, VLM 시각적 언어 모델 및 월드 모델을 기반으로 한 새로운 자율주행 기술 아키텍처가 7월 말 수천 명의 테스트 사용자에게 출시되었습니다. 리샹은 올해 6월 이 계획이 이르면 올해 상반기, 이르면 내년 상반기에 전면 시행될 것이라고 밝혔다.
Li Auto의 지능형 운전 R&D 부사장 Lang Xianpeng에 따르면, 위에서 언급한 건축 설계는 노벨상 수상자 Daniel Kahneman이 "Thinking, Fast and Slow"에서 언급한 고속-저속 시스템 이론에서 영감을 얻었으며 인간의 사고와 자율주행 분야의 의사결정 프로세스를 통해 보다 스마트하고 인간과 유사한 운전 솔루션을 구축합니다.
고속 시스템, 즉 System 1은 End-to-End 모델로 구현되어 센서 입력을 받아 차량 제어를 위한 주행 궤적을 직접 출력합니다. 느린 시스템, 즉 시스템 2는 센서 입력을 받은 후 논리적 사고를 거쳐 시스템 1에 의사결정 정보를 출력하는 VLM 시각 언어 모델로 구현됩니다. 클라우드에서 월드 모델을 사용합니다.
업계 동료들과 수평적으로 비교하면서 Lang Xianpeng은 Li Auto의 엔드 투 엔드 모델이 최초의 One Model 엔드 투 엔드 모델이며 이는 다른 세그먼트 모델과 매우 다르다는 점을 강조했습니다. “One Model은 센서 데이터가 궤적을 출력하는 곳입니다. 중간에 다른 규칙이나 모델은 없으며, 다른 엔드투엔드 요구 사항은 일부 규칙으로 연결되어야 할 수도 있습니다."
공개 정보에 따르면 업계에서는 Xpeng Motors와 Huawei가 엔드투엔드(end-to-end)로 분할되어 있다고 믿고 있습니다. Xpeng Motors가 대량 생산에 사용하는 엔드투엔드 대규모 모델은 신경망 XNet + 대규모 제어 모델 XPlanner + Huawei 엔드투엔드의 대규모 언어 모델 XBrain으로 구성됩니다. 최종 시스템은 GOD(General ObjectDetection, General 장애물 인식) 큰 인식을 사용합니다. 네트워크, 의사결정 및 계획 부분은 PDP(Prediction-DecisionPlanning, 사전 결정 및 계획) 네트워크를 사용하여 네트워크의 사전 결정 및 계획을 실현합니다.
과거에는 지능형 주행 시스템이 인식, 예측, 계획, 제어 등 여러 가지 주요 모듈로 나누어져 있었으며, 이를 자율 주행 규칙의 시대라고도 했습니다. 오늘날 인기 있는 엔드투엔드(End-to-End)는 정확히 말하면 딥러닝 기술을 이용해 원본 입력 데이터에서 출력 결과를 직접 생성할 수 있는 모델이다. 결과와 가속도를 출력하고, 감속, 제동 등의 주행 행동을 보여줍니다.
실제로 위의 아이디어는 한 단계로 달성할 수 없습니다. 기술적인 측면만으로는 모델 아키텍처, 데이터, 엔지니어링 검증 등 일련의 복잡한 문제를 해결해야 합니다. 사용자 경험의 관점에서 볼 때, 엔드투엔드 솔루션의 궁극적인 목표는 인간의 "숙련된 운전자"에 무한히 가까워지고, 능력의 상한선을 끊임없이 탐색하여 베테랑 운전자를 능가하는 것입니다. 이 목표가 달성될 수 있을 때 업계에서는 아무런 결론도 내리지 않습니다.
Li Auto의 지능형 운전 기술 연구 및 개발 책임자인 Jia Peng의 견해에 따르면 우리는 이제 지능형 운전의 무인 땅에 있습니다. 그리고 코끼리를 알아내려고 노력 중이에요.'" 그러나 그는 엔드투엔드(end-to-end)의 의미가 하나의 모델과 두 개의 모델을 의미하는 것이 아니라 R&D 프로세스 전체를 본질적으로 바꾸는 것이 가장 큰 의미라고 믿습니다. 가능한 한 인간과 같은 시스템입니다.”
엔드투엔드(End-to-End)는 지능형 주행을 위한 최적의 솔루션으로 여겨지지만 아직 초기 단계이며 업계에서는 명확한 정의나 평가 기준이 없습니다. Lang Xianpeng은 현재 국내 자동차 제조사들이 처음부터 끝까지 같은 출발선에 서 있다고 생각하지만, One Model을 본다면 Ideal이 앞서 있을 수도 있습니다. 그의 견해에 따르면 Li Auto의 엔드투엔드 솔루션은 현재 물리적 세계에서 인공지능을 구현하는 최고의 솔루션입니다. “이는 인간의 인지 및 사고 메커니즘을 매우 잘 시뮬레이션하고 시스템이 인간의 사고 능력을 갖도록 하기 때문입니다. 그리고 세상을 이해하는 능력은 이중 시스템의 장점이다."
장기적으로 보면 엔드투엔드(end-to-end)는 재정력의 경쟁이자 경쟁일 수 있다. Lang Xianpeng은 조만간 선도적인 플레이어가 확실히 엔드투엔드 방향으로 움직일 것이며 그때까지 격차가 확실히 넓어질 것이라고 믿습니다. 인공 지능 시대에는 모두가 두 가지를 위해 싸울 것입니다. 1. 충분합니까? 2. 이에 맞는 충분한 훈련 컴퓨팅 파워 클러스터가 있습니까?
"결국 모두가 하는 일은 컴퓨팅 파워와 데이터를 놓고 경쟁하는 것이지만, 이 두 가지에 대한 문턱은 매우 높습니다. 연간 훈련비를 감당할 만큼 재정 준비금이 충분하지 않으면 나중에 게임을 할 수 없게 됩니다. L3 또는 L4에 대해 이야기하면 기업 수가 많지 않으면 데이터가 교육 수요를 지원할 수 없을 것입니다. "Lang Xianpeng은 예비 추정에 따르면 현재 이상적인 연간 교육 투자는 1입니다. 10억 위안이고, 앞으로 그 비용은 연간 10억 달러에 달할 것으로 예상됩니다." 다른 인건비를 포함하지 않은 컴퓨팅 파워를 훈련시키는 비용일 뿐이므로, 1년에 10억 달러를 쓸 수 없다면 1년 동안 훈련을 받으면 향후 자율주행 대회에서 탈락할 수도 있습니다.”
다음은 Tencent News 'High Beam'과 기타 미디어와 Lang Xianpeng 및 Jia Peng 간의 대화를 발췌(편집)한 것입니다.
Q: 기존 스마트 드라이빙 기술에서 엔드투엔드 기술로 전환할 수 있는 기회는 무엇입니까? Tesla, Huawei 및 Xpeng과 비교하여 Lili가 제안한 기술 솔루션의 장점과 단점은 무엇입니까?
랑셴펑: 이번 시스템 아키텍처 솔루션의 장점은 지난해 8월과 9월 자율주행에 대한 생각부터 시작해야 한다. 지난해 초고속 개발을 시작으로 도시 자율주행까지 3세대에 걸쳐 기술 연구개발을 진행했다. 도시에서는 먼저 시나리오가 포함된 솔루션인 NPN(Neural PriorNet, 신경 사전 네트워크)을 활용했다. 그런 다음 현재의 무그래프 솔루션으로 변환한 다음 현재 엔드투엔드 솔루션으로 반복합니다.
이 과정에서 우리는 이 솔루션이 이후 L3 및 L4 레벨 자율주행에 있어서 여전히 매우 큰 결함이나 문제가 있다는 것을 발견했습니다. 문제는 우리 인간이 한 번도 가본 적 없는 낯선 장면이나 장소를 이해할 수 있는데, 평소에 운전하는 사람이라면 조금 익숙해질 뿐이라는 점이다. 하지만 현재의 엔드투엔드 솔루션이든, Picture-less 솔루션이든, 본질적으로 본 장면이나 훈련된 데이터가 더 나은 성능을 발휘할 수 있습니다. 새로운 장면이 나오면 제대로 처리하지 못할 수도 있지만, 사람이 아닌 시스템에 자동차를 완전히 넘겨 운전하게 하려면 우리 시스템도 사람처럼 알려지지 않은 장면을 처리할 수 있는 능력을 갖춰야 한다. .
간단한 예로 우리의 신호등은 다른 곳의 신호등과 다릅니다. 천진의 신호등은 진행 표시줄형 신호등이지만 다른 곳에서는 전구나 카운트다운이 있는 것이 매우 이상합니다. 이해하다. 하지만 정상적인 상식을 가진 사람이라면 천진에 가서 교차로에 이런 것이 세워져 있는 것을 보면 신호등이라고 생각하고 신호등의 지시에 따라 정상적으로 정지하고 출발할 것이라고 믿습니다. 그래서 우리는 시스템도 장면에 대한 이런 종류의 이해, 또는 이러한 종류의 지식을 논리적으로 추론하는 능력을 갖도록 만들어야 합니다. 이때 우리는 인간의 인지 메커니즘을 잘 설명하는 이중 시스템 이론을 살펴보았습니다. 빠른 시스템은 적시에 처리 반응을 하고, 느린 시스템은 복잡한 사고와 논리적 판단에 해당합니다. 따라서 우리는 이 시스템의 이론이 자율주행에 어떻게 적용될 수 있는지 생각해 보고자 합니다.
그렇다면 시스템 1은 체계화를 달성하기 위해 정확히 무엇을 사용합니까? 우리는 최종적으로 end-to-end 모델을 적용하여 시스템을 구현하기로 결정했으며, 시스템 2는 VLM의 대규모 시각적 언어 모델을 사용하여 구현되었습니다. 이것이 우리의 두 가지 구체적인 구현 방법입니다. 사전 연구 및 개발을 거쳐 이제 실제 양산 차량에 이 두 시스템을 구현했습니다.우리는 이것이 인간의 인지 및 사고 메커니즘을 매우 잘 시뮬레이션하고 시스템이 인간처럼 세상을 생각하고 이해할 수 있는 능력을 갖도록 하기 때문에 현재 물리적 세계에 인공 지능을 구현하는 가장 좋은 솔루션이라고 믿습니다. 시스템. 장점.
우리의 듀얼 시스템에는 몇 가지 독특한 기능이 있습니다. 첫째, 우리의 엔드투엔드 모델은 최초의 One Model 엔드투엔드 모델로, 다른 세그먼트 모델과 매우 다릅니다. 둘째, 우리의 VLM 모델은 자동차에 배치되어 대량 생산될 수 있는 최초의 모델입니다. 다른 모델은 자체 훈련 클러스터에서 훈련하고 테스트할 수 있지만 실제로 Orin X와 같은 대량 생산 자동차 엔드를 사용하는 것은 우리입니다. 최초로 칩을 최적화하고 자동차에 배치한 이 모델은 22억 개의 매개변수를 포함할 만큼 충분히 큽니다. 이는 이미 실용적인 의미에서 큰 모델입니다. 우리의 이중 시스템은 우리가 처음으로 제안하고 구현한 시스템 아키텍처부터 시스템 구현까지 우리만의 장점과 특징을 갖고 있습니다.
Q: 엔드투엔드 시각적 음성 모델을 사용하는 이 솔루션이 L3 및 L4 개발을 지원할 수 있습니까?
랑셴펑:적어도 현재의 관점에서는 방법적인 측면에서는 가능해야 한다고 생각하지만, end-to-end에 VLM을 더한 두 가지 모델인지, 아니면 두 가지 모델을 하나로 합친 것인지, 아니면 더 큰 매개변수를 가진 모델인지, 아니면 다른 구조인지, 천천히 반복하면 될 것 같지만 전체적인 아이디어는 괜찮을 것 같아요.
질문: 시스템 1과 시스템 2는 어떻게 구분되나요?
펑 지아: 자동차를 실시간으로 제어해야 하기 때문에 Orin이라는 두 가지 모델을 보유하고 있습니다. VLM에는 많은 수의 매개변수가 있지만 1~2초마다 제어할 수는 없습니다. 이제 약 300밀리초의 지연을 사용하여 약 3.4Hz의 준실시간 수준으로 최적화했습니다. 매 순간 결정을 내리며 속도를 늦추거나 양보할지 등 두 가지 결정을 출력하고, 두 번째 결정은 내가 이 차선으로 가고 있는지, 저 차선으로 향하고 있는지 등의 기준 궤적을 제공합니다. 시스템 1이 시스템 2의 의견을 완전히 수용하지 못하는 구조입니다. 시스템 2는 시스템 1의 의사결정을 향상시킵니다.
시스템 1이 주요 역할을 하고, 시스템 2는 단지 특별한 상황에 대한 참고나 조언일 뿐입니다. L4에 도달하면 시스템 2가 더 중요한 역할을 하게 될 것입니다. 실제로 의사 결정과 판단에 매우 중요한 역할을 합니다. 일부 알려지지 않은 시나리오에서는 시스템 2의 능력이 L4에 도달할 수 있는지 여부를 결정하지만, 시스템 1의 기본 능력은 L3에 필요한 보장입니다.
Q: 향후 두 시스템이 하나로 통합되나요?
펑 지아: 이는 사전 연구의 다음 단계입니다. 실제로 현재 아이디어는 두 가지 모델을 대량 생산하는 것입니다. 현재 Wutu 6.0은 전국적으로 엔드 투 엔드 + VLM 세트가 더 나을 수 있다고 생각합니다. 자, 앞으로 L4를 어떻게 양산할 것인가? 우리의 생각은 모델의 크기와 용량을 더 크게 만드는 동시에 프레임 속도를 높이는 것일 수도 있고, 아니면 이 둘이 아닐 가능성도 있다. 모델을 하나로 결합할 수 있습니다. 시스템 1을 사용할지 시스템 2를 사용할지 모델이 스스로 결정하도록 합니다. 따라서 미래에 더 뛰어난 컴퓨팅 성능과 더 나은 플랫폼을 갖춘 칩이 있다면 이것이 큰 역할을 할 수 있습니다.
질문: VLM을 엔드투엔드라고 부를 수 없는 이유는 무엇입니까? 제 생각에는 VLM도 엔드투엔드입니다.
펑 지아: 미래의 컴퓨팅 성능이 충분히 커지면 VLM 자체가 실시간으로 실행될 수 있습니다(예: 10Hz 또는 심지어 20Hz 이상). 어쩌면 종단 간 빠른 응답도 달성할 수 있지만 현재 VLM은 실제로 여러 차례의 질문과 답변을 묻고 싶습니다. 그러한 작업 조건에서 어떻게 운전할 수 있습니까? 왜 이런 방식으로 개봉하며, 개봉 후의 결과는 무엇입니까?
랑셴펑: 실제로 우리의 관점에서는 순수 데이터 기반 모델인 한, 입력은 데이터이고 출력은 결과입니다. 그러나 결과는 시스템 1의 궤적입니다. , 그리고 시스템 2의 결과는 의사결정입니다. 다시 강조하자면, 여러 모델의 엔드투엔드와 엔드투엔드 또는 하나의 모델과 엔드투엔드에는 큰 차이가 있습니다.왜냐하면여기서 이상적으로 구축한 One Model과 마찬가지로 센서 데이터 출력은 중간에 다른 규칙이나 모델 없이 궤적에서 직접 출력됩니다. 다른 엔드투엔드 요구 사항은 일부 규칙과 함께 연결되어야 할 수 있습니다.
질문: 현재 시스템 성능의 상한선은 얼마입니까?
랑셴펑: 이제 VLM은 무인지대의 경계에 서 있어야 합니다. 앞으로는 우리를 포함한 모든 회사가 이를 끝까지 수행해야 하지만, 저는 우리가 이를 수행하는 최초의 회사라고 믿습니다. 우리는 우리만의 탐색을 하게 될 것입니다. 우리는 이를 통해 데이터 규모에 따른 성능 향상을 발견할 것입니다. 우리는 아직 한계를 보지 못했습니다. 우리는 여전히 데이터 개선과 성능 개선 사이의 경계를 탐색하고 있으며 아직 도달하지 못했습니다.
우리는 칩의 컴퓨팅 성능이 제한되어 있으므로 매개변수 규모에 한계가 있습니다. 이제 약 3억 개의 데이터 훈련량이 얼마나 많은 매개변수 규모를 가질 수 있습니까? 사실, 그에게 무한정 쏟아 붓는 것은 불가능합니다.
펑 지아: 컴퓨팅 성능이 향상되었지만 대형 모델의 경우 현재 차량용 칩의 더 심각한 병목 현상은 메모리 대역폭입니다. 우리는 실제로 상대적으로 사람이 살지 않는 곳에 도달했습니다. 아무도 그것이 어떻게 처음부터 끝까지 수행되는지 말하지 않았고 모두가 "눈이 멀고 코끼리를 알아 내려고 노력하고 있습니다."
우리의 엔드-투-엔드 모델은 궤적에 도달하고 궤적 뒤에 일부 안전 포켓이 추가됩니다. 모델이 상한에 도달하기 전에 핸들을 세게 돌리는 등 처리해야 할 몇 가지 사항이 있기 때문입니다. 그것을 제거하십시오. 이것이 우리가 계획하는 것입니다.
질문: 통합 모델이 분할 모델보다 더 강력하고 고급하다는 것을 어떻게 정의할 수 있습니까? 최종 엔드 투 엔드 개발의 한계는 무엇입니까?
랑셴펑:우선 L3, 4 이상 수준의 자율주행을 하고 싶다면 이 통합형 엔드투엔드 모델이 적합하다, 안 맞다라는 점은 없다고 생각합니다. 그렇지 않기 때문에 선택해야 합니다. 그러나 이 모델을 선택하는 것 자체는 더욱 진보된 반복 또는 연구 개발 프로세스와 방법, 분할된 모드 및 일부 이전 모드를 선택하는 것과 관련이 있습니다.
처음부터 끝까지 그 변화는 하나의 모델과 두 개의 모델처럼 간단하지 않지만 그의 사고 방식과 프로세스 전체가 엄청난 변화를 겪었습니다. 거기에는 규칙이 없습니다. 고품질 데이터를 제공하고 모델의 기능을 향상시키기 위한 교육을 제공하여 더 나은 계획과 결정을 내릴 수 있습니다.
그런 다음 모델의 프레임워크를 합리적으로 반복해야 합니다. 가장 중요한 방법은 더 나은 품질의 데이터를 찾는 것입니다. 이 데이터는 양적으로 충분히 크고 품질도 충분히 좋아야 합니다. 이제 기본적으로 300만 개의 매개변수 수준에 도달했으며 데이터 선택이 매우 까다롭습니다. 우선, 저희 제품팀과 주관적인 평가팀이 함께 운전하고 있습니다. 이들은 모두 경험이 풍부한 운전자들이며, 운전 경험이 매우 좋습니다.
그들은 안전한 운전 조건 및 운전 스타일과 같은 숙련된 운전자를 위한 일련의 표준을 개발하기 위해 우리와 협력했습니다. 여러 차원에서 반복이 완료된 후 우리는 이 규칙을 사용하여 기존 80 Wan의 자동차 소유자와 비교했습니다. 90점 이상의 영상을 원합니다.이 기반이 있기 때문에 100만 개 또는 1000만 개의 고품질 조각을 필터링할 수 있습니다. 표면적으로는 1천만 개로 보이지만 실제로는 12억 킬로미터의 데이터에서 필터링이 가능합니다. 이 소수는 수천만 킬로미터의 데이터 중 하나입니다.
데이터를 스크리닝할 때 우리는 자체적인 도구 체인을 갖고 있습니다. 선택하고 선택하는 것뿐만 아니라 자체적인 비율과 데이터 레시피도 있는데, 이는 또한 매우 중요합니다.
질문: 일부 기업에서는 End-to-End 시대에 이전 데이터를 많이 사용할 수 없다고 말합니다. 그들은 지금 가장 고통스러운 일을 겪고 있습니다. 테스트할 수 있습니다. 이 말에 대해 어떻게 생각하시나요?
랑셴펑: 내 생각에는 그의 말은 데이터가 그다지 중요하지 않다는 뜻이지만, 그의 말은 데이터가 중요하다는 것을 보여주기도 한다. 사실 우리는 이상을 오랫동안 깨달아 왔습니다. 자율주행에서 가장 중요한 것은 무엇일까요? 인재펀딩인가? 데이터가 없으면 향후 알고리즘 훈련과 검증의 기반도 없다고 생각합니다.
우리는 2019년 첫 차량이 인도된 이후부터 데이터를 축적하고 데이터 플랫폼을 구축해 왔습니다.~에서이상적인 L9 처음에는 우리 모두 마트료시카 인형이었는데, 마트료시카 인형은 자율주행에 큰 도움이 되었어요. 하지만 일부 제조업체에는 자동차나 SUV가 있을 수 있고, 센서도 다를 수 있으므로 실제로는 어려울 수 있습니다.
Q: 엔드투엔드(end-to-end)가 지능형 주행 개발 프로세스를 단순화하고 인건비를 절감할 것이라고 말하는 사람들도 있습니다.
랑셴펑:이 솔루션을 사용하면 실제로 그렇게 많은 인력이 필요하지 않습니다. 전체 엔드투엔드 R&D 프로세스는 단순히 데이터 선택, 모델 교육, 모델 평가 및 세계 모델을 의미합니다. 내부적으로는 시스템 3이라고 합니다. 시스템 1과 시스템 2의 성능은 시스템 3에서 평가하고 인증하는 시스템입니다. 하지만 이전에는 대규모 도로 테스트를 실행하든, 자율주행 시스템을 실행하든 관계없이 이 자율주행 시스템에 대한 평가와 테스트를 인간이 수행했습니다. 자동차의 테스트는 사람에 의해 평가되지만 사람이 평가할 수는 없습니다.
전국에는 일년 내내 바뀌는 수백만 킬로미터의 도로가 있습니다. 사람들이 그 길을 지나갈 수는 없습니다. 베이징의 고속도로는 광둥의 고속도로와 크게 다르지 않습니다. 도시 환경에서는 이를 다루기가 정말 어렵습니다. 따라서 시스템 1과 시스템 2의 기능을 테스트하는 데 도움이 되는 시스템 3이 있습니다. 테스트 후 반복을 통과하고 온라인으로 전환하면 다음 라운드가 시작됩니다.
이 과정에서 이러한 시스템 플랫폼을 개발하는 과정에서 인력의 필요성에 더해 실제 업무에 참여하는 인력이 많지 않아 조직 내 최적화된 관리를 위해 인력 활용이 크게 줄어들 것입니다. 사람을 사용하면 많은 이점을 얻을 수 있습니다. 따라서 우리의 다음 조정 중 일부는 실제로 이 사업의 변화에 기초한 것입니다. 이는 모두가 상상하는 것처럼 조정을 위한 조정이 아닙니다.
질문: 소비자와 사용자의 관점에서 엔드투엔드 기술이 구현되면 어떤 업그레이드 경험을 보게 될까요?
랑셴펑:사용자 관점에서 볼 때 엔드투엔드 기술을 사용하든 다른 기술을 사용하든 기술 솔루션 및 경로에 좌우되지 않습니다. 앞으로도 사용자 여러분, 경험이 풍부한 운전자가 저를 위해 운전하는 느낌을 사용자에게 제공하는 것이 좋겠다고 생각합니다.
사용자가 이것이 어떤 기술인지 알 필요는 없지만 관심이 있다면 많은 참고 자료를 얻을 수 있습니다.우리는 사용자를 위해 어떤 종류의 기술 솔루션을 사용하는지 지나치게 강조하지 않을 것입니다. 우리는 사용자가 어떤 종류의 제품 경험을 갖고 있는지만 소통합니다.
Q: 엔드투엔드가 공식적으로 사용자에게 직접적으로 푸시된다면, 좋은 기준은 무엇이라고 생각하시나요? 언제 정식 출시가 가능한가요?
펑 지아: 그 기준은 사용자 경험이라고 생각합니다. 인수 목표를 직접 설정하는 대신 왜 초기 사용자 1,000명을 확보해야 합니까? 1,000명의 사용자와 10,000명의 사용자가 있다면 그들의 경험은 매우 좋으며 홍보할 수 있거나 그렇지 않은 사용자의 경험을 능가할 수 있다고 생각합니다. -이미지 버전. 현재 얼리버드 테스트에 참여하고 있는 분들 중 일부 평가를 진행한 결과, 경험치, 안정성, 보안성 모두 기준을 충족한 것으로 나타났습니다.
Q: 이번 점진적인 계획으로 One Model로 전환되나요? 하나의 모델만이 올바른 방향인가요?
펑 지아: 우리 입장에서는 One Model이 end-to-end가 아닌데, 누군가 이런 식으로 추가하고 싶다면 실제로는 별도의 부분 없이 해도 괜찮습니다. 사진. 당시에는 이를 인식 모델(perception model), 예측 계획 모델(predictive Planning model)이라고 불렀습니다. 하지만 분할된 모델(segmented model)로 지정할 수도 있습니다.
엔드투엔드(End-to-End)란 하나의 모델과 두 개의 모델을 의미하는 것이 아니라, 획기적인 AI 프로세스를 통해 전체 연구 개발 프로세스를 근본적으로 변화시키는 것이 가장 큰 의미입니다. 인간과 유사한 운전 능력을 가지고 있습니다.
예전에는 그냥 기능이라고만 했는데, 이제는 경사로 통과, 톨게이트 통과 기능이 있었는데, 이제는 숙련된 운전자의 운전 능력을 갖게 되어서 나중에 우리의 엔드 투 엔드 경험을 하게 될 수도 있습니다. 물론, 저는 이 차를 많이 운전해 보았지만, 처음에는 어색하게 운전을 시작했는데, 지금은 이 모델의 성능과 성능에 놀라곤 합니다.
80만개의 데이터가 주어지면 로터리를 건널 수 없지만, 100만개의 데이터가 주어지면 어느 날 갑자기 로터리를 건널 수 있게 됩니다. 사실 저희가 일부러 로터리 데이터를 확보한 것은 아니고 그냥 보관해 두었습니다. 그냥 데이터를 먹이세요. 이것은 마치 아이를 가르치는 것과 같습니다. 오늘은 어떤 수업을 듣고, 내일은 어떤 수업을 듣게 될까요? 어느 날 갑자기 그 사람이 와서 영어로 몇 단어를 가르칠 것입니다.
이전의 R&D와는 End-to-End가 다릅니다. 이전 제품의 R&D에서는 앞으로도 그럴 줄 알았거든요. 그렇게 디자인했거든요. 엔드투엔드 모델은 그 자체로 성장하고 출현할 수 있는 능력을 가지고 있거나, 그 능력을 발견할 수는 있지만 그 능력을 디자인할 수는 없다는 점이 매우 큰 차이점이라고 생각합니다.
Q: 엔드투엔드 프로세스에서 큰 어려움을 겪은 적이 있나요?
랑 셴펑: 사실, 가장 중요한 점은 사전 연구 작업을 수행했다는 것입니다.
둘째, 회사의 이상부터 우리 팀의 지능형 운전에 대한 이해와 인식까지, 인공지능에 대한 이해가 일관되고 매우 심층적이라고 생각합니다. 가장 큰 과제는 이 문제에 대해 모든 사람이 동일한 이해와 인식을 가지고 있는지, 어떤 사람은 급진적이라고 생각하는지, 다른 사람은 보수적이라고 생각하는지, 어떤 사람은 이 계획이 신뢰할 수 있는지 또는 신뢰할 수 없다고 생각하는지입니다.
실제로 NPN에서 그래프리스로, 엔드투엔드(end-to-end)로 어떻게 전환했는지 단계별로 설명하는 데 오랜 시간을 보냈습니다. 이 과정은 문제를 발견하고 해결하는 과정입니다. 인지적 정렬 후에는 의사결정이 매우 빠르며, Li Auto의 강력한 실행력은 우리가 지난 몇 년 동안 훈련하고 축적한 것입니다.
조직과 효율성 측면에서 지난 5년 동안의 데이터 기반 도구 체인이나 이 시스템의 인프라를 구축하는 것은 매우 중요합니다. 비록 지금은 사람, 컴퓨팅 능력, 데이터가 있지만, 완전한 효율적인 툴 체인을 효율적으로 운영할 수 없습니다. 데이터 수집, 샘플 주석, 자동화된 주석, 자동화된 교육을 수행한 다음 자동화된 평가 및 자동화된 반복 개발을 수행하려면 자동화된 데이터 폐쇄 루프 기능 인프라를 사용해야 합니다. 2019년 첫 번째 자동차 이후 반복이 계속되었기 때문에 이상적인 데이터 폐쇄 루프 인프라를 구축하는 능력은 단연 업계 최고 수준입니다.
Q: 이상적인 스마트 드라이빙 경험은 테슬라보다 반년 뒤처진다고 말씀하신 적이 있는데, 어떻게 그런 결론을 내리셨나요?
랑셴펑: Tesla FSD V12.3부터 실제로 정기적으로 미국에 가서 테스트를 해본 결과, 저희가 직접 정리한 내용입니다. 실제로 Tesla는 현재 미국 서부 해안에서 매우 좋은 성과를 거두고 있습니다. 현재 캘리포니아에서 가장 많은 데이터를 보유하고 있기 때문입니다. 하지만 보스턴과 뉴욕에 가보면 실적이 급격하게 떨어지는 것을 볼 수 있다. 특히 뉴욕에 도착한 후 MPI(Mileage Per Intervention)는 기본적으로 10~11 수준에 도달했다. 뉴욕은 뉴욕과 거의 비슷하다. 국내 리더들의 성과가 세대차이를 더 벌리지는 않았다. 하지만 뉴욕의 교통 상황도 중국 상하이나 광저우에 비해 훨씬 덜 복잡하기 때문에 우리는 감히 이런 결론을 내리거나 이렇게 말할 수 있습니다.
반면에 Tesla(미국)는 지도 정보 등 중국에서는 얻을 수 없는 많은 정보를 얻을 수 있습니다. 실제로 Google은 이런 종류의 도로 구조를 제공하지 않습니다. 테슬라 사실 저는 아주 좋은 기초를 바탕으로 이런 경험을 했습니다.그래서 FSD가 중국에 들어오면 실제로 지금 상하이에서 테스트해야 한다고 말한 것입니다. 지도에서 그렇게 많은 풍부한 정보를 얻을 수 없고, 그렇게 해야 하기 때문에 지도를 포함하여 많은 작업이 필요하다고 생각합니다. 많이 수정해서 이런 판단을 내렸습니다.
Q: 아이디얼의 올해 목표는 스마트 드라이빙 분야의 절대적인 리더가 되는 것입니다. 이를 어떤 차원으로 정의하나요?
랑셴펑: 결국 모든 것은 판매량에 달려 있다고 생각합니다. 올해 판매량 기준으로 우리 AD Max 모델이 시장을 선도하고 있습니까? 사실 이것이 가장 핵심적인 지표이다. 전체가 아닌 맥스의 차만 본다. 이번 달에 5만 대를 팔았는데, 만약 AD Max가 1만 대만 팔았다면, 내가 AD Max로 했던 일은 실패했다는 뜻이다. 하지만 내가 성공했다고 하면 맥스의 비율은 그럴 것이다. 높다.
6.0을 런칭한 이후부터 엔드투엔드 출시까지 한달간 실제로 우리 차 오너들이 매장을 더 많이 방문했고 판매량도 늘었습니다. AD MAX 사용자 주문 비율은 5월 37%에서 49%로 증가했습니다. L9 모델의 경우 AD MAX 주문이 75%였습니다. 사용자가 실제로 제품에 대한 비용을 지불할 때 이것이 가장 설득력 있는 것이라고 생각합니다.
우리 내부적으로도 올해 3월 전략회의에서 반성을 했는데요, 경쟁을 너무 우습게 보면 안된다는 겁니다. 올해 상반기에 사진이 없는 첫 번째 버전의 평균 품질에 대해 모두가 불평하는 이유는 무엇입니까? 사실 당시 문제는 경쟁을 너무 많이 보았다는 것이었습니다. 실제로 이 지표들만 보면 우리 버전도 나쁘지 않은데, 사용자 경험이 좋지 않아서 결국 그냥 보는 것이 아닌 사용자 경험과 평가로 바꿨습니다. 지표이지만 지표는 참조 사항입니다.
질문: Tesla FSD가 출시되어 중국의 도로 상황에 대한 일부 문제를 해결한 후 일부 주요 자동차 회사는 그 당시 모두가 무엇을 위해 노력할 것입니까?
랑셴펑: 이는 우리의 후속 계획 중 일부와도 관련이 있습니다. 처음부터 끝까지 모든 사람이 인공 지능을 사용하여 자율 주행을 수행하게 될 것입니다. 조만간 선도적인 플레이어가 이를 수행할 것이라고 믿습니다. 이 방향으로 들어가면 분명 지금처럼 보조운전자가 아닌 7,000위안이면 누구나 할 수 있을 것 같죠? 오린 1개로 할 수 있고, 오린 2개로 할 수 있고, 오린 4개로 할 수 있는데, 정말 인공지능 시대가 오면 사실 다들 두 가지 일을 하게 될 겁니다.
첫 번째는 고품질 데이터가 충분한지 여부이고, 두 번째는 이에 상응하는 충분한 훈련 컴퓨팅 성능을 갖춘 클러스터가 있는지 여부입니다. 따라서 결국 모두가 컴퓨팅 성능과 데이터를 위해 싸워야 하지만 이에 대한 임계값은 다음과 같습니다. 두 가지가 매우 높습니다. 회사의 자본 준비금이 연간 교육 비용을 지원할 만큼 충분하지 않으면 나중에 L3 또는 L4를 플레이할 수 없습니다. 귀하의 훈련 요구를 지원하십시오.
우리는 처음에 훈련 비용에 대한 이상적인 연간 투자를 10억 위안으로 추정했습니다. 우리는 미래의 비용이 연간 10억 달러가 될 것이라고 추정합니다. 이는 훈련의 컴퓨팅 능력일 뿐이며 다른 인력 및 기타 비용은 포함되지 않습니다. 따라서 연간 10억 달러의 훈련 비용을 지출하지 못하면 향후 자율주행 대회에서 탈락할 수 있습니다.
질문: 연간 10억 달러, 이를 어떻게 추론할 수 있나요?
랑셴펑:모델 매개변수의 관점에서 볼 때 가장 직접적입니다. Tesla를 예로 들면, FSD V12.3-12.5는 모델을 5배 확장하고, 현재 엔드투엔드 모델도 5배 확장합니다. 약 3억 ~ 4억 개의 매개변수가 있고, VLM은 22억 개의 매개변수입니다. Thor 세대에 이르러서는 L3 및 L4의 상한을 늘리기 위해 모델이 크게 향상되었습니다. 훈련 컴퓨팅 능력도 두 배로 커야 한다는 논리인 것 같아요.
Q: 이제 국내 제조업체들은 엔드투엔드(End-to-End) 경로에서 같은 출발선에 서 있습니까?
Lang Xianpeng: 국내 제조사들은 처음부터 끝까지 같은 출발선에 서 있는데, One Model을 보면 Ideal이 앞설 수도 있겠다는 생각이 듭니다.One Model을 기반으로 우리는 Bird Egg의 자체 버전을 처음 출시했으며 수천 명 규모의 비교적 대규모 출시 및 전달이었으며 실제로 모든 사람들이 이러한 엔드투엔드 및 성능 향상을 경험했습니다. 그런 일이 가져온 경험은 이전에 보여주지 않았으며, 지금 나의 판단은 이것에 기초하고 있다.
질문: 컴퓨팅 성능 및 카드 구매 문제와 관련하여 회사에서 지원합니까?
랑셴펑: 우리 회사도 매우 지원적입니다. 이제 Li Xiang이 가끔 와서 Lang Bo에게 카드가 아직 충분합니까? 충분하지 않으면 다른 사람에게 문제 해결을 도와달라고 요청하세요. 나는 그렇다고 대답하고 감사할 것입니다. 우리는 운영의 모든 측면에서 매우 잘하고 있지만 Li Xiang은 인공 지능에 대해 상대적으로 철저한 이해를 가지고 있다고 생각합니다. 따라서 우리는 컴퓨팅 성능 등에 대해 특별히 걱정하지 않습니다. 예산을 승인하고 싶을 때 이러한 사항을 고려할 것이라고 생각합니다.
질문: 모든 자동차 회사가 자율주행을 할 수 있는 것은 아니라고 말씀하셨는데, 컴퓨팅 파워 측면에서 입장권 기준을 충족하려면 어느 정도의 예비비가 필요한가요?
랑셴펑: 이제 우리의 이상을 구현했으므로 연간 10억 위안의 컴퓨팅 전력 지출이 필요합니다. 하나도 없으면 반복 속도가 느려지거나 제품의 경쟁력이 부족해집니다. 앞으로는 이러한 컴퓨팅 파워 투자를 위해 연간 10억 달러가 필요할 것으로 생각하고 있으며, 아마도 우리 스스로 추정해 본 것 같습니다. 현재 우리는 약 15,000장의 카드를 보유하고 있어 이미 카드 할당을 매우 긴장하고 있습니다. 하지만 시간이 지날수록 모델 매개변수의 개수가 최소 3~4배(입력) 이상 늘어나는 게 더 합리적으로 느껴지는 것 같아요. 컴퓨팅 성능 자체가 많이 향상되었기 때문에 대역폭과 저장 공간도 많이 향상되었기 때문에 기본적으로 약 30억 플롭의 컴퓨팅 성능이 될 수 있는 작은 100,000개의 A100의 느낌에 해당한다고 생각합니다.
질문: 이런 종류의 투자는 무한합니까, 아니면 상한선이 있습니까, 아니면 특정 지점에서 안정될 수 있습니까? 어떻게 상용화의 균형을 확보할 수 있습니까?
펑 지아: 지난 2년 동안 모델 매개변수는 수백억 개에서 수조 개, 심지어는 10조 개로 늘어났습니다. 이것은 매우 가파른 곡선이지만 최근에는 모두가 더 큰 것이 더 나은지에 대해 다시 한 번 생각하고 있으며 이제는 전문 분야에서 일부 대형 모델을 만드는 데 그렇게 많은 매개 변수가 필요하지 않을 수도 있습니다. 데이터 품질이 충분하기 때문에, 내 모델 매개변수의 수가 그렇게 클 필요는 없을 것 같습니다. 이것은 HYPE 곡선입니다. 잠시 후 다시 하락할 수도 있지만 결국에는 안정적인 상태에 도달할 것이라고 생각합니다. 모델 매개변수의 수나 컴퓨팅 능력에 따라 그런 과정이 있을 것입니다. 누구나 처음에는 빠르게 오르막길을 오르다가 결국에는 조금 돌아와서 실제 실용성에 도달하게 됩니다.
Q: 전기차 경쟁 전반전에서 테슬라는BYD뒤처진 경쟁자들이 한참 뒤쳐진 지금, 하반기 지능형 운전 경쟁은 어떤 모습일까요?
랑셴펑:전반부는 전기화에 관한 것이고, 후반부는 확실히 인텔리전스에 관한 것입니다. 다음으로 인텔리전스에 대한 우리의 투자와 성과는 단지 시작에 불과하다는 것을 확실히 보게 될 것입니다.