소식

택시 운전사 여러분, 당황하지 마십시오. 스마트 운전 업계의 프로그래머는 AI로 인해 일자리를 더 빨리 잃을 것입니다.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


스마트 드라이빙의 'GPT 순간'이 벌써 다가왔나요?


저자 |
편집하다징규 |

모든 새로운 기술은 탄생부터 발전까지 다양한 단계를 거치며 다양한 목소리에 직면하게 됩니다. 최적의 기술 솔루션을 찾기 위해 개발자는 수년간의 노력을 포기할 수 있지만, 상업 조직은 적시에 이익을 극대화하기 위해 기술 구현 시기를 판단하는 데 더 중점을 둡니다.

지능형 주행과 관련해 국내 주요 제조사들은 한때 인지도 차이가 컸다. 지지자들은 '멀리 앞서가는' 경험을 가져올 수 있다고 믿는 반면, 반대자들은 "기술 냄새가 난다", "자율주행은 사기다" 등의 발언을 하며 경멸을 표했다.

2024년, '엔드 투 엔드'를 기반으로 한 Tesla의 지능형 운전 소프트웨어 FSD V12 버전이 공식 출시되면서 지능형 운전에 대한 중국 자동차 제조업체의 태도가 마침내 수렴되기 시작했습니다.

자동차 제조 분야의 새로운 세력을 대표하는 웨이샤오리(Wei Xiaoli)를 예로 들자면, 다양한 기업들이 확실히 "엔드 투 엔드(end-to-end)" 기술을 추구하기 시작했습니다.

Xiaopeng은 스마트 운전 시스템에 엔드투엔드 대형 모델을 도입할 것을 제안했으며, 앞으로 '이틀에 한 번 내부 OTA'를 달성하는 것을 목표로 올해 지능 및 훈련 데이터에 42억 위안을 투자할 것이라고 밝혔습니다. 이는 수십만 줄에 달하는 지능형 운전 코드를 인간이 유지 관리하던 과거에는 상상할 수 없었던 효율성 향상이다.

NIO는 최근 지능형 운전 R&D 부서를 재구성하여 전통적인 인식 및 규모 팀을 대규모 모델 팀으로 병합했으며 핵심은 신경망을 기반으로 한 패러다임 반복을 촉진하는 것입니다.

과거에는 '공장 선별'이라고 조롱받았던 이상조차도 최근에는 지능형 연구 개발의 추진력을 구축하는 데 자주 사용되었습니다. CEO인 Li Xiang은 '엔드 투 엔드(end-to-end)' 연구 개발 플랫폼을 직접 개발하고 노벨 경제학자들의 빠르고 느린 사고 이론을 소개하여 그의 팀이 자율 주행이라는 코너 케이스를 해결할 수 있는 방법을 찾았음을 설명했습니다.

그렇다면 다양한 제조업체가 비합의에서 엔드투엔드 합의로 전환할 수 있도록 허용하는 것이 왜 그렇게 마술적일까요? 지능형 운전 산업의 패러다임을 어떻게 변화시켰으며, 어떤 기회와 조정을 가져올 것인가?

01

스마트 운전을 위한 GPT 시대가 도래했습니다

국내 제조사들이 빠르게 공감대를 형성한 중요한 이유는 테슬라가 부러워할 만한 엔드투엔드 답안지 전달에 앞장섰기 때문이다.

올해 3월 Tesla는 지능형 운전 소프트웨어 FSD V12.3 버전을 공식 출시했습니다. 이번 버전의 가장 큰 변화는 지능형 주행 시스템 전체의 힘을 인간이 작성한 코드에서 신경망 기반의 대규모 AI 모델로 전환한 점이다. 머스크는 이 새로운 작업 패러다임을 '비디오 인 투 컨트롤 아웃(Video in to Control out)'으로 설명한다. 즉 AI가 '보는' 도로 정보를 바탕으로 주행 작업을 직접 출력하는 것인데, 이를 업계에서는 흔히 '엔드 투 엔드(end-to-end)'라고 부른다. 끝으로).

지난달 He Xiaopeng은 캘리포니아에서 FSD V12.3.6 버전을 경험했습니다. 그의 말에 따르면 FSD는 "많은 도로 상황을 매우 원활하게 처리합니다." 이는 코드 기반 신경망에 비해 AI 신경망의 가장 큰 장점입니다. 다양한 도시와 도로 조건에서 지능형 운전 시스템의 일반화된 학습 기능을 크게 향상시킬 수 있습니다.

국내 소비자들에게 좀 더 친숙한 광고, 마케팅 문구로 번역하면 전국(글로벌) 개봉이 가능하다는 뜻이다.


화웨이는 지난해 9월 '전국 사용 가능'이라는 슬로건을 내세웠다. 출처: 박긱 |

물론, 이 결론은 현 단계에서는 단지 좋은 소망일 뿐이다. 실제 운영 과정에서도 'AI가 인간 운전자만큼 스마트해진다'라는 목표에 가까워지기 위해서는 데이터, 알고리즘, 컴퓨팅 파워 등 AI 인프라의 전폭적인 축복과 훈련이 필요하다.

그러나 동료들에게 FSD V12 버전은 많은 의미를 갖습니다. 이는 신경망이 실제로 사람이 작성한 코드를 대체할 수 있고 심지어 더 훌륭하고 효율적으로 수행할 수 있음을 검증합니다.

이는 N년을 기다릴 필요가 없다는 의미이며, 지능형 운전 산업의 ChatGPT 순간이 실제로 도래했다는 의미입니다. Ali Zhang Yong이 한때 말한 것을 생각해 보십시오. 모든 소프트웨어는 AI로 다시 실행할 가치가 있습니다. FSD V12는 동료들에게 새로운 방향과 자신감을 부여했습니다. 모든 스마트 운전 기술 스택은 처음부터 끝까지 다시 구성될 수 있습니다.

FSD V12 베타 버전이 출시되자 머스크는 이번 버전이 이전 버전의 30만 줄의 코드를 1%도 안 되는 2,000줄로 압축했다고 밝혔다.

신기술 스택에서의 스마트 드라이빙 경쟁은 누구보다 더 반혁신적이고 혁명적인 게임으로 진화하지 않을 것입니다. AI의 효율성이 실제로 He Xiaopeng이 말한 내부 OTA에 이틀에 한 번씩 도달할 수 있다면 규칙을 하나씩 작성하고 버그를 수정하는 인간의 해상 전술은 완전히 쓸모없다고 선언될 수 있습니다.

그렇다면 스마트 드라이빙 산업에는 여전히 그렇게 많은 프로그래머가 필요한 걸까요? 저자가 정확한 답을 줄 수는 없지만, 확실한 것은 스마트 드라이빙 프로그래머의 업무 내용 역시 일련의 변화를 겪게 될 것이라는 점이다. if else 규칙만 작성할 수 있는 프로그래머는 택시나 온라인 차량호출 운전자보다 먼저 AI로 대체될 가능성이 높습니다.

02

데이터에 갇혀

지난달 투자기관 첸타오캐피탈이 발표한 '엔드투엔드 자율주행 산업 연구 보고서'에서 자율주행 업계 응답자 30명 이상 중 13%만이 종말을 향해 상대적으로 조심스러운 '관망' 태도를 나타냈다. -to-end technology, 그리고 나머지는 "사전 연구" 또는 심지어 "전적인 헌신"이라는 보다 긍정적인 태도를 표현했습니다. 엔드 투 엔드(End-to-End)는 업계 실무자들 사이에서 합의가 되었습니다.

그러나 실제로 '근본주의 엔드투엔드'를 이룰 수 있는 기업(테슬라를 포함)은 현재 존재하지 않는다. 즉, 자율 주행의 모든 ​​측면이 동일한 대형 모델에 집중되어 인간과 동일한 "입력 시각 신호 및 출력 페달 및 핸들 조작"을 실제로 구현합니다.

이 단계에서 대부분의 국내 OEM의 핵심 노력은 인식 및 의사결정 모듈을 개방하는 것입니다. 이에 대한 핵심은 모듈 간 결과의 수동 정의를 취소하고 특징 벡터를 사용하여 무손실 정보를 전달하는 것입니다.


엔드 투 엔드 자율 주행의 아키텍처 진화에 대한 개략도 이미지 출처: Chentao Capital |

엔드투엔드 이전의 전통적인 자율주행 아키텍처는 로봇공학 분야에서 유래했으며 인식, 계획, 제어 등 다양한 모듈로 나누어졌습니다. 서로 다른 모듈은 서로 다른 팀에서 개발되며, 정보는 주로 수동으로 정의된 인터페이스를 통해 모듈 간에 전송됩니다. 가장 간단한 예를 들자면, 차량이 선을 가로질러 주행하는지 여부에 대한 현상은 가장 간단한 컴퓨터 바이너리 언어를 사용하여 전통적인 인식 모듈에서 표현할 수 있습니다.

인식 및 의사결정 모듈을 개방함으로써 얻을 수 있는 가장 큰 이점은 현실 세계의 규칙으로 정확하게 설명할 수 없는 "회색조 장면"을 더 많이 다룰 수 있다는 것입니다. 예를 들어, 운전을 할 때 앞차의 정확한 속도나 차선을 넘어가고 있는지는 알 필요가 없고 상대적인 위치 변화에만 주의하면 됩니다.

이를 바탕으로 생성적 AI 이론을 바탕으로 신경망 모델도 대량의 입력을 거쳐 지능을 생성해 AI 에이전트가 될 수 있을 것으로 기대된다.

이 모든 것의 기초는 모델에 "공급되는" 교육 자료인 데이터에서 나옵니다. 그러나 대용량 텍스트 기반 언어 모델과 달리 지능형 주행 모델은 교육 자료로 사용할 만큼 충분한 공개 영상 데이터를 찾기가 쉽지 않다.

앞서 언급한 '엔드 투 엔드 자율주행 산업 연구 보고서'에 따르면 현재 최대 규모의 공개 데이터 세트에는 1,200시간의 데이터만 포함되어 있습니다. 2023년 머스크에 따르면 테슬라는 엔드투엔드 초기 단계에서 거의 4만 시간에 가까운 영상 교육을 투자했다.

다른 자동차 회사와 비교해 테슬라 데이터의 가장 큰 장점은 대량생산 차량이 많다는 점이다.

현재 Tesla는 전 세계적으로 600만 대 이상의 차량을 납품했습니다. 그러나 스마트 드라이빙을 적극적으로 전개하는 중국의 새로운 세력 중 대량 생산 차량의 수는 Tesla의 극히 일부에 불과합니다. 일관된 미니멀리스트 SKU와 완전히 사전 내장된 스마트 드라이빙 하드웨어가 결합되어 데이터 수집이 더욱 쉬워집니다.

중국의 이전 일반적인 관행은 일반적으로 도로 정보를 수동으로 수집하는 데 의존했습니다. 그러나 스마트 엔드투엔드 모델을 훈련하려면 엣지 시나리오(코너 케이스)에서 충분한 데이터를 다루도록 노력해야 합니다. 엣지 씬의 발생은 매우 무작위적이기 때문에 일부 제조업체에서는 수동 데이터 수집만으로는 제한된 데이터의 약 2%만 얻을 수 있다고 밝혔습니다.

또한 국내 제조업체는 Tesla에 비해 SKU가 더 복잡한 경우가 많습니다. 다양한 모델 간 차량 크기, 센서 레이아웃 등의 차이로 인해 모델의 관련 매개변수도 다시 정렬해야 합니다.

Huawei 시리즈를 예로 들면, Hongmeng Zhixing은 지난 1년간 강력한 단말기 판매 역량을 입증했습니다. 그러나 Huawei 자동차 BU 서비스의 다양한 브랜드와 모델의 경우 엔드투엔드 구현 후에도 여전히 엔지니어가 필요합니다. 정렬 및 배송 작업. 2개 브랜드, 9개 모델을 보유한 웨이라이도 마찬가지다. 통합팀을 배송팀으로 개편했다.


Sora 출시 후 Musk는 Tesla가 실제 운전을 시뮬레이션하기 위해 AI를 사용한다고 트윗했습니다. 이미지 출처: X 스크린샷 |

소라가 대표하는 원성(Wensheng) 비디오 제품이 엔드투엔드 모델의 소재 소스가 될 수 있다는 시각도 있다. 그러나 머스크의 경우에도 AI 생성 콘텐츠로 AI를 훈련시키는 것은 아직 공개적으로 인정되지 않았습니다. 결국 데이터 데이터는 모델 학습에 너무 중요합니다. 아시다시피 늘 인건비에 극도로 인색했던 머스크는 테슬라의 도로 영상 데이터에 주석을 달기 위해 뉴욕에서도 1,000명으로 구성된 팀을 고용했습니다.

03

머스크의 "도랑"에 빠지지 마십시오

엔드 투 엔드(end-to-end)로의 전환은 당연한 일인 것 같지만, 30만 줄의 코드를 삭제하고 과거의 조직 구조를 해체하고 재편하는 것은 분명 쉽지 않은 결정이다. 사실 머스크조차도 우연히 이 길을 걷기 시작했습니다. 지능형 주행 신경망 구축을 위해 ChatGPT를 배우겠다고 2022년 말 그에게 처음 제안한 엔지니어는 트위터 인수 후 다른 문제를 해결하기 위해 Lao Ma에 거의 전근되었습니다.

엔드투엔드 모델을 훈련한 후에는 해당 지원 시스템(컴퓨팅 성능 등 포함)도 충분히 효율적이어야 합니다. NIO의 지능형 운전 연구 개발 담당 부사장 Ren Shaoqing은 'Tencent Deep Web'과의 인터뷰에서 기본 기능 없이 엔드투엔드 서비스를 강요하는 것은 '독'을 사용하는 것과 같다고 말했습니다.

그는 "원본 코드 구조가 충분히 명확하다면 (디버그) 테스트 볼륨은 1%에 불과할 수도 있다. 예전에는 1%를 다시 테스트하는 데 3일이 걸렸는데 이제는 미안하지만 100%를 다시 테스트해야 한다"고 말했다. 따라서 귀하의 데이터 검증 시스템은 충분히 효율적이어야 합니다.”

하지만 현재의 엔드투엔드(End-to-End)는 업무 효율성을 향상시킬 수 있는 가능성을 증명할 뿐, 자율주행을 위한 궁극적인 솔루션임을 증명하지는 않습니다.

이는 스케일링 법칙이 물리적 세계에서 AGI(일반 인공 지능)로 이어질 수 있는지에 대한 업계의 이해와 일치합니다. 생성 인공 지능이 더 높은 지능을 가질 수 있다는 것은 확실하지만 물리적 법칙을 이해하고 자동으로 운전에 응용할 수 있는지 여부입니다. , 로봇 공학 및 기타 분야에는 학계에 규칙이 없습니다. "엔드투엔드 자율주행 산업 연구 보고서"에 따르면 실무자의 절반 이상이 엔드투엔드가 자율주행 기술의 궁극적인 솔루션이라고 믿지 않습니다.

자체 스마트 운전을 개발하는 OEM의 경우 이 단계에서 가장 실용적인 접근 방식은 스마트 운전 기능을 최대한 빠르고, 쉽고, 비용 효율적으로 구현하는 것입니다. 스마트 운전 소프트웨어 구독의 경우 이동 시간이 더 길어질 수 있습니다. 결국 중국 시장에서는 하드웨어가 소프트웨어나 서비스보다 더 잘 팔리는 경우가 많습니다.

물론 머스크처럼 혁신적인 도박꾼이 되고 싶은 사람은 많지 않을 가능성이 높다. 연구개발 없이 좋은 저가형 모델을 두고 로보택시에 큰 배팅을 하게 되면, 출시가 늦어지면 시장 가치는 수천억 달러 하락하게 된다. 보다 일반적인 플레이어는 엔드투엔드 스마트 운전 소프트웨어를 탑재하면 하드웨어 판매를 촉진할 수 있기를 바랄 뿐입니다. 물론 더 비싸게 팔 수 있다면 그게 가장 멋진 일이겠지요.

*헤더 이미지 출처 : Visual China

이 기사는 Geek Park의 원본 기사입니다. 재인쇄를 원하시면 WeChat geekparkGO에서 Geek Jun에게 문의하세요.

괴짜가 물었다

미래 지능형 운전 산업에서 프로그래머의 역할,

어떤 변화가 일어날 수 있나요?

7월 16일. 레이준이 올린 글: 이번 주 금요일 저녁 7시, '용기'를 주제로 제5회 레이준 연례 연설을 진행합니다. 자동차를 만드는 과정과 우여곡절에 대해 이야기하겠습니다. 지난 3년.

좋아요와 팔로우Geek Park 비디오 계정