SenseTime 최고의 배우 왕샤오강: '2단계' 엔드 투 엔드 접근 방식이 앞으로 10년 동안 구현되더라도 지능형 운전의 'ChatGPT'가 되지는 않을 것입니다

SenseTime 최고의 배우 왕샤오강: '2단계' 엔드투엔드 접근 방식이 앞으로 10년 동안 구현되더라도 지능형 운전을 위한 'ChatGPT'가 되지는 않을 것입니다.

2024-07-15

Wang Xiaogang, SenseTime Technology의 공동 창립자이자 최고 과학자이자 Jueying 지능형 자동차 비즈니스 그룹 회장

막 끝난 WAIC 2024에서 SenseTime은 원샷 영상을 공개했습니다.

영상에서 단 7개의 카메라만 장착한 UniAD 차량은 사진 없이 도시 건설 도로, 대형 교차로, 신호등 교차로를 자유롭게 이동할 수 있을 뿐만 아니라 교통 상황이 복잡한 시골 도로도 표시가 없는 비대칭 교차로를 통해 원활하게 주행할 수 있습니다. 길가에 주차된 정지 차량과 좁은 차선의 차량을 피할 수 있으며, 차선이 없는 큰 곡률 곡선에서도 우회전이 가능합니다.

이 일련의 비단처럼 부드러운 주행 움직임이 인상적입니다. 그 뒤에는 업계 최초로 인식과 의사결정을 통합한 SenseTime Jueying이 제안한 엔드투엔드 자율주행 솔루션 UniAD가 있습니다.

지난 몇 년간 자동차 회사들은 지능형 운전을 화두로 삼았지만, 실제 운전 수준은 만족스럽지 못한 경우가 많다. ChatGPT 등장 이후 지능형 운전 업계는 질적인 변화의 순간을 기대하고 있습니다.

이때 'end-to-end'는 방향을 제시한다. 올해부터 지능형 운전 업계에서는 엔드투엔드(End-to-End)에 대한 관심이 높아지고 있습니다. Xpeng, Ideal, NIO, Great Wall과 같은 자동차 회사든 Huawei, Yuanrong Qixing, Haomo Zhixing과 같은 기술 제공업체든 모두 엔드투엔드 경로로 전환했습니다.

SenseTime Jueying은 이미 2022년 말에 인식 및 의사결정 분야의 통합 자율주행을 위한 일반 모델인 UniAD를 제안했습니다. DriveAGI도 UniAD를 반복적으로 기반으로 하여 엔드투엔드 솔루션을 지원합니다. 차세대 자율주행 기술을 창조합니다. 도로에서 구급차를 만나더라도 DriveAGI의 인지 능력을 통해 차량은 목표물을 정확하게 식별하고 이해하며 적극적으로 양보할 수 있습니다.

DriveAGI는 구급차를 식별할 수 있을 뿐만 아니라 근무 중인 구급차에 적극적으로 양보할 수도 있습니다.

2년간의 사전 기획 끝에 센스타임의 조기 진입과 빠른 반복의 장점이 점차 부각되고 있다. 국내외 30개 이상의 자동차 회사와 협력해 90개 이상의 모델을 보유하고 총 195만 대의 스마트카를 납품했다. 협력 과정에서 SenseTime Jueying과 자동차 회사는 각자의 경계를 찾고 각자의 장점을 최대한 활용했으며 자율 주행의 'GPT 순간' 도래를 가속화하기 위해 협력하고 있습니다.

기술적인 경로가 잘못되면 버스를 타는 것조차 헛된 일이 될 것입니다.”

엔드투엔드 분야에 진출하기 위해 많은 플레이어가 모이고 있는 이 시점에서 SenseTime의 공동 창립자이자 최고 과학자이자 Jueying 지능형 자동차 비즈니스 그룹의 사장인 Wang Xiaogang은 TMTpost Media App에서 자신이 가장 먼저 왜 끝까지 집중?

2017년 센스타임과 일본 혼다자동차는 L4 자율주행 기술을 공동 개발하기 위한 협력을 발표한 바 있다. 센스타임 자체는 AI 비전 기술로 시작됐다. 당시 혼다는 센스타임에 고정밀 지도 없이 카메라만 사용해 지능형 주행 기능을 구현해 달라고 요청한 바 있다. 그 이후로 팀은 엔드투엔드 작업을 계속해 왔습니다.

지금은 엔드투엔드 경쟁이 본격화됐지만, 공통적인 문제는 엔드투엔드 기술노선이 아직 모범사례를 형성하지 못하고 기술노선에 차이가 있다는 점이다.

Wang Xiaogang은 TMTpost App에 현재 엔드투엔드 솔루션의 대부분이 구현하기 쉬운 "2단계" 솔루션을 채택하고 있다고 말했습니다. 즉, 인식과 의사결정이라는 두 가지 모델로 구성되어 있습니다. "첫 번째 단락의 인식 부분 자체는 이미 신경망을 사용하고 있어서 큰 변화는 없습니다. 가장 큰 변화는 두 번째 단락의 계획 및 제어 부분입니다. 원래 이 부분은 규칙을 작성하여 구현했지만 이제는 적용됩니다. 신경망."

그러나 그의 의견으로는 "2단계" 솔루션은 두 개의 작은 모델을 함께 연결하고 이를 공동으로 최적화하는 것입니다. "2단계" 솔루션에서는 인식 모델을 통해 정보를 필터링한 후 손실이 많아 사람, 자동차, 사물 등 일부 라벨만 남게 되므로 2단계 모델은 실제로 작은 수준에 불과합니다. 모델. "2단계 계획과 1단계 계획의 핵심적인 차이점은 소형 모델의 시대인가, 대형 모델의 시대인가이다."

Wang Xiaogang은 '2단계' 솔루션이 앞으로 10년 동안 구현되더라도 자율주행을 위한 'ChatGPT'가 되지는 않을 것이라고 직설적으로 말했습니다.

SenseTime Jueying은 연구 개발 초기부터 이러한 문제를 정확히 염두에 두고 인식, 의사 결정, 계획 및 기타 모듈을 전체 스택 Transformer 엔드투게인에 통합하는 "원스텝" 솔루션을 채택했습니다. 통합된 인식과 의사결정을 달성하기 위한 최종 모델입니다. 즉, 센서 입력을 사용하여 행동의 궤적을 직접 출력합니다.

이 과정에서 기계는 마치 추리소설을 읽는 것처럼 인간의 뇌처럼 정보를 종합하고 생각하고 판단하게 됩니다. 추리소설을 읽는 동안에도 소설 속에는 다양한 인물과 줄거리가 등장합니다. 소설 다음에 무슨 일이 일어날지는 완전히 불분명합니다. 소설 속 다양한 인물과 줄거리를 통해 살인자의 여러 가능성을 예측할 수 있다.

그러나 1단계 계획과 2단계 계획은 한 단어 차이만 있을 뿐 난이도는 매우 다르다. Wang Xiaogang은 1단계 경로를 사용하면 프런트 엔드의 비디오 정보 양이 매우 많지만 출력 신호가 매우 정확해야 하므로 전체 네트워크의 훈련, 데이터 및 파이프라인에 대한 요구 사항이 더 높아진다고 설명했습니다.

"'1단계' 솔루션은 어렵지만, 일단 모델이 학습되면 그 역량은 매우 강력해질 것입니다. 이것이 우리가 추구하는 자율주행의 'ChatGPT' 순간입니다."

순수한 엔드투엔드 자율주행 모델은 자율주행에 대한 최종 답이 아닙니다.”

기술 경로의 선택이 첫 번째 단계입니다. 2022년 말, SenseTime과 공동 연구소는 인식 및 의사결정 분야 통합 자율주행을 위한 업계 최초의 범용 모델인 UniAD를 제안했으며, 2023년 컴퓨터 비전 및 패턴 인식에 관한 국제 컨퍼런스(CVPR)에서 최우수 논문을 수상했습니다. 다음 해.

올해 베이징 오토쇼에서 SenseTime Jueying은 도시 도로와 시골 도로에서 자유롭게 주행할 수 있는 UniAD의 실제 차량의 도로 결과를 시연했습니다. 직후 WAIC 2024에서 SenseTime은 복잡한 도시 도로, 시골 도로 등에서 UniAD의 실제 차량 시연을 선보였습니다.

UniAD는 순수 시각적 엔드투엔드 자율주행 범용 모델이지만, 지능형 주행 시스템의 주행 성능을 향상시키기는 하지만 순수 엔드투엔드 자율주행 모델이 자율주행의 최종 답은 아닙니다. 왕샤오강(Wang Xiaogang)은 스마트 자동차가 초지능화된다는 중요한 신호는 열린 세상에서 인식, 추론, 의사 결정 및 상호 작용 능력을 더욱 갖추는 것이라고 말했습니다. 따라서 SenseTime Jueying은 다중 모드 대형 모델을 기반으로 한 대형 지능형 주행 모델인 DriveAGI를 만들었습니다.

DriveAGI의 진화 방향은 엔드투엔드 스마트 드라이빙을 "해석 가능하고 인터랙티브하게" 만드는 것입니다.

소위 설명 가능성이란 자동차가 복잡한 현실 세계를 인간처럼 이해하고, 다양한 교통 참여자의 행동 동기에 대한 통찰력을 얻고, 다양한 교통 규칙을 빠르게 학습하고, 끊임없이 변화하는 도로 정보를 파악할 수 있게 해줄 뿐만 아니라, 사용자에게 운전 결정을 설명합니다.

예를 들어 평소 2차선 도로 오른쪽으로 주행하던 차량에 DriveAGI가 탑재된 경우 뒤에서 다가오는 구급차를 발견하면 즉시 이를 인식하고 구급차가 양보하고 있다고 판단할 수 있습니다. 따라서 1차적으로 도로 좌측에 차선변경 공간이 있다고 판단하고, 구급차가 원활하고 빠르게 통과할 수 있도록 시간에 맞춰 도로 우측을 좌측으로 변경한다. 전체 과정은 인간의 두뇌와 유사합니다. 도로에서 직면하는 다양한 상황을 명확하게 볼 수 있을 뿐만 아니라 교통 규칙을 기반으로 생각하고 판단하며 올바른 운전 조치를 취할 수 있습니다.

상호 운용성은 사용자가 DriveAGI에게 의사 결정 과정을 설명하도록 요청할 수 있을 뿐만 아니라 음성이나 제스처 지시를 통해 자율 주행 동작을 제어할 수도 있음을 의미합니다. 예를 들어, 미래의 자율 주행에서는 내비게이션이 차량에게 목적지에 도달하기 위해 다음 교차로에서 방향을 바꾸도록 지시하지만, 운전자는 전방에 지름길이 있다는 것을 알고 직접 회전할 수 있으므로 "회전"이라고만 말하면 됩니다. 시스템은 현재 도로 상황에 따라 이 명령을 실행합니다.

블랙박스 작동 및 단방향 출력부터 해석 가능성 및 상호 작용에 이르기까지 핵심 비결은 모델을 교육하는 방법입니다.

모델 학습의 첫 번째 요소는 대량의 데이터와 대규모 모델 매개변수입니다. 머스크는 이전에 자율주행 모델에 대한 데이터의 중요성에 대해 이야기한 적이 있습니다. 100만 건의 비디오 사례가 훈련되었는데, 이는 거의 충분하지 않은 수치입니다. 300만 건이면 와우를 느낄 것입니다. 믿을 수 없는.

Wang Xiaogang은 또한 현재 네트워크 구조가 핵심 비밀이 아니며 모든 사람의 네트워크 구조가 상대적으로 유사하다고 말했습니다. 핵심은 유사한 네트워크 구조에서 어떻게 우수한 성능 품질을 달성할 수 있느냐는 것입니다. 이는 주로 모델 크기가 충분히 큰지, 데이터 생성 파이프라인이 강력한지에 따라 달라집니다.

10년 동안 AI 분야에 깊이 관여한 SenseTime은 도시 지능, 상업, 의료, 금융, 자율 주행은 물론 철강, 석탄 채굴, 전력과 같은 산업 시나리오까지 다양한 산업에 배포되었습니다. 다양한 산업 분야에서 다량의 멀티모달 데이터를 축적해 왔습니다. 7월 5일, SenseTime Jueying은 WAIC 2024에서 200 TOPS+ 플랫폼에 탑재된 8B 모델 차량 엔드 배포 솔루션에 80억 개의 매개변수가 있음을 라이브로 시연했습니다.

SenseTime Jueying 차량 엔드사이드 8B 다중 모드 모델 성능

수량이 있으면 품질도 보장되어야 합니다. Wang Xiaogang은 모델의 데이터 양과 매개 변수 수에만 집중할 수 없다고 말했습니다. 어려운 작업이 없으면 데이터 양과 매개 변수가 늘어나더라도 모델의 기능은 제자리에서 회전할 뿐입니다.

그런 다음 그는 예를 들었습니다. 꿀벌은 이렇게 복잡한 벌집에서 매우 정확하고 잘 일할 수 있지만 항상 한 가지 기술만 갖고 있고 한 가지 일만 할 수 있습니다. 인간의 두뇌는 다릅니다. 수천 년의 진화 끝에 인간은 위성과 로켓을 하늘로 보낼 수 있게 되었습니다. "이것이 일반 능력과 독점 능력의 차이입니다. 벌은 일생 동안 한 가지 일, 즉 두 삶, 아니면 세 삶만 합니다. 모델처럼 사람, 자동차, 사물에 대한 데이터만 입력하면 벌은 남은 생애 동안만 이 일을 할 수 있을 거에요.”

데이터와 더불어 강력한 컴퓨팅 파워의 공급은 오늘날 가장 희소하고 경쟁력 있는 요소입니다.

SenseTime Jueying은 업계에서 몇 안 되는 주요 컴퓨팅 성능 공급업체 중 하나입니다. SenseTime은 2018년부터 컴퓨팅 인프라를 배치하기 시작했으며 상하이 링강에 지능형 컴퓨팅 센터 AIDC를 구축했습니다. GPU는 45,000개로 외부 세계에 대규모 모델 훈련 및 추론 서비스를 제공하고 수천억 또는 심지어는 모델을 훈련시킬 수 있습니다. 수조 개의 매개변수. AIDC의 지원에 힘입어 SenseTime Jueying의 운영 컴퓨팅 성능은 12,000P에 도달했습니다. 2024년 4분기까지 최대 컴퓨팅 성능은 25,000P에 도달할 것으로 예상됩니다.

화이트박스 배송을 배제하지 마세요. 식물이 잘 자라야 생태학적 윈윈(win-win) 결과를 얻을 수 있습니다.”

기술이 아무리 좋아도 핵심은 구현에 있습니다.

Wang Xiaogang은 SenseTime Jueying의 대량 생산 스마트 드라이빙 제품이 GAC Aian LX Plus, Hezhong Nezha S, GAC Haopin GT, Hongqi 등 여러 브랜드와 모델에 출시되었으며 기타 기능도 출시되기 시작했다고 소개했습니다. 동시에 Jueying은 더 많은 모델 제공을 추진하고 있습니다. 6월 초, GAC와 FAW가 국내 L3 파일럿 프로젝트의 첫 번째 배치로 선정되었으며 SenseTime Jueying은 이들에게 L3 지향 인식 알고리즘을 제공했습니다. 뿐만 아니라 SenseTime Jueying의 현재 대량 생산되는 여러 스마트 운전 솔루션은 향후 엔드투엔드 아키텍처로 업그레이드될 수 있습니다.

고객과 주문이 많지만 SenseTime Jueying으로 대표되는 기술 솔루션 제공업체는 자동차 회사의 자체 조사라는 문제에 직면해야 합니다.

Tesla를 예로 들면, AI를 수행하고 GPU 수천 대 등의 대규모 인프라를 보유하고 있으며, 또한 매년 수백만 대의 자동차를 생산하고 자체 폐쇄 루프를 형성한다는 것이 특징입니다.

다른 자동차 회사들도 따라할 것인가? 그리고 그것은 모방될 수 있는가? Wang Xiaogang은 Microsoft만큼 강력하고 인적 자원이 풍부한 회사라도 AI 팀을 분리하고 대신 OpenAI와 협력하기로 결정했다고 말했습니다.

동시에 그는 소위 말하는 '자기 연구'가 처음부터 끝까지 모든 것을 스스로 해야 한다는 것을 의미하지는 않는다고 설명했다. "자동차 회사 고객이 일어나는 모든 일을 이해하고 주도적으로 제어하며, 자체 플랫폼을 사용하여 제품을 반복할 수 있는 한 그것으로 충분합니다."

따라서 협력 방식 측면에서 과거 SenseTime Jueying은 코드를 블랙박스로 전달하는 경향이 있었으며 이것이 가장 귀중한 자산이라고 믿었습니다. 그러나 Wang Xiaogang은 SenseTime Jueying이 화이트 박스 배송을 거부하지 않는다고 밝혔습니다. 코드가 제공되더라도 더 깊은 반복과 협력을 통해 경쟁력을 빠르게 향상시킬 수 있기 때문입니다.

또한 협력은 자동차 회사의 비용 절감에도 도움이 될 수 있습니다. "우리는 대형 모델에 100억 달러 이상을 투자했으며 그 과정에서 손익분기점을 달성하기 위해 자체 인프라, 대규모 설치 및 수익성 있는 클라우드 서비스를 구축했습니다. 우리와 협력하면 자동차 회사는 이러한 부담을 부담하지 않아도 됩니다. 일부 막대한 투자 .자동차 제조업체가 이러한 분야에 직접 참여할 필요는 없으며, 우리는 자동차 제조업체에 관련 자원을 공개할 것입니다.”

하지만 그는 자동차 회사와의 협력에서 직면하는 문제 중 하나가 데이터 피드백 부족이라는 점도 인정했습니다. 일반적으로 단말 데이터의 피드백은 자동차 제조업체가 제공하는 이니셔티브에 의존하므로 비효율적인 데이터 반복 및 주기가 발생할 수 있습니다. 따라서 자동차 회사 고객과의 심층적인 협력이 특히 중요합니다.

SenseTime Jueying은 화이트 박스 배송을 통해 자동차 회사 파트너가 대형 모델 기술과 마스터 노하우를 이해할 수 있도록 돕는 반면, OEM은 파트너로서 개인 정보 보호 및 기밀 유지와 관련되지 않은 데이터 및 정보를 Jueying과 공유할 수 있어 더욱 강력한 교육을 제공합니다. 차량 기반 대형 모델과 양 당사자는 이를 공동으로 개발하여 제품 반복을 가속화하고 진정한 사용자 중심의 스마트 자동차 기반 AI 대형 모델 제품을 만들 것입니다.

SenseTime Jueying은 업계 최고의 풍부한 컴퓨팅 성능과 세계 최고의 "Ririxin" 대형 모델 역량을 기반으로 더욱 심층적인 전략적 협력 모델을 통해 OEM 등 많은 파트너와 Win-Win 상황을 만들어 나갈 것입니다.

SenseTime Jueying은 엔드투엔드 대형 모델 출시 시기를 2025년으로 설정했습니다. Wang Xiaogang은 ChatGPT가 출시되었을 때 모든 것이 완벽하게 완료되지는 않았다고 말했습니다. 예를 들어 GPT 3.5가 작업을 수행할 때 할 수 없는 일이 많았습니다. 좋은 일을하다. 그러나 중요한 것은 모두가 올바른 방향을 보았다는 것입니다. 이 길을 따르는 데에는 문제가 없지만 몇 달의 반복이 더 필요할 것입니다. 엔드 투 엔드도 마찬가지다.

동시에 그는 내년에 SenseTime Jueying의 엔드 투 엔드 대량 생산이 시작되면 사용자는 일부 시나리오에서 이전에는 완전히 불가능했던 일을 보게 될 것이며 이것이 새로운 기능이 등장할 것이라고 자신있게 말했습니다.

NVIDIA 자동차 부문 부사장인 Wu Xinzhou는 엔드투엔드(end-to-end)가 스마트 드라이빙 3부작의 마지막 노래라고 공개적으로 밝혔습니다. 끝까지 가는 동안 Shangtang Jueying은 집중과 기대를 받을 자격이 있습니다.

소식

SenseTime 최고의 배우 왕샤오강: '2단계' 엔드투엔드 접근 방식이 앞으로 10년 동안 구현되더라도 지능형 운전을 위한 'ChatGPT'가 되지는 않을 것입니다.

소개

내 연락처 정보