2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
자율주행은 과연 실현될 수 있을까?
인류는 자율주행을 개발하는 데 수많은 시간과 돈을 소비해 왔습니다. 오늘날 빈번한 사고, 끝없는 돈 낭비, 느린 진행으로 인해 많은 혼란과 질문이 발생했습니다. 무인 운전은 사기입니까, 아니면 업계가 죽은 것입니까?
이 산업은 정말 내가 본 산업 중 가장 분열된 산업 중 하나입니다. 각 파벌은 서로 다른 견해를 갖고, 서로를 무시하고, 서로를 비난합니다. 모두가 자신의 돈을 씁니다.
그 결과, 무인 운전은 2024년 이전에 추운 겨울에 들어갈 것입니다.
하지만 올 추운 겨울, 머스크는 "엔드 투 엔드 ai 기술을 통해" 테슬라의 fsd를 재구성했다고 주장하며 자율주행택시 산업(로바시)에 진출하겠다고 밝힌 만큼, 새로운 활력과 희망이 찾아오는 것 같다.
엔드투엔드(end-to-end)가 우리를 진정한 무인 운전으로 이끌 수 있을까요? 자율주행에서 l2와 l4는 정말 멀리 떨어져 정의되어 있나요? 오늘날 무인 기술은 어디에서 발전했나요? 순수한 비전과 다중 양식 사이의 싸움은 정말 끝이 없을까요?
자율주행 산업이 어떻게 발전하고 있는지 알아보기 위해 waymo와 cruise의 전 핵심 직원, 전 tesla fsd 엔지니어, 1차 및 2차 시장 투자자 등 글로벌 시장의 가장 최첨단 자율주행 기업을 3개월 동안 인터뷰했습니다. 자율주행 업계에는 무려 10명의 전문가가 있다.
우리는 업계가 여전히 단편화되어 있고 많은 기술적 경로에 대해 업계 내 합의가 이루어지지 않고 있음을 발견했습니다.
이번 시리즈에서는 인식, 알고리즘, 제품, 운영, 경제, 법률 등 다양한 관점에서 오늘날 자율주행 기술의 최첨단 현황을 살펴보겠습니다.
이번 글에서는 먼저 기술에 대해 종합적으로 이야기하고, 다음 호에서는 이를 운영적, 경제적 관점에서 분석해 보겠습니다.
1. 자율주행이란?
먼저 개념적으로 구분해 보겠습니다. 무인 운전과 자율 주행의 차이점은 무엇입니까?
자율주행은 지능 정도에 따라 l0부터 l5까지 6단계로 나뉜다.
l0은 자동화 없음, l1은 운전 보조, l2는 부분 자동 운전, l3은 조건부 자동 운전, l4는 고도 자동 운전, l5는 완전 자동 운전, 즉 진정한 무인 운전을 의미합니다.
나중에 언급한 waymo와 cruise, hou xiaodi가 만든 무인 트럭은 모두 l4 레벨에 속합니다. tesla fsd는 l2 레벨에 속하지만 musk가 주장하는 tesla robotaxi는 l4입니다.
따라서 현재 업계에서는 자율주행에 대해 이야기할 때 일반적으로 l4 회사를 지칭합니다. 왜냐하면 아직 누구도 l5를 달성할 수 없기 때문입니다. 일반적으로 자율주행은 모든 수준을 포함하며 보다 일반적인 것입니다.
자율주행 산업이 어떻게 시작됐는지 살펴보자.
인간이 자율주행을 탐구하기 시작한 것은 빠르면 100년 전이지만, 현대의 자율주행은 공식적으로는 2004년 미군의 darpa 챌린지에서 비롯된 것으로 인식되고 있다.
수년간의 개발 끝에 perception-planning-control의 운영 링크가 형성되었습니다. 인식 모듈에는 인식과 예측이 포함됩니다.
인식 레이어는 레이더, 카메라 등 센서를 통해 전방의 도로 상황을 파악하고, 사물의 이동 궤적을 예측하고, 자동차나 자동차에서 흔히 볼 수 있는 조감도인 주변 환경에 대한 지도를 실시간으로 생성해야 합니다. 그런 다음 이 정보를 계획 계층에 전달합니다. 시스템은 알고리즘을 기반으로 속도와 방향을 결정하고 최종적으로 실행 제어 계층으로 전송되어 해당 스로틀, 브레이크 및 스티어링 기어를 제어합니다.
나중에 ai가 등장하면서 사람들은 기계가 스스로 운전하는 방법을 배울 수 있게 되었습니다. 먼저, 시뮬레이션 훈련이 일정 수준에 도달하면 알고리즘이 도로에서 운전할 수 있게 되었습니다. .
지난 2년 동안 tesla가 fsd v12 버전에 '엔드 투 엔드' 솔루션을 적용하면서 인식-계획-제어의 운영 링크도 변화하기 시작했습니다.
다음으로, 인식 수준에서 자율주행 산업의 두 가지 기술 경로인 순수 시각 학교와 다중 모달 융합 학교에 대해 집중적으로 이야기하겠습니다. 그들의 불만과 증오에 대해 이야기합시다.
2. 인식: 순수 비전과 다중 모드 융합
현재 자동차에는 두 가지 주류 인식 솔루션이 있습니다.
첫 번째는 많은 기업에서 채택하고 있는 멀티모달 융합 센싱 솔루션으로, 라이다, 밀리미터파 레이더, 초음파 센서, 카메라, 관성 측정 장치 등의 센서에서 수집한 정보를 종합하고 융합해 주변 환경을 판단하는 솔루션이다.
이전 장에서 언급한 darpa 챌린지로 돌아가 보면, 2004년 첫 번째 세션에서 비록 어떤 차량도 경주를 마치지 못했지만 david hall이라는 참가자는 대회가 끝난 후 자신이 소속된 회사인 velodyne이 lidar의 중요성을 깨달았습니다. 설립되어 오디오에서 lidar로 전환하기 시작했습니다.
당시 lidar는 단일 선으로 스캔했으며 한 방향의 거리만 측정할 수 있었습니다. david hall은 환경을 360도 스캔할 수 있는 64라인 기계식 회전 lidar를 발명했습니다.
나중에 그는 2005년 두 번째 darpa 챌린지에 참가하기 위해 이 회전 라이더를 가져갔습니다. 마침내 머리에 라이더 5개를 장착한 자동차가 경주를 마치고 우승을 차지했습니다.
하지만 이것은 david hall의 차가 아니었습니다... 그의 차는 기계적인 고장으로 인해 도중에 폐기되었지만 그의 성능은 모든 사람이 lidar가 "플러그인"임을 깨닫게 했습니다.
2007년 세 번째 darpa 챌린지에서는 대회를 마친 6개 팀 중 5개 팀이 벨로다인의 라이더를 사용했습니다. 이 시점에서 자율주행 업계에서 라이다(lidar)가 각광받기 시작했고, 벨로다인 역시 자동차 라이다 분야의 선두 기업이 됐다.
zhang hang(cruise 수석 과학자):
이제 cruise든 waymo든 l4 기반 일부 솔루션은 주로 위치 정보를 직접 얻을 수 있는 lidar를 기반으로 합니다. 이 경우 알고리즘 자체에 대한 요구 사항은 상대적으로 낮으며 이 3d 정보가 많이 있습니다. 센서를 통해 직접 얻을 수 있으므로 시스템의 견고성과 보안이 향상되고 일부 롱테일 문제가 더 쉬워집니다.
또 다른 기술 분야는 tesla가 대표하는 순수 시각적 솔루션으로, 카메라에만 의존하여 환경 정보를 수집한 다음 신경망을 사용하여 2d 비디오를 주변 환경에 대한 장애물과 예측을 포함하는 3d 지도로 변환합니다. 정보.
3d 지도를 직접 생성하는 lidar 솔루션과 비교하면 순수 비전에는 2d를 3d로 변환하는 추가 프로세스가 있습니다. zhang hang의 견해로는 3d 정보가 부족한 "비디오" 교육 데이터에만 의존하면 보안에 특정 문제가 발생할 수 있습니다.
zhang hang(cruise 수석 과학자):
3차원 정보가 부족하다는 것을 학습하기 위해서는 많은 양의 훈련 데이터가 필요하며, 이 경우에는 참조 객체가 없기 때문에 현실적으로 ground truth(참값 데이터)를 얻기가 어렵습니다. 만약 완전히 이러한 준감독을 통해서라면 학습방식에 기반한 시스템 보안을 달성하기는 더 어려울 것이라고 생각합니다. 나는 tesla의 주요 목적이 일부 기어 변속 메커니즘을 수정하는 것을 포함하여 일부 부품의 비용을 절약하기 위해 비용을 통제하는 것이라고 생각합니다.
그러나 tesla의 ai 엔지니어였던 yu zhenhua에 따르면 순수 비전을 선택하는 것은 단지 비용 절감만을 의미하는 것은 아닙니다.
1. 더 많은 것은 혼란과 같다?
yu zhenhua(전 tesla ai 엔지니어):
사실 테슬라의 원래 자동 조종 시스템에는 밀리미터파 레이더가 있었습니다. 센서 융합은 실제로 매우 복잡한 알고리즘이지만 만들어지면 반드시 좋은 것은 아닙니다.
그 당시 나는 밀리미터파 레이더를 갖춘 마지막 자동차 중 하나였던 자동차를 가지고 있었습니다. 2023년에 내 차가 정비를 받았는데 서비스 엔지니어가 자동으로 내 레이더를 제거했습니다. 이 문제의 결론은 무엇입니까? 밀리미터파 레이더를 제거하는 것은 비용상의 이유가 아닙니다. 내 차에는 이미 밀리미터파 레이더가 있기 때문입니다. 근본적인 이유는 순수 시각이 밀리미터파 레이더를 능가했기 때문입니다. 그래서 tesla는 불필요하다고 생각되는 중복된 것, 또는 번거로운 것들을 제거하는 뺄셈을 하고 있습니다.
yu zhenhua는 다음과 같이 믿습니다.융합 알고리즘이 제대로 수행되지 않거나 순수 비전이 충분히 좋은 결과를 얻을 수 있다면 더 많은 센서가 부담이 될 것입니다.
우리가 인터뷰한 많은 l4 실무자들도 정보가 많을수록 좋지 않다는 점에 동의했습니다. 반대로 센서에 의해 수집된 유효하지 않은 정보가 너무 많으면 알고리즘에 부담이 커질 것입니다.
그렇다면 머스크가 항상 주장해온 카메라 센서에만 의존하는 것이 가능할까요?
2. 적은 것이 더 많은가?
머스크는 인간이 두 눈으로만 운전할 수 있기 때문에 자동차도 이미지 정보만으로 자율주행을 이룰 수 있다고 말했다. 그러나 업계의 순수한 시각에 대한 우려는 항상 시각적인 속임수였고, 과거에는 실제로 사고가 덜 발생했다.
예를 들어 테슬라는 흰색 트럭을 하늘로, 달을 노란빛으로 인식하거나, 아이디얼은 광고판의 내용을 자동차로 인식해 고속에서 급제동, 추돌사고 등의 사고를 일으킨다.
이러한 사례는 깊이 정보가 없는 순수한 시각적 솔루션에 본질적인 단점이 있다는 것을 의미합니까?
yu zhenhua(전 tesla ai 엔지니어):
여러 정보 스트림은 실제로 더 많은 정보를 제공할 수 있지만 질문에 답해야 합니다. 카메라 자체에 충분한 정보가 있지 않습니까? 아니면 정보를 마이닝하는 알고리즘의 능력이 부족합니까?
예를 들어, 도시 도로에서 갑자기 제동을 걸거나 운전할 때 답답함을 느낄 때 근본 원인은 실제로 주변 물체의 속도와 각도를 충분히 예측하지 못하는 것입니다. 이것이 이유라면 lidar는 실제로 카메라보다 훨씬 좋습니다. 제공 더 직접적인 정보를 제공하면 카메라 자체가 실제로 정보를 제공하지만, 우리의 알고리즘은 그러한 정보를 파헤치기에는 충분하지 않습니다.
yu zhenhua는 시각적기만의 근본 원인이 카메라의 정보 부족 때문이 아니라 카메라에서 제공한 정보를 처리하거나 마이닝하는 알고리즘이 부족하다고 생각합니다. 그는 특히 tesla의 fsd v12 알고리즘 출시 이후 알고리즘이 크게 최적화되면 카메라 정보의 마이닝 및 처리가 크게 향상되었음을 입증했다고 믿습니다.
yu zhenhua(전 tesla ai 엔지니어):
오늘날의 fsd v12는 완벽하지 않고 많은 문제가 있지만 아직까지 센서 부족으로 인해 어떤 문제가 발생하는지 찾지 못했습니다. 물론 v12 이전에는 센서 부족으로 인한 문제가 많았지만, 요즘 v12에서는 이런 문제가 없습니다.
그러나 l4 실무자들의 관점은 다릅니다. 그들은 카메라에는 자연스러운 단점이 있다고 믿습니다.
zhang hang(cruise 수석 과학자):
개인적으로 어렵다고 생각하고, 반드시 알고리즘 자체의 문제는 아니라고 생각합니다.
우선, 카메라 자체는 인간의 눈만큼 복잡하지 않습니다. 각 카메라에는 몇 가지 매개변수와 한계가 있습니다.
그리고 알고리즘 자체가 있습니다. 사람들은 200미터 범위 내에 모든 자동차가 어디에 있는지 알 필요가 없습니다. 나는 단지 어떤 자동차와 보행자가 내 자동차의 행동에 영향을 미칠 수 있는지만 알면 됩니다. 포인트 몇 개면 충분하고, 컴퓨팅 파워가 많이 필요하지도 않고, 알고리즘을 통해서는 단기적으로는 이 정도 수준에 도달하는 것이 불가능할 수도 있다고 생각합니다.
l4 연구에 종사하는 zhang hang은 카메라가 인간의 눈과 일치할 수 없다고 생각합니다. 주된 이유는 카메라의 초점 거리와 픽셀이 고정되어 있는 반면 인간의 눈은 매우 높은 정밀도를 가지며 자동으로 확대/축소할 수 있기 때문입니다. 동시에 인간의 점핑 사고 방식은 단기적으로 컴퓨터에 적용할 수 없기 때문에 lidar를 사용하여 카메라의 단점을 보완할 수 있습니다.
그러나 시각적 정보 외에도 다른 센서도 간섭 정보를 가져올 것이라고 믿는 다른 의견이 시장에 있습니다.
예를 들어 lidar에는 레이저 거리 측정을 사용하기 때문에 일부 반사 물체, 비나 눈 또는 다른 자동차에서 방출되는 레이저에 직면하면 lidar을 방해하여 궁극적으로 착각 효과를 유발한다는 단점이 있습니다.
liu bingyan (kargo software 책임자):
나는 아주 확고한 순수한 시각적인 사람이다. 정보는 간섭을 제공하고, 그것이 제공하는 실제 가치는 어떤 유통인가? 비주얼이 점점 좋아지면 정반대가 될 수도 있을 것 같아요.
lidar와 영상정보가 서로를 검증할 수 있는 다중 센서 융합 알고리즘이 개발된다면 시스템의 보안은 더욱 향상될 수 있다.
hou xiaodi는 생생한 은유를 제안했습니다.같은 수준의 두 학생이 시험을 치르면 결국 계산기를 사용하는 사람이 계산기를 사용할 수 있는지 여부를 결정하는 것은 경제적 기반일 뿐입니다.
순수 비전과 lidar 기반 다중 모드 융합 솔루션 간의 논쟁은 수년 동안 지속되어 왔으며 단기적으로는 답이 없을 것으로 보입니다. 또는일부 스타트업의 경우 경로가 전혀 중요하지 않지만 비용과 경제적 계정이 가장 중요합니다.
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
당시 lidar를 사용할 수 없었기 때문에 저는 시각적인 사람으로 여겨졌기 때문에 더 많은 시각적인 솔루션을 찾을 수밖에 없었습니다.
나도 lidar에 반대하지 않습니다.lidar가 언제 저렴해졌나요? 제가 가장 먼저 줄을 섰습니다.지금은 lidar가 정말 저렴해서 저도 lidar를 사려고 줄을 서고 있어요. 저한테는 쥐를 잘 잡아주는 고양이거든요. 이 장치의 가격이 충분히 저렴하고 정보 이론 관점에서 이 장치가 우리에게 충분히 가치 있는 정보를 제공할 수 있는 한 우리는 이를 사용해야 합니다.
david("big horses talking about technology"의 앵커):
중국의 자율주행계는 라이더(lidar), 밀리미터파 레이더 등 이러한 하드웨어를 양배추 가격에 신속하게 출시했습니다. 이런 상태에서도 테슬라처럼 순수 비전을 계속 해야 할까요? 사실 지금 많은 기업들이 1,000위안이 넘는 가격으로 솔리드 스테이트 라이더를 구매해야 할지, 아니면 순수 비전을 사용해야 할지 망설이고 있는데 컴퓨팅 파워에 많은 낭비가 발생하게 됩니다.
yu zhenhua(전 tesla ai 엔지니어):
1,000위안은 너무 비싸다고 생각하는데, 테슬라는 레인 센서를 사용할 의지조차 없습니다.
wang chensheng(전 tesla 조달 이사):
하지만 공급망의 규모가 증가하고 비용이 크게 떨어지면서 lidar가 특히 엔드투엔드 애플리케이션 시나리오에서 카메라와 비슷한 가격을 달성할 수 있을 때 순수 비전이 여전히 고유한 경로라고 생각합니다.
3. 회개?
흥미롭게도 lidar 가격이 크게 떨어지면서 업계에서는 tesla가 곧 출시할 자율주행 택시에 lidar를 사용할 것인지에 대해 의견이 분분해지기 시작했습니다.
예를 들어, zhang hang은 robotaxi가 사람의 개입을 필요로 하지 않고 문제가 발생하면 회사가 책임을 져야 하기 때문에 tesla가 한때 무시했던 lidar를 보다 보수적인 경로를 선택하여 사용할 수 있다고 믿습니다.
zhang hang(cruise 수석 과학자):
특히 기업의 사고에 대해 책임을 져야 할 경우에는 좀 더 보수적이어야 하고, 추가적인 센서가 필요할 수도 있다고 생각합니다. 이러한 관점에서 tesla는 이전에 멸시했던 일부 기술을 채택할 수도 있습니다.이것이 유용하고 l4 목적을 달성할 수 있는 한 점차적으로 채택될 것입니다.
최근 우리는 tesla가 l4 및 l5의 일부 측면도 고려하고 있으며 이 lidar의 일부 제조업체와의 협력에 대해서도 이야기하고 있음을 발견했습니다. 따라서 모두가 다른 경로를 통해 동일한 목표에 도달할 수 있습니다.
올해 lidar 제조업체 luminar는 1분기 재무 보고서를 발표했는데, tesla의 주문이 10%에 도달하여 최대 고객이 되었음을 보여줍니다. 그러나 yu zhenhua는 이것이 새로운 것이 아니라고 생각하며 이에 동의하지 않았습니다.
yu zhenhua(전 tesla ai 엔지니어):
우선, 미래의 양산차에 lidar를 적용하기 위한 것은 절대 아닙니다. luminar의 1분기 총 매출이 2천만 달러로 추정되고, 10%는 2백만 달러로 여러 대를 설치하기에는 부족하기 때문입니다. 라이더. 실제로 tesla의 엔지니어링 차량과 테스트 차량에 lidar가 장착되어 있다는 것은 비밀이 아닙니다. lidar는 물체가 사용자로부터 몇 미터 떨어져 있는지를 표시할 수 없기 때문에 신경망 훈련을 위한 지상 정보(실제 값 데이터)를 수집하는 데 사용됩니다. 마킹에는 특수 센서를 사용해야 합니다.
그런데 왜 루미나가 1분기에 이를 공개했는지 사실 매우 혼란스럽습니다. 당시 머스크도 v12에 도달한 후에는 엔드투엔드이고 네트워크를 차지하기 때문에 진정한 가치 데이터가 필요하지 않다고 대답했기 때문입니다. 이것은 v11 시대의 문제입니다. 여기에는 재무 보고서나 재무 규칙에 대한 오해가 있다고 생각됩니다.
tesla가 곧 출시할 robotaxi에 lidar가 탑재될지는 현재 불확실하지만, 한 가지 확실한 점은 tesla의 현재 센싱 구성으로는 l4에 도달하거나 robotaxi를 작동하기에는 안전성이 충분하지 않다는 것입니다.
liu bingyan (kargo software 책임자):
기존 테슬라 모델들은 아주 뚜렷한 사각지대, 즉 시각적으로 접근할 수 없는 사각지대가 존재한다고 확신하며, 이 사각지대가 l4 자율주행이든 l5 자율주행이든 궁극적인 목표를 달성하고자 한다면 그의 다음 차기작이 될 것이라고 확신합니다. 자동차는 이 사각지대 문제를 해결해야 합니다.
tesla의 최신 엔드투엔드 기술 업데이트에 대해서는 3장과 4장에서 자세히 설명하고, 10월에 발표될 robotaxi의 세부 사항에 대한 추측도 해보겠습니다. 다음으로, 인식의 또 다른 중요한 기술인 고정밀 지도에 대해 먼저 논의하겠습니다.
4. 시대를 초월한가?
lidar 외에도 고정밀 지도도 자율주행의 감지 측면에서 비용의 주요 원인입니다.
고정밀 지도는 도로 정보를 미리 수집해 3d 지도를 그리는 데 필요한 인식 모듈의 부담을 줄여 정확도를 높인다.
공교롭게도 고정밀 지도를 최초로 홍보한 사람은 2005년 두 번째 darpa challenge의 챔피언인 sebastian thrun이었습니다. 그는 머리에 5개의 lidar를 장착한 자동차 소유자였습니다.
2004년 darpa 챌린지 기간 동안 구글은 '스트리트뷰' 프로젝트를 준비하고 있었는데, 2005년 대회가 끝난 후 페이지는 세바스찬 런에게 접근해 구글에 합류하도록 권유했다. 그에게 지도 그리기가 주어졌습니다.
그 과정에서 쓰런과 페이지는 문득 깨달았다.차선, 도로표지, 신호등 등 도로정보를 모두 정확하게 기록할 수 있는 지도가 있다면 자율주행에 큰 도움이 될 것이다., 이는 또한 자율주행 프로젝트에서 고정밀 지도의 중요한 위치를 확립합니다.
하지만 고정밀 지도를 제작하는 데 드는 비용은 매우 비쌉니다. 미국 내 660만 킬로미터의 도로를 커버하려면 수집 비용만 킬로미터당 약 5,000달러입니다. 33억 달러에 이를 것이다.
지도의 빈번한 유지 관리 비용과 함께 최종 소비량은 상상할 수 없을 정도로 천문학적일 것입니다.
현재 많은 자동차 회사는 고정밀 지도를 버리고 차량을 사용하여 지역적으로 환경 지도를 구축하는 지도 없는 솔루션을 홍보하고 있습니다.
익명으로 인터뷰한 한 자율주행 엔지니어는 이러한 비교와 홍보가 로보택시 사업을 하는 기업의 경우 고정밀 지도를 사용하면 안전성을 높일 수 있다고 말했습니다.자동차 회사 입장에서는 고정밀 지도를 버리는 것이 비용을 효과적으로 절감할 수 있기 때문에 고정밀 지도를 버린다고 해서 기술 수준이 높아지는 것은 아닙니다.
익명 응답자(l4 엔지니어):
화웨이의 솔루션은 다양한 도시에서 온 고객이 있으며 어느 도시에서나 운전할 수 있기를 원합니다.
주류 고정밀 지도의 주요 문턱은 지도 수집 과정이 필요하다는 점인데, 이 지도 수집 과정은 실제로 상대적으로 시간이 많이 걸리고 노동 집약적이며, 이 지도 수집 장치에도 전문적인 지식이 필요합니다.
그러니 자동차를 양산하는 사업을 하고 있다면 제가 지도 수집 전용차를 갖고 있고, 당신을 위해 중국 전역을 여행했다고 말할 수는 없을 것입니다.
tesla, huawei, ideal 등 l2 기업은 모든 거리와 골목을 커버할 수 없다는 이유로 고정밀 지도를 포기했습니다.
waymo와 cruise가 이를 수행하는 동안 robotaxi의 l4 회사는 고정밀 지도를 계속 사용하기로 결정했습니다.충분한 시장을 확보하려면 일부 주요 도시만 다루면 됩니다.
따라서 고정밀 지도를 사용할지 여부는로보택시의 재무회계 문제는 기술적인 문제가 아닙니다.
minfa wang(전 waymo 수석 기계 학습 엔지니어):
로보택시 사업 모델만 놓고 미국 내 로보택시 수요를 나누어 보면 상위 5개 도시가 이미 미국 상업 물량의 절반을 차지하고 있음을 알 수 있다. 사실 미국 어디든 이미 상당히 큰 시장이 있습니다.
마찬가지로, 우리가 인터뷰한 l4 자율주행 트럭에서 일하는 또 다른 게스트도 운행 경로를 확장하려면, 즉 고정밀 지도의 범위를 확장하려면 먼저 이 경로가 수익성이 있는지 여부를 측정해야 한다고 말했습니다. 그냥 손해만 볼 거야.
그런 대화를 나눈 후 업계에서는 허우 샤오디가 말했듯이 쥐를 잡으면 좋은 고양이라는 인식 측면에서 통일된 견해가 없습니다.
다음으로 최근 모두가 주목하고 있는 자율주행 알고리즘의 최근 진전 사항, 특히 최근 테슬라가 추진하고 있는 '엔드 투 엔드(end-to-end)' 기술에 대해 집중적으로 살펴보자. 과연 자율주행 산업의 방향이 바뀔까?
3. 알고리즘: 엔드투엔드(end-to-end)가 자율주행의 미래인가?
1. 전통이란 무엇인가?
자율주행의 전통적인 작동 연결은 먼저 감지하고, 예측하고, 계획하고, 마지막으로 제어하는 것입니다.
인식 모듈은 먼저 카메라, 레이더 등의 센서를 통해 도로를 식별하고, 이 정보를 기계가 볼 수 있는 언어로 번역하여 예측 모듈에 전달해야 합니다.
예측 모델은 다른 차량과 보행자의 주행 궤적을 판단한 후 이 정보를 계획 모듈에 전달하여 위험이 가장 낮은 경로를 찾고 마지막으로 제어 신호를 제어 시스템에 전달합니다.
이때의 알고리즘은 주로 "rule base"에 의해 구동됩니다. 엔지니어는 보행자를 만날 때 속도를 늦추거나 빨간불에 멈추는 등 다양한 규칙을 지속적으로 작성해야 합니다. 다양한 상황을 고려하기 위해 규칙 베이스는 가능한 한 모든 가능성을 다루어야 하기 때문에 코드가 매우 길어집니다.
그러한 알고리즘의 어려움은 무엇입니까?
가장 큰 문제는 시스템이 서로 다른 모듈로 나누어져 있지만, 다운스트림에서 포괄적인 정보를 얻을 수 없으면 모듈 간 정보 전송이 손실된다는 점입니다. 예측 및 계획의 어려움이 커집니다.
간단하고 이해하기 쉬운 예를 들자면, 멀티플레이어 순간이동 게임은 다들 들어보셨죠? 10명이 문장을 처음부터 끝까지 전달하지만, 여러 사람이 전달하는 과정에서 세부 내용이 유실되거나 변조되는 경우가 많아 마지막 사람에게 도달하면 의미가 전혀 달라진다.
마찬가지로 기존 규칙 기반 모델에서는 상위 레이어 모듈의 성능이 충분하지 않으면 다음 레이어의 성능에 영향을 미칩니다.
또 다른 단점은 규칙이 모두 인간에 의해 설계되고 정의되지만 제한된 규칙이 무한한 실제 상황을 포괄할 수 없다는 점입니다. 흔하지 않고 간과되기 쉬운 일부 문제의 경우 기계가 이에 상응하는 해결책을 찾기가 어렵습니다. "롱테일 케이스"는 "코너 케이스"라고도 하는데, 이는 대규모 구현에 매우 높은 비용을 초래합니다.
yu zhenhua(전 tesla ai 엔지니어):
또 다른 점은 이 기술이 두 개의 모듈로 나누어지면 확장이 어렵다고 생각하는 이유는 무엇입니까? 사실적이고 복잡한 장면에 새로운 작업을 추가할 때마다 새로운 인터페이스를 추가해야 하고 인식 및 제어 계획을 변경해야 합니다.
tesla를 예로 들어보겠습니다. 몇 년 전 nhtsa(미국 교통안전국)에서는 tesla에 소방차, 구급차 등 긴급 차량을 감지하도록 요구했으며 이를 감지한 후 이를 제어해야 합니다. 이것은 단지 하나의 작업일 뿐입니다. 이러한 작업이 수백 또는 수천 개 있을 수 있으므로 이를 확장해야 합니다. 그러면 huawei에 수천 명의 엔지니어가 있다는 것을 알고 계십니까? 약 6,000명의 엔지니어가 등장합니다. 환경이 복잡할수록 작업도 많아지기 때문에 확장 가능한 모델은 아닙니다.
david("big horses talking about technology"의 앵커):
이 방법은 아직까지는 상대적으로 구식입니다. 비록 로보택시 업계에서는 좀 더 유연한 방법인 것처럼 보이지만, 향후 전 세계 도로를 달리는 승용차와 수백만 대의 차량의 요구를 충족시킬 수는 없습니다.
그렇다면 이러한 문제에 대한 해결책은 무엇입니까? 이때 우리는 "end to end"에 대해 이야기해야 합니다.
2. 새로운 슈퍼스타
자율주행 분야에서 현재 주류를 이루고 있는 "end-to-end" 정의는 다음과 같습니다.센서가 수집한 정보는 아무런 처리 없이 신경망 기반의 대형 모델에 전달되고, 제어 결과는 바로 출력된다.
즉, 다양한 규칙을 수동으로 작성하고 입력된 데이터를 따라 알고리즘이 운전 방법을 학습하도록 할 필요가 없습니다.
yu zhenhua(전 tesla ai 엔지니어):
왜냐하면 우리 인간은 운전을 할 때 마음속으로 특정 자동차의 속도와 각도를 판단하지 않기 때문에 복잡한 환경 속에서 무의식적으로 결정을 내리게 됩니다.
"알고리즘을 인간처럼 만든다"는 사고 논리가 바로 머스크가 테슬라를 이끄는 방향이다. 테슬라.
테슬라가 2023년 말 처음으로 '엔드 투 엔드(end-to-end)'를 사용한 fsd v12를 출시할 예정이지만, '엔드 투 엔드(end-to-end)'는 자율주행 세계에서 새로운 것이 아니다. 실제로 nvidia는 2016년 초에 "end-to-end"를 제안하는 논문을 발표했습니다.
이제 "end-to-end"도 두 가지 유형으로 나뉘는데, 하나는 일부 모듈을 신경망으로 대체하는 것입니다. 이 하위 모듈의 "end-to-end"는 완전한 형태가 아니라 과도한 형태일 뿐입니다. 각 모듈 간에 정보를 전송하려면 다양한 인터페이스를 정의해야 하므로 데이터 손실이 발생합니다.
주류 관점에서는 여러 모듈이 전체로 통합되고 인식 계층, 예측 계층 및 계획 계층의 정의가 제거된 경우에만 순수한 "엔드 투 엔드"로 간주될 수 있습니다.
2023년 cvpr의 최고 논문 "계획 중심 자율 주행"에서는 과거의 "엔드 투 엔드"가 일부 모듈에서만 실행되거나 일부 구성 요소를 시스템에 삽입해야 한다고 제안했습니다.
본 논문에서는 모든 센싱, 예측, 계획 모듈이 transformer 기반의 엔드투엔드 네트워크 프레임워크에 통합된 최초의 uniad 모델 아키텍처를 제안합니다.
전통적인 규칙 기반(규칙 기반) 실행 링크와 비교할 때 "엔드 투 엔드"는 더 이상 알고리즘 엔지니어가 규칙 기반을 반복적으로 개선할 필요가 없으므로 musk가 fsd v12를 출시했을 때 "그 코드는 30만줄에서 2,000줄로 줄었습니다."
자율주행의 '엔드 투 엔드' 기술은 tesla가 발명한 것은 아니지만, tesla는 실제로 신경망의 '엔드 투 엔드' 기술을 개발하여 주류 시장에 가져온 최초의 회사였습니다.
3. "엔드 투 엔드(end-to-end)" 장점
2023년 11월 tesla는 fsd v12의 첫 번째 테스트 버전을 출시했지만 이는 선택된 직원에게만 공개되었습니다. tesla는 2024년 초까지 미국의 모든 tesla 소유자에게 fsd v12 버전을 공개하기 시작할 예정이며 각 소유자에게는 1개월 무료 평가판이 제공됩니다.
fsd v12가 출시된 후 한동안 논란이 되기도 했습니다. 사용자 경험을 보면 대부분의 여론에서는 tesla의 fsd 기능이 이전 제품에 비해 매우 향상되었다고 생각하는 경우도 많습니다. "세계 최초의 자율 주행" chatgpt moment입니다.
david("big horses talking about technology"의 앵커):
제가 정말로 진전을 이루었다고 느끼게 하는 것은 계획입니다. 예를 들어 로터리의 경우, 기존의 계획 방향으로 로터리를 건너는 것이 상당히 어렵습니다. 로터리에서 빠져나와야 합니다. 중간을 어떻게 설정해야 할까요? 이런 우선순위?
우선순위를 설정했다고 해도 앞차와 옆차로부터 얼마나 멀리 떨어져야 나갈 수 있을까? 사실 굉장히 복잡한 논리인데, 새 버전의 fsd에서 이 성능이 정말 매력적이다. 정말 놀라운 일이에요.
fsd v12를 경험해본 많은 사람들은 인간의 운전 데이터를 통해 학습하는 이 시스템이 매우 인간과 유사한 운전 스타일을 갖고 있으며 더 이상 기계적인 알고리즘으로 인한 좌절감을 느끼지 않는다고 말했습니다.
그러나 동시에 일부 손님은 그것을 경험하고 생각했습니다.fsd v12는 꼭 사용해야 할 만큼 성능이 좋지 않고, l4와는 아직 어느 정도 격차가 있습니다.
저스틴 목(패밀리 오피스의 최고 투자 책임자):
하지만 gpt4만큼 좋지도 않고, 이걸 꼭 써야 한다거나, 당장 써야 할 만큼 좋지도 않고, 내 여러 시나리오에 사용하기에 적합할 수도 있다.
minfa wang(전 waymo 수석 기계 학습 엔지니어):
고속도로에서는 성능이 비교적 좋은데, 길거리에서는 기본적으로 5마일 정도마다 수동으로 점검해야 한다는 느낌이 든다.
특히 우리가 비보호 좌회전(비보호 좌회전)이라고 부르는 경우는 상대적으로 하기가 쉽기 때문에 mpi(인계 마일리지)가 5에 불과하다면 분명히 먼 행동이라고 생각됩니다. l4에서는 자율주행이 아직 멀었습니다.
fsd 12.4.4 버전을 직접 경험한 적도 있는데, waymo 등 l4 차량과 비교했을 때 현재의 tesla fsd는 여전히 가끔 겁이 나거나 설명할 수 없는 동작을 보이기도 합니다.
예를 들어 우회전을 할 때 회전반경이 너무 커서 마주오는 차와 부딪힐 뻔해서 수동으로 인계를 받아야 했다.
성능 관점에서 볼 때 "엔드 투 엔드" fsd v12에는 여전히 개선의 여지가 있습니다. 엔지니어링, 운영 및 관리 관점에서 볼 때 "엔드 투 엔드" 장점은 다음 세 가지입니다.
첫째, 전체 시스템을 더욱 단순하게 만들 수 있습니다.규칙 베이스를 제거한 후에는 훈련 사례를 지속적으로 추가하기만 하면 모델 성능을 더욱 향상시킬 수 있으며 유지 관리 및 업그레이드 비용도 크게 절감됩니다.
둘째, 인건비를 절약한다."엔드 투 엔드"는 더 이상 복잡한 규칙 기반에 의존하지 않으므로 대규모 개발 팀을 배치하거나 전문가에게 의존할 필요도 없습니다.
셋째, 더 폭넓은 홍보를 이룰 수 있다.현재 l4 회사는 규제 및 라이선스 제한에 관계없이 제한된 영역에서만 운영할 수 있다는 것을 알 수 있습니다. 왜냐하면 이는 "엔드 투 엔드" 솔루션이 아니고 특정 지역에 맞게 최적화해야 하고 "엔드 투 엔드"이기 때문입니다. "는 모든 도로 상황을 처리할 수 있습니다. , "범용" 운전자에 더 가깝습니다. 이것이 tesla fsd v12가 chatgpt와 비교되는 이유 중 하나입니다.
'엔드 투 엔드(end-to-end)'는 장점이 너무 많은데, 현재 자율주행이 직면한 기술적 문제를 해결할 수 있을까?
4. 블랙박스 모델
우리가 인터뷰한 많은 손님들은 다음과 같이 믿었습니다.현 단계에서는 엔드투엔드 경로의 추가 개발이 자율주행 분야에서 인정받는 추세입니다., 하지만 여전히 문제가 많습니다.
zhang hang(cruise 수석 과학자):
이 방향이 옳은 방향이라고 생각합니다만, 지속적으로 패치를 해서 대규모 l4 솔루션을 만드는 것은 불가능하다고 생각합니다. to-end 솔루션이므로 지금은 모순되는 시점입니다.
현재의 엔드투엔드가 여전히 l4보다 훨씬 뒤처진 이유는 불확실성 때문입니다.
엔드투엔드(end-to-end)는 블랙박스와 같아서 불확실성이 더 커집니다.
예를 들어, 엔지니어는 입력 데이터 사례가 모델에 의해 학습되었는지 확인할 수 없으며, 버그가 발생하면 어떤 링크가 문제를 일으켰는지 또는 새로 추가된 데이터가 학습된 지식을 잊어버리거나 덮어쓰게 만드는지 확인할 수 없습니다. , 이러한 상황을 재앙적 망각이라고 합니다.
예를 들어 테슬라 fsd 12.4.2 버전은 오래 전부터 내부적으로 제작됐지만, 대규모로 푸시하는 데 시간이 오래 걸렸다고 설명했다. 인수하면서 모델 수준이 후퇴했습니다.
end-to-end의 본질은 모방이기 때문에, 마주친 상황이 훈련 데이터에서 비슷한 사례가 발생하면 매우 잘 수행되지만, 기존 참조 사례를 초과하면 성능이 저하됩니다. 예를 들어, 엔드투엔드에는 훈련 데이터의 양과 사례의 풍부함에 대한 요구 사항이 매우 높습니다.
zhang hang(cruise 수석 과학자):
교차로에 빨간 신호등이 있을 때 빨간 신호등을 주행해서는 안 된다는 것은 너무나 간단한 규칙입니다. 이것이 휴리스틱 기반(휴리스틱 알고리즘)이라면 간단히 if else를 사용하여 그러한 효과를 얻을 수 있습니다.
하지만 완전히 엔드투엔드 모델이라면 전적으로 학습에 의존하기 때문에 결국 그런 방식으로 학습하는 것은 매우 어렵습니다. 그래서 아직은 단기간 내에는 end-to-end l4 사이에 큰 격차가 있는 것 같아요. 이 알고리즘은 미성숙한 것 같아요.
liu bingyan (kargo software 책임자):
당신은 엄격하고 빠른 규칙을 갖고 있지 않지만, 그는 당신이 정한, 할 수 없는 모든 일을 하려고 노력할 수 있습니다. 따라서 시뮬레이션에서는 정면 충돌이 많이 발생하게 됩니다.
동시에, 엔드투엔드(end-to-end)로 인해 발생하는 설명할 수 없는 문제는 일부 사람들에게는 우려 사항이기도 합니다.
소위 설명 불가능성은 알고리즘 모델의 가중치, 노드 또는 레이어 수를 변경하면 모델의 성능에 예측할 수 없는 영향을 미칠 수 있음을 의미합니다.
그 반대는 해석 가능성입니다. 예를 들어 규칙 기반 모드에서는 엔지니어가 "비닐봉지가 지나가는 것이 감지되면 계속 운전할 수 있습니다"라는 규칙을 작성했기 때문에 이러한 상황의 갑작스러운 변화에 대해 걱정할 필요가 없습니다. 어서 브레이크를 밟으세요.
liu bingyan (kargo software 책임자):
v12에서는 화면상의 디스플레이가 훨씬 좋아졌다고 볼 수 있는데, 소위 엔드투엔드 디스플레이(end-to-end display)라고 불리는 이 디스플레이는 어디서 나온 걸까요? 이 디스플레이가 원본 모델에서 나온 경우 관련된 문제 중 하나는 모델의 특정 위치에서 이 정보를 추출할 수 있도록 이 모델에 인위적으로 정의된 인터페이스 레이어를 실제로 추가했다는 것입니다.
제가 생각하는 또 다른 더 무서운 점은 이 디스플레이가 완전히 다른 경로를 취한다는 것입니다. 이는 또한 자동차가 앞에 트럭이 있다는 것을 의미하지만 제어되는 모델이 실제로 앞에 트럭이 있다고 생각한다는 의미는 아닙니다. . 만약 이렇다면 앞에 차를 보는 것은 매우 두려울 것입니다. 그러나 그것이 충돌하지 않을지는 확신할 수 없습니다.
실제로 이것이 진정한 엔드투엔드인지에 대해 약간의 의구심이 있거나 의심하지 않을 수도 있지만 여기에는 다른 위험이 있을 수 있습니다.
wang chensheng(전 tesla 조달 이사):
그렇다면 안전 요구 사항이 매우 높은 자율 주행과 같은 산업에서 엔드투엔드 모델이 가져오는 설명할 수 없는 문제는 동전의 반대편에 있는 것일까요?
tesla는 아직 fsd v12의 기술을 발표하지 않았기 때문에 fsd가 다중 모듈 전략을 채택하는지 여부는 알 수 없지만,일부 자동차 소유자는 화면 표시가 실제 동작과 일치하지 않는 경우를 경험했습니다.
예를 들어, 차량이 구축한 조감도에는 앞에 사람이 있는 것으로 나타났으나 브레이크를 밟은 흔적은 보이지 않았으나 계속해서 지나갔다. 다행히 감지단의 오인으로 사고는 발생하지 않았다. .
이 사례는 엔드투엔드 알고리즘 하에서 상위 계층의 오류가 하위 계층 의사 결정의 이점에 영향을 미치지 않는다는 것을 알 수 있지만 계획 계층이 때때로 인식 계층의 결과를 인식하지 못하는 경우도 있음을 보여줍니다. , liu bingyan의 우려를 확인했습니다.
설명 불가능성이 엔드투엔드 개발을 방해하는 주요 문제가 될까요? 다음은 우리가 보는 세 번째 갈등입니다.
yu zhenhua(전 tesla ai 엔지니어):
그렇게 생각해요,ai의 매우 심각한 문제는 이론적 성격이 훨씬 뒤떨어져 있다는 것입니다.
ai는 이것이 확실히 작동할지 여부를 알려주지 않습니다. 따라서 실험적인 주제로 간주되지 않으며 많은 검증이 필요합니다.
v12는 v11을 완전히 압도하므로 이는 결과의 문제입니다. 그렇다면 끝부터 끝까지 설명할 수 없는 일이 있다고 생각하는가?
yu zhenhua는 ai가 실험적인 주제라고 믿습니다. 결과가 기대에 부응하는 한 방향이 옳고 계속 발전해야 함을 증명합니다. hou xiaodi는 v11의 기반이 너무 열악하고 v12의 성능이 아직 진정한 무인 운전과는 거리가 멀기 때문에 v12의 성능이 v11보다 훨씬 앞서 있다고 말했습니다.
wang chensheng(전 tesla 조달 이사):
실제로 완전 자율주행이고 l5에 의해 제한되는 경우 규제 당국을 통과해야 하며 설명 가능성이나 예측 가능성이 있어야 합니다.
또한, 세계에는 너무나 많은 도시가 있으며, 미국의 경우 각 도시마다 법률과 규정이 다를 수 있습니다. 이 자동차가 하드웨어와 소프트웨어 측면에서 현지 법률과 규정에 적응해야 하는지 여부는 확장이 가능한지 여부가 큰 문제가 되었습니다.
엔드 투 엔드는 인위적으로 정의된 규칙을 통해 모델을 미세 조정할 수 없으므로 다양한 규정에 적응할 수 있는지 여부가 엔드 투 엔드 규모의 과제가 되었습니다.
규모에 영향을 미치는 또 다른 요소는 엔드 투 엔드가 데이터 볼륨과 센서에 더 민감하다는 것입니다.
5. 미래는 불확실하다
liu bingyan (kargo software 책임자):
엔드투엔드(end-to-end)에는 매우 심각한 문제가 있습니다.센서에 더 민감해질 것입니다.즉, 센서나 센서 분포를 변경하면 모델이 완전히 재학습될 수 있습니다.
다른 관점에서 보면 엔지니어링 관점에서는 받아들일 수 없거나, 동일한 자동차가 미래에 전 세계 도로를 달리게 될 것이라고 상상할 수 없습니다.
센서 분포가 변경되면 모델이 무효화되고 학습을 다시 시작해야 하므로 학습을 위해 많은 양의 데이터를 수집해야 하므로 막대한 비용이 발생할 수 있습니다.
미국 금융매체 cnbc는 2023년 초까지fsd를 교육하기 위해 tesla는 tesla 소유자의 천만 개 이상의 운전 동영상을 사용했습니다.
게다가 이 천만 개가 넘는 훈련 데이터는 아무렇게나 사용되는 것이 아니며, 상대적으로 높은 운전 능력을 갖춘 인간 운전자여야 하며, 그렇지 않으면 모델의 수준이 점점 더 나빠질 것입니다.
따라서 엔드투엔드 모델을 훈련하려면 많은 데이터가 필요할 뿐만 아니라 복잡한 스크리닝도 필요하므로 많은 인력이 소모됩니다. 자동차를 많이 파는 테슬라에게는 별 문제가 아닐지 모르지만, 다른 회사들에게는 데이터 소스가 큰 문제가 됐다.
david("big horses talking about technology"의 앵커):
많은 oem이 tesla의 방법론을 맹목적으로 추구했기 때문에 속았지만 이러한 일련의 사항은 실제로 90%의 oem에게 적합하지 않습니다.
이는 다른 제조업체가 실제로 엔드투엔드 분야에 진입할 수 없다는 것을 의미합니까?
nvidia와 tesla는 모두 순수한 비전을 통해 엔드투엔드 알고리즘 작업을 구동하지만 실제로는 엔드투엔드가 다중 모드 입력을 수용할 수 있습니다.
현재 일반적으로 사용되는 밀리미터파 레이더, 라이더, 초음파 레이더 등의 센서는 차량에 상대적으로 고정되어 있으며, 특히 라이더는 기본적으로 지붕에 위치하므로 엔드투엔드 다중 모드 액세스를 사용할 수 있습니다. 모델을 훈련하는 데 다양한 모델이 사용되며 oem을 위해 남겨진 설계 공간은 더 커집니다.
다시 한 번 대화를 나눈 후에 각 알고리즘에는 고유한 장점이 있으며 어떤 방법이 우리를 완전한 무인 미래로 이끌 수 있는지는 여전히 불분명합니다.
zhang hang(cruise 수석 과학자):
현재로서는 간단하고 대규모로 진행할 수 있고 l4 표준을 충족할 수 있는 알고리즘은 없다고 생각합니다. 이 분야는 모두가 함께 추진해야 할 분야입니다. 비록 모든 사람이 조금씩 다른 편차를 갖고 있을지라도, 모든 사람이 서로 다른 경로를 통해 동일한 목적지에 도달할 것이라고 저는 매우 낙관합니다.
6. 아무것도 할 수 없다
어떤 알고리즘을 사용하든 결국 롱테일 문제에 직면하게 됩니다.
전통적인 규칙 기반(규칙 중심) 모델에서 규칙 기반을 작성하려면 대규모 팀이 많은 에너지를 소비해야 하며 모든 것을 다루기가 어렵습니다. 따라서 롱테일 문제는 가능합니다. 해결될까?
minfa wang(전 waymo 수석 기계 학습 엔지니어):
그는 기존의 사례를 해결했지만 롱테일 문제는 여전히 존재할 것이라고 생각합니다.
민파는 자율주행 시스템의 내결함성 비율이 매우 낮다고 보고 있다. l4에서 블랙박스 시스템을 사용하려면 다른 안전 메커니즘도 도입해야 하는데 이는 규칙 기반 모드에서 비용 문제로 돌아간다.
자율주행 알고리즘은 먼저 시뮬레이션 시스템에서 실행될 예정입니다. 시뮬레이션 훈련이 특정 롱테일 문제를 해결할 수 있을까요?
zhang hang(cruise 수석 과학자):
현재 생성된 시뮬레이션 데이터를 통해 실제 도로 성능에 실제로 도움을 줄 수 있는 좋은 솔루션은 없습니다.
minfa wang(전 waymo 수석 기계 학습 엔지니어):
자율주행이나 로봇공학 분야에서는 환경이 매우 복잡합니다. 시뮬레이션을 하려면 자신뿐만 아니라 자동차가 미래에 어떻게 움직일지 시뮬레이션해야 합니다. 때때로 당신은 주변의 모든 자동차와 사람들의 행동에 영향을 미치게 될 것입니다.
시뮬레이션을 잘하고 분포 이동(distribution shift)을 피하는 방법은 아직 공개된 주제라고 생각합니다.
가상 장면은 현실의 가능성을 완전히 시뮬레이션할 수 없기 때문에 현재 업계의 롱테일 문제를 해결할 수 있는 방법이 없으며 장기적인 경험 축적에만 의존할 수 있다는 의미입니까?
익명 응답자(l4 엔지니어):
어느 정도는 그렇습니다. 하지만 완벽할 필요는 없겠죠? 인간은 완벽하지 않습니다. 단지 다른 사람보다 더 잘하면 됩니다. 사람들도 각자의 사고율이 있는데, 이보다 더 잘하면 충분합니다.
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
롱테일 문제는 사실 잘못된 제안이라고 생각합니다. 이 문제를 제기해주셔서 기뻐요.
제 생각엔 롱테일 문제가 있는 것 같아요. 예를 들어 악어를 보면 어떻게 해야 하나요? 코끼리를 보면 어떻게 해야 하나요? 고속도로에 고정익 항공기가 주차되어 있는 것을 보았습니다. 어떻게 해야 합니까?
실제로 많은 롱테일 문제의 경우 이전에 본 적이 없는 개체를 어떻게 처리해야 할까요? 좀 더 일반적인 유형의 문제로 마무리하면 꽤 다루기 쉽습니다.
예를 들어, 고속도로에 고정익 항공기가 주차된 것을 본 적이 있기 때문에 우리의 해결책은 매우 간단했습니다. 멈추십시오.
롱테일 문제는 잘못된 제안인가, 아니면 해결해야 할 문제인가? 모든 사람은 이 주제에 대해 자신만의 대답을 가지고 있을 수 있습니다. 롱테일 문제는 l4나 심지어 l5까지 대규모로 출시될 수 있는 시점에 해당하므로 다음으로 l2와 l4 사이의 치열한 갈등을 살펴보겠습니다.
4. 테슬라 로보택시는 성공할 수 있을까: l2와 l4의 갈등
1. “그럴 리가 없어.”
머스크가 로보택시 연기를 발표하기 전에 손님들에게 의견을 물었는데, 이에 대해 모두가 매우 만장일치로, 즉 올해 테슬라의 자율주행 택시 출시는 불가능하다는 의견이었습니다.
모두가 이렇게 통일된 시각을 갖는 가장 큰 이유는 테슬라의 기존 모델이 자율주행택시 l4 기준을 충족하지 못하기 때문이다.
liu bingyan (kargo software 책임자):
기존 tesla 모델에는 매우 명확한 사각지대가 있다고 확신합니다. tesla가 l4 자율주행이든 l5 자율주행이든 궁극적인 목표를 달성하려면 다음 차가 이 사각지대 문제를 해결해야 합니다. 이 사각지대 문제를 해결하려면 방금 말한 내용으로 돌아가서 카메라 센서의 위치를 조정해야 합니다. 이러한 위치를 조정하면 이전 모델이 완전히 실패하게 됩니다.
영상 카메라 아키텍처 관점에서 볼 때, 기존 자동차가 완전히 무인화할 수 있는 fsd를 구현하는 것은 불가능합니다. 이러한 관점에서 볼 때 새로운 하드웨어가 있어야 합니다.
zhang hang(cruise 수석 과학자):
센서 관점에서 볼 때 이전에는 l2에서는 필요하지 않았던 일부 중복성을 도입해야 합니다.
업계 내부자들은 낙관적이지 않지만 머스크가 로보택시 출시에 대해 그렇게 확신하는 이유는 무엇입니까?
yu zhenhua(전 tesla ai 엔지니어):
머스크의 성격은 오늘 fsd v12를 보았을 때 그의 계획에서 robotaxi가 의제에 포함되어야 한다고 느꼈던 것이 주된 이유라고 생각합니다.
그렇다면 fsd v12를 통해 tesla는 l4로 이동하여 robotaxi의 중요한 작업을 수행할 수 있습니까? 기존 waymo나 cruise와 비교하면 격차가 얼마나 큽니까?
이 질문에 대해 hou xiaodi와 인터뷰했을 때 그의 답변을 통해 우리는 업계의 또 다른 관점을 볼 수 있었습니다. 즉, l2와 l4 사이의 격차가 매우 멀다는 것입니다.
2. “가깝지도 않아요”
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
우선, 테슬라가 하는 일은 무인 운전이 아닙니다. 오늘 우리가 이야기하는 것은 사람을 없애고 소프트웨어 개발 회사가 책임을 지도록 하는 솔루션입니다. 이를 무인 운전이라고 합니다. fsd를 허위 선전이라고 하지 마세요. 운전은 무인 운전이 아니기 때문에 당신이 하는 일은 똑같은 것이 아닙니다.
현재 l2 보조 운전은 tesla, xiaomi, huawei, xpeng 등 자동차 회사에서 널리 사용되는 반면 waymo, cruise, baidu 및 기타 자율 주행 택시와 같은 회사에서는 l4를 사용합니다. 개념 정의,둘 사이의 본질적인 차이점은 누가 책임을 지는가이다.
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
사람을 없애고 소프트웨어 개발업체에 책임을 맡기는 솔루션을 자율주행이라고 합니다. 농담으로 하나 말씀드리자면, 테슬라가 사람을 죽이면 어떻게 될까요? elon musk에게는 이것은 그들의 사업이 아닙니다.
따라서 테슬라가 자율주행 택시를 하고 싶다면 스스로 책임을 져야 한다. 그렇다면 보조 운전과 자율 운전의 기술적 차이점은 무엇입니까?
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
l4 자율주행이 해결해야 할 핵심 문제는 무엇인가요? 안전, 중복성, 시스템의 모든 모듈이 실패하더라도 시스템은 여전히 최종 보안을 보장할 수 있습니다. 이것이 l4에서 가장 어렵고 가장 중요한 부분입니다. 돈을 벌기 전에 안전 문제를 해결해야 하는데, 이 문제는 테슬라의 설계 목적이 전혀 아니다.
또 다른 l4 자율주행 연구원도 하드웨어와 소프트웨어 관점에서 l2와 l4의 차이점을 분석했다.
zhang hang(cruise 수석 과학자):
l4 솔루션은 우선 l2 시나리오에서 사용하기 어려울 수 있는 상대적으로 강력한 센서를 보유하고 있다는 것입니다. 적어도 고정밀 lidar는 그렇지 않습니다.
알고리즘 관점에서 볼 때 l2는 효율성을 높이고 비용을 매우 낮추는 데 더 중점을 둘 수 있으며, 그러한 효과를 달성하기 위해 특별히 값비싼 센서가 필요하지 않으며 계산도 덜 필요할 수 있습니다. 이러한 l2는 실제로 백만 분의 1의 사례를 고려할 필요가 없습니다.
그렇다면 l4에서 추구하는 것은 인간의 원격 지원이 백만 마일당 한 번만 도입되어야 한다는 것입니다. 우리가 추구하는 것은 백만 분의 1의 사례입니다.
요약하자면:l4 솔루션은 더 높은 정확도의 센서를 사용하고 칩의 컴퓨팅 성능이 더 뛰어나며 더 포괄적인 시나리오를 처리할 수 있습니다.
그러나 l2 솔루션에서는 주요 고려 사항이 비용이므로 하드웨어 수준이 약간 낮아지는 동시에 하위 수준 하드웨어에 적응하기 위해 알고리즘은 안전성보다는 효율성에 더 많은 관심을 기울일 것입니다. l2의 인계 빈도는 l4의 인계 빈도보다 훨씬 높습니다.
그렇다면 tesla와 같은 l2 기업은 하드웨어와 소프트웨어 개선을 통해 l4 효과를 달성할 수 있을까요?
3. “두 가지 다른 것”
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
나는 l2가 l4와 l5로 천천히 발전하는 것을 지지하지 않습니다. 나는 이 문제가 강력한 외삽 속성을 지닌 또 다른 잘못된 제안이라고 생각합니다.
시간이 지나면 돌고래는 문명으로 진화할 수 있을까? 가능하다고 생각하지만, 지구 문명은 더 이상 돌고래의 진화를 용납할 수 없다는 것을 알아야 합니다. 이미 l4를 구현해낸 기업들이 있기 때문입니다. 내가 땅에 착륙한 후에는 당신과 아무 상관도 없을 거에요, 그렇죠? 호모 사피엔스가 투창을 집어들었을 때에는 문명을 창조할 돌고래가 없었습니다.
허우 샤오디의 견해로는,기존 l4 기업들은 이미 기술적인 장벽을 쌓았기 때문에 치열한 경쟁 속에서 l2에게 진화할 기회를 주지 않을 것입니다., 동시에 일부 사람들은 이것이 l4 기술이 l2보다 더 발전했다는 의미가 아니라 모든 사람이 서로 다른 시나리오를 목표로 하고 있다는 것을 의미한다고 믿습니다.
yu zhenhua(전 tesla ai 엔지니어):
l4는 모두가 상상했던 것만큼 기술적으로 진보하고 l2보다 앞서 있다고 말할 수 있습니다. 그렇다면 왜 l4 기술을 l2로 바로 다운그레이드할 수 없는지 묻고 싶습니다.
실제로 지난 수년 동안 소득 압박으로 인해 l4 회사는 자동차 제조업체가 l2를 만들 수 있도록 도와왔지만 단순히 다운그레이드할 수는 없으며 기본적으로 재개발을 해야 합니다.
그렇다면 미국에서는 gm(general motors)이 cruise l4 회사를 소유하고 있으며 ford는 역시 l4 회사인 argo ai를 소유하고 있다는 사실도 알고 있습니다. gm은 왜 대량 생산 차량에 cruise의 기술을 사용할 수 없습니까? ford가 생산 차량에 argo ai의 l4 기술을 사용할 수 없는 이유는 무엇입니까? 그러니까 l4가 l2보다 절대적으로 앞서는 것은 아니고, l4를 한다고 해서 엄청 발전한 것처럼 보이진 않을 것 같아요.
l4 기술을 l2로 직접 다운그레이드하여 사용할 수 없는 이유는 무엇입니까? zhang hang은 l4가 더 높은 하드웨어 사양을 사용하고 l2의 알고리즘은 더 낮은 사양의 센서와 컴퓨팅 성능이 낮은 프로세서에 적응해야 하기 때문에 두 기술을 직접 마이그레이션할 수 없다고 설명했습니다.
컴퓨터를 압수당하고 자, 펜, 종이만 주었고 정확성이 떨어지는 건축 디자이너처럼 그도 새로운 드로잉 방식에 적응해야 했습니다.
zhang hang(cruise 수석 과학자):
앞서 언급한 것은 연산량 문제입니다. l2 솔루션을 지원하는 것은 불가능합니다. 자동차 트렁크에 슈퍼컴퓨터를 넣는 것은 현실적이지 않습니다.
동시에 zhang hang은 l2와 l4의 기술을 비교할 때 더 열린 마음을 보여주었습니다. l2는 적용 범위가 더 넓고 더 많은 시나리오에 직면해야 하며 기본적인 문제만 해결하면 됩니다. l4는 커버리지가 제한되어 있지만 다양한 세부 사항에 더 많은 관심을 기울입니다. 따라서 둘 사이에는 장단점이 있습니다.
zhang hang(cruise 수석 과학자):
단순히 기존 시스템을 단순화하고 중복성을 제거한다고 해서 l4 자체가 l2 솔루션으로 사용될 수는 없고, 그 반대도 마찬가지다. l4의 l2 기준을 달성하려면 데이터를 수집하고 경험을 축적하는 데 오랜 시간이 필요합니다.
하지만 우리의 기술 루트나 기술 깊이가 l2보다 높을 것이라는 의미는 아니라고 생각합니다. l4에는 그다지 최첨단이 아니지만 이를 통해 해결할 수 있는 알고리즘이 많이 있을 수 있다고 생각합니다. 신중한 디자인. 이것은 매우 상세한 롱테일 문제입니다.
당신은 어떤 견해를 지지하시겠습니까? 당신은 우리에게 메시지를 남길 수 있습니다. 인터뷰에서 다양한 사람들이 이 질문에 대한 답을 갖게 될 것입니다.
yu zhenhua(전 tesla l2 엔지니어):
일반 대중은 물론 일부 l4 회사조차도 l4 기술이 l3보다 좋고, l2보다 낫다는 개념을 모든 사람에게 심어줄 것이라고 생각합니다. l4의 현재 robotaxi는 매우 제한된 시나리오를 가지고 있고, 예를 들어 waymo는 한 지역에서만 운영될 수 있기 때문에 이는 제한을 벗어나 대중을 호도하는 시나리오라고 생각합니다.
shao xuhui (foothill ventures 관리 파트너 투자자):
저는 개인적으로 l4 회사에 대해 여전히 낙관할 것입니다. 왜냐하면 이 논리에서 l4는 차원성과 공격성을 줄일 수 있기 때문입니다. 그러나 이것만 하면 l2로 승진하지 못하거나 승진하기가 매우, 매우 어려울 것입니다.
익명 응답자(l4 엔지니어):
사실, 기술 스택에 특별히 어려운 기준점은 없다고 생각합니다. 예를 들어, 회사가 오늘 l2 회사라고 주장할 수 있다면 내일은 몇 가지 새로운 기술을 추가하고 l4도 할 수 있을 것입니다. ? 그것은 모두 응용 프로그램에 어떤 기술을 사용하는지, 또는 어떤 새로운 기술 혁신이 있는지에 달려 있습니다. 그렇죠?
hou xiaodi(tusimple의 전 창립자이자 ceo, bot.auto의 창립자):
보조 운전과 무인 운전은 서로 다른 두 가지입니다.
제작자: hong jun, chen qian, 저자: wang ziqin, 편집자: chen qian