моя контактная информация
почта[email protected]
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
может ли автономное вождение действительно стать реальностью?
человечество потратило бесчисленное количество времени и денег на разработку автономного вождения. сегодня частые аварии, бесконечное сжигание денег и медленный прогресс вызвали множество недоразумений и вопросов: является ли беспилотное вождение мошенничеством или даже индустрия мертва?
эта индустрия действительно одна из самых разделенных, которые я когда-либо видел. каждая фракция имеет разные взгляды, смотрит друг на друга свысока и обвиняет друг друга. после того, как боги сражаются, все идут своим путем, наступают на свои собственные ловушки. и побеждать друг друга. каждый тратит свои деньги.
в результате беспилотное вождение войдет в холодную зиму до 2024 года.
но этой холодной зимой, когда маск утверждает, что реконструировал fsd tesla «с помощью сквозной технологии искусственного интеллекта» и объявил, что он войдет в индустрию автономных такси (robaxi), похоже, появилась новая жизненная сила и надежда.
может ли комплексное решение привести нас к настоящему беспилотному вождению? действительно ли l2 и l4 определены при автономном вождении далеко друг от друга? где сегодня развиваются беспилотные технологии? действительно ли битва между чистым видением и мультимодальностью бесконечна?
чтобы изучить, как развивается индустрия беспилотного вождения, мы потратили три месяца на интервью с самыми передовыми компаниями по беспилотному вождению на мировом рынке, включая бывших основных сотрудников waymo и cruise, бывших инженеров tesla fsd, а также инвесторов первичного и вторичного рынков. в индустрии автономного вождения работают целых десять специалистов.
мы обнаружили, что отрасль по-прежнему фрагментирована, и в отрасли нет единого мнения по многим техническим направлениям.
в этой серии статей мы рассмотрим передовой статус современных технологий автономного вождения с разных точек зрения, таких как восприятие, алгоритмы, продукты, операции, экономика и право.
в этой статье мы сначала поговорим о технологии комплексно, а в следующем выпуске проанализируем ее с эксплуатационной и экономической точки зрения.
1. что такое автономное вождение?
давайте сначала проведем концептуальное различие: в чем разница между беспилотным вождением и автономным вождением?
по степени интеллекта автономное вождение делится на 6 уровней от l0 до l5:
l0 означает отсутствие автоматизации, l1 означает помощь при вождении, l2 означает частичное автоматическое вождение, l3 означает условное автоматическое вождение, l4 означает высокоавтоматическое вождение, а l5 означает полностью автоматическое вождение, то есть настоящее вождение без водителя.
waymo и cruise, о которых мы упомянули позже, а также беспилотные грузовики, построенные хоу сяоди, относятся к уровню l4. tesla fsd относится к уровню l2, но tesla robotaxi, как утверждает маск, — это l4.
поэтому в настоящее время в этой отрасли, когда люди говорят об автономном вождении, они обычно имеют в виду компании уровня l4, потому что никто еще не может достичь уровня l5, и, вообще говоря, автономное вождение включает в себя все уровни и является более общим вызовом.
давайте посмотрим, как зародилась индустрия автономного вождения.
хотя люди начали изучать автономное вождение еще 100 лет назад, общепризнано, что современное автономное вождение официально возникло в результате проекта darpa challenge, организованного военными сша в 2004 году.
после нескольких лет разработки было сформировано оперативное звено восприятие-планирование-контроль. модуль восприятия включает в себя восприятие и прогнозирование.
уровень восприятия должен получать информацию о дорожных условиях впереди с помощью таких датчиков, как радар и камеры, прогнозировать траектории движения объектов и генерировать карту окружающей среды в реальном времени, которая представляет собой обычный вид с высоты птичьего полета, который мы видим на автомобилях и автомобилях. машины, а затем передают эту информацию на уровень планирования. система определяет скорость и направление на основе алгоритма и, наконец, передает на уровень управления выполнением для управления соответствующими дросселем, тормозом и рулевым механизмом.
позже, с появлением искусственного интеллекта, люди начали позволять машине учиться вождению самостоятельно. во-первых, позвольте алгоритму управлять автомобилем в смоделированном цифровом мире. после того, как обучение на моделировании достигнет определенного уровня, он может начать тестирование на дороге. .
за последние два года, когда tesla применила «сквозное» решение к версии fsd v12, операционное звено восприятие-планирование-контроль также начало меняться.
далее мы сосредоточимся на разговоре о двух технических направлениях индустрии автономного вождения на уровне восприятия: чисто визуальной школе и школе мультимодального слияния. эти две фракции борются уже много лет, и каждая имеет свою собственную. заслуги. давайте поговорим об их обидах и ненависти.
2. восприятие: чистое видение против мультимодального слияния.
в настоящее время существует два основных решения для восприятия автомобилей.
первое — это мультимодальное решение для термоядерного зондирования, принятое многими компаниями, которое агрегирует и объединяет информацию, собранную такими датчиками, как лидар, радар миллиметрового диапазона, ультразвуковые датчики, камеры и инерциальные измерительные устройства, для определения окружающей среды.
возвращаясь к конкурсу darpa challenge, о котором мы упоминали в предыдущей главе, в первой сессии 2004 года, хотя ни одна машина не финишировала в гонке, участник по имени дэвид холл осознал важность лидара во время соревнований. после соревнований velodyne, компания, в которой он участвовал. основанный, начал переходить от аудио к лидару.
в то время лидар сканировал одной линией и мог измерять расстояние только в одном направлении. однако дэвид холл изобрел механический вращающийся лидар с 64 линиями, который мог сканировать окружающую среду на 360 градусов.
позже он взял этот вращающийся лидар для участия во втором конкурсе darpa challenge в 2005 году. наконец машина с 5 лидарами на голове завершила гонку и выиграла чемпионат.
но это была не машина дэвида холла... его машина сошла с дистанции на полпути из-за механической неисправности, но его выступление заставило всех понять, что лидар - это "плагин".
в третьем конкурсе darpa challenge в 2007 году пять из шести команд, завершивших соревнование, использовали лидар велодина. на данный момент лидар начал становиться популярным в индустрии автономного вождения, а velodyne также стала ведущей компанией в области автомобильных лидаров.
чжан ханг (старший научный директор cruise):
сейчас, будь то cruise или waymo, некоторые решения на базе l4 в основном основаны на лидаре, который может напрямую получать информацию о местоположении. в этом случае требования к самому алгоритму будут относительно низкими, а этой 3d-информации много. могут быть получены непосредственно через датчики, что повысит надежность и безопасность системы, а также облегчит решение некоторых проблем с длинным хвостом.
другая техническая фракция — это чисто визуальное решение, представленное tesla, которое полагается только на камеры для сбора информации об окружающей среде, а затем использует нейронные сети для преобразования 2d-видео в 3d-карты, которые включают препятствия и прогнозы окружающей среды. информация.
по сравнению с лидарным решением, которое напрямую генерирует 3d-карты, pure vision имеет дополнительный процесс преобразования 2d в 3d. по мнению чжан ханга, использование исключительно «видео» обучающих данных, в которых отсутствует 3d-информация, создаст определенные проблемы для безопасности.
чжан ханг (старший научный директор cruise):
для изучения отсутствия трехмерной информации требуется большой объем обучающих данных. в этом случае отсутствует контроль. поскольку эталонного объекта нет, в реальности трудно получить основную истину (данные истинного значения). если полностью использовать этот полунадзор, я думаю, что сложнее добиться безопасности системы на основе метода обучения. я думаю, что основная цель tesla — контролировать расходы, включая модификацию некоторых механизмов переключения передач, и все это для экономии затрат на некоторые детали.
но, по словам юй чжэньхуа, бывшего инженера по искусственному интеллекту в tesla, выбор чистого видения — это не только экономия затрат.
1. больше — значит хаос?
ю чжэньхуа (бывший инженер tesla ai):
фактически, первоначальная система автопилота теслы имела радар миллиметрового диапазона. слияние датчиков на самом деле является очень сложным алгоритмом, но его реализация не обязательно хороша.
в то время у меня была машина, одна из последних машин с радаром миллиметрового диапазона. в 2023 году моя машина прошла то, и сервисный инженер автоматически удалил мне радар. каков вывод по этому делу? удаление радара миллиметрового диапазона происходит не из соображений экономии, потому что в моей машине уже есть радар миллиметрового диапазона. основная причина в том, что чистое зрение превзошло радар миллиметрового диапазона. итак, тесла делает вычитание, удаляя некоторые лишние вещи, которые он считает ненужными, или громоздкие вещи.
юй чжэньхуа считает, чтоесли алгоритм слияния не будет реализован должным образом или если чистое зрение сможет достичь достаточно хороших результатов, тогда большее количество датчиков станет обузой.
многие опрошенные нами практики l4 также согласились, что больше информации не значит лучше. напротив, слишком много дополнительной недействительной информации, собираемой датчиками, увеличит нагрузку на алгоритм.
так можно ли полагаться исключительно на сенсор камеры, который всегда защищал маск?
2. меньше значит больше?
маск сказал, что, поскольку люди могут управлять автомобилем только двумя глазами, автомобили также могут достичь автономного вождения, основываясь только на визуальной информации. однако беспокойство отрасли по поводу чисто визуальных изображений всегда вызывало визуальный обман, который действительно приводил к меньшему количеству аварий в прошлом.
например, tesla идентифицирует белый грузовик как небо, а луну — как желтый свет, а ideal идентифицирует содержимое рекламного щита как автомобиль, что приводит к таким авариям, как внезапное торможение и наезды сзади на высоких скоростях.
означают ли эти случаи, что чисто визуальные решения без информации о глубине имеют присущие недостатки?
ю чжэньхуа (бывший инженер tesla ai):
множественные потоки информации действительно могут дать больше информации, но приходится отвечать на вопрос, неужели самой камере не хватает информации? или способность алгоритма добывать информацию недостаточна?
например, при резком торможении или чувстве разочарования при движении по городским дорогам основная причина на самом деле заключается в недостаточной оценке скорости и угла наклона окружающих объектов. если причина в этом, то лидар действительно намного лучше, чем камеры, потому что он может это обеспечить. если вы предоставите более прямую информацию, камера сама предоставит вам информацию, но наш алгоритм недостаточно хорош, чтобы найти такую информацию.
юй чжэньхуа не считает, что основной причиной визуального обмана является недостаточность информации с камеры, а что алгоритм недостаточен для обработки или анализа информации, предоставляемой камерой. он считает, что, особенно после запуска алгоритма tesla fsd v12, было доказано, что когда алгоритм был значительно оптимизирован, сбор и обработка информации камеры были значительно улучшены.
ю чжэньхуа (бывший инженер tesla ai):
сегодняшний fsd v12 не идеален и имеет множество проблем, но я пока не нашел, какая именно проблема связана с недостаточным количеством датчиков. конечно, до v12 многие проблемы были из-за недостаточного количества датчиков, но у сегодняшнего v12 этой проблемы нет.
однако практики l4 придерживаются иной точки зрения. они считают, что у камер есть естественные недостатки.
чжан ханг (старший научный директор cruise):
лично я считаю, что это сложно, и не думаю, что это обязательно проблема самого алгоритма.
прежде всего, сама камера не так сложна, как человеческий глаз. каждая камера имеет некоторые параметры и свои ограничения.
далее идет сам алгоритм. людям не нужно знать, куда движутся все машины в радиусе 200 метров, мне нужно только знать, какие машины и какие пешеходы могут повлиять на поведение моей машины. я акцентирую внимание только на этом. точек достаточно, и мне не нужно много вычислительной мощности. возможно, в краткосрочной перспективе достичь этой высоты с помощью алгоритмов не удастся. я думаю, что лидар — это дополнительный метод.
чжан ханг, занимающийся исследованиями l4, считает, что камеры не могут соответствовать человеческому глазу. основная причина в том, что фокусное расстояние и пиксели камеры фиксированы, в то время как человеческий глаз имеет очень высокую точность и может автоматически масштабировать изображение. в то же время прыгающий режим мышления человека не может быть применен к компьютерам в краткосрочной перспективе, поэтому лидар можно использовать для устранения недостатков камер.
однако на рынке существуют и другие мнения, которые полагают, что помимо визуальной информации другие датчики также будут передавать информацию о помехах.
например, у lidar также есть свои недостатки. поскольку он использует лазерную локацию, при столкновении с некоторыми отражающими объектами, дождем или снегом или лазерами, излучаемыми другими автомобилями, он будет мешать работе lidar и в конечном итоге вызывать иллюзорные эффекты.
лю бинъянь (руководитель отдела программного обеспечения kargo):
я очень твердый чисто визуальный человек. дороги в этом мире созданы для людей и зрения. то есть, помимо зрения, вы можете воспринимать информацию, которую вы собираете, как помеху. конечно, вы можете ее собирать, но. информация создает помехи, и реальная ценность, которую она дает, какое это распространение? я думаю, что по мере того, как визуальные эффекты становятся все лучше и лучше, ситуация может быть полной противоположностью.
если можно будет разработать алгоритм объединения нескольких датчиков, позволяющий верифицировать друг друга лидарной и визуальной информации, безопасность системы может быть еще больше улучшена.
хоу сяоди предложил яркую метафору:когда два студента одного уровня сдают экзамен, тому, кто пользуется калькулятором, в конечном итоге будет легче. именно экономическая основа определяет, может ли он позволить себе калькулятор.
споры между чистым зрением и мультимодальными термоядерными решениями на основе лидара продолжаются уже несколько лет, и, похоже, в краткосрочной перспективе ответа не будет. илидля некоторых стартапов маршрут вообще не так важен, но наиболее важными являются затраты и экономические показатели.
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
раньше меня считали визуалом, потому что в то время лидар не был доступен, поэтому мы были вынуждены искать больше визуальных решений.
я тоже не против лидара;когда лидар стал дешевым, я первый встал в очередь?lidar сейчас очень дешев, поэтому я тоже стою в очереди за lidar. для меня это хороший кот, который ловит мышь. пока стоимость этого устройства достаточно низка и пока это устройство может предоставить нам достаточно ценную информацию с точки зрения теории информации, мы должны его использовать.
дэвид (ведущий программы «большие лошади говорят о технологиях»):
китайская компания по автономному вождению быстро сделала это оборудование, такое как лидар и радар миллиметрового диапазона, доступным по выгодной цене. должны ли мы в этом состоянии по-прежнему заниматься чистым видением, как тесла? на самом деле, многие компании сейчас колеблются, стоит ли мне покупать твердотельный лидар стоимостью более 1000 юаней или мне следует использовать чистое зрение, но это приведет к большим потерям вычислительной мощности.
ю чжэньхуа (бывший инженер tesla ai):
я считаю, что 1000 юаней — это слишком дорого, а tesla даже не желает использовать датчик дождя.
ван чэньшэн (бывший директор по закупкам tesla):
но я думаю, что по мере того, как масштаб цепочки поставок увеличивается, а стоимость значительно снижается, когда лидар может достичь цены, аналогичной цене камер, особенно в сценарии сквозного применения, остается ли чистое видение уникальным путем?
3. покаяться?
интересно, что, поскольку цена на лидар значительно упала, в отрасли начали расходиться во мнениях относительно того, будет ли новое беспилотное такси tesla использовать лидар.
например, чжан ханг считает, что, поскольку robotaxi не требует вмешательства человека, и если что-то пойдет не так, компания должна нести ответственность, tesla может выбрать более консервативный маршрут и использовать лидар, на который когда-то смотрела свысока.
чжан ханг (старший научный директор cruise):
особенно когда ему приходится нести ответственность за корпоративные несчастные случаи, он должен быть более консервативным, и я думаю, что может потребоваться дополнительный датчик. с этой точки зрения tesla может перенять некоторые технологии, которые раньше презирала.пока эта вещь полезна и может достичь своей цели l4, она постепенно будет принята на вооружение.
недавно мы также обнаружили, что tesla также рассматривает некоторые аспекты l4 и l5, а также говорит о сотрудничестве с некоторыми производителями этого лидара, так что, возможно, каждый достигнет одной и той же цели разными путями.
в этом году производитель лидаров luminar опубликовал финансовый отчет за первый квартал, в котором показано, что заказы tesla достигли 10%, что сделало ее крупнейшим клиентом. но юй чжэньхуа не согласился, полагая, что в этом нет ничего нового.
ю чжэньхуа (бывший инженер tesla ai):
прежде всего, речь точно не идет об использовании лидара в будущих серийных автомобилях, ведь общий доход luminar в первом квартале, судя по всему, составит 20 миллионов долларов сша, а 10% — это 2 миллиона, что недостаточно для установки нескольких лидары. фактически, ни для кого не секрет, что инженерные и испытательные автомобили tesla оснащены лидаром. лидар используется для сбора достоверных данных (истинных данных) для обучения нейронных сетей, поскольку люди не могут определить, на каком расстоянии от вас находится объект. для маркировки необходимо использовать специальные датчики.
но почему lumina раскрыла это в первом квартале, я на самом деле очень озадачен, потому что маск тогда тоже ответил, сказав, что после того, как мы достигнем v12, нам не нужны достоверные данные, потому что они сквозные и занимают сеть. это вопрос эпохи v11. я могу подумать, что здесь есть некоторые недопонимания, то есть из финансовых отчетов или финансовых правил.
хотя в настоящее время неясно, будет ли будущий роботакси теслы оснащен лидаром, одно можно сказать наверняка: при нынешней конфигурации датчиков теслы безопасности недостаточно для достижения l4 или управления роботакси.
лю бинъянь (руководитель отдела программного обеспечения kargo):
я совершенно уверен, что существующие модели tesla имеют очень четкие слепые зоны, то есть слепые зоны, которые не доступны визуально, и это слепое пятно приведет к тому, что, если он захочет достичь максимального результата, будь то автономное вождение l4 или l5, его следующий автомобиль должен решить эту проблему слепых зон.
мы подробно разберем последнее обновление комплексной технологии tesla в главах 3 и 4, а также выскажем предположения о деталях robotaxi, которые будут объявлены в октябре. далее, давайте сначала обсудим еще одну важную технологию восприятия: карты высокой точности.
4. вне времени?
помимо лидара, высокоточные карты также являются основным источником затрат на сенсорную часть автономного вождения.
карты высокой точности заранее собирают информацию о дорогах, снижают нагрузку на модуль восприятия при рисовании 3d-карт и повышают точность.
по совпадению, первым, кто начал продвигать высокоточные карты, стал себастьян трун, победитель второго конкурса darpa challenge в 2005 году, владелец автомобиля с пятью лидарами на голове.
во время конкурса darpa challenge 2004 года компания google готовила проект «просмотр улиц». основатель google ларри пейдж лично отправился на сайт конкурса, чтобы выявить таланты. после конкурса в 2005 году пейдж подошел к себастьяну труну и предложил ему присоединиться к компании google. ему дали чертеж карты.
в процессе трун и пейдж внезапно осознали:если есть карта, которая может точно записать все полосы движения, дорожные знаки, светофоры и другую дорожную информацию, это окажет большую помощь автономному вождению., что также подтверждает важную роль высокоточных карт в проектах автономного вождения.
однако производство высокоточных карт обходится очень дорого. средняя стоимость сбора высокоточных карт для компаний, занимающихся автономным вождением, составляет около 5000 долларов сша за километр. достигнет $3,3 млрд.
в сочетании с частыми затратами на обслуживание карты, конечное потребление будет невообразимо астрономическим.
многие автомобильные компании сейчас продвигают безкартовые решения, которые отказываются от высокоточных карт и вместо этого используют автомобили для локального создания экологических карт.
инженер по автономному вождению, с которым мы беседовали анонимно, сказал, что эти сравнения и рекламные акции больше связаны с соображениями бизнес-модели. для компаний, занимающихся роботакси, использование высокоточных карт может повысить безопасность.для автомобильных компаний отказ от высокоточных карт может эффективно снизить затраты, однако это не означает, что отказ от высокоточных карт приведет к более высокому техническому уровню.
анонимный респондент (инженер л4):
у huawei тоже есть идеал. их решение — серийный автомобиль. клиенты могут приезжать из разных городов, и вы хотите иметь возможность ездить на нем в любом городе.
основным порогом для массовой высокоточной карты является то, что для нее требуется процесс сбора карт. этот процесс сбора карт на самом деле относительно трудоемкий и трудоемкий, а также требует профессиональных знаний.
так что, если вы занимаетесь серийным производством автомобилей, вы не можете сказать, что у меня есть специальная машина для коллекционирования карт и что я объездил для вас весь китай. это нереально.
компании l2, такие как tesla, huawei и ideal, отказались от высокоточных карт, поскольку они не могли охватить каждую улицу и переулок.
пока waymo и cruise занимались этим, компания l4, принадлежащая robotaxi, решила продолжить использование высокоточных карт, поскольку обнаружила, чтонам нужно охватить только некоторые ключевые города, чтобы охватить достаточное количество рынков.
поэтому вопрос о том, использовать ли карты высокой точности, становитсяпроблема финансового учета роботакси не является технической проблемой.
минфа ван (бывший старший инженер по машинному обучению waymo):
если вы посмотрите только на бизнес-модель роботакси и разделите спрос на роботакси в соединенных штатах, вы обнаружите, что на пять крупнейших городов уже приходится половина коммерческого объема в соединенных штатах. вам не нужно заставлять его работать. в любой точке соединенных штатов. фактически, у вас уже есть довольно большой рынок.
аналогично, другой опрошенный нами гость, который работает над беспилотными грузовиками l4, также поделился, что если они хотят расширить свои маршруты работы, то есть расширить покрытие высокоточных карт, они должны сначала измерить, выгоден ли этот маршрут, иначе они просто понесу убыток в убыток.
после такого разговора в отрасли не существует единого мнения по поводу восприятия. как и сказал хоу сяоди, кошка — хорошая кошка, если она ловит мышей.
далее, давайте сосредоточимся на недавнем прогрессе в области алгоритмов автономного вождения, на который в последнее время все обращают пристальное внимание, особенно на «сквозной» технологии, которую недавно продвигала tesla. что это за технология? изменит ли это направление развития индустрии автономного вождения?
3. алгоритм: является ли сквозное будущее автономного вождения?
1. что такое традиция?
традиционное звено автономного вождения заключается в том, чтобы сначала чувствовать, прогнозировать, затем планировать и, наконец, контролировать.
модуль восприятия должен сначала идентифицировать дорогу с помощью датчиков, таких как камеры и радары, перевести эту информацию на язык, который может видеть машина, и передать ее в модуль прогнозирования.
модель прогнозирования будет оценивать траектории движения других транспортных средств и пешеходов, затем передавать эту информацию в модуль планирования, чтобы найти путь с наименьшим риском, и, наконец, передавать управляющий сигнал в систему управления.
алгоритм в настоящее время в основном основан на «базе правил». инженерам необходимо постоянно писать различные правила, такие как замедление при встрече с пешеходами, остановка на красный свет и т. д. чтобы учитывать различные ситуации, используется база правил. приходится максимально охватить каждую возможность, и соответственно код очень и очень длинный.
какие трудности с таким алгоритмом?
самая большая проблема заключается в том, что система разделена на разные модули, но передача информации между модулями будет потеряна. если нисходящий поток не сможет получить исчерпывающую информацию, сложность прогнозирования и планирования возрастет.
приведу простой и понятный пример: все слышали о многопользовательской игре с телепортацией, верно? 10 человек произносят предложение от начала до конца, но часто детали теряются или подделываются в процессе произнесения несколькими людьми, так что смысл становится совершенно другим, когда он доходит до последнего человека.
аналогично, в традиционной модели, основанной на правилах, если модуль верхнего уровня работает недостаточно хорошо, это повлияет на производительность следующего уровня.
еще одним недостатком является то, что все правила разработаны и определены людьми, но ограниченные правила не могут охватить бесконечное количество возможных реальных ситуаций. для некоторых необычных и легко упускаемых из виду проблем машинам трудно найти соответствующие решения. «случай с длинным хвостом» также называют «угловым случаем», что приведет к очень высоким затратам при крупномасштабном внедрении.
ю чжэньхуа (бывший инженер tesla ai):
другое дело, что когда она разделена на два модуля, мне кажется, эту технологию сложно масштабировать. почему? каждый раз, когда вы добавляете новую задачу в реалистичную сложную сцену, вам приходится добавлять новые интерфейсы, а также менять планирование восприятия и управления.
возьмем, к примеру, tesla. несколько лет назад nhtsa (управление по безопасности на транспорте сша) потребовало, чтобы tesla обнаруживала машины экстренных служб, такие как пожарные машины и машины скорой помощи. с точки зрения восприятия вы должны это обнаружить, а затем также контролировать. нужно это сделать. это всего лишь одна задача. таких задач может быть сотни или тысячи. вам придется масштабировать ее. знаете ли вы, что в huawei работают тысячи инженеров? около 6000 инженеров, потому что у вас будет появляться очень много новых задач. чем сложнее среда, тем больше задач я не думаю, что это масштабируемая модель.
дэвид (ведущий программы «большие лошади говорят о технологиях»):
этот метод все еще относительно старомоден. хотя он кажется относительно разумным для индустрии роботакси, он не сможет удовлетворить потребности легковых автомобилей и миллионов транспортных средств, движущихся по дорогам по всему миру в будущем.
так каковы же решения этих проблем? на этот раз нам предстоит поговорить о «end to end».
2. новые суперзвезды
в области автономного вождения в настоящее время общепринятое определение «сквозного» звучит так:информация, собранная датчиком, без какой-либо обработки передается в большую модель на базе нейронной сети, а результаты контроля выводятся напрямую.
другими словами, нет необходимости вручную писать различные правила и позволять алгоритму учиться ездить, следуя подаваемым ему данным.
ю чжэньхуа (бывший инженер tesla ai):
потому что, когда мы, люди, водим машину, мы не оцениваем скорость и угол наклона определенной машины в уме. вы принимаете решения подсознательно в сложной обстановке.
логика мышления «сделать алгоритмы более похожими на людей, потому что именно так работают люди» — это именно то направление, которое маск возглавляет tesla. неудивительно, что «сквозная» технология не нова в автономном вождении. но впервые она была разработана. тесла.
хотя tesla впервые запустит fsd v12 с использованием «сквозной» технологии в конце 2023 года, «сквозная» технология не является чем-то новым в мире автономного вождения. фактически, еще в 2016 году у nvidia был документ, предлагающий «сквозной подход».
теперь «сквозные» тоже делятся на два типа. один — замена некоторых модулей нейронными сетями. этот «сквозной» подмодуль — это лишь излишняя форма, а не полная, т.к. каждый модуль. для передачи информации между ними все еще необходимо определить различные интерфейсы, что приводит к потере данных.
с общепринятой точки зрения, только когда несколько модулей интегрированы в единое целое и определения уровня восприятия, уровня прогнозирования и уровня планирования удалены, его можно считать чистым «сквозным».
в 2023 году в лучшей статье cvpr «автономное вождение, ориентированное на планирование» было высказано предположение, что прежнее «сквозное вождение» либо работало только на некоторых модулях, либо требовало установки некоторых компонентов в систему.
в этом документе предлагается архитектура модели uniad, в которой все модули измерения, прогнозирования и планирования впервые интегрированы в сквозную сетевую структуру на базе transformer.
по сравнению с традиционным каналом выполнения на основе правил (управляемым правилами), «сквозной» канал больше не требует от разработчиков алгоритмов постоянного улучшения базы правил, поэтому, когда маск выпустил fsd v12, он заявил, что «его код вырос из 300 000 строк было сокращено до 2 000 строк».
хотя «сквозная» технология автономного вождения не была изобретена теслой, тесла действительно была первой компанией, которая разработала «сквозную» технологию нейронных сетей и вывела ее на массовый рынок.
3. «сквозные» преимущества
в ноябре 2023 года tesla выпустила первую тестовую версию fsd v12, но она была открыта только для избранных сотрудников. к началу 2024 года tesla начнет открывать версию fsd v12 для всех владельцев tesla в сша, и каждый владелец получит месячную бесплатную пробную версию.
после запуска fsd v12 на некоторое время это вызвало бурю негодования. из опыта пользователей мы видим, что большинство общественного мнения считают, что функции fsd от tesla значительно улучшены по сравнению с предыдущим. многие даже думают, что это так. «первый в мире chatgpt moment».
дэвид (ведущий программы «большие лошади говорят о технологиях»):
что действительно заставляет меня думать, что прогресс – это планирование. например, когда речь идет о кольцевых развязках, пересечь кольцевую развязку в традиционном направлении планирования довольно сложно, потому что машина впереди вас должна застрять, а вам придется добираться до нее. из кругового перекрестка как настроить середину это своего рода приоритет?
даже если вы установили приоритет, на каком расстоянии вам следует держаться от машины впереди и от машины рядом с вами, прежде чем вы сможете выйти? на самом деле это очень сложная логика, но ее производительность в новой версии fsd действительно улучшается? я чувствую себя потрясающе. это меня очень удивило.
многие люди, испытавшие fsd v12, сказали, что эта система, которая учится на данных о вождении человека, имеет очень похожий на человеческий стиль вождения и больше не испытывает разочарований, вызванных механическими алгоритмами.
но в то же время некоторые гости, пережив это, подумали:fsd v12 не настолько хорош, чтобы люди могли его использовать, и между ним и l4 все еще существует определенный разрыв.
джастин мок (директор по инвестициям семейного офиса):
но он не так хорош, как gpt4, и не так хорош, что я должен использовать эту штуку или что я буду использовать ее немедленно, и она может подойти для использования во многих моих сценариях.
минфа ван (бывший старший инженер по машинному обучению waymo):
на шоссе его характеристики относительно хороши, но на улицах я чувствую, что его нужно вручную передвигать каждые 5 миль или около того.
это относительно легко сделать, особенно в том, что мы называем незащищенным поворотом налево, и это заставляет меня чувствовать, что это не очень безопасное поведение. если ваш mpi (пробег при захвате) составляет всего 5, то это явно далеко от l4. еще далеко.
я также сам испытал версию fsd 12.4.4. по сравнению с автомобилями l4, такими как waymo, нынешняя tesla fsd все еще пугает меня в определенные моменты или иногда демонстрирует необъяснимое поведение.
например, при повороте направо из-за слишком большого радиуса поворота он чуть не задел встречную машину, поэтому мне пришлось брать управление на себя вручную.
с точки зрения производительности «сквозной» fsd v12 все еще есть возможности для совершенствования. с точки зрения проектирования, эксплуатации и управления «сквозной» вариант имеет три преимущества:
во-первых, это может упростить всю систему.после удаления базы правил вам нужно будет только постоянно добавлять обучающие примеры для дальнейшего улучшения производительности модели, а затраты на обслуживание и обновление также будут значительно снижены.
во-вторых, сэкономить затраты на рабочую силу.поскольку сквозной подход больше не опирается на сложную базу правил, нет необходимости развертывать большую команду разработчиков или даже полагаться на экспертов.
в-третьих, это может обеспечить более широкое продвижение.вы можете видеть, что в настоящее время компании l4 могут работать только в ограниченных областях, независимо от нормативных и лицензионных ограничений, поскольку это не «сквозное» решение и его необходимо оптимизировать под конкретные регионы, а «сквозное» решение. "может справиться с любыми дорожными условиями. он больше похож на "универсального" водителя, что является одной из причин, по которой tesla fsd v12 сравнивают с chatgpt.
поскольку «сквозное» решение имеет так много преимуществ, может ли оно решить технические проблемы, с которыми в настоящее время сталкивается автономное вождение?
4. модель черного ящика
многие гости, у которых мы брали интервью, полагали, чтона данном этапе дальнейшее развитие сквозного маршрута является признанной тенденцией в сфере автономного вождения., но есть еще много проблем.
чжан ханг (старший научный директор cruise):
я думаю, что это правильное направление. нам невозможно создать крупномасштабное решение l4, постоянно исправляя его. но в настоящее время я думаю, что невозможно быстро достичь решения l4 полностью через конец. окончательное решение, так что сейчас противоречивый момент времени.
почему нынешний сквозной уровень все еще сильно отстает от l4, начинается с его неопределенности.
сквозная связь подобна черному ящику, который принесет еще больше неопределенности.
например, инженеры не могут проверить, были ли изучены модели входных данных, или при обнаружении ошибки они не могут определить, какая ссылка вызвала проблему, или приведут ли вновь добавленные данные к забвению или перезаписи изученных знаний; , эта ситуация называется катастрофическим забыванием.
например, версия tesla fsd 12.4.2 была разработана внутри компании уже давно, но потребовалось много времени, чтобы продвинуть ее в больших масштабах, маск объяснил это тем, что передаваемые данные содержали много видео, которые были обработаны вручную. , было сложно уровень модели регрессировал.
поскольку суть сквозного метода заключается в имитации, если возникшая ситуация имеет схожие случаи в обучающих данных, она будет работать очень хорошо, но если она превысит существующие эталонные случаи, производительность будет хуже, то есть скажем, end-to-end предъявляет очень высокие требования к объему обучающих данных и насыщенности кейсов.
чжан ханг (старший научный директор cruise):
когда на перекрестке горит красный свет, нельзя включать красный свет. это такое простое правило. если оно основано на эвристике (эвристический алгоритм), мы можем просто использовать if else для достижения такого эффекта.
но если это полностью сквозная модель, то она полностью опирается на обучение. в конце концов, ему на самом деле очень сложно научиться такому способу. поэтому я думаю, что за короткий период времени между сквозным l4 все еще существует большой разрыв. я считаю, что этот алгоритм незрелый.
лю бинъянь (руководитель отдела программного обеспечения kargo):
у вас нет каких-то жестких правил, но он может попытаться сделать все, что вы установите, но сделать невозможно. так что в симуляции будет много лобовых столкновений.
в то же время необъяснимость, вызванная сквозным соединением, также вызывает беспокойство у некоторых людей.
так называемая необъяснимость означает, что изменение любого веса, узла или количества слоев в модели алгоритма окажет непредсказуемое влияние на производительность модели. даже разработчики и инструкторы модели не могут знать промежуточный процесс рассуждения.
противоположным является интерпретируемость. например, в режиме на основе правил инженеры прописали правило, согласно которому «вы можете продолжать движение, когда мимо проезжает пластиковый пакет», поэтому нам не нужно беспокоиться о внезапных изменениях в этой ситуации. .давай, нажми на тормоза.
лю бинъянь (руководитель отдела программного обеспечения kargo):
видно, что в v12 отображение на экране намного лучше, но откуда взялось это так называемое сквозное отображение? если это отображение происходит из исходной модели, одна из проблем заключается в том, что мы фактически добавили в эту модель слой искусственно определенных интерфейсов, чтобы вы могли извлечь эту информацию из определенного места в модели.
еще более страшным, на мой взгляд, является то, что этот дисплей идет совершенно по другому пути. это также означает, что машина показывает, что впереди находится грузовик. это не означает, что управляемая модель действительно думает, что впереди находится грузовик. в этом случае было бы очень, очень страшно увидеть перед собой машину, но вы не уверены, что она ее не врежет.
у меня на самом деле есть некоторые сомнения, действительно ли это сквозное, а может, и не сомневаюсь, но здесь могут быть и другие опасности.
ван чэньшэн (бывший директор по закупкам tesla):
итак, является ли необъяснимость, вызванная сквозной моделью, другой стороной медали для таких отраслей, как автономное вождение, к которым предъявляются такие высокие требования к безопасности?
поскольку tesla еще не анонсировала технологию fsd v12, мы не знаем, примет ли fsd многомодульную стратегию, но мы обнаружили, чтонекоторые автовладельцы сталкивались со случаями, когда изображение на экране не соответствует реальному поведению.
например, вид с воздуха, построенный транспортным средством, показал, что впереди кто-то был, но он не показывал никаких признаков торможения и продолжал проезжать мимо. к счастью, это было просто неправильное обнаружение на сенсорной стороне, и никакой аварии не произошло. .
хотя в этом случае можно увидеть, что в рамках сквозного алгоритма ошибки верхнего уровня не влияют на преимущества принятия решений на нижнем уровне, он также показывает, что уровень планирования иногда не распознает результаты уровня восприятия. , подтверждая опасения лю бинъянь.
станет ли необъяснимость серьезной проблемой, препятствующей сквозному развитию? далее следует третий конфликт, который мы видим.
ю чжэньхуа (бывший инженер tesla ai):
я так думаю,очень серьезная проблема с ии заключается в том, что его теоретическая природа сильно отстает.
ии не говорит вам, обязательно это сработает или нет. следовательно, это экспериментальный предмет, он не считается наукой и требует тщательной проверки.
v12 полностью давит v11, так что это вопрос результата. тогда вы думаете, что если такая необъяснимость из конца в конец, то потому, что она полностью раздавлена, она очень безмозгла, и вам следует спуститься вниз.
юй чжэньхуа считает, что ии — это экспериментальный объект, пока результаты соответствуют ожиданиям, это доказывает, что направление правильное и его следует продолжать развивать. хоу сяоди сказал, что производительность v12 значительно превосходит v11 только потому, что основа v11 слишком плохая, а его производительность все еще далека от настоящего беспилотного вождения.
ван чэньшэн (бывший директор по закупкам tesla):
если это действительно полное самостоятельное вождение и оно ограничено l5, оно должно пройти проверку регулирующих органов, и им нужна объяснимость или предсказуемость.
кроме того, в мире очень много городов, а в соединенных штатах в каждом городе могут действовать разные законы и правила. нужно ли этому автомобилю адаптироваться к местным законам и правилам с точки зрения аппаратного и программного обеспечения, стало большим вопросом, можно ли его масштабировать.
сквозная настройка модели невозможна с помощью искусственно определенных правил, поэтому возможность ее адаптации к различным правилам стала проблемой для сквозного масштабирования.
еще одним фактором, влияющим на масштаб, является то, что сквозная связь более чувствительна к объему данных и датчикам.
5. будущее неопределенно
лю бинъянь (руководитель отдела программного обеспечения kargo):
существует очень серьезная сквозная проблема, а именно:сенсор будет более чувствителен.то есть, когда вы меняете датчик или распределение датчика, вашу модель можно полностью переобучить.
с другой стороны, это неприемлемо с инженерной точки зрения, иначе мы не можем себе представить, что одна и та же машина в будущем будет ездить по дорогам всего мира.
как только распределение датчиков будет изменено, модель станет недействительной, и для обучения придется собирать большой объем данных, что неизбежно повлечет за собой огромные затраты.
американское финансовое издание cnbc сообщило, что к началу 2023 г.для обучения fsd tesla использовала более 10 миллионов видеороликов владельцев tesla.
более того, эти более 10 миллионов фрагментов обучающих данных используются не случайно. это должны быть водители-люди с относительно высокими навыками вождения, иначе уровень модели будет только ухудшаться.
поэтому обучение сквозной модели не только требует большого количества данных, но и требует сложного скрининга, на который уходит много рабочей силы. возможно, это не проблема для tesla, которая продает много автомобилей, но для других компаний источники данных стали большой проблемой.
дэвид (ведущий программы «большие лошади говорят о технологиях»):
многие oem-производители были обмануты, потому что слепо следовали методологии tesla, но этот набор вещей действительно не подходит для 90% oem-производителей.
означает ли это, что другие производители действительно не могут выйти на рынок комплексных решений?
несмотря на то, что nvidia и tesla управляют сквозными алгоритмическими операциями посредством чистого видения, на самом деле сквозные данные могут принимать мультимодальные входные данные.
обычно используемые в настоящее время датчики, такие как радар миллиметрового диапазона, лидар и ультразвуковой радар, имеют относительно фиксированные позиции на транспортном средстве, особенно лидар, который в основном находится на крыше транспортного средства. таким образом, можно использовать сквозной мультимодальный доступ. данные, собранные из разных моделей, используются для обучения модели, и пространство для проектирования, оставленное oem-производителю, будет больше.
после очередного раунда обсуждения каждый алгоритм имеет свои преимущества, и до сих пор неясно, какой метод может привести нас к полностью беспилотному будущему.
чжан ханг (старший научный директор cruise):
я не думаю, что в настоящее время существует какой-либо алгоритм, который мог бы быть простым и масштабным, а затем соответствовать стандарту l4. я думаю, что самого алгоритма не существует. это область, которую все должны продвигать вместе. я очень оптимистичен в отношении того, что каждый достигнет одного и того же пункта назначения разными путями, хотя у всех будут немного разные отклонения.
6. ничего не поделаешь
независимо от того, какой алгоритм используется, в конечном итоге он столкнется с проблемой длинного хвоста.
в рамках традиционной модели, основанной на правилах (управляемой правилами), написание базы правил требует огромной команды, тратящей много энергии, и сложно охватить все. так что при сквозном подходе может возникнуть проблема с длинным хвостом. быть решено?
минфа ван (бывший старший инженер по машинному обучению waymo):
он решил обычные случаи, но я думаю, что проблема с длинным хвостом все еще будет существовать.
минфа считает, что уровень отказоустойчивости системы автономного вождения очень низок. если на l4 будет использоваться система «черного ящика», необходимо ввести другие механизмы безопасности, но это возвращается к вопросу стоимости в режиме, основанном на правилах.
алгоритм автономного вождения сначала будет отработан в системе моделирования. может ли обучение с помощью моделирования решить определенные проблемы с длинным хвостом?
чжан ханг (старший научный директор cruise):
в настоящее время не существует хорошего решения, которое действительно могло бы улучшить наши реальные дорожные характеристики с помощью сгенерированных данных моделирования.
минфа ван (бывший старший инженер по машинному обучению waymo):
в области автономного вождения или робототехники среда очень и очень сложна. если вы хотите моделировать, вы моделируете не только себя, но и то, как машина будет двигаться в будущем. меняется собственная машина. время от времени вы будете влиять на поведение всех машин и людей вокруг вас, чтобы оно изменилось.
как хорошо смоделировать, не вызывая сдвига распределения (сдвига распределения), я думаю, это все еще открытая тема.
поскольку виртуальные сцены не могут полностью имитировать возможности реальности, означает ли это, что в настоящее время в отрасли нет способа решить проблему «длинного хвоста» и можно полагаться только на долгосрочное накопление опыта?
анонимный респондент (инженер л4):
в определенной степени да, но вам не обязательно быть идеальным, верно? люди не идеальны, просто нужно стараться лучше других. у людей тоже есть свой уровень несчастных случаев, и пока вы справляетесь лучше, этого достаточно.
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
я думаю, что проблема «длинного хвоста» на самом деле является ложным утверждением, и я рад, что вы подняли ее.
по моему мнению, существует проблема с длинным хвостом. например, что мне делать, если я увижу крокодила? что мне делать, если я увижу слона? я вижу припаркованный на шоссе самолет, что мне делать?
фактически, многие проблемы с длинным хвостом мы объединяем в большую категорию проблем. как обращаться с объектами, которые я никогда раньше не видел? это довольно легко решить, если свести это к более общему типу проблемы.
например, однажды мы увидели припаркованный на шоссе самолет, поэтому наше решение было очень простым: остановитесь, верно?
является ли проблема «длинного хвоста» ложным утверждением или это проблема, которую необходимо решить? у каждого может быть свой ответ на эту тему. проблема «длинного хвоста» соответствует ситуации, когда l4 или даже l5 могут быть развернуты в больших масштабах, поэтому давайте посмотрим на ожесточенный конфликт между l2 и l4.
4. сможет ли tesla robotaxi добиться успеха: конфликт между l2 и l4
1. «это невозможно сделать»
мы поинтересовались мнением гостей до того, как маск объявил об отсрочке запуска «роботакси». все были очень единодушны во мнении: запуск автономного такси tesla в этом году невозможен.
основная причина, по которой у всех такое единое мнение, заключается в том, что существующие модели tesla не могут соответствовать стандарту l4 для беспилотных такси.
лю бинъянь (руководитель отдела программного обеспечения kargo):
я абсолютно уверен, что существующие модели tesla имеют очень четкие слепые зоны. если он хочет достичь максимального результата, будь то автономное вождение l4 или l5, его следующая машина должна решить эту проблему. чтобы решить эту проблему слепых зон, мы вернемся к тому, о чем мы только что сказали: необходимо отрегулировать положение датчика камеры. непосредственным результатом регулировки этих положений является полный отказ предыдущей модели.
с точки зрения архитектуры визуальных камер для существующих автомобилей невозможно достичь fsd, который можно было бы полностью оставить без присмотра. с этой точки зрения у него должно быть новое оборудование.
чжан ханг (старший научный директор cruise):
с точки зрения сенсора необходимо ввести некоторую избыточность, которая раньше не требовалась в l2.
хотя инсайдеры отрасли не настроены оптимистично, что дает маску такую уверенность в запуске robotaxi?
ю чжэньхуа (бывший инженер tesla ai):
я думаю, что основная причина заключается в нескольких технических прорывах этого fsd v12. как персонаж маска, когда он сегодня увидел fsd v12 в своем плане, он почувствовал, что robotaxi следует включить в повестку дня.
итак, может ли fsd v12 позволить tesla перейти на l4 и взять на себя важную задачу роботакси? насколько велик разрыв по сравнению с существующими waymo или cruise?
когда мы брали интервью у хоу сяоди по этому вопросу, его ответ позволил нам увидеть другую точку зрения в отрасли: разрыв между l2 и l4 очень велик.
2. «даже близко»
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
прежде всего, то, что делает tesla, — это не вождение без водителя. то, о чем мы говорим сегодня, — это решение, которое отстраняет людей и заставляет компании-разработчики программного обеспечения брать на себя ответственность. это называется вождение без водителя. давайте не будем вести ложную пропаганду, называемую fsd. вождение, а это не вождение без водителя, поэтому то, что вы делаете, — это не одно и то же.
в настоящее время вождение с помощью l2 широко используется автомобильными компаниями, такими как tesla, xiaomi, huawei, xpeng и т. д., в то время как такие компании, как waymo, cruise, baidu и другие беспилотные такси, используют высокоавтоматизированное вождение l4, оставляя в стороне письменные определения понятий,существенная разница между ними заключается в том, кто несет ответственность.
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
решение, которое устраняет людей и возлагает ответственность на компании-разработчики программного обеспечения, называется автономным вождением. позвольте мне рассказать вам анекдот: что, если тесла кого-то сбьет и убьет? для илона маска это не их дело.
поэтому, если tesla хочет создать беспилотные такси, она должна взять на себя ответственность. так в чем же технические различия между вождением с ассистентами и автономным вождением?
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
какова основная проблема, которую необходимо решить с помощью автономного вождения l4? это безопасность, это избыточностьдаже если каждый модуль системы может выйти из строя, система все равно сможет обеспечить максимальную безопасность. это самая сложная и важная часть l4. прежде чем зарабатывать деньги, необходимо решить проблему безопасности, но этот вопрос вообще не является целью разработки tesla.
другой исследователь автономного вождения l4 также проанализировал различия между l2 и l4 с точки зрения аппаратного и программного обеспечения.
чжан ханг (старший научный директор cruise):
решение l4, прежде всего, заключается в том, что у нас есть относительно мощные датчики, которые может быть сложно использовать в сценариях l2, по крайней мере, не такой высокоточный лидар.
с алгоритмической точки зрения l2 может быть более ориентирован на повышение эффективности и очень низкое снижение затрат. он не требует особенно дорогих датчиков и может потребовать меньше вычислений для достижения такого эффекта. этим l2 на самом деле не нужно рассматривать этот случай один на миллион.
тогда мы в l4 стремимся к тому, чтобы человеческая удаленная помощь вводилась только один раз на миллион миль или больше. мы стремимся к тому, чтобы это был один случай на миллион.
подводя итог:в решении l4 используются датчики более высокой точности, чип обладает большей вычислительной мощностью и может обрабатывать более сложные сценарии.
однако в решении l2 основным фактором является стоимость, поэтому уровень оборудования будет немного ниже. в то же время, чтобы адаптироваться к оборудованию более низкого уровня, алгоритм будет уделять больше внимания эффективности, а не безопасности, поэтому. частота поглощений l2 будет намного выше, чем у l4.
итак, могут ли компании уровня 2, такие как tesla, достичь эффекта уровня 4 за счет улучшения аппаратного и программного обеспечения?
3. «две разные вещи»
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
я не поддерживаю медленную эволюцию l2 к l4 и l5. я думаю, что это еще одно ложное утверждение с сильными экстраполяционными свойствами.
могут ли дельфины со временем превратиться в цивилизацию? я думаю, что это возможно, но мы должны знать, что земная цивилизация больше не может терпеть эволюцию дельфинов, потому что уже есть компании, которые сделали это. моя компания здесь, чтобы как можно быстрее реализовать l4 на практике. я не буду иметь с тобой ничего общего после того, как приземлюсь на землю, верно? когда homo sapiens взял в руки копье, дельфинов, способных создать цивилизацию, не было.
по мнению хоу сяоди,существующие компании l4 уже выстроили технические барьеры. в условиях жесткой конкуренции они не дадут l2 шанса на развитие.в то же время некоторые люди считают, что это не означает, что технология l4 более продвинута, чем l2, а что все ориентированы на разные сценарии.
ю чжэньхуа (бывший инженер tesla ai):
если сказать, что l4 действительно технически превосходит и опережает l2, как все себе представляют, то он абсолютно продвинут. поэтому я хотел бы спросить, почему технологию l4 нельзя напрямую понизить до l2?
фактически, в течение последних многих лет из-за давления на доходы компании l4 помогали производителям автомобилей создавать l2, но они не могут просто понизить версию, им, по сути, приходится заново развиваться.
кроме того, мы знаем, что в соединенных штатах gm (general motors) владеет компанией cruise l4, а ford владеет компанией argo ai, которая также является компанией l4. почему gm не может использовать технологию cruise в своих серийных автомобилях? почему ford не может использовать технологию l4 от argo ai на своих серийных автомобилях? так что l4 не является абсолютно более продвинутым, чем l2. с точки зрения технической сложности, я не думаю, что если вы сделаете l4, вы покажетесь очень продвинутым.
почему технологию l4 нельзя напрямую понизить до уровня l2 для дальнейшего использования? чжан ханг объяснил, что, поскольку l4 использует более высокие характеристики оборудования, а алгоритм l2 должен адаптироваться к датчикам с более низкими характеристиками и процессорам с меньшей вычислительной мощностью, технологии этих двух систем не могут быть напрямую перенесены.
точно так же, как архитектурному дизайнеру, у которого конфисковали компьютер и дали только менее точную линейку, ручку и бумагу, ему также пришлось адаптироваться к новому способу рисования.
чжан ханг (старший научный директор cruise):
проблема, о которой вы упомянули ранее, заключается в объеме вычислений. невозможно поддержать решение l2. мы помещаем суперкомпьютер в багажник автомобиля. это нереальное решение.
в то же время чжан ханг также проявил более непредвзятость при сравнении технологий l2 и l2, которые имеют более широкий охват и должны учитывать больше сценариев, и необходимо решать только базовые проблемы. l4 имеет ограниченный охват, но уделяет больше внимания различным деталям. итак, между ними есть плюсы и минусы.
чжан ханг (старший научный директор cruise):
сам по себе l4 нельзя использовать в качестве решения l2, просто упрощая существующую систему и устраняя избыточность, а наоборот. если вы хотите достичь стандартов l4 в l2, потребуется много времени на оттачивание. вам нужно много времени для сбора данных и последующего накопления опыта.
но я не думаю, что это означает, что наш технический маршрут или техническая глубина будут выше, чем l2. я не думаю, что это обязательно так, в l4 может быть много не очень передовых алгоритмов, но некоторые из них решаются. тщательный дизайн. это очень подробные вопросы с длинным хвостом.
какую точку зрения вы бы поддержали? вы можете оставить сообщение, чтобы сообщить нам. в наших интервью у разных людей будут свои ответы на этот вопрос.
ю чжэньхуа (бывший инженер tesla l2):
я думаю, что широкая публика и даже некоторые компании l4 внушат каждому концепцию, что технология l4 лучше, чем l3, а затем и лучше, чем l2. я думаю, что это сценарий, который выходит за рамки своих ограничений, чтобы ввести общественность в заблуждение, поскольку нынешний robotaxi l4 имеет очень ограниченные сценарии и должен находиться в определенном регионе. например, waymo может работать только в одном регионе работы.
шао сюхуэй (управляющий партнер-инвестор foothill ventures):
лично я по-прежнему буду с оптимизмом относиться к компаниям l4, потому что из этой логики l4 может уменьшить размерность и атаку, но если вы будете делать только это, то вас не поднимут на l2, или вас будет очень и очень сложно повысить.
анонимный респондент (инженер л4):
на самом деле, я не думаю, что в стеке технологий есть особенно сложный порог. например, если сегодня компания может претендовать на звание компании l2, то, возможно, завтра она добавит несколько новых технологий, а также сможет сделать l4, верно. ? все зависит от того, какую технологию он использует в своем применении или какие новые технологические прорывы у него есть, верно?
хоу сяоди (бывший основатель и генеральный директор tusimple, основатель bot.auto):
вождение с ассистентом и беспилотное вождение — две разные вещи.
продюсеры: хун цзюнь, чэнь цянь, автор: ван цзыцинь, редактор: чэнь цянь