Диалог между Лан Сяньпэном и Цзя Пэном, неуспевающим учеником: почему он сдал работу раньше времени?

2024-08-02

Интеллектуальное вождение, дорогая гонка начинается. Определите рейтинг и определите будущее.

Текст丨Чэн Манци Доу Яджуань
Редактор 丨 Сун Вэй

Доктор Гу Цзюньли, который работал в Tesla и Xpeng, сказал, что интеллектуальный прогресс в исследованиях и разработках в Китае отстает как минимум на 1,5-2 года от Tesla. Лан Сяньпэн, вице-президент Lideal Zhijia, считает, что разрыв не так уж велик и что с точки зрения опыта работы с продуктами Lideal отстает максимум на полгода.

Ideal подчеркивает, что его преимущество в умном вождении состоит в том, что у него больше машин и больше данных Хэ Сяопэн, основатель Nonsense».

Ценовая война все еще бушует, и новые автомобильные силы Китая коллективно втиснулись на новое поле битвы – интеллектуальное вождение, полное разногласий, споров и погони друг за другом.

Не все автомобильные компании могут позволить себе этот билет. Инвестиции в исследования и разработки в области умного вождения начались с 3 миллиардов юаней и растут с каждым годом. В идеале аренда карты сейчас стоит 1 млрд юаней в год, а в будущем будет стоить 1 млрд долларов США.

Причина, по которой новые силы настолько сумасшедшие и не желают отставать, заключается в том, что они увидели огромный прогресс Tesla FSD V12 (новая версия полностью автономного вождения, которую Tesla начнет широкомасштабно продвигать в январе 2024 года), и они также увидели влияние интеллектуальных возможностей вождения на решения потребителей. В сентябре прошлого года компания Huawei объявила, что к концу года выпустит решение без изображения, которое можно будет использовать по всей стране. В то же время отрасль активно продвигает умное вождение. Всего за один месяц ежемесячный объем продаж, исчислявшийся тысячами, превысил 10 000, а к концу года достиг отметки в 30 000.

Вскоре после того, как Huawei объявила о своем радикальном плане умного вождения, компания Ideal провела осеннюю стратегическую встречу 2023 года и дала понять, что умное вождение является основной стратегией и ее нельзя терять. Генеральный директор Ли хочет сказать: «К 2024 году мы станем абсолютным лидером в области умного вождения».

С тех пор Ideal ускорил итерации и продвинулся вперед по двум направлениям: используя NPN (Neural Prior Net, априорный нейронный алгоритм, который использует априорную информацию о некоторых дорогах и картах, чтобы помочь идентифицировать особенности дороги и уменьшить зависимость от высокоточных карт). ), мы, наконец, догоняем. NOA «Сотня городов» было запущено в конце прошлого года, в тот же период, NOA без изображений было предварительно разработано в октябре прошлого года, а внутреннее тестирование с участием тысяч людей началось четыре раза; несколько месяцев спустя, а полностью запущен в июле этого года.

Этим летом уже некогда дышать. В следующую битву вступают новые силы: сквозной. Технический термин, который не понимает большинство потребителей, стал полем битвы для военных стратегов.

Значение сквозного подхода заключается в том, что он переносит исследования и разработки в области интеллектуального вождения в эпоху искусственного интеллекта — больше не нужно полагаться на большое количество ручного программирования. Пока для обучения модели используется больше данных, система будет продолжать работать. стать сильнее и работать лучше, чем водители-люди. Маск считает, что это значительно приблизит людей к полностью автономному вождению.

На этой неделе компания Ideal запустила внутреннее тестирование новой архитектуры «сквозная + VLM (большая модель визуального языка)» с участием тысячи человек, назвав ее более продвинутой моделью и первой в мире реализацией двойной системы. Одна модель означает, что модули восприятия и принятия решений автономного вождения дополняются одной моделью. Входными данными являются данные датчиков, а выходными данными — траектория движения.

Автономное вождение состоит из трех модулей: восприятие, планирование и принятие решений, а также контроль. Оно основано на восприятии, чтобы «видеть», принятии решений, чтобы «думать», как водить машину, и модуле управления, чтобы завершить поведение вождения. Сквозная технология — от восприятия до принятия решений, и весь процесс реализуется с использованием большой модели.

Примерно в это же время в начале июля Weilai объявила о массовом производстве комплексной системы AEB (функция экстренного торможения). Модели Другой, конечно, Tesla Pull. Если учесть поставщиков, Huawei и Momenta завершили комплексное развертывание в этом году.

Ideal начнет разрабатывать собственное умное вождение только в 2021 году, на два года позже, чем Weilai и Xpeng. Текущий прогресс «Идеала» подобен отстающему, внезапно узнавшему ответ и сдающему работу заранее.

В этот момент мы поговорили с Лан Сяньпэном, вице-президентом компании Ideal Intelligent Driving, и Цзя Пэном, руководителем отдела исследований и разработок в области технологий идеального интеллектуального вождения. Они объясняют, как этого добиться.

Лан Сяньпэн — умный водитель, который любит называть ключевые проекты в честь греческой мифологии. Он специалист в области распознавания образов и интеллектуальных систем. Кампании, которые он завершил в Ideal, включают «Акрополь», «Илиаду» и «Титан». В 2018 году Лан Сяньпэн перешел в Ideal из Baidu в качестве директора по автономному вождению, а позже был назначен вице-президентом.

Цзя Пэн — молодой руководитель отдела технологических исследований и разработок. Он был одним из первых, кто занимался интеллектуальным вождением в NVIDIA в Китае. Он увидел, что чип-гигант первым предложил комплексные, крупномасштабные модели автономного вождения, но обнаружил, что только автомобильные компании могут по-настоящему реализовать их.

Компании, которые полностью привержены комплексному подходу, имеют разные дорожные карты и прогресс, но их объединяет одна цель и одно техническое направление: в конечном итоге реализовать автономное вождение L4.

Сегодня мы видим повальное увлечение интеллектуальным вождением и комплексностью не только из-за технических убеждений, но также из-за конкуренции, менталитета пользователей и рейтингов продаж.

Это дорогая гонка. Цена — это не только огромные затраты на набор людей, покупку графических процессоров и обучение моделей. Прежде чем L4 будет по-настоящему реализован, на сиденье водителя все еще будет сидеть человек. Безопасность, надежность и устойчивость являются стандартами тестирования современного умного вождения.

Отстающие сдают бумаги

«Поздно»: компания Ideal начнет самостоятельно разрабатывать интеллектуальное вождение только в 2021 году, позже, чем Xpeng и NIO, и всегда была в состоянии догонять. До этого года он перешел напрямую с NPN на NOA без изображений, а затем на этой неделе начал сквозное внутреннее тестирование с участием тысяч людей. Кто-то прокомментировал, почему отстающие вдруг сдали работы раньше времени?

Лан Сяньпэн: Это может быть контратака диаоси.

В прошлом году мы сделали три поколения: от графов до NPN «предварительной информации» и без графов. В июне этого года была проверена сквозная архитектура, а также была предложена архитектура быстрой и медленной системы. Быстрая система является сквозной, что означает возможность быстрой обработки информации для ежедневного вождения; системой является VLM (модель визуального языка), которая позволяет обрабатывать сложные сценарии.

Более того, наша сквозная модель — это одна модель, вход — датчик, выход — траектория движения, и все это реализовано одной моделью, без каких-либо правил посередине. За исключением Tesla, другие автопроизводители реализовали сквозную реализацию только в определенном звене.

«Поздно»: Ваш первый ключевой прогресс — от решения NPN до отсутствия изображения, вы начали его проверять в октябре прошлого года, оно прошло внутреннее тестирование в феврале этого года и было полностью запущено в июле. На переход потребовалось всего 4 месяца. Звучит невероятно. Как вам это удалось?

Лан Сяньпэн: Мы более эффективны и быстрее, чем другие. Например, это экономит много времени в процессе принятия решений. От принятия решения о том, что делать, до составления плана и сбора команды может пройти всего неделя. Если это традиционная автомобильная компания, запуск проекта может занять 3 месяца.

«Позже»: От чего ты ради этого отказался?

Лан Сяньпэн: Возможно, это личный перерыв. Все знают цели компании, и мы не отступаем.

Цзя Пэн: Я тоже к этому привык. Я ушел из NVIDIA и присоединился к Ideal в 2020 году. Мы всегда сталкивались с ситуацией, когда мы отстаем и родители ругают нас каждый день.

«Позже»: Это родитель Ли Сян?

Цзя Пэн: Это пользователь.

«Позже»: Кажется, направление вашего пути в области интеллектуальных технологий вождения совершенно ясно – учиться у Теслы. Как именно вы этому научились?

Лан Сяньпэн: Каждый будет думать, что технологические исследования и разработки требуют времени, но часто требуется не время исследований и разработок, а время проб и ошибок. Tesla действительно является хорошим эталоном. Если методом проб и ошибок она не сработает, мы не уйдем.

Эволюция и итерации Tesla FSD показали нам, что успеха можно достичь и без изображений. Выбрать NPN или нет изображения? Теперь, когда Tesla вышла на рынок, мы не выбрали изображение, поэтому перешли на него в течение нескольких месяцев.

Но самое большое вдохновение для нас Tesla — это то, как перейти от 0 к 1 и от 1 к 10 в исследованиях и разработках автономного вождения. Tesla сначала использовала решение поставщика Mobileye для умного вождения, но вскоре обнаружила, что поставщик не может удовлетворить его требования, поэтому в 2016 году начала самоисследование, пережила период шока и, наконец, добилась результатов Mobileye. В 2019 году компания разработала собственный чип FSD и имела аппаратное обеспечение для поддержки исследований и разработок в области искусственного интеллекта. С тех пор он стал комплексным и использует возможности искусственного интеллекта для интеллектуального вождения.

«Позже»: Ядро V12 является сквозным. На самом деле версия V11, выпущенная Tesla в начале 2023 года, была безобразной. Почему вы просто не изучили ее тогда?

Лан Сяньпэн: Похоже, все думают, что высшая математика очень важна, но если вы не знаете четырех арифметических операций, как вы сможете хорошо выучить высшую математику?

Я также общался по этому поводу с У Синьчжоу (бывшим руководителем отдела интеллектуального вождения Сяопэна). Мы все согласны с тем, что весь процесс можно ускорить, но не пропустить. Все делают сквозное, но от графа, NPN, без графа до сквозного, каждый шаг нельзя пропустить. Пропуская эти шаги, вы фактически пропускаете большую часть технических знаний.

Если бы мы не попытались построить стогородскую НОА во второй половине прошлого года, у нас не было бы такого четкого понимания провала NPN. Если говорить только о масштабе, то в стране всего от 30 000 до 400 000 километров автомагистралей, но в городах — миллионы километров. Если мы захотим развернуть эту карту по всей стране, эта карта вообще не будет завершена.

«Позже»: Но раньше вы говорили, что важное решение — это не вопрос, сможете ли вы это сделать, а вопрос, осмелитесь ли вы это сделать.

Лан Сяньпэн: Дело не в том, что это невозможно сделать, это будет война за ресурсы. В любом случае, если вы захотите это сделать, тысячи людей распространят это.

Цзя Пэн: Мы шутим между собой, что эта дорога в конечном итоге превратится в картографическую компанию.

«Позже»: На что вы рассчитывали ускориться позже?

Лан Сяньпэн: Организационная эффективность всегда была идеальным преимуществом. Переход от NPN к безграфическому, а затем к сквозному — это большие перемены, но мы сделали это, как только попросили.

Эффективность сотрудничества между исследованиями и разработками очень важна. Технология должна преодолеть верхний предел. Трудно сделать выбор, но после того, как выбор сделан, доставка должна нести ответственность за повышение нижнего предела. На совещании по стратегии компании во второй половине прошлого года Ли Сян ясно дал понять, что RD (исследования и разработки) и PD (массовое производство и доставка) должны осуществляться вместе. После того, как идеи исследований и разработок будут ясны, они всегда будут. в нашей команде должно быть две линии PD и RD. Делали без картинок в ноябре и декабре прошлого года. К январю этого года РД сразу перенесли на ПД. В феврале впервые дали и продолжают поставлять сейчас версию 5.2. а затем Бета 1, Бета 2 и Бета 3. Он хорошо отполирован.

Цзя Пэн: Я думаю, это быстрый метод проб и ошибок. Наш процесс таков: найти закрытую область, проверить парадигму за короткий период времени, сначала достичь верхнего предела того, чего может достичь эта парадигма, и сразу же расшириться наружу, как только область будет очищена, одновременно добавить политику безопасности, а затем медленно раскатайте его. Давайте проверим эту парадигму по всей стране, чтобы увидеть, работает ли она. Если нет, мы быстро добавим данные и изменим стратегии. В процессе приемки продукта, от птичьего яйца до раннего тестирования и внутреннего тестирования с участием тысячи человек, мы позволяем пользователям работать с нами над тестированием и итерацией продукта.

«Позже»: Это звучит очень рискованно. Как вы были настолько уверены, что сможете пройти через этот процесс?

Лан Сяньпэн: Риск очень высок, но мы всегда были здесь.

В нашем первом автомобиле, Lideal ONE, используется интеллектуальное решение для вождения Mobileye. Позже, когда уже должна была быть доставлена подтяжка лица Ideal ONE, Mobileye заявила, что больше не будет сотрудничать и не может обеспечить доставку в «белой коробке». Это был уже 2021 год, и мы подумали, что если к этому времени не освоить технологию ассистированного вождения, то она точно не заработает. Поэтому я принял трудное решение – сделать это сам. Если мы не можем этого сделать, то это потому, что мы некомпетентны. Но если мы сегодня будем слишком робкими и по-прежнему будем использовать поставщиков, то у нас может не быть будущего.

Мы были «вынуждены» разработать совершенно другой процесс исследований и разработок. Он был поставлен в мае, а прототип должен был быть изготовлен в марте. К 25 мая 2021 года, за день до конференции по запуску Ideal ONE, у нас все еще было несколько проектов. ошибки, которые нужно исправить. Изменения были наконец завершены тем утром. Это прототип нашего текущего процесса: сначала проверяем небольшую область, затем улучшаем возможности, исправляем ошибки и стабилизируем качество.

На тот момент в команде было всего 100 человек, а в первый месяц ушло 40 человек. Кто-то сказал мне: «Почему мы можем за три месяца сделать то, на что у других уходит один или два года? Не обманывайте себя».

«Поздно»: то же самое не изображено. Сяопэн открывал город в прошлом году медленнее, чем вы в этом году, и у него было больше тестировщиков. Сяопэн сказал, что каждый раз, когда он едет в город, чтобы открыть город, он должен провести как минимум четыре тура. Только так можно обеспечить безопасность и не дать пользователю открыть слепой ящик. Как вы обеспечиваете безопасность с помощью вашего метода быстрой разработки, доставки, а затем передачи птичьих яиц тысячам людей для внутреннего тестирования?

Лан Сяньпэн: Нынешний метод оценки систем автономного вождения сильно отличается от прежнего. В предыдущем «умном» вождении функции сначала проектировались, а затем разрабатывались, и каждая функция тестировалась для ее проверки. Сегодняшнее автономное вождение на основе данных основано на возможностях, а не на функциях. «Способности» можно оценить только посредством «экзаменов».

Для сдачи экзамена мы используем модель мира + режим теней. Модель мира реконструируется и превращается в реальную сцену с движущимся автомобилем, что эквивалентно симуляционному тесту для оценки возможностей в процессе исследований и разработок. После прохождения пробного теста мы используем ранние, внутренние тестовые автомобили и теневой режим, чтобы пройти тест на реальном автомобиле. Если вы не пройдете тест, мы продолжим итерацию, пока вы не пройдете тест.

«Поздно»: Если есть ответы на пропозициональные эссе, то в идеале вы можете бежать быстрее других, но ответы не всегда будут доступны. Большинство технических вопросов могут быть открытыми.

Лан Сяньпэн: Сегодня вы видите так называемую композицию предложений. Мы быстро догоняем, но после догона мы можем быть быстрее, потому что вся система настроена.

Это не значит, что мы начнем самоисследования только в 2021 году, чтобы мы могли выпускать продукты, которые хуже, чем у наших аналогов. С первого дня сдачи нам приходится соревноваться с лучшими учениками в классе. Это также означает, что если я буду использовать метод обучения другого человека для обучения, я определенно не смогу учиться у него. Так что нам просто нужно делать все по-своему.

На грани ничейной земли

«Позже»: сквозная концепция не является новой концепцией, которую Nvidia и Waymo предложили несколько лет назад, но почему именно Tesla реализовала и продвигала ее?

Цзя Пэн: Потому что он не только выдвигает технические идеи, но и показывает всем результаты использования.

Лан Сяньпэн: Многие люди в Тесле видели это, потому что верили в это, но больше людей поверили этому, потому что видели.

«Поздно»: Если бы Тесла не исследовал путь вперед, отстал бы идеал на более длительное время?

Лан Сяньпэн: Алгоритмически мы опоздали, потому что исходных условий и ресурсов было недостаточно. Но еще не поздно накопить данные и построить систему исследований и разработок, чтобы мы могли наверстать упущенное.

С самого начала мы четко понимали философию Tesla: управление данными — это правильно, поэтому мы будем строить инфраструктуру исследований и разработок в соответствии с ней. В первом поколении Ideal ONE в 2019 году мы создали систему замкнутого цикла обработки данных — Poseidon, набор цепочек инструментов для сбора, анализа, маркировки и обучения данных. В то время у нас не было ресурсов для проведения собственных исследований, но мы также разместили дополнительную камеру рядом с камерой Mobileye для сбора и анализа проблем.

Например, если во время дорожного испытания обнаруживается проблема, традиционный метод состоит в том, чтобы человек на борту записал ее и затем ехал до тех пор, пока та же сцена не повторится. Мы столкнулись с проблемой. Данные можно синхронизировать обратно в фон. Тест еще не закончен, данные проанализированы, и проблема даже начала решаться. То, на что у традиционных компаний уходит несколько дней или даже недель, мы, вероятно, сможем сделать за час.

С точки зрения накопления данных, общий пробег идеальных пользователей при автономном вождении превысил 2 миллиарда километров, из которых почти 1 миллиард километров был пройден NOA. Tesla сделала это раньше, имеет большее количество клиентов и больший пробег.

«Позже»: Это больше настойчивость Ли Сяна или ваша?

Лан Сяньпэн: Мы единодушны. Когда я пришел в Ideal на собеседование в 2018 году, Ли Сян спросил меня, какую главную проблему необходимо решить, чтобы наконец реализовать L4? Я говорю данные – без замкнутой системы данных, будь то образец или вопрос, эффективность анализа невысока. Люди могут заниматься майнингом и разрабатывать алгоритмы, но если проблема с данными не будет решена, это определенно не будет сделано хорошо.

«Опоздал»: Weilai совсем недавно начал серийное производство сквозного AEB; Каковы общие различия между каждой компанией?

Цзя Пэн: Текущая архитектура Xpeng 5.2 похожа на Wutu, который мы только что запустили в июле. Восприятие — это модель, принятие решений — это модель, и они связаны посередине. Они только что завершили это. ADS 3.0, выпущенный Huawei, также сегментирован насквозь.

Тесла — это модель от восприятия до принятия решений. Наша последняя версия также объединяет восприятие и принятие решений в одну модель, и на этой неделе ее начали тестировать на тысячах людей.

«Поздно»: В чем разница между сквозной и сегментированной сквозной одной моделью восприятия и принятия решений? Кто впереди?

Лан Сяньпэн: Это все еще зависит от цели. Сегментированная модель больше подходит для автономного вождения на уровне L2+, тогда как одна модель действительно может выполнять автономное вождение на уровне L3 и L4.

Потому что, хотя сегментированный сквозной подход заменил некоторые правила на управляемые данными в модуле принятия решений, правила по-прежнему существуют во всем процессе. По сути, он аналогичен предыдущей архитектуре интеллектуального вождения, а также исследованиям и разработкам. Процесс также аналогичен, но все еще разделен на модули. Одна модель не содержит никаких правил. Данные датчиков поступают, а запланированная траектория выводится исключительно на основе данных.

«Позже»: Можете ли вы объяснить в одном предложении, в чем заключается наибольшая ценность сквозного соединения?

Цзя Пэн: С точки зрения пользователя, поведение вождения становится более похожим на человеческое, а детальное управление становится более плавным. С точки зрения исследований и разработок итерация более эффективна.

Лан Сяньпэн: Впервые для управления автономным вождением используются сквозные данные. Метод исследований и разработок изменился: от функций и сценариев к улучшению возможностей системы. Это действительно вступление в эпоху искусственного интеллекта. Пока система продолжает становиться сильнее, ее производительность будет превосходить ожидания.

«Поздно»: как обучить более умную модель за меньшее время?

Цзя Пэн: Данные, особенно данные высокого качества, очень важны. Мы отобрали лучшие данные из 20 миллиардов километров данных от 800 000 владельцев автомобилей, обучили более 1 миллиона километров данных и к концу года превысили 5 миллионов километров.

Второй — метод обучения. На основе имитационного обучения мы добавляем обучение с подкреплением, чтобы модель знала, что не так.

Лан Сяньпэн: Последнее — вычислительная мощность. Идеальный графический процессор имеет вычислительную мощность, эквивалентную 5000 A100 и A800. Если вы арендуете карту, это будет стоить 1 миллиард долларов в год, что требует здоровой прибыли для поддержания.

«Позже»: Вы неоднократно подчеркивали, что можете догнать, потому что у вас есть данные, но на этой неделе Хэ Сяопэн сказал: «Если кто-то говорит, что у него много автомобилей и много данных», чтобы иметь возможность осуществлять автономное вождение, «Не верьте, это абсолютная ерунда».

Лан Сяньпэн: Мы также надеемся, что каждый сможет относиться к продуктам объективно. Но мы все еще живем в эпоху, когда Эдисон и Тесла доказали, что лучше — постоянный или переменный ток. Один человек использовал переменный ток для поражения электрическим током, а другой продемонстрировал, что переменный ток можно использовать для прохождения через человеческое тело.

«Позже»: у Tesla больше всего данных и самые большие инвестиции в вычислительные мощности. Означает ли это, что ее невозможно превзойти?

Цзя Пэн: Текущее ограничение Tesla — аппаратное, потому что вычислительная мощность HW 3.0 (интеллектуальное вождение Tesla третьего поколения) составляет 144 TOPS, и параметры модели, которые она может поддерживать, не будут особенно большими, если вы добавите слишком много данных». Катастрофическое забвение». Именно поэтому после обновления V12.4 некоторые сцены стали лучше, а другие стали хуже, например, пустые сцены начинают случайным образом менять полосу движения.

«Позже»: Но если посмотреть на это с другой точки зрения, FSD может бесперебойно работать на HW 3.0, который был запущен в 2018 году, что показывает, что Tesla обладает сильной способностью сочетать программное и аппаратное обеспечение.

Цзя Пэн: Это действительно сильно. Но я думаю, что у FSD есть проблемы с проникновением в Китай. Во-первых, большинство дорог в Соединенных Штатах относительно просты; во-вторых, Tesla может получить информацию о топологии дорог в Соединенных Штатах, которая недоступна в Китае. Таким образом, FSD на самом деле является световой картой, а на самом деле у нас нет карты и у нас нет никакой предварительной картографической информации.

«Опоздал»: в июле этого года доктор Гу Цзюньли, работавший в Tesla и Xpeng, заявил, что «прогресс исследований и разработок Tesla на 1,5-2 года опережает отечественное умное вождение». Вы согласны?

Лан Сяньпэн: Я не согласен.

Версия без изображения представляет собой верхний предел правил. End-to-end представляет собой верхний предел управления данными, в нем нет правил, есть только модель. Однако автономное вождение не может быть достигнуто без изображений и комплексного подхода, поскольку оно все еще решает проблему «длинного хвоста» и не может справиться с ситуациями, с которыми никогда раньше не сталкивалось. Чтобы достичь уровня L4, система должна научиться справляться с неизвестными сценариями. Мы считаем, что эта возможность должна быть решена с помощью VLM, а не сквозного решения.

Итак, наша новая архитектура — сквозная + VLM. Первая — это система 1 для быстрого мышления — обработка большинства сценариев вождения, требующих быстрого реагирования; вторая — это система 2 для медленного мышления и долгосрочного принятия решений — она может учиться. Научитесь здравому смыслу, чтобы действовать в неизвестных ситуациях, таких как распознавание невидимых светофоров неправильного типа, различных форм приливной разметки, особенностей окружающей школы и т. д., и заранее сообщите машине, что она не может въезжать или замедляться.

Система 1 + Система 2, идеал — первым построить эту архитектуру.

Цзя Пэн: Судя по общедоступной информации, текущая техническая архитектура Tesla не имеет VLM.

«Опоздал»: Wayve, британская компания по производству беспилотных автомобилей, в которую инвестировали Nvidia и SoftBank, выпустила Lingo-2 в апреле этого года. Она также добавила в автомобиль большую языковую модель. Вас вдохновил Wayve?

Лан Сяньпэн: У него нет Системы 1. Lingo-2 и облачные модели Wayve представляют собой мультимодальные модели большого языка, аналогичные VLM. Идея состоит в том, что модель решает систему 1 плюс систему 2. Однако во время массового производства обнаружится, что вычислительная мощность Орина имеется и не может поддерживать большую модель Системы 2. Wayve может это сделать, поскольку это не серийный автомобиль, и для запуска Lingo-2 требуется сервер в задней части автомобиля.

Цзя Пэн: Первым источником вдохновения для нас послужили роботизированные системы Google RT-1 и RT-2, которые представляют собой модель VLA (визуально-языковое действие), и окончательное поведение также выводится этой моделью. Возможно, это финал: если мое оборудование достаточно хорошее, я теоретически могу запустить VLA в режиме реального времени.

«Позже»: То есть вдохновение пришло не от автомобилестроения, а от робототехники?

Лан Сяньпэн: Потому что мы рассматриваем автономное вождение как типичное применение искусственного интеллекта. Это двухсистемное решение фактически предлагает универсальную интеллектуальную архитектуру, которая обеспечивает автономное вождение в автомобиле и интеллектуальный робот в роботе.

«Поздно»: предложенная вами архитектура «сквозная + VLM», первая вдохновлена Tesla, вторая — Google RT, а статья VLM — результат сотрудничества с Университетом Цинхуа. Означает ли это, что на данном этапе вы более привыкли к комбинированным инновациям?

Лан Сяньпэн: При сотрудничестве с профессором Чжао Сином из Университета Цинхуа наши мнения столкнулись друг с другом, и не он предлагал эти мнения, а мы их реализовывали.

«Позже»: Вы рассматриваете автономное вождение как часть универсального воплощенного интеллекта. Есть ли у него также законы масштабирования, и верите ли вы в законы масштабирования?

Лан Сяньпэн: Законы сквозного масштабирования не будут особенно очевидны, потому что параметры ограничены, и могут быть заполнены десятки миллионов данных, и если вы добавите больше данных, они начнут забываться. уже видел это явление в Tesla FSD V12.4.

Но законы масштабирования VLM определенно существуют, и они могут достигать десятков миллиардов или даже сотен миллиардов параметров. Пока имеется достаточно данных и достаточно большие параметры, производительность будет увеличиваться. Эта дорога для нас очень привлекательна.

«Поздно»: если VLM может работать достаточно быстро и иметь достаточно низкую задержку в автомобиле, нет ли необходимости в Системе 1?

Цзя Пэн: Теоретически да. Теперь наш VLM может достичь 3,4 Гц на автомобиле (Примечание: Гц — это количество периодических событий, происходящих в единицу времени. Чем больше значение, тем меньше задержка. Это модель с 2,2Б (2,2 миллиарда) параметров, но). Чтобы иметь возможность сквозной замены, ему необходимо достичь более десяти Гц, что соответствует задержке в 100-200 миллисекунд, что соответствует скорости реакции человека. Некоторые сценарии имеют более высокие требования к задержке, например AEB (экстренное торможение).

«Позже»: Насколько уникальна эта структура? Huawei также говорит о Системе 1 и 2; «Большая языковая модель XBrain» Сяопэна также касается неизвестных сценариев. Похожа ли она на Систему 2, о которой вы говорите?

Лан Сяньпэн: Мы первые в отрасли предложили двойные системы, и наша VLM развернута на серийном автомобильном чипе Orin X. Предыдущие аналогичные попытки других компаний предпринимались на промышленных компьютерах.

Будь то сквозная модель или VLM, эта архитектура уже реализована и тестируется тысячами людей.

«Позже»: Вы также упомянули, что работаете над моделью облачного мира. Какую роль это играет во всей архитектуре?

Цзя Пэн: Это наша система 3. Модель облачного мира делает две вещи: во-первых, VLM можно выделить из модели облачного мира, которая заключается в том, чтобы сначала обучить очень большую модель в облаке, такую как параметр 400 B Lamma 3.1, недавно выпущенный Meta, а затем выделить модель облачного мира. Модель 8B Это работает лучше, чем обучение модели 8B с нуля.

Во-вторых, модель мира может изучить возможности Системы 1 и Системы 2. В процессе сквозного безкартового тестирования мы обнаружили, что общенациональная проверка очень сложна. Существует 10 миллионов километров дорог, и раньше мы могли только выделить рабочую силу для ее тестирования.

«Поздно»: Тесла также работает над моделью мира. Но нужно ли отрасли столько мировых моделей? В конце концов, у нас есть только один мир.

Лан Сяньпэн: В процессе от 0 до 1 будет много маршрутов и попыток. Точно так же, как нам не нужно так много марок электромобилей, но в часы пик их сотни.

«Позже»: ранее в отрасли считалось, что рейтинги умного вождения в Китае составляют Huawei, Momenta, Xpeng и Ideal. Когда этот рейтинг будет переписан? И какой следующий момент изменит рейтинг умного вождения?

Лан Сяньпэн: Он был переписан. В будущем каждая команда пойдет на нейтральную полосу: если Wutu решит проблему и его можно будет открыть по всей стране, а сквозное позволит хорошо открыться всей стране, то следующим шагом будет L4.

Как наладить массовое производство L4? Сначала должно распуститься сто цветов, а потом сойдутся. Но не все вернутся к той же стартовой линии, потому что разрыв в данных и вычислительной мощности будет становиться все шире и шире.

Обзор шести ключевых битв за идеальное и интеллектуальное вождение

«Позже»: Я слышал, что ты хорошо называешь сражения.

Лан Сяньпэн: Мы серьезно относимся к присвоению имен.

Команда умных водителей провела шесть ключевых сражений. Первой битвой был проект «Акрополь», затем «Проект «Илиада» и «Проект Одиссея», первая и вторая части эпоса Гомера, затем «Проект «Титан», «Золотое яблоко», а после «Битвы за Титан» — «Новый Бог»; победил старых богов. Теперь давайте перейдем к нынешнему проекту «Дамоклов», который представляет собой комплексный проект. Этот проект сложен и опасен. Если он не будет реализован должным образом, Дамоклов меч упадет.

«Поздно»: Каковы самые большие испытания и награды в каждой битве?

Лан Сяньпэн:

Project Acropolis — наш первый проект самоисследования, обеспечивающий базовые функции, такие как AEB, адаптивный круиз ACC и удержание полосы движения на модели Ideal ONE, выпущенной в мае 2021 года. Эти технологии уже развиты, но нам дано всего 90 дней, Боже, что важно. сильное исполнение. С того дня мы думали о том, как бы нам побыстрее наверстать упущенное.
В 2022 году мы начнем программу «Илиада» — поставку проекта Orin X на модели L9. Предыдущий алгоритм на Horizon J3 больше не применим, и нам необходимо заново разработать систему на Orin. В связи с эпидемией поставки чипов были прекращены, и Bosch не смогла обеспечить достаточное количество чипов для радаров миллиметрового диапазона. Нам пришлось отказаться от углового радара миллиметрового диапазона и использовать чисто визуальное решение для обнаружения слепых зон, обхода препятствий и других функций. В конце концов, на доставку решения ушло три месяца, что на несколько месяцев раньше, чем время, которое потребовалось другу, чтобы доставить Орина.
Одновременно с «Илиадой» Цзя Пэн отвечал за разработку платформы Pro на базе Horizon J5, которая является проектом Odyssey. Самая большая проблема – небольшое количество людей. В то время вся команда насчитывала всего 500 человек. В 2021 году и в Сяопэне, и в Вэйлай были тысячи человек, а в Huawei утверждали, что на тот момент у них было более 2000 человек.
В 2023 году наша платформа Orin стала относительно стабильной и достигла паритета по аппаратному обеспечению. Мы считаем, что следующая битва будет городской NOA, и на первый уровень доберутся только те, кто сможет победить. Это называется Проект Титан.
Проект «Золотое яблоко» — это проект NOA со ста городами, предложенный на Шанхайском автосалоне 2023 года. Он также взят из греческой мифологии. Геракл отправился искать золотые яблоки, но золотые яблоки охранял стоглавый дракон. золотые яблоки, мы должны отрезать головы гигантского дракона одну за другой и уничтожить все сотни городов один за другим.
«Дамоклов проект» — это комплексный проект, начатый в этом году, а это означает, что дамоклов меч падет, если он не будет реализован должным образом.

«Позже»: Другие компании не удалили четырехугольный радар миллиметрового диапазона. Учитывали ли вы влияние на безопасность системы после его удаления?

Лан Сяньпэн: Мы отказались от радара миллиметрового диапазона по двум причинам. Одна из них заключалась в том, чтобы обеспечить доставку. В то время поставки радаров Bosch Corner были прекращены, и нам пришлось сделать выбор. Либо замените радар на зрение, либо не доставите. Второе — выбор технологии. В то время Тесла хотел принять чисто визуальное решение, которое было ближе к способности человека распознавать окружающую среду. Если на кузове автомобиля есть как угловой радар миллиметрового диапазона, так и визуальные датчики, и между ними есть разница, для ее оценки необходимо использовать логику написанных человеком правил, и ошибки неизбежно возникнут.

Еще одним дополнительным преимуществом является то, что технология снижает затраты, экономя около 500 миллионов долларов.

Однако использовать несколько камер для замены углового радара миллиметрового диапазона очень сложно и рискованно. Мы провели множество испытаний, и конечный результат заключается в том, что точность и вероятность успеха немного выше, чем у углового радара.

«Позже»: Вы уже упомянули проблему нехватки ресурсов. Эта проблема решена сейчас?

Лан Сяньпэн: На нашем осеннем совещании по стратегии в сентябре прошлого года мы предложили «три основные стратегии». Первая стратегия – это стратегия разумного вождения. Итак, во второй половине года мы начали набирать много людей. Требования и ожидания компании также возросли, будь то сотня городов или другие, ей необходимо догнать высший эшелон.

«Позже»: Значит, умное вождение раньше не было идеальной базовой стратегией?

Лан Сяньпэн: На этот раз все официально ясно.

«Позже»: Это потому, что вы понимаете, что влияние умного вождения на продажи продукции увеличивается, а расстояние между вами и Huawei увеличивается?

Цзя Пэн: Да, поэтому осенняя стратегия 2023 года будет определять, что в идеале мы будем абсолютным лидером в области умного вождения в этом году, потому что мы считаем, что логика покупки автомобилей во всей отрасли в первую очередь станет умным вождением.

«Позже»: Что вы накопили за шесть боев?

Лан Сяньпэн: Если вы хотите победить, вы должны думать о том, как победить. То есть начните с цели, найдите необходимость и выясните, что нужно сделать, чтобы решить проблему. Примерами являются карты радара с удаленным углом и карты границ NPN.

«Поздно»: Разве отправная точка идеалов не основана на конкуренции? Например, прошлогодняя гонка «Проект 100 городов».

Лан Сяньпэн: В прошлом году, после того как Huawei объявила о запуске ADS (решение NOA от Huawei без карты), которое можно будет открыть по всей стране, мы переоценили конкуренцию и сравнили некоторые показатели Huawei, такие как уровень поглощений, но проигнорировали опыт пользователей. То же самое произошло и этой весной. То, что подверглось критике со стороны всех на совещании по стратегии.

Позже мы подумали, что приемка и доставка продукта должны основываться на оценке пользователей.

«Позже»: Как вы организуете свою научно-исследовательскую и производственную организацию по интеллектуальному вождению, чтобы справиться с сегодняшней жесткой конкуренцией?

Лан Сяньпэн: Наше интеллектуальное вождение — это горизонтальная и вертикальная организация. Я отвечаю за вертикальный бизнес-отдел, занимаюсь исследованиями, разработками и доставкой. Однако организацией, выполнением и эксплуатацией конечного продукта, включая внешний конкурентный анализ и инвестиции в ресурсы для исследований и разработок, занимается интеллектуальная управляющая группа PDT (группа разработки продукта, многофункциональная группа по разработке продукта).

Я буду участвовать в разработке некоторых стратегий и планов по работе с талантами. Как только план будет завершен, мы твердо его реализуем.

«Поздно»: прошлой осенью компания Ideal массово наняла людей, и команда умных водителей расширилась с более чем 700 человек до более чем 1000 человек. В мае этого года она уволила еще две-три сотни человек, а в июне. он отозвал некоторых сотрудников на ключевых должностях. Что значит перейти от приема на работу к увольнению и последующему отзыву сотрудников за короткий период времени?

Лан Сяньпэн: Суть заключается в технологической итерации. В прошлом в системе интеллектуального вождения было большое количество правил, которые требовали ручного программирования, управления прогрессом и тестирования. Но end-to-end — это больше про модели ИИ, и вышеупомянутые позиции существенно сокращены. Позже несколько человек были отозваны, в основном в связи с корректировками, обусловленными потребностями бизнеса. Фактически, команда интеллектуальных водителей Tesla всегда насчитывала от 200 до 300 человек и создала самый большой в мире парк автономных автомобилей.

«Поздно»: сквозная технология Tesla была впервые предложена индийским техником Дхавалом Шроффом и принята снизу вверх. Есть ли в идеальной научно-исследовательской организации почва для инноваций снизу вверх?

Лан Сяньпэн: На самом деле, эти идеи для VLM исходили от наших групп предварительных исследований и исследований и разработок. Мы не планировали такую двойную систему очень рано.

«Позже»: Как бы вы оценили свой кадровый резерв? До Сяопэна был У Синьчжоу, а у Вэйлая был Жэнь Шаоцин. Некоторые считают, что идеальной команде умных водителей всегда не хватало таких технических специалистов.

Лан Сяньпэн: На этом уровне важны как технические способности, так и способность добиваться результатов. Многие из наших технических руководителей, в том числе я, Цзя Пэн и Ван Цзяцзя, работали над автономным вождением в 2014 или 2015 году. Наши новые сотрудники также относительно сильны. В этом году более 200 выпускников в основном входят в число 50 лучших студентов в рейтинге QS100 (британский мировой рейтинг университетов QS). И у нас есть вычислительные мощности и резервы данных, которые являются почвой для роста талантов.

«Поздно»: хотя вы очень рано вошли в сферу интеллектуального вождения, изначально вы работали в Baidu над алгоритмами, связанными с картами, а не над самим интеллектуальным вождением.

Лан Сяньпэн: Опыт Baidu очень важен. Этот опыт заставил меня ничего не бояться в менеджменте. Я верю, что если найду правильный метод, то смогу добиться лучших результатов за более короткое время.

Мой первый проект в Baidu был похож на самоисследование Ideal первого поколения тем, что цикл был чрезвычайно узким. Я присоединился к Baidu в конце апреля 2013 года, а проект Street View будет запущен на конференции Baidu четыре месяца спустя. Вначале в этой команде было всего 4 человека, и наконец мы завершили запуск в полночь за день до конференции.

Здесь есть два ключа. Один из них – использование новых технологий. При создании уличных сцен нужно было размыть номерные знаки и лица. Традиционным методом тогда было делать это вручную, но мы использовали визуальный алгоритм, который быстрее и точнее и экономит много людей; Другое дело — данные. Для этого алгоритма мы изначально хотели сотрудничать с командами Ю Кая (впоследствии основателя Horizon) и Ни Кая (впоследствии основателя Heduo) из Baidu IDL, но их алгоритм имел точность только 86% в этом сценарии. Мы позже. Номерной знак сделали 99% сами, 97% лиц. Ключ в том, что мы отметили десятки тысяч данных.

Алгоритмически мы определенно не так хороши, как они. Это люди с лучшими алгоритмами в мире. Но это всего лишь разрыв в 80 на 90 баллов, по данным сцены у нас на порядок больше. Позже во время интервью Ли хотел спросить меня, какова самая важная проблема в решении автономного вождения? Я бы сказал данные.

«Позже»: За последние несколько лет многие люди решили уйти, потому что не выдержали давления или не верили, что их идеалы могут быть достигнуты. Почему в конце концов вы остались?

Лан Сяньпэн: Мы, группа людей, просто хотим, чтобы L4 состоялся, и я думаю, что это можно сделать только в идеале.

Цзя Пэн: Прежде чем прийти в Ideal, я проработал в NVIDIA 5 лет. Будь то сквозные или большие модели, NVIDIA была первой, кто предложил это, но на тот момент это не было реализовано. Когда я присоединюсь к автомобильной компании, у меня наконец-то появится возможность сделать автономное вождение замкнутым циклом, и это здорово.

Источник титульного изображения: «Гений-стрелок».

Новости

Диалог между Лан Сяньпэном и Цзя Пэном, неуспевающим учеником: почему он сдал работу раньше времени?

Введение

моя контактная информация