Новости

Ли Авто Ланг Сяньпэн: Без прибыли в размере 1 миллиарда долларов США в будущем мы не сможем позволить себе автономное вождение. Эксклюзивное интервью 36Kr |

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Интервью|Ли Цинь и Ли Аньци

Текст | Ли Аньци

Редактор Ли Цинь

В начале июня, за день до выступления на автомобильном форуме в Чунцине, генеральный директор Li Auto Ли Сян временно изменил сценарий выступления. Первоначально команда подготовила для него тему об искусственном интеллекте, но Ли хотел поговорить о автономном вождении.

Ли Сян заявил на встрече, что автономное вождение в будущем будет похоже на людей, со способностью быстро реагировать и способностью обрабатывать сложные события с помощью логического рассуждения. Идеальный ответ: сквозная + модель визуального языка VLM — это также самая горячая тема в индустрии интеллектуального вождения на данный момент.

Месяц спустя команда интеллектуального вождения Li Auto выпустила подробное решение «сквозное + VLM». В отличие от «сегментированного сквозного» решения отечественных аналогов, решение Li Auto ближе к Tesla и называется «One». Модель», большая сеть.

В впечатлении от внешнего мира идеальный умный автомобиль всегда был гонщиком. Во время ожесточенной Кайчэнской войны в отрасли в прошлом году, чтобы догнать темпы отрасли, Ideal начал часто менять свой маршрут: от использования высокоточных карт к световым картам (сетям объектов NPN), а затем исключая карты высокой точности.

Лан Сяньпэн, вице-президент по исследованиям и разработкам интеллектуального вождения Li Auto, и Цзя Пэн, руководитель отдела исследований и разработок интеллектуальных технологий вождения, недавно дали интервью 36Kr. Оглядываясь назад на этот путь поиска, Лан Сяньпэн заключил: «Ядро. Принцип заключается в том, сможем ли мы найти суть проблемы, а затем принять быстрое решение».

Выбор «сквозного» технического маршрута также является продолжением этого принципа. Лан Сяньпэн сказал, что в прошлых решениях для интеллектуального вождения, независимо от того, были ли они с картой или без карты, базовая техническая архитектура была «основана на карте» и работала в соответствии с существующим «процессом восприятия для управления». информация была повреждена, а дальнейшее регулирование и контроль были ограничены. «Это требует много рабочей силы и ресурсов» для постоянного устранения уязвимостей.

Конечно, инвестиции в ресурсы по-прежнему являются второстепенным вопросом. Основная проблема заключается в том, что «опыт интеллектуального вождения, основанный на правилах, имеет верхний предел и никогда не может быть антропоморфным».

«Сквозная модель + VLM + мир» — идеальная парадигма реализации искусственного интеллекта.

Проще говоря, идеальное комплексное решение исключает множество независимых модулей исходной интеллектуальной системы вождения, таких как управление восприятием, прогнозированием и планированием, которые полагаются на искусственные правила, и объединяет их в большую нейронную сеть. «Введите данные датчиков и выведите запланированную траекторию», — заключил Лан Сяньпэн.

Модель визуального языка VLM предоставляет сквозной плагин, аналогичный ChatGPT. Сквозной вопрос: «Какие данные вы ему даете, какое поведение он будет иметь?» Модель визуального языка VLM обладает способностью понимать мир и логически рассуждать. В сложных сценариях сквозные пользователи могут задавать вопросы VLM в режиме реального времени, а те будут давать соответствующие рекомендации.

Модель мира — это огромная неправильная тестовая книга, которая может генерировать данные моделирования посредством реконструкции + производства, а также реальные случаи, накопленные до Идеала, формируя «реальные тестовые вопросы + смоделированные тестовые вопросы» для проверки сквозной модели. Только после того, как модель пройдет тест и получит высокие оценки, ее можно продвигать среди пользователей.

Внутри эти три модели называются Система 1, Система 2 и Система 3 соответственно. Система 1 соответствует режиму мышления в реальном времени в человеческом мозге, Система 2 соответствует логическому мышлению в человеческом мозге, а Система 3 представляет собой экзаменационную модель, отвечающую за принятие результатов обучения и обучения Системы 1 и Системы 2.

Комплексная технология интеллектуального вождения была инициирована компанией Tesla. В августе 2023 года Маск продемонстрировал сквозные возможности версии FSD v12 в прямой трансляции. В настоящее время FSD перешел на версию v12.5. Но в отличие от Tesla, в дополнение к сквозной и мировой модели, Ideal также предоставляет возможности большой языковой модели VLM.

Цзя Пэн объяснил 36Kr, что он провел неделю на восточном и западном побережье США, тестируя FSD Tesla, и обнаружил, что даже у «сквозного» измерения есть верхний предел. На восточном побережье Соединенных Штатов, где дорожные условия сложные, например, в Нью-Йорке и Бостоне, уровень принятия Tesla значительно увеличился: «Количество сквозных параметров модели, которые можно запустить на HW3.0, не будет. быть особенно большим, и емкость модели также имеет естественный верхний предел».

Идеально спроектированная роль VLM заключается в увеличении верхнего предела «сквозной» системы. Она может узнавать о выбоинах на дорогах, школах, отвечать за строительство, кольцевые развязки и другие мероприятия, а также обеспечивать принятие решений для сквозных. -завершение системы в критические моменты.

И Лан Сяньпэн, и Цзя Пэн считают, что VLM является большей переменной в идеальной интеллектуальной системе вождения. Поскольку параметры VLM достигли 2,2 миллиарда, а время отклика составляет 300 миллисекунд, если существует чип с большей вычислительной мощностью, количество параметров, которые может быть развернуто VLM, достигнет десятков миллиардов, что является лучшим путем к передовым технологиям. автономное вождение L3/L4.

«Сама компания VLM также следит за развитием технологии больших языковых моделей. Никто не может ответить, насколько большим будет количество параметров в конечном итоге», — сказал Цзя Пэн.

Нетрудно обнаружить, что такие характеристики, как управление данными и большие визуальные языковые модели, определяют, что индустрия интеллектуального вождения участвует в игре за вычислительную мощность, инициированной такими компаниями, как OpenAI, Microsoft и Tesla.

Лан Сяньпэн не стал смягчать слова. Когда дело доходит до этого момента, все сравнивают количество и качество данных, а также запас вычислительной мощности. Данные высокого качества основаны на абсолютном масштабе данных; для поддержки обучения модели L4 требуется около десятков EFLOPS вычислительной мощности.

«Ни одна компания без чистой прибыли в размере 1 миллиарда долларов США не сможет позволить себе автономное вождение в будущем», — прямо заявил Лан Сяньпэн.

В настоящее время мощность облачных вычислений Li Auto составляет 4,5 EFLOPS, что быстро сократило разрыв с ведущей компанией Huawei. По данным 36Kr Auto, компания Ideal недавно приобрела большое количество облачных чипов NVIDIA и «практически скупила все карты в руках дилеров».

Сам генеральный директор Ли Сян также понимает тенденцию этой конкуренции: использование ресурсов и интеллектуальных технологий для избавления от конкурентов. Он часто берет на себя инициативу и спрашивает Лан Сяньпэна: «Достаточно ли вычислительных ресурсов? Недостаточно, чтобы Се Янь (идеальный технический директор) мог получить больше».

«У нас также есть машины и больше денег, чем у других. У нас есть отличный шанс увеличить разрыв с нашими противниками на этой дороге», — хотел сказать Ли. Финансовый отчет показывает, что по состоянию на первый квартал этого года денежные резервы Li Auto приближались к 99 миллиардам юаней.

Из внутренних данных компания Ideal может видеть, что замкнутый цикл бизнеса умного вождения начал проявлять признаки. В начале июля компания Ideal начала поставлять версию 6.0 Smart Driving, которая может использоваться по всей стране для пользователей версии Max Smart Driving. Лан Сяньпэн обнаружил, что доля модели Lideal Max быстро превысила 50%. более 10% каждый месяц. Если 2%-3% можно понимать как нормальный джиттер, то более 10% — это эффективный рост».

Лан Сяньпэн также знает, что, хотя концепция автономного вождения L4 начинает проясняться, путь ее реализации не изменился: «Мы должны быстро помочь компании продавать автомобили. Только продавая автомобили, мы сможем получить деньги на покупку карточек для обучения умному. вождение».

Если умное вождение станет победителем в будущей автомобильной битве, то это, очевидно, более жестокая ресурсная игра. Компания Ideal провела заблаговременную подготовку от стратегии высшего уровня до технической подготовки и инвестиций в ресурсы. А как насчет других?

Ниже приводится разговор между 36Kr Automobile и Лан Сяньпэном, вице-президентом по исследованиям и разработкам идеальных интеллектуальных технологий вождения, и Цзя Пэном, главой отдела исследований и разработок идеальных интеллектуальных технологий вождения. Отредактировано:

Говоря о верхнем пределе интеллектуального вождения: есть картинка или нет, это однородная архитектура.

36Кр Авто: Была ли внутренняя проверка? Как перейти от отставания в умном вождении к быстрому достижению уровня, сравнимого с Huawei?

Лан Сяньпэн: На самом деле, по сравнению с Xiaopeng, NIO и Huawei, мы не имеем в виду, что у нас несколько голов, и, возможно, у нас даже не так много семей, как у других, но мы требуем быть реалистами. Иногда мне кажется, что люди могут не искать суть проблемы. Сталкиваясь с трудностями, они думают только о том, можно ли изменить и повторить то, что они делают сейчас.

Например, при наличии картинок или их отсутствии самая большая проблема — это сама картинка. Раньше я много работал над картой, и мне хотелось бы еще немного поработать. На самом деле, я хочу быстро инвестировать в следующий этап исследований и разработок. Это зависит от того, сможем ли мы найти существенную проблему и решиться быстро ее исправить.

36Kr Automobile: В идеале добиться умного вождения без карт по всей стране. Как исправить отклонение?

Лан Сяньпэн: В прошлом году на Шанхайском автосалоне все начали делать городские NOA. У каждой компании есть схожие идеи. Для автомагистралей используются высокоточные карты, поэтому первым делом нужно выяснить, можно ли использовать план шоссе в городах. Вам нужно спросить продавца карт, который сказал, что существуют высокоточные карты. городов, но только около 20 городов. Мы сказали сначала попробуй.

Однако итеративное обновление плана и карты связано. В то время мы работали в Ванцзине. Мы строили дороги, меняли маршруты и даже меняли светофоры. Нам приходилось ждать, пока AutoNavi обработает чертежи, прежде чем мы сможем продолжить работу. Примерно в июне прошлого года мы решили не переделывать карту и переключиться на решение NPN (нейронная сеть). Это эквивалентно локальному картографированию с использованием предварительной информации NPN на основных перекрестках, кольцевых развязках и т. д., а наша машина обновляет эти функции.

Но в больших городах, таких как Пекин, Шанхай, Гуанчжоу и Шэньчжэнь, много автомобилей, а в маленьких городах мало машин. Как обновиться? Всегда делаете это в большом городе? Пользователи не будут за это платить. В то время команда все еще колебалась, а в Пекине, Шанхае и Гуанчжоу дела шли хорошо. Есть также внутренние голоса, говорящие, что вместо того, чтобы строить сотню городов, нам следует построить несколько городов первого уровня. В любом случае, вначале Huawei будет только в 50 городах, поэтому нам не обязательно быть первыми или вторыми.

Я сказал, что это невозможно, и мне все равно нужно сделать это быстро. Я все еще хочу знать, действительно ли это делается в большем масштабе, подойдет ли метод NPN? В этом проблема. Карты всегда имели ограничения, а также высказывались критические замечания по поводу того, что в некоторых городах можно открыть только две дороги. Поэтому, изучив этот опыт, мы начали сокращать планы после сдачи 100 городов в декабре прошлого года.

36Kr Auto: Каковы потребности в комплексной разработке NOA без графов?

Лан Сяньпэн: Есть еще проблема без картинки. Оказывается, карта может предоставлять относительно точную информацию. После удаления априорной информации с карты требования к восходящему восприятию становятся особенно высокими. В области последующего регулирования и контроля ввод информации раньше был очень регулярным, но теперь считается, что существуют некоторые проблемы с дрожанием и ошибки, и это также является большой проблемой.

Для продолжения этой работы потребуется много рабочей силы. Например, если есть проблемы с восприятием, в модель промежуточной среды необходимо добавить множество правил. Если есть какое-либо влияние на последующее регулирование, можно добавить правила, чтобы компенсировать это. Это создает огромную проблему с человеческими ресурсами для команды. Так Huawei оказалась без фотографий (преимущество в рабочей силе). Изначально мы хотели нанять больше людей во второй половине прошлого года.

Но верхний предел этой вещи вполне очевиден. В основном все правила созданы людьми и разработаны инженерами. Особенно в январе и феврале этого года мы часто меняли правило. Если этот случай работает хорошо, другие дела не будут работать. Взаимное участие слишком велико и бесконечно.

Конечно, инвестирование ресурсов вторично. Самое главное, что опыт, основанный на правилах, имеет верхний предел и никогда не может быть антропоморфным. Итак, мы перешли к текущей сквозной версии и VLM. В целом, это первый случай использования искусственного интеллекта для интеллектуального вождения.

36Kr Auto: Когда лучше всего начать инвестировать в комплексные решения?

Лан Сяньпэн:У нас всегда есть два направления работы: одно — это открытая линия для массового производства и доставки, в прошлом году NPN-светлое изображение без изображения — это открытая линия, а сквозная — это темная линия, которая является нашей предварительной исследовательская линия.

Просто Конференция по стратегии озера Яньци ясно дала это понять в прошлом году. На совещании по стратегии Ли Сян упомянул, что автономное вождение является нашей основной стратегией, а RD (технологические исследования и разработки) должны достичь важных этапов. Идея комплексного решения существует уже давно, но всегда было давление на реализацию и отсутствие ресурсов для изучения.

36Kr Auto: Возможно, Wutu придется идти впритык вскоре после запуска. Как этот ритм считается?

Лан Сяньпэн: В начале года я сказал Ли Сяну следующее: хотя мы хотим сделать сквозное, нам все равно придется делать это без картинки. Потому что отсутствие графов — это сквозная поддержка. Без графов откуда взяться данным и опыту для сквозной поддержки?

И его необходимо загрузить без фотографий, прежде чем машину можно будет легко продать. Иначе как она сможет конкурировать с Huawei? Теперь, когда мы находимся на Wutu, мы пытаемся выиграть время от начала до конца и в то же время улучшить возможности нашего продукта, чтобы помочь продавать автомобили.

36Kr Auto: При этом вы отрицаете свои планы. Есть ли какое-либо давление со стороны высшего руководства?

Лан Сяньпэн:Нет. Во-первых, моя обязанность — привести всех к реализации автономного вождения; во-вторых, идеальная организация имеет свою собственную методологию или процесс, например, делать правильные, но непростые вещи. Это звучит как чепуха, но это очень важно.

Ли Сян никогда бы не сказал, почему Лан Бо отрицал то, что он сделал раньше. Мы дали ему понять, зачем мы это делаем, что хотим победить в стратегии ИИ, и нашли двухсистемную парадигму, которую он сразу понял. Он бы только сказал, что сквозное — это здорово и надо делать быстро.

Искусственному интеллекту нужны вычислительные мощности и данные. Ли Сян часто приходит ко мне и спрашивает: Лан Бо, ты достаточно силен? Если этого недостаточно, попросите Се Яня принести вам еще.

Ли хотел сказать, что у нас тоже есть машины и больше денег, чем у других, поэтому у нас есть отличный шанс увеличить разрыв с другими на этом пути. Так что не занимайтесь этой ерундой, а поторопитесь и займитесь искусственным интеллектом, стоящим за этим.

Говоря о будущем умного вождения: Комплексное решение + VLM — лучшая парадигма искусственного интеллекта

36Kr: Некоторые компании никогда не делали no-map и думают, что сквозная трасса — это возможность сменить полосу движения и совершить обгон. Так ли это?

Лан Сяньпэн: Это наполовину верно. Действительно, возможно сквозное переключение полос. Независимо от того, существует ли граф, NPN или нет графа, ядро ​​решения является однородным. Уберите карту, улучшите восприятие, объедините небольшие модули в несколько больших моделей и используйте тот же план, чтобы постепенно развиваться.

Но в целом все по-другому. Впервые он использует искусственный интеллект для автономного вождения. После использования одной модели для сквозного выполнения входными данными являются только данные, выходными данными являются траектории, а промежуточные модули интегрируются в одну модель.

Вся система процессов НИОКР совершенно другая. В традиционной модели разработки продукта движущей силой является планирование спроса или обратная связь по проблеме. В этом сценарии это не работает. После обнаружения ошибки требуется ручная итерация и проверка проекта.

End-to-end — это черный ящик, и его возможности полностью зависят от того, какие данные ему передаются. Сейчас мы фильтруем данные опытных водителей. Если данные некачественные, созданная модель не будет хорошей. Что входит — мусор, и что выходит — мусор. Это процесс обучения потока данных. Раньше это был процесс исследования и разработки функций продукта, но теперь это процесс улучшения возможностей.

Так что проблем с перестроением через сквозное движение нет, но если вы хотите обгонять, вам необходимы данные и тренировочные вычислительные мощности. Если нет этих двух предпосылок, честно говоря, модель есть у каждого, и сама модель не будет сильно отличаться. Какой бы хорошей ни была модель, без данных и вычислительных мощностей это всего лишь набор параметров.

36Kr: В идеале нужно накопить много данных, но Хэ Сяопэн недавно выдвинул идею, что наличие большего количества данных не означает, что можно достичь автономного вождения. Что вы думаете?

Лан Сяньпэн:Наши обучающие данные представляют собой видеоролики, которые включают в себя полные данные о движении водителя в течение десятков секунд, включая визуальные датчики, информацию о состоянии транспортного средства в этот момент, а также эксплуатационные данные, такие как акселератор и тормоз.

Но чтобы данные были полезными, они должны быть высокого качества. Что такое высокое качество? Вместе с нашей командой по субъективной оценке характеристик продукции и транспортных средств мы разработали стандарт под названием «Высококвалифицированный водитель-человек». Некоторые водители ездят каждый день и очень опытны. Если они всегда резко ускоряются и замедляются, используют AEB или резко поворачивают рулевое колесо, это может не сработать.

По этим стандартам только 3% из наших 800 000 автовладельцев являются «человеками-качественными водителями». Вместе с качественными данными, накопленными ранее, окончательно формируются миллионы роликов, которые являются всеми лучшими. Хэ Сяопэн прав, данные высокого качества действительно необходимы, но качество данных основано на абсолютном масштабе данных.

36Kr Auto: Нужно ли обновлять систему обработки данных после сквозного завершения?

Лан Сяньпэн: Цепочка инструментов сильно изменилась. Раньше это был процесс разработки функций продукта, такой как захват пользователей, передача данных, ручной анализ проблем, а затем модификация кода, фактическая оценка автомобиля и онлайн-выпуск. Этот замкнутый процесс обработки данных уже очень эффективен. Но это тоже займет несколько дней, и будет задействовано много рабочей силы. Чем больше будет испытаний, тем больше будет проблем и тем больше людей потребуется для внесения модификаций.

Текущий процесс заключается в том, что если владелец автомобиля возьмет на себя управление, после того как данные вернутся, аналогичные сцены будут автоматически сгенерированы с использованием модели мира и превращены в неправильный банк вопросов. Также проверьте, нет ли подобных данных в неправильной базе вопросов. Если нет, покопайтесь в существующей базе и проведите совместное обучение.

После обучения новой модели модель возвращается в мировую систему экспертизы моделей и тестируется дважды. В первый раз нужно проверить, правильно ли вы ответили на неправильные вопросы, а во второй раз — это набор реальных вопросов для проверки ваших способностей. Если оба раза проблем нет, модель исключена. На крайнем конце нет никого посередине, и это очень автоматизированный замкнутый процесс.

36Kr Auto: Сквозной процесс обучения — это черный ящик, и чтобы выяснить детали, нужно добавить много кода. Можете ли вы оценить, сколько работы требуется?

Лан Сяньпэн:Очень мало. У нас объём кода для версии с графикой около 2 миллионов строк, а для версии без графики — 1,2 миллиона. Сквозной итог всего 200 000, это всего 10% от оригинала.

Действительно, существуют некоторые скрытые правила, позволяющие это контролировать. Поскольку данные датчиков вводятся сквозным образом, а запланированная траектория фактически выводится, могут возникнуть проблемы, поэтому у нас будут некоторые жесткие правила, чтобы избежать некоторых ненормальных действий управления, таких как поворот рулевого колеса на 180 градусов.

36Kr Auto: Маск сказал, что было удалено 300 000 строк кода. Вы вроде более агрессивны, если после пуша проблем будет все больше и больше, код добавят обратно?

Лан Сяньпэн: Я не думаю, что это сильно изменится. Главное, что у нас есть возможность постоянно совершенствовать себя.

36Kr Auto: В компании Ideal всегда было два направления: массовое производство и предварительные исследования. Сквозной переход от предварительных исследований к массовому производству – что такое предварительные исследования сейчас?

Лан Сяньпэн: Л4. Это восходит к нашему пониманию искусственного интеллекта. Мы обнаружили, что если мы хотим добиться настоящего автономного вождения, текущий подход будет совершенно иным.

Сквозной, какие данные ему передаются, какое поведение он будет иметь. Если подобные данные не предоставлены, они не будут рассматриваться. Но люди — нет. Например, если я езжу по Пекину, я могу водить машину и по Соединенным Штатам. Если мы действительно хотим добиться автономного вождения, система должна понимать вещи так же, как люди, и обладать способностью рассуждать.

Мы изучали, как работает и думает человеческий мозг. В августе и сентябре прошлого года Цзя Пэн и Чжан Кунь увидели теорию двойной системы, которая является очень хорошей основой для человеческого мышления. Предположим, что искусственный интеллект — это двойная система: Система 1 способна быстро реагировать, а система 2 способна логически мыслить и хорошо справляться с неизвестными вещами.

Все это часть Дао, вещи на теоретическом уровне. Когда дело доходит до автономного вождения, комплексной моделью является Система 1, а Системой 2 — модель визуального языка VLM. Это лучшее решение для реализации искусственного интеллекта в физическом мире.

Так как же измерить возможности Системы 1 и Системы 2? У нас также есть модель мира, которая на самом деле называется Системой 3. Мы очень ясно используем модель мира. Она используется для тестирования Системы 1 и Системы 2. Это экзаменатор.

У нас есть настоящий банк тестов, который представляет собой реальные данные о людях, которые нормально водят машину. Модель мира — это генеративная модель, которая может генерировать другие вопросы, делая выводы из существующих данных. После обучения модели один раз ответьте на реальные вопросы, а затем выполните несколько наборов смоделированных вопросов, чтобы увидеть, сколько вы наберете. У каждой модели будет свой балл, и чем выше этот балл, тем мощнее модель.

36Kr Auto: При каких обстоятельствах сработает Система 2?

Лан Сяньпэн: Система 1 и Система 2 всегда работают. Если некоторые системы более сложны, Систему 1 может быть нелегко идентифицировать, например, эстакады, лужи и недавно построенные цементные полы. Система 2 будет работать в таких сценариях, но ее рабочая частота будет ниже, например 3-4 Гц. , Система 1 может работать на высокой частоте более десяти Гц. Подобно GPT, Система 1 всегда будет задавать Системе 2 вопросы о том, что делать при возникновении такого сценария.

36Kr Auto: Есть ли у самой Системы 2 VLM границы возможностей?

Лан Сяньпэн: Вы можете думать об этом как о большой языковой модели. Некоторые большие языковые модели могут быть хороши в математике, некоторые могут быть хороши в кодировании и иметь разные возможности. Мы уделяем особое внимание обеспечению его законами, связанными с вождением, обучающими видеороликами и учебниками по предметам 1–4. Наш VLM на самом деле представляет собой большую языковую модель, ориентированную на вождение.

В краткосрочной перспективе у него еще нет каких-то знаний, но по мере того, как замкнутый контур вращается все быстрее и быстрее, верхний предел его возможностей будет становиться все выше и выше. Текущие сквозные параметры составляют всего более 300 миллионов, а параметры системы VLM — 2,2 миллиарда.

36Kr Auto: Значит, самая большая переменная в будущем умного вождения — это Система 2?

Лан Сяньпэн:Базовой поддержкой является Система 1, но для дальнейшего развития, включая автономное вождение уровня L3L4, нам понадобятся очень сильные возможности Системы 2. Текущих 2,2 миллиарда параметров может быть недостаточно, и придется добавить больше.

Цзя Пэн: Система 2 в основном ориентирована на сложные сцены. Время отклика 2,2 миллиарда параметров составляет 300 мм. В сложных сценах это время вывода вполне приемлемо. Но системы 1 явно недостаточно, это занимает около десятков миллисекунд.

36Kr Auto: Есть ли верхний предел параметров модели? Типа 8 миллиардов? Каковы примерные требования к вычислительной мощности чипа?

Цзя Пэн:Как и в случае с большой языковой моделью, никто не может ответить, сколько у нее параметров.

Лан Сяньпэн:Теперь у нас есть и знания, и навыки. Система 1 плюс Система 2 — это хорошая парадигма искусственного интеллекта, но то, как ее реализовать, требует от нас постепенного ее изучения.

36Kr Auto: Если сегментированная сквозная модель превратится в единую модель, нужно ли нам изобретать велосипед?

Цзя Пэн: Задача довольно серьезная. Наша безграфовая модель эквивалентна сегментированной модели, состоящей только из двух моделей. Но во-первых, техническая задача относительно велика, потому что все традиционные проблемы исчезли. Как обучить модель для достижения хороших результатов? Вторая — это человеческая проблема. Как могут две группы людей с разным опытом восприятия и контроля работать вместе, чтобы построить модель?

Наша команда тоже борется и мечется. Когда дело доходит до сквозного процесса, роли многих людей могут измениться. Люди, которые раньше занимались разработкой, могли определять данные и сценарии. Сменить роль – это довольно сложная задача.

Говоря о бизнесе с замкнутым циклом: вы не можете позволить себе автономное вождение без 1 миллиарда долларов.

36Kr Auto: Похоже, средства горят. Сколько вы планируете вложить в сквозные проекты?

Лан Сяньпэн: Конечно, в настоящее время это 1 миллиард юаней. В будущем для обучения моделям автономного вождения может потребоваться 1 миллиард долларов США, не считая других вещей, таких как покупка карт, счета за электричество и талант. Ни одна компания с чистой прибылью в 1 миллиард долларов США не может себе этого позволить.

36Kr Auto: Комплексная технология может стать переломным моментом в автомобильной промышленности. С коммерческой точки зрения, какова коммерческая эффективность умного вождения?

Лан Сяньпэн: Начиная с версии 6.0, за последние 1-2 месяца у нас доля AD Max превысила 50%, с приростом более 10% каждый месяц. Если 2%-3% можно понимать как обычный джиттер, но больше 10. % – эффективный рост. В Пекине, Шанхае, Гуанчжоу и Шэньчжэне доля наших моделей умного вождения достигла 70%. Заказ AD MAX для модели L9 составляет 75 %, L8 — 55 % и L7 — 65 %.

Цзя Пэн: L6 также имеет 22%. Умное вождение уже является очень важным фактором для молодых людей при покупке автомобилей. После использования умного вождения трудно вернуться в исходное состояние.

Лан Сяньпэн: В настоящее время высокоскоростная NOA широко признана всеми, тогда как городская NOA все еще находится на очень ранней стадии. Во многом городские возможности продукта недостаточно хороши. Даже без картинок они достигли потолка. По сравнению с уровнем комфорта вождения человека они не особо хороши. После сквозного все изменится, и некоторые спектакли станут достаточно близкими к человеческим.

Благодаря добавлению данных и вычислительной мощности интеллектуальное городское вождение, основанное на комплексной архитектуре, вероятно, позволит достичь высоких скоростных ощущений от вождения. На этом этапе пользователям очень полезно приобретать автомобили.

36Kr Auto: Коммерческая ценность умного вождения становится все более очевидной, но идеальная функция умного вождения всегда была бесплатной. Будет ли стратегия повторно обсуждаться, чтобы сделать коммерческую ценность более заметной?

Лан Сяньпэн: Многие люди покупают Ideal для холодильников, цветных телевизоров и больших диванов, но в будущем они могут также купить Ideal для умного вождения, чего достаточно, чтобы показать коммерческую ценность умного вождения. Разница между версиями Max и Pro действительно составляет 30 000 юаней.

Что касается программной зарядки, если она достигнет уровня L4, это будет действительно здорово. Представьте себе, что вы сможете помочь пользователям забрать своих детей у ворот школы. Готовы ли вы платить за эту услугу? По мере улучшения возможностей появятся некоторые дополнительные бизнес-модели, но предпосылка должна заключаться в том, что возможности интеллектуального вождения значительно улучшатся.

36Kr Auto: Сяопэн упомянул, что в ближайшие 18 месяцев он достигнет уровня, аналогичного Google Waymo. Есть ли у вас такой график?

Лан Сяньпэн: Ничего страшного, если данные и бизнес могут поддержать достижение целей. Мы провели некоторые внутренние расчеты. Не будем говорить о L3L4. Если мы хотим поддерживать VLM и сквозное обучение, нам понадобится около десятков EFLOPS вычислительных мощностей.

У Xpeng это 2,51 EFLOPS, а идеал — 4,5 EFLOPS. Для достижения этого требуется не менее 10 EFLOPS вычислительной мощности, что составляет около 1 миллиарда долларов США и 6 миллиардов юаней в год. Если вы можете себе это позволить каждый год, вы можете играть.

36Kr Auto: Помимо вычислительной мощности, исходя из текущей технической архитектуры, сколько инвестиций потребуется в среднем в год команде умных водителей?

Лан Сяньпэн: Основную часть расходов составляют обучающие чипы, хранение данных и трафик, которые обходятся как минимум в 1–2 миллиарда долларов США в год. Но если идти дальше, особенно модели мира, то конечная цель — восстановить весь реальный физический мир. Это само по себе также требует обучения и требует большого количества вычислительных ресурсов.

Что касается верхнего предела, я сейчас не могу его представить. Маск сказал, что это будет сотни эфлопс. Мы не думаем, что это ерунда.

36Kr Auto: Автомобильные компании по-прежнему основываются на прибыльной модели обрабатывающей промышленности. В этом году будет ценовая война, и это повлияет на прибыль. Будет ли автомобильным компаниям более уместно делать то, что делают технологические компании?

Лан Сяньпэн: Тот, кто может получить высококачественные данные и обладает достаточной вычислительной мощностью для обучения, может построить большую модель. Талантов может быть не так много, но соответствующие таланты должны быть. Кто еще может обладать всеми тремя, кроме Ideal, Huawei и Tesla? Я не могу этого понять.

Наша текущая идея — быстро помочь компании продать автомобили. Только продав машины, мы сможем получить деньги на покупку карты для обучения умному вождению.

Чем дальше мы будем прогрессировать в интеллектуальном вождении, тем больше будет становиться разрыв. Раньше картинок не было, но все что-то делали, чтобы был виден потолок. Чтобы добиться прорыва в будущем, необходимо добавить искусственный интеллект, а все конкурируют за данные и вычислительную мощность. Если ее невозможно решить, мы можем только перейти к предыдущему измерению и перейти к следующему измерению, чтобы пожинать дивиденды данных.

36Kr Auto: Технологии интеллектуального вождения меняются так быстро, а инвестиции настолько велики. Как Ли Сян может сохранять осведомленность об интеллектуальном вождении?

Лан Сяньпэн: Он мог поговорить со мной и Учителем Цзя в любое время. С сентября прошлого года мы проводим еженедельные встречи по искусственному интеллекту, на которых собираются все люди, связанные с ИИ в компании, включая людей, работающих в интеллектуальных пространствах, инфраструктуре и обучающих платформах. Понимание Ли Сяном искусственного интеллекта по-прежнему очень хорошее.

У него также есть некоторые другие ресурсы, и он знает много людей. Он беседовал с Лу Ци, генеральным директором Кими Ян Чжилином, Горизонт Ю Каем и другими. Он не только понимает основную суть и основные технологии искусственного интеллекта, но также может выразить это в некоторых популярных терминах.

36Kr Auto: Сколько рабочей силы требуется для комплексного проектирования модели? Сколько человек будет в среднем в будущей команде умных водителей?

Цзя Пэн: Возможно, вам не понадобится слишком много людей. На самом деле у Tesla очень мало по-настоящему элитных производителей моделей, а в команде визуалов всего 20 человек. Это действительно можно сделать вывод. Например, с чипом OrinX сама модель работает на частоте 12-15 Гц, что в основном определяет количество параметров модели и какую структуру модели использовать для обучения. Может быть, несколько человек смогут примерно определить. это.

Лан Сяньпэн: Tesla более экстремальна: команда разработчиков программного обеспечения состоит из более чем 200 человек, но она производит только один чип и несколько моделей. Мы не можем быть такими же совершенными, как он сейчас, но все равно будем в несколько раз лучше его. Поскольку наши чип-платформы разные, и у нас много моделей, хотя у нас не так уж много людей, в каждом месте все равно есть люди.

36Kr Auto: Облачные вычислительные мощности станут крупными инвестициями в будущем. Рассматривали ли вы возможность замены их отечественными чипами? Трудно ли будет переключиться?

Цзя Пэн: Horizon J3 и J5 впервые были использованы в автомобильной части. Cloud пробует некоторые отечественные продукты, но самая большая сложность на данный момент заключается в том, что их экология не так хороша. Экосистема CUDA NVIDIA настолько непобедима, что адаптироваться к другой экосистеме будет очень сложно. Сейчас я по-прежнему хочу поставить эффективность на первое место и обратить внимание на внутренний прогресс. Обмены и испытания уже начались.

36Kr Auto: Каков будет эффект от сквозной интеграции после выпуска собственного интеллектуального чипа для вождения?

Цзя Пэн: Объединение программного и аппаратного обеспечения определенно даст лучшие результаты, и Tesla уже создала прототип. Чипы дешевле, вычислительная мощность выше, а поддержка AD лучше. На FSD V12.5 хотели расширить параметры в 5 раз и расширили. Это имеет большие преимущества.

Лан Сяньпэн:Обязательным условием является определение алгоритмов L3 и L4.

36Kr Auto: Будет ли какой-то момент для автономного вождения L4?

Лан Сяньпэн: Всего 3-5 лет. Сначала мы передали L3, который является ступенькой к L4. Во-первых, это позволяет нам иметь более четкое представление о вычислительной мощности и требованиях к данным L4, включая основные возможности системы исследования и замкнутого цикла данных.

Во-вторых, что касается продукции, нам необходимо установить отношения взаимного доверия с людьми. Поскольку сквозная связь сама по себе по-прежнему является черным ящиком, люди по-прежнему не доверяют системе. Тогда с помощью продуктов L3 вы сможете построить хорошие доверительные отношения с людьми.

36Kr Auto: Многие технологии искусственного интеллекта зародились в Кремниевой долине. Раньше я следил за Tesla, но теперь Ideal также занимается передовыми исследованиями, как обеспечить точность и остроту суждений или понимания технологий, а не выбирать их. неправильное дерево технологий?

Лан Сяньпэн:У нас уже есть полноценная система. До L4 еще 3-5 лет, но мы уже начали к ней прикасаться. Если мы допустим ошибку, то ошибемся рано, и шанс еще есть.

Действительно, существует раскол в области искусственного интеллекта между Китаем и Соединенными Штатами, и на самом деле в Китае довольно много талантов. Мы делаем все возможное, чтобы найти лучших молодых людей. Например, в этом году мы набрали более 240 школ. все они входят в топ-100 QS (100 лучших университетов мира).

Говоря о Tesla: учитесь у Tesla и превзойдите Tesla

36Kr Auto: Некоторые говорят, что разница между умным вождением отечественных автомобилей и Tesla составляет 2 года. Что вы думаете?

Лан Сяньпэн: Конечно, нет. Мы не будем комментировать технические решения, поскольку Tesla мало что говорила о своих технических решениях за последние два года. С точки зрения опыта работы с продуктом, мы в основном находимся на том уровне, на котором Tesla только что выпустила комплексную версию в прошлом году. Разрыв около полугода.

36Kr Auto: Tesla также столкнулась с некоторыми проблемами. Маск сказал, что меньше данных и меньше обратной связи. Как этого избежать?

Лан Сяньпэн:Это разные стадии. Когда мы сталкиваемся с ними, это означает, что мы перешли на следующую стадию.

Цзя Пэн: Самая большая проблема Tesla сейчас — это проверка. Вы можете видеть, что v12.4 (номер версии Tesla FSD) показал себя не очень хорошо, а затем была выпущена версия v12.5 с расширенным объёмом параметров в 5 раз. Я думаю, что этап проверки был выполнен не очень хорошо. Когда модель вышла, я не знал, как она будет работать, когда ее реально начнут использовать пользователи.

Вот почему мы делаем упор на мировые модели. Мы усвоили эти уроки и должны завершить проверку заранее. Иначе как можно проверить модель на всех дорогах страны, в том числе внутри парковых поселков?

Если вы посмотрите на День искусственного интеллекта Tesla в 2022 году, это все еще очень традиционная симуляция. Масштабируемость (масштабируемость) слишком низкая, чтобы поддержать ее полное открытие в Северной Америке. На данный момент мы действительно извлекли некоторые уроки из Теслы. Вот почему мы прилагаем столько усилий для создания моделей мира.

36Kr Auto: Есть ли что-то, что вам кажется трудным в процессе создания комплексного решения? Как цепочка инструментов для обработки данных?

Цзя Пэн: Набор данных строится с 2019 года и, по крайней мере, он лучший в Китае. Данные и обучение на самом деле являются рутиной, и все они имеют парадигмы, которым нужно следовать. В настоящее время проверка является самой большой проблемой.

Другой — это сама VLM, которая постепенно приобретает все большую роль. Вначале его можно использовать только в 5% случаев, но позже он может достичь сквозного верхнего предела, и оставшийся опыт работы с продуктом будет зависеть от итерации VLM. В будущем это будет проблемой.

Это также отличается от Теслы. Мы создали VLM и модель мира, потому что видели проблемы Tesla. Возникла проблема с проверкой версии 12.4. Мы уже дважды ездили на нем по Северной Америке, каждый раз около недели, как на западном, так и на восточном побережье. Видимо, на западном побережье хорошо, а на восточном – плохо. Бостон и Нью-Йорк не так хороши, потому что эти два города гораздо сложнее Западного побережья.

На восточном побережье средний уровень поглощений Tesla довольно высок, и, возможно, здесь находятся некоторые из сквозных верхних пределов. Поэтому, когда мы занимаемся VLM, мы хотим преодолеть этот потолок. Верхний предел VLM очень высок, и превзойти его (Tesla) можно с помощью этого набора путей.