notícias

Diálogo entre Lang Xianpeng e Jia Peng, um fracassado, por que ele entregou seu trabalho mais cedo?

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Condução inteligente, começa uma corrida cara. Determine a classificação e determine o futuro.

Texto丨Cheng Manqi Dou Yajuan
Editor丨Song Wei

Gu Junli, que trabalhou para Tesla e Xpeng, disse que o progresso da pesquisa e desenvolvimento de direção inteligente da China está pelo menos 1,5 a 2 anos atrás de Tesla. Lang Xianpeng, vice-presidente da Lideal Zhijia, acredita que a diferença não é tão grande e que a Lideal está atrasada no máximo meio ano em termos de experiência de produto.

Ideal enfatiza que sua vantagem na direção inteligente é que tem mais carros e mais dados, o fundador da Xiaopeng, He Xiaopeng, disse: "Se alguém disser que tem muitos carros e muitos dados", pode fazer uma direção autônoma "Don. não acredite, é absolutamente verdade." Bobagem”.

A guerra de preços ainda está em andamento e as novas forças automotivas da China se comprimiram coletivamente em um novo campo de batalha - a direção inteligente, cheia de diferenças, disputas e perseguições mútuas.

Nem todas as montadoras podem pagar essa passagem. O investimento em I&D na condução inteligente começou com 3 mil milhões de RMB e está a aumentar ano após ano. Idealmente, alugar um cartão custa agora 1 bilhão de yuans por ano e custará 1 bilhão de dólares no futuro.

A razão pela qual as novas forças são tão loucas e não querem ficar para trás é porque viram o enorme progresso do Tesla FSD V12 (uma nova versão de condução totalmente autônoma que a Tesla começará a promover em massa em janeiro de 2024), e também têm vimos o impacto dos recursos de direção inteligente nas decisões do consumidor. Em Setembro do ano passado, a Huawei anunciou que iria lançar uma solução sem imagens que poderia ser utilizada em todo o país até ao final do ano. Ao mesmo tempo, a indústria estava a promover fortemente a condução inteligente. Em apenas um mês, o volume de vendas mensais, que oscilava na casa dos milhares, ultrapassou os 10 mil e, no final do ano, atingiu a marca dos 30 mil.

Não muito depois de a Huawei ter anunciado o seu plano radical de condução inteligente, a Ideal realizou a sua reunião estratégica de outono de 2023 e deixou claro que a condução inteligente é uma estratégia central e não deve ser perdida. O CEO Li quer dizer: “Vamos nos tornar líderes absolutos em direção inteligente até 2024”.

Desde então, a Ideal acelerou a iteração e avançou em duas frentes: ao usar NPN (Neural Prior Net, algoritmo neural a priori, que usa informações a priori de algumas estradas e mapas para ajudar a identificar características das estradas e reduzir a dependência de mapas de alta precisão ), finalmente estamos nos atualizando. O NOA das Cem Cidades foi lançado no final do ano passado no mesmo período, o NOA sem fotos foi pré-desenvolvido em outubro do ano passado e o teste interno com milhares de pessoas começou quatro; meses depois, e foi totalmente lançado em julho deste ano.

Neste Verão, não há tempo para respirar e novas forças entram na próxima batalha: ponta a ponta, um termo técnico que a maioria dos consumidores não entende e que se tornou um campo de batalha para estrategistas militares.

A importância de ponta a ponta é que ele traz pesquisa e desenvolvimento de direção inteligente para a era da IA ​​- não dependendo mais de muita programação manual, enquanto mais dados forem usados ​​para treinar o modelo, o sistema continuará. para se tornarem mais fortes e poderem ter um desempenho melhor do que os condutores humanos. Musk acredita que isso aproxima os humanos da direção totalmente autônoma.

A Ideal lançou esta semana um teste interno com mil pessoas da nova arquitetura de "ponta a ponta + VLM (Visual Language Large Model)", chamando-a de modelo mais avançado e a primeira implementação de sistema duplo do mundo. Um modelo significa que os módulos de percepção e tomada de decisão da direção autônoma são todos completados por um modelo. A entrada são os dados do sensor e a saída é a trajetória de direção.



A direção autônoma possui três módulos: percepção, planejamento e tomada de decisão, e controle. Baseia-se na percepção para “ver”, na tomada de decisão para “pensar” como dirigir e no módulo de controle para completar o comportamento de direção. A tecnologia ponta a ponta vai desde a percepção até a tomada de decisão, e todo o processo é implementado usando um grande modelo.

Nessa época, Weilai anunciou a produção em massa de AEB (função de frenagem de emergência) de ponta a ponta no início de julho. Xiaopeng reiterou esta semana que é a única empresa automobilística no mundo a atingir a produção em massa de grandes carros de ponta a ponta; modelos. O outro é, claro, Tesla pull. Se você incluir fornecedores, a Huawei e a Momenta concluíram a implementação ponta a ponta este ano.

A Ideal só começará a desenvolver sua própria direção inteligente em 2021, dois anos depois de Weilai e Xpeng. O progresso atual da Ideal é como um fracasso que de repente sabe a resposta e entrega o papel com antecedência.

Neste momento, conversamos com Lang Xianpeng, vice-presidente de Ideal Intelligent Driving, e Jia Peng, chefe de P&D de Ideal Intelligent Driving Technology. Eles explicam como isso é conseguido.

Lang Xianpeng é um motorista inteligente que gosta de nomear projetos importantes com base na mitologia grega. Ele é um doutor em reconhecimento de padrões e sistemas inteligentes. As campanhas que completou no Ideal incluem "Acrópole", "Ilíada" e "Titã". Em 2018, Lang Xianpeng ingressou na Ideal vindo do Baidu como diretor de direção autônoma e mais tarde foi promovido a vice-presidente.

Jia Peng é um jovem chefe de pesquisa e desenvolvimento de tecnologia. Ele foi uma das primeiras pessoas a fazer direção inteligente na NVIDIA na China. Ele viu que a gigante dos chips foi a primeira a propor modelos completos e em larga escala de direção autônoma, mas descobriu que apenas as montadoras podem realmente implementá-los.

As empresas que estão totalmente comprometidas com o objectivo ponta a ponta têm diferentes roteiros e progressos, mas partilham uma ambição e uma direcção técnica: alcançar, em última análise, a condução autónoma L4.

Vemos a mania atual por direção inteligente e de ponta a ponta, não apenas pela crença técnica, mas também pela concorrência, mentalidade do usuário e rankings de vendas.

É uma corrida cara. O custo não são apenas as enormes despesas de recrutamento de pessoas, compra de GPUs e modelos de treinamento. Antes que o L4 seja realmente implementado, ainda haverá um ser humano sentado no banco do motorista. Segurança, confiabilidade e estabilidade são os padrões de teste do usuário para a direção inteligente atual.

Underachievers entregam papéis

"Tarde": Ideal só começará a direção inteligente autodesenvolvida em 2021, depois de Xpeng e NIO, e sempre esteve em estado de recuperação. Até este ano, ele mudou diretamente do NPN para o NOA sem fotos e, em seguida, iniciou testes internos completos com milhares de pessoas esta semana. Alguém comentou: por que os alunos com baixo desempenho entregaram repentinamente seus trabalhos mais cedo?

Lang Xianpeng: Pode ser um contra-ataque de diaosi.

Fizemos três gerações no ano passado, de gráficos a "informações prévias" NPN e sem gráficos. Em junho deste ano, foi verificada a arquitetura ponta a ponta, e também foi proposta a arquitetura do sistema rápido e lento. O sistema rápido é ponta a ponta, que é a capacidade de processar rapidamente informações para a condução diária; sistema é VLM (Visual Language Model), que é a capacidade de lidar com cenários complexos.

Além disso, nosso modelo ponta a ponta, a entrada é o sensor e a saída é a trajetória de direção, tudo implementado por um modelo, sem quaisquer regras no meio. Exceto a Tesla, outras montadoras implementaram apenas ponta a ponta em um determinado link.

"Tarde": Seu primeiro progresso importante - da solução NPN para nenhuma imagem, você começou a verificá-la em outubro do ano passado, foi testada internamente em fevereiro deste ano e foi totalmente lançada em julho. Demorou apenas 4 meses para concluir a mudança. Parece incrível.

Lang Xianpeng: Somos mais eficientes e rápidos que outros. Por exemplo, economiza muito processo de tomada de decisão. Desde a decisão do que fazer até a elaboração de um plano e a reunião da equipe, pode levar apenas uma semana. Se for uma montadora tradicional, pode demorar 3 meses para iniciar o projeto.

"Mais tarde": Do que você desistiu por isso?

Lang Xianpeng: Talvez seja uma pausa pessoal. Todos conhecem os objetivos da empresa e não temos recuo.

Jia Peng: Também estou acostumada. Pedi demissão da NVIDIA e entrei na Ideal em 2020. O ambiente que sempre enfrentamos é que somos fracassados ​​e somos repreendidos por nossos pais todos os dias.

"Mais tarde": Este é o pai Li Xiang?

Jia Peng: É um usuário.

"Mais tarde": Parece que a direção de sua rota de tecnologia de direção inteligente é muito clara - é aprender com Tesla, como você aprendeu especificamente?

Lang Xianpeng: Todos pensarão que a pesquisa e o desenvolvimento de tecnologia levam tempo, mas o que muitas vezes é necessário não é tempo de pesquisa e desenvolvimento, mas sim tempo de tentativa e erro. Tesla é realmente uma boa referência. Se não funcionar por tentativa e erro, não iremos embora.

A evolução e iteração do Tesla FSD nos mostrou que o sucesso pode ser alcançado sem imagens. Escolha NPN ou sem imagem? Agora que o Tesla foi lançado, não escolhemos nenhuma imagem, então fizemos a troca em poucos meses.

Mas a maior inspiração da Tesla para nós é como ir de 0 a 1 e de 1 a 10 na pesquisa e desenvolvimento de condução autônoma. A Tesla usou pela primeira vez a solução do fornecedor Mobileye para direção inteligente, mas logo descobriu que o fornecedor não conseguia atender aos seus requisitos, então começou a autopesquisa em 2016, passou por um período de choque e finalmente alcançou os resultados da Mobileye. Em 2019, desenvolveu seu próprio chip FSD e tinha hardware para apoiar sua pesquisa e desenvolvimento de IA. Desde então, surgiu de ponta a ponta. Ele usa essencialmente recursos de IA para direção inteligente.

"Mais tarde": O núcleo do V12 é de ponta a ponta. Na verdade, a versão V11 lançada pela Tesla no início de 2023 não tinha imagem.

Lang Xianpeng: É como se todos pensassem que a matemática avançada é muito importante, mas se você não conhece as quatro operações aritméticas, como pode aprender bem a matemática avançada?

Também comuniquei com Wu Xinzhou (ex-chefe da direção inteligente de Xiaopeng) sobre isso. Todos concordamos que todo o processo pode ser acelerado, mas não ignorado. Todo mundo está fazendo de ponta a ponta, mas do gráfico, NPN, sem gráfico até a ponta, cada etapa não pode ser omitida. Ao pular essas etapas, você está, na verdade, ignorando muito conhecimento técnico.

Se não tivéssemos tentado construir uma NOA de cem cidades no segundo semestre do ano passado, não teríamos uma compreensão tão clara do fracasso da NPN. Só em termos de escala, existem apenas 30.000 a 400.000 quilómetros de autoestradas no país, mas existem milhões de quilómetros em cidades. Se quisermos estendê-lo por todo o país, este mapa não será concluído.

"Mais tarde": Mas você disse antes que a grande decisão não é uma questão de saber se você pode fazer isso, mas se você ousa fazê-lo.

Lang Xianpeng: Não é que isso não possa ser feito. Se for realmente feito, será uma guerra de recursos. Enfim, se você quiser fazer, milhares de pessoas vão divulgar.

Jia Peng: Brincamos entre nós que esta estrada acabará por se transformar em uma empresa de mapas.

"Mais tarde": Em que você confiou para acelerar mais tarde?

Lang Xianpeng: A eficiência organizacional sempre foi uma vantagem ideal. De NPN para sem gráfico e depois para ponta a ponta, essas são grandes mudanças, mas fizemos isso assim que solicitamos.

A eficiência da cooperação entre P&D e entrega é muito importante. A tecnologia deve ultrapassar o limite superior. O difícil é fazer uma escolha, mas depois de fazer a escolha, a entrega deve ser responsável por elevar o limite inferior. Na reunião de estratégia da empresa no segundo semestre do ano passado, Li Xiang deixou claro que RD (pesquisa e desenvolvimento) e PD (produção e entrega em massa) devem ser feitos juntos. Depois que as ideias de pesquisa e desenvolvimento forem claras, sempre haverá. haver duas linhas de PD e RD dentro de nossa equipe. Não tiramos fotos em novembro e dezembro do ano passado. Em janeiro deste ano, o RD estava quase pronto para ser transferido imediatamente para o PD. Em fevereiro, a versão 5.1 foi entregue e continuou a ser entregue. depois Beta 1, Beta 2 e Beta 3. Está bem polido.

Jia Peng: Acho que é uma tentativa e erro rápido. Nosso processo é: encontrar uma área fechada, verificar o paradigma em um curto período de tempo, primeiro atingir o limite superior do que esse paradigma pode alcançar e expandir imediatamente para fora assim que a área for limpa, adicionar simultaneamente uma política de segurança e, então, lentamente estenda-o. Vamos testar este paradigma em todo o país para ver se funciona. Caso contrário, adicionaremos rapidamente dados e mudaremos estratégias. No processo de aceitação do produto, desde ovos de pássaros até testes internos com mil pessoas, permitimos que os usuários trabalhem conosco para testar e iterar o produto.

"Mais tarde": Parece muito arriscado. Como você tinha tanta certeza de que conseguiria passar por esse processo?

Lang Xianpeng: O risco é muito alto, mas sempre estivemos aqui.

Nosso primeiro carro, o Lideal ONE, usa a solução de direção inteligente da Mobileye. Mais tarde, quando o facelift Ideal ONE estava prestes a ser entregue, a Mobileye disse que não cooperaria mais e não poderia fornecer entrega em caixa branca. Já era 2021 e pensávamos que se não dominássemos a tecnologia de condução assistida até esta altura, definitivamente não funcionaria. Então tomei uma decisão difícil - tome isso sozinho. Se não conseguimos, é porque somos incompetentes. Mas se hoje formos muito tímidos e ainda recorrermos a fornecedores, talvez não tenhamos futuro.

Fomos “obrigados” a imaginar um processo de pesquisa e desenvolvimento bem diferente. Foi entregue em maio e o protótipo deveria ser produzido em março. Até 25 de maio de 2021, um dia antes da conferência de lançamento do Ideal ONE, ainda tínhamos uma. monte de bugs para resolver As mudanças foram finalmente concluídas naquela manhã. Este é o protótipo do nosso processo atual: primeiro verifique uma pequena área, depois melhore as capacidades, corrija bugs e estabilize a qualidade.

Naquela época, a equipe contava apenas com 100 pessoas, e saíram 40 pessoas no primeiro mês. Alguém me disse: "Por que podemos entregar em três meses algo que outros levam um ou dois anos para entregar em três meses? Não se engane."

"Mais tarde": O mesmo não está na foto. Xiaopeng abriu a cidade no ano passado mais devagar do que você neste ano e teve mais testadores disse que toda vez que vai a uma cidade para abrir uma cidade, deve realizar pelo menos quatro rodadas de campo. teste. Só assim é possível garantir a segurança do usuário. Como você garante a segurança com seu método de rápido desenvolvimento, entrega e, em seguida, de ovos de pássaros para milhares de pessoas para testes internos?

Lang Xianpeng: O método atual de avaliação dos sistemas de direção autônoma é muito diferente de antes. Na direção inteligente anterior, as funções eram projetadas primeiro e depois desenvolvidas, e as funções eram testadas uma por uma para verificá-las. Hoje em dia, a condução autónoma baseada em dados baseia-se em capacidades e não em funções. A “capacidade” só pode ser avaliada através de “exame”.

Usamos modelo mundial + modo sombra para fazer o exame. O modelo mundial é reconstruído e gerado em uma cena real, com o carro rodando, o que equivale a um teste de simulação para avaliar capacidades no processo de pesquisa e desenvolvimento. Depois de passar no teste simulado, usamos o early bird, os veículos de teste internos e o modo sombra para fazer o teste do carro real. Se você falhar, continuaremos a iterar até que você passe.

"Atrasado": Se houver uma resposta para a composição da proposição, então, idealmente, você poderá correr mais rápido que os outros, mas a resposta nem sempre estará disponível e a maioria das questões técnicas podem ser perguntas abertas.

Lang Xianpeng: O que você vê hoje é a chamada composição de proposições. Estamos nos recuperando rapidamente, mas depois de recuperar o atraso, podemos ser mais rápidos porque todo o sistema está configurado.

Isso não significa que só iniciaremos a autopesquisa em 2021, para que possamos entregar produtos piores do que os dos nossos pares. Desde o primeiro dia de entrega, temos que competir com os melhores alunos da turma. Isso também significa que se eu usar o método de aprendizagem de outra pessoa para aprender, definitivamente não serei capaz de aprender com ela. Então só temos que fazer as coisas do nosso jeito.

À beira da terra de ninguém

"Tarde": Ponta a ponta não é um conceito novo, Nvidia e Waymo propuseram ponta a ponta há alguns anos, mas por que Tesla foi quem implementou e promoveu isso?

Jia Peng: Porque não só apresenta ideias técnicas, mas também mostra a todos os resultados da utilização.

Lang Xianpeng: Muitas pessoas em Tesla viram porque acreditaram, mas mais pessoas acreditaram porque viram.

"Tarde": Se Tesla não estivesse explorando o caminho à frente, o ideal teria ficado para trás por mais tempo?

Lang Xianpeng: Algoritmicamente, chegamos atrasados ​​porque as condições e recursos originais eram insuficientes. Mas ainda não é tarde para acumular dados e construir um sistema de investigação e desenvolvimento, para que possamos recuperar o atraso.

Desde o início, fomos claros sobre a filosofia da Tesla: a orientação por dados é a correta, por isso construiremos a infraestrutura de P&D de acordo com ela. Na primeira geração do Ideal ONE em 2019, construímos um sistema de circuito fechado de dados - Poseidon, um conjunto de cadeias de ferramentas para coleta, mineração, rotulagem e treinamento de dados. Na época não tínhamos recursos para fazer nossa própria pesquisa, mas também colocamos uma câmera extra ao lado da câmera do Mobileye para coletar e analisar problemas.

Por exemplo, se for encontrado um problema durante um teste de estrada, o método tradicional é a pessoa a bordo anotá-lo e depois dirigir até que a mesma cena se repita. Encontramos um problema. Os dados podem ser sincronizados de volta ao fundo. O teste ainda não terminou, os dados foram analisados ​​e o problema já começou a ser resolvido. O que as empresas tradicionais levam vários dias ou até uma semana para fazer, provavelmente podemos fazer em uma hora.

Em termos de acumulação de dados, a quilometragem total de condução autónoma por utilizadores ideais ultrapassou 2 mil milhões de quilómetros, dos quais quase 1 mil milhões de quilómetros foram percorridos pela NOA. A Tesla fez isso cedo, tem um número maior de clientes e uma quilometragem maior.

"Mais tarde": Isso é mais uma insistência de Li Xiang ou sua?

Lang Xianpeng: Somos unânimes. Quando vim para a Ideal para uma entrevista em 2018, Li Xiang me perguntou: qual é o principal problema que precisa ser resolvido para finalmente concretizar o L4? Digo dados - sem um sistema de circuito fechado de dados, seja uma amostra ou uma pergunta, a eficiência da análise não é alta. As pessoas podem minerar e desenvolver algoritmos, mas se o problema dos dados não for resolvido, definitivamente não será bem feito.

"Mais tarde": Weilai produziu AEB de ponta a ponta há pouco tempo; Quais são as diferenças ponta a ponta entre cada empresa?

Jia Peng: A arquitetura atual do Xpeng 5.2 é semelhante ao Wutu que acabamos de lançar em julho. A percepção é um modelo, a tomada de decisão é um modelo e eles estão interligados no meio. O ADS 3.0 que a Huawei lançou também é segmentado de ponta a ponta.

Tesla é um modelo desde a percepção até a tomada de decisão. Nossa versão mais recente também integra percepção e tomada de decisão em um modelo e começou a ser testada com milhares de pessoas esta semana.

"Tarde": Qual é a diferença entre ponta a ponta e ponta a ponta segmentada de um modelo de percepção e tomada de decisão? Quem está à frente?

Lang Xianpeng: Ainda depende do objetivo. O modelo segmentado é mais adequado para direção assistida de nível L2+, enquanto o modelo único pode realmente fazer direção autônoma de nível L3 e L4.

Porque embora a segmentação ponta a ponta tenha substituído algumas regras por outras baseadas em dados dentro do módulo de tomada de decisão, ainda existem regras em todo o processo. É essencialmente semelhante à arquitetura de direção inteligente anterior e à pesquisa e desenvolvimento. o processo também é semelhante, ainda dividido em módulos. O único modelo não contém nenhuma regra. Os dados do sensor entram e a trajetória planejada sai.

"Mais tarde": Você pode explicar em uma frase qual é o maior valor de ponta a ponta?

Jia Peng: Do ponto de vista do usuário, o comportamento de direção se torna mais humano e o controle detalhado é mais suave. Do ponto de vista de pesquisa e desenvolvimento, a iteração é mais eficiente.

Lang Xianpeng: De ponta a ponta é a primeira vez que se usa dados puros para conduzir a direção autônoma. O método de pesquisa e desenvolvimento mudou de funções e cenários para melhorar as capacidades do sistema. enquanto o sistema continuar a se fortalecer, terá um desempenho que supera as expectativas.

“Tarde”: Como treinar um modelo mais inteligente em menos tempo?

Jia Peng: Os dados, especialmente os dados de alta qualidade, são muito importantes. Selecionamos os melhores dados de 20 bilhões de quilômetros de dados de 800 mil proprietários de automóveis, treinamos mais de 1 milhão de quilômetros de dados e ultrapassamos 5 milhões de quilômetros até o final do ano.

O segundo é o método de treinamento. Com base na aprendizagem por imitação, adicionamos aprendizagem por reforço para que o modelo saiba o que está errado.

Lang Xianpeng: A última coisa é o poder de computação. A GPU ideal tem poder de computação equivalente a 5.000 A100 e A800. Se você alugar um cartão, ele custará 1 bilhão por ano, o que exige lucros saudáveis ​​para ser sustentado.

"Mais tarde": você enfatizou repetidamente que pode se atualizar porque tem dados, mas esta semana He Xiaopeng disse: "Se alguém disser que tem muitos carros e muitos dados" para poder dirigir autônomo, "não acredite, é um absurdo absoluto."

Lang Xianpeng: Também esperamos que todos possam tratar os produtos de forma objetiva. Mas ainda estamos na era em que Edison e Tesla provaram se a corrente contínua ou a corrente alternada é melhor. Uma pessoa usou corrente alternada para eletrocussão e a outra demonstrou que não há problema em usar corrente alternada para passar pelo corpo humano.

"Mais tarde": Tesla tem mais dados e maior investimento em poder de computação Isso significa que não pode ser superado?

Jia Peng: A limitação atual da Tesla é o hardware, porque o poder de computação do HW 3.0 (hardware de direção inteligente de terceira geração da Tesla) é de 144 TOPS, e os parâmetros do modelo que ele pode suportar não serão particularmente grandes ". Esquecimento catastrófico”. É por isso que após a atualização V12.4, algumas cenas melhoraram, enquanto outras pioraram, como cenas vazias começando a mudar de faixa aleatoriamente.

"Mais tarde": Mas olhando de outra perspectiva, o FSD pode funcionar perfeitamente no HW 3.0, lançado em 2018, o que mostra que Tesla tem uma forte capacidade de combinar software e hardware.

Jia Peng: É muito forte. Mas penso que existem desafios para o FSD entrar na China. Em primeiro lugar, a maioria das estradas nos Estados Unidos são relativamente simples; em segundo lugar, a Tesla pode obter informações de topologia rodoviária nos Estados Unidos, que não estão disponíveis na China; Portanto, o FSD é na verdade um mapa leve, e não temos nenhum mapa e não temos nenhuma informação prévia do mapa.

"Tarde": Em julho deste ano, o Dr. Gu Junli, que trabalhou para Tesla e Xpeng, disse que "o progresso da pesquisa e desenvolvimento da Tesla está 1,5-2 anos à frente da direção inteligente doméstica". você concorda?

Lang Xianpeng: Não concordo.

A versão sem imagem representa o limite superior das regras. De ponta a ponta representa o limite superior do orientado por dados, não há regras nele, apenas um modelo. No entanto, a condução autónoma não pode ser alcançada sem imagens e de ponta a ponta, porque ainda está a resolver o problema da cauda longa e não consegue lidar com situações que nunca encontrou antes. Para chegar ao L4, o sistema deve aprender a lidar com cenários desconhecidos. Acreditamos que esta capacidade deve ser resolvida pelo VLM e não de ponta a ponta.

Portanto, nossa nova arquitetura é ponta a ponta + VLM. O primeiro é o Sistema 1 para pensamento rápido – lidando com a maioria dos cenários de direção que exigem resposta rápida; o último é o Sistema 2 para pensamento lento e tomada de decisões de longo prazo – pode aprender; Aprenda um pouco de bom senso para lidar com situações desconhecidas, como identificar semáforos irregulares invisíveis, várias formas de marcações de faixas de maré, características do entorno da escola, etc., e avisar antecipadamente ao carro que ele não pode entrar ou desacelerar.

Sistema 1 + Sistema 2, o ideal é ser o primeiro a construir esta arquitetura.

Jia Peng: A julgar pelas informações públicas, a arquitetura técnica atual da Tesla não possui VLM.

"Tarde": Wayve, uma empresa britânica de direção autônoma investida pela Nvidia e SoftBank, lançou o Lingo-2 em abril deste ano. Ele também adicionou um modelo de linguagem grande ao carro.

Lang Xianpeng: Não possui Sistema 1. O Lingo-2 e os modelos de nuvem da Wayve são modelos multimodais de linguagem grande, semelhantes ao VLM. A ideia é que um modelo resolva o sistema 1 mais o sistema 2. No entanto, durante a produção em massa, será descoberto que o poder computacional de Orin existe e não pode suportar o grande modelo do Sistema 2. Wayve pode fazer isso porque não é um veículo produzido em massa e requer um servidor na parte traseira do veículo para executar o Lingo-2.

Jia Peng: Nossa primeira inspiração foram os sistemas robóticos RT-1 e RT-2 do Google, que são um modelo VLA (ação de linguagem visual), e o comportamento final também é gerado pelo modelo. Pode ser o fim do jogo: se meu hardware for bom o suficiente, posso, teoricamente, executar o VLA em tempo real.

"Mais tarde": Então a inspiração não veio da indústria automotiva, mas da robótica?

Lang Xianpeng: Porque consideramos a condução autônoma uma aplicação típica da inteligência artificial. Esta solução de sistema duplo propõe, na verdade, uma arquitetura universal de inteligência incorporada, que é a direção autônoma no carro e o robô inteligente no robô.

"Tarde": A arquitetura "ponta a ponta + VLM" que você propôs, a primeira é inspirada em Tesla e a última é inspirada no Google RT, e o artigo VLM é uma colaboração com a Universidade de Tsinghua. Isso significa que você está mais acostumado com a inovação combinada nesta fase?

Lang Xianpeng: Ao cooperar com o professor Zhao Xing da Universidade de Tsinghua, nossas opiniões colidiram e não foi ele quem propôs as opiniões, mas nós quem as implementou.

"Mais tarde": Você considera a direção autônoma como parte da inteligência incorporada universal. Ela também possui Leis de Escala e você acredita em Leis de Escala?

Lang Xianpeng: As leis de escalabilidade de ponta a ponta não serão particularmente óbvias, porque os parâmetros são limitados e dezenas de milhões de dados podem ser preenchidos, e se você adicionar mais dados, eles começarão a ser esquecidos. já vi esse fenômeno no Tesla FSD V12.4.

Mas as Leis de Escalabilidade do VLM definitivamente existem e podem atingir dezenas de bilhões ou mesmo centenas de bilhões de parâmetros. Contanto que haja dados suficientes e parâmetros grandes o suficiente, o desempenho aumentará. Esta estrada é muito atraente para nós.

"Tarde": Se o VLM puder rodar rápido o suficiente e ter latência baixa o suficiente no carro, não há necessidade do Sistema 1?

Jia Peng: Teoricamente sim. Agora nosso VLM pode atingir 3,4 HZ no carro (Nota: HZ é o número de eventos periódicos que ocorrem por unidade de tempo. Quanto maior o valor, menor o atraso. É um modelo com parâmetros de 2,2B (2,2 bilhões), mas). Para poder substituir de ponta a ponta, ele precisa funcionar a mais de dez HZ, correspondendo a um atraso de 100-200 milissegundos, que é a velocidade de reação humana. Certos cenários têm requisitos de latência mais elevados, como AEB (frenagem de emergência).

"Mais tarde": Quão única é esta estrutura? A Huawei também está falando sobre o Sistema 1 e 2; o "Large Language Model XBrain" de Xiaopeng também lida com cenários desconhecidos. É semelhante ao Sistema 2 de que você está falando?

Lang Xianpeng: Somos os primeiros a propor sistemas duplos na indústria e nosso VLM é implantado no chip Orin X produzido em massa para automóveis. Tentativas anteriores semelhantes de outras empresas foram em computadores industriais.

Quer se trate de um modelo completo ou VLM, esta arquitetura foi entregue e está sendo testada por milhares de pessoas.

"Mais tarde": Você também mencionou que está trabalhando em um modelo de mundo em nuvem. Qual o papel que isso desempenha em toda a arquitetura?

Jia Peng: Este é o nosso sistema 3. O modelo do mundo da nuvem faz duas coisas: primeiro, o VLM pode ser destilado do modelo do mundo da nuvem, que consiste em primeiro treinar um modelo muito grande na nuvem, como o parâmetro 400 B Lamma 3.1 lançado recentemente pela Meta, e depois destilar um Modelo 8 B Isso funciona melhor do que treinar modelos 8 B do zero.

Em segundo lugar, o modelo mundial pode examinar as capacidades do Sistema 1 e do Sistema 2. No processo de testes sem mapeamento de ponta a ponta, descobrimos que a verificação em todo o país é muito difícil. Existem 10 milhões de quilômetros de estradas e, anteriormente, só podíamos mobilizar mão de obra para testá-las.

"Tarde": Tesla também está trabalhando em um modelo mundial. Mas será que a indústria precisa de tantos modelos mundiais? Afinal só temos um mundo.

Lang Xianpeng: No processo de 0 a 1, haverá muitos caminhos e tentativas. Assim como não precisamos de tantas marcas de veículos elétricos, mas existem centenas nos horários de pico.

"Mais tarde": A indústria acreditava anteriormente que as classificações de direção inteligente da China eram Huawei, Momenta, Xpeng e Ideal. Quando essa classificação será reescrita? E qual é o próximo ponto que mudará as classificações de direção inteligente?

Lang Xianpeng: Foi reescrito. No futuro, cada equipe irá para a terra de ninguém: se o Wutu resolver o problema e puder ser aberto em todo o país, e de ponta a ponta possibilitar que todo o país se abra bem, então o próximo passo é L4.

Como produzir L4 em massa? Devem ser cem flores desabrochando no início e então convergirão. Mas nem todos regressarão à mesma linha de partida, porque a lacuna em termos de dados e de capacidade computacional só se tornará cada vez maior.

Revisão das seis batalhas principais da direção ideal e inteligente

"Mais tarde": Ouvi dizer que você é bom em nomear batalhas.

Lang Xianpeng: Levamos os nomes a sério.

A equipe de direção inteligente travou seis batalhas principais: a primeira batalha foi o Plano da Acrópole, depois o Plano da Ilíada, o Plano da Odisseia, a primeira e a segunda partes do épico de Homero, depois o Plano Titã, o Plano Maçã Dourada e depois a Guerra dos Titãs; , o Novo Deus derrotou os antigos deuses. Agora vamos passar para o atual Projeto Dâmocles, que é um projeto de ponta a ponta. Este projeto é desafiador e perigoso, se não for bem feito, a Espada de Dâmocles cairá.

“Late”: Quais são os maiores desafios e recompensas em cada batalha?

Lang Xianpeng:

  • O Projeto Acrópole é nosso primeiro projeto de autopesquisa - entregando funções básicas como AEB, cruzeiro adaptativo ACC e manutenção de faixa no Ideal ONE lançado em maio de 2021. Essas tecnologias estão maduras, mas só temos 90 dias, Deus, o que importa. é uma execução forte. Daquele dia em diante, pensamos em como poderíamos recuperar o atraso rapidamente.
  • Em 2022 iniciaremos o programa Ilíada – entregando o projeto Orin X no modelo L9. O algoritmo anterior no Horizon J3 não é mais aplicável e precisamos desenvolver novamente o sistema no Orin. Também acompanhando a epidemia, o fornecimento de chips foi cortado e a Bosch não conseguiu fornecer chips de radar de ondas milimétricas angulares suficientes. Tivemos que optar por remover o radar de ondas milimétricas angulares e usar uma solução puramente visual para detecção de ponto cego, prevenção de obstáculos e outras funções. No final, foram necessários três meses para entregar a solução, vários meses antes do tempo que o amigo levou para entregar Orin.
  • Ao mesmo tempo que a Ilíada, Jia Peng foi responsável pelo desenvolvimento da plataforma Pro baseada no Horizon J5, que é o Projeto Odyssey. O maior desafio é o pequeno número de pessoas. Naquela época, toda a equipe tinha apenas 500 pessoas. Em 2021, tanto Xiaopeng quanto Weilai tinham milhares de pessoas, e a Huawei afirmava ter mais de 2.000 pessoas na época.
  • Em 2023, nossa plataforma Orin tornou-se relativamente estável e atingiu a paridade em termos de hardware. Julgamos que a próxima batalha será a NOA urbana, e apenas aqueles que conseguirem vencer serão elegíveis para entrar no primeiro nível. Isso é chamado de Projeto Titan.
  • O Projeto Maçã Dourada é uma NOA de cem cidades proposta no Salão do Automóvel de Xangai de 2023. Também vem da mitologia grega, Hércules foi em busca da maçã dourada, mas a maçã dourada era guardada por um dragão de cem cabeças. para pegar a maçã dourada, devemos cortar as cabeças do dragão gigante, uma por uma, e eliminar todas as centenas de cidades, uma por uma.
  • O Projeto Dâmocles é um projeto de ponta a ponta iniciado este ano, o que significa que a Espada de Dâmocles cairá se não for bem executada.

"Mais tarde": Outras empresas não removeram o radar de ondas milimétricas de quatro ângulos. Você já considerou o impacto na segurança do sistema após removê-lo?

Lang Xianpeng: Removemos o radar de ondas milimétricas por dois motivos. Um deles foi para garantir a entrega. Naquela época, o fornecimento de chips de radar Bosch Corner foi interrompido e tivemos que fazer uma escolha. Substitua o radar pela visão ou não cumpra. A segunda é a seleção de tecnologia. Naquela época, Tesla queria adotar uma solução puramente visual que estivesse mais próxima da capacidade humana de reconhecer o ambiente circundante. Se houver radar de ondas milimétricas angulares e sensores visuais na carroceria do carro, e houver um desacordo entre os dois, é necessário usar a lógica de regras escritas por humanos para julgá-lo, e erros ocorrerão inevitavelmente.

Outro benefício adicional é que a tecnologia reduz custos, economizando cerca de 500 milhões.

No entanto, é muito difícil e arriscado usar várias câmeras para substituir o radar de ondas milimétricas angulares. Fizemos muitos testes e o resultado final é que a precisão e a taxa de sucesso são ligeiramente superiores às do radar angular.

"Mais tarde": Você mencionou o problema da insuficiência de recursos antes. Este problema está resolvido agora?

Lang Xianpeng: Propusemos “três estratégias principais” na nossa reunião estratégica de outono em setembro passado. A primeira estratégia é a estratégia de condução inteligente. Então começamos a recrutar muita gente no segundo semestre. As exigências e expectativas da empresa também aumentaram. Quer se trate de uma centena de cidades ou de outras, ela precisa acompanhar o escalão superior.

"Mais tarde": Então a direção inteligente não era uma estratégia central ideal antes?

Lang Xianpeng: Desta vez está oficialmente claro.

"Mais tarde": É porque você percebe que o impacto da direção inteligente nas vendas de produtos está aumentando e que a distância entre você e a Huawei está aumentando?

Jia Peng: Sim, então a estratégia de outono de 2023 determinará que, idealmente, seremos líderes absolutos em direção inteligente este ano, porque julgamos que a lógica de compra de automóveis de toda a indústria se tornará a condução inteligente primeiro.

"Mais tarde": O que você acumulou nas seis batalhas?

Lang Xianpeng: Se quiser vencer, você deve pensar em como vencer. Ou seja, comece com o fim em mente, encontre a necessidade e descubra o que precisa ser feito para resolver um problema. Radar com ângulo removido e mapas de corte NPN são exemplos.

"Tarde": O ponto de partida dos ideais não é baseado na competição? Por exemplo, a corrida do Projeto 100 Cidades do ano passado.

Lang Xianpeng: Depois que a Huawei anunciou no ano passado que lançaria ADS (solução NOA sem imagem da Huawei) que pode ser aberta em todo o país, enfatizamos demais a concorrência e comparamos alguns dos indicadores da Huawei, como taxas de aquisição, mas ignoramos a experiência do usuário. o caso desta primavera. Algo que foi criticado por todos na reunião de estratégia.

Posteriormente, refletimos que toda aceitação e entrega de produtos deveria ser baseada na avaliação do usuário.

"Mais tarde": Como você projeta sua P&D de direção inteligente e organização de produtos para lidar com a concorrência de alta intensidade de hoje?

Lang Xianpeng: Nossa direção inteligente é uma organização horizontal e vertical. Sou responsável pelo departamento de negócios vertical, fazendo pesquisa, desenvolvimento e entrega. No entanto, a organização, execução e operação do produto final, incluindo benchmarking competitivo externo e investimento em recursos de P&D, são todos gerenciados pela direção inteligente PDT (Equipe de Desenvolvimento de Produto, uma equipe multifuncional de desenvolvimento de produto).

Participarei na formulação de algumas estratégias e planos de talentos. Assim que o plano for finalizado, iremos implementá-lo com firmeza.

"Tarde": No outono passado, a Ideal contratou pessoas em grande escala, e a equipe de motoristas inteligentes expandiu de mais de 700 para mais de 1.000 pessoas. Em maio deste ano, demitiu outras duzentas a trezentas pessoas e, em junho. chamou de volta alguns funcionários em posições-chave. O que significa passar do recrutamento à demissão e, em seguida, demitir funcionários em um curto período de tempo?

Lang Xianpeng: A essência é a iteração tecnológica. No passado, havia um grande número de regras no sistema de condução inteligente, que exigiam programação manual, gestão de progresso e testes. Mas de ponta a ponta tem mais a ver com modelos de IA, e as posições acima mencionadas foram significativamente reduzidas. Posteriormente, algumas pessoas foram reconvocadas, principalmente com base em ajustes de acordo com as necessidades do negócio. Na verdade, a equipe de condução inteligente da Tesla sempre foi composta por 200 a 300 pessoas e forneceu a maior frota de condução autônoma do mundo.

"Tarde": o ponta a ponta de Tesla foi proposto pela primeira vez internamente por um técnico indiano, Dhaval Shroff, e adotado de baixo para cima. Uma organização de P&D ideal possui o terreno para a inovação de baixo para cima?

Lang Xianpeng: Na verdade, essas ideias para o VLM vieram de nossas equipes de pré-pesquisa e P&D. Não planejamos esse sistema duplo muito cedo.

"Mais tarde": Como você avaliaria seu conjunto de talentos? Antes de Xiaopeng, havia Wu Xinzhou e Weilai tinha Ren Shaoqing. Algumas pessoas acreditam que a equipe de direção inteligente ideal sempre careceu de tais especialistas técnicos.

Lang Xianpeng: Neste nível, tanto a capacidade técnica como a capacidade de obter resultados são importantes. Muitos dos nossos líderes técnicos, incluindo eu, Jia Peng e Wang Jiajia, temos trabalhado na condução autónoma em 2014 ou 2015. Nossos novos recrutas também são relativamente fortes. Os mais de 200 recém-formados deste ano estão, em sua maioria, entre os 50 melhores alunos no QS100 (British QS World University Rankings). E temos poder computacional e reservas de dados, que são a base para o crescimento de talentos.

"Mais tarde": Embora você tenha entrado no campo da direção inteligente muito cedo, inicialmente trabalhou em algoritmos relacionados a mapas no Baidu, e não na direção inteligente em si.

Lang Xianpeng: A experiência do Baidu é muito importante. Essa experiência me fez não ter medo de nada na gestão. Acredito que se encontrar o método certo posso alcançar melhores resultados em menos tempo.

Meu primeiro projeto no Baidu foi semelhante à autopesquisa de primeira geração da Ideal, no sentido de que o ciclo era extremamente apertado. Entrei no Baidu no final de abril de 2013 e o projeto Street View será lançado na Conferência do Baidu quatro meses depois. No início havia apenas 4 pessoas nesta equipe e finalmente concluímos o lançamento à meia-noite do dia anterior à conferência.

Existem duas chaves aqui. Uma delas é usar novas tecnologias. Ao fazer visualizações de ruas, era necessário desfocar placas e rostos. O método convencional naquela época era fazer isso manualmente, mas usávamos um algoritmo visual, que é mais rápido e preciso, e economiza muita gente. O outro são os dados. Para este algoritmo, originalmente queríamos cooperar com as equipes de Yu Kai (mais tarde fundado Horizon) e Ni Kai (mais tarde fundado Heduo) do Baidu IDL, mas seu algoritmo só tinha uma precisão de 86% neste cenário. número de matrícula 99%, 97% dos rostos. A chave é que rotulamos dezenas de milhares de dados.

Algoritmicamente, definitivamente não somos tão bons quanto eles. Eles são as pessoas com os melhores algoritmos do mundo. Mas esta é apenas uma lacuna de 80 a 90 pontos em termos de dados de cena, temos uma ordem de grandeza a mais; Então, durante a entrevista posterior, Li queria me perguntar: qual é o problema mais importante para resolver a direção autônoma? Eu diria dados.

"Mais tarde": Nos últimos anos, muitas pessoas optaram por sair porque não suportaram a pressão ou não acreditaram que seus ideais poderiam ser alcançados. Por que você ficou no final?

Lang Xianpeng: Nós, um grupo de pessoas, só queremos que o L4 aconteça e acho que isso só pode ser feito de maneira ideal.

Jia Peng: Antes de vir para a Ideal, fiquei na NVIDIA por 5 anos. Quer se tratasse de modelos ponta a ponta ou de grande porte, a NVIDIA foi a primeira a propor isso, mas não foi implementada na época. Quando entro numa empresa automóvel, finalmente tenho a oportunidade de fazer da condução autónoma um circuito fechado, o que é óptimo.

Fonte da imagem do título: "Genius Gunner"