Li Auto Lang Xianpeng: Sem um lucro de US$ 1 bilhão no futuro, não podemos permitir a direção autônoma |

2024-08-06

Entrevista｜Li Qin e Li Anqi

Texto | Li Anqi

Editor |

No início de junho, um dia antes de seu discurso no Chongqing Automobile Forum, Li Xiang, CEO da Li Auto, alterou temporariamente o roteiro do discurso. A equipe preparou originalmente um tópico para ele sobre inteligência artificial, mas o que Li queria falar era sobre direção autônoma.

Li Xiang disse na reunião que a direção autônoma no futuro será como os humanos, com a capacidade de reagir rapidamente e de lidar com eventos complexos com raciocínio lógico. A resposta ideal é: modelo de linguagem visual ponta a ponta + VLM - este também é o tópico mais quente na indústria de direção inteligente no momento.

Um mês depois, a equipe de condução inteligente da Li Auto lançou uma solução detalhada “ponta a ponta + VLM” Diferente da solução “segmentada ponta a ponta” dos pares domésticos, a solução da Li Auto está mais próxima da Tesla e é chamada de “One”. Modelo”, uma grande rede.

Na impressão do mundo exterior, o carro inteligente ideal sempre foi um caçador. Durante a feroz guerra de Kaicheng na indústria no ano passado, a fim de acompanhar o ritmo da indústria, a Ideal começou a mudar frequentemente sua rota: de depender de mapas de alta precisão para mapas leves (redes de recursos NPN) e, em seguida, eliminando mapas de alta precisão.

Lang Xianpeng, vice-presidente de pesquisa e desenvolvimento de direção inteligente da Li Auto, e Jia Peng, chefe de pesquisa e desenvolvimento de tecnologia de direção inteligente, aceitaram recentemente uma entrevista com 36Kr. Relembrando esta jornada de busca, Lang Xianpeng concluiu: “O núcleo. O princípio é se podemos encontrar a essência do problema e então tomar uma decisão rápida.

A escolha da rota técnica “ponta a ponta” também é uma continuação deste princípio. Lang Xianpeng disse que no passado as soluções de direção inteligente, fossem elas com ou sem mapa, a arquitetura técnica subjacente era "baseada em mapa" e funcionava de acordo com o "processo de percepção para controle" existente. as informações foram danificadas e a regulamentação e o controle a jusante foram limitados "Isso requer muita mão de obra e recursos" para corrigir constantemente as vulnerabilidades.

É claro que o investimento em recursos ainda é uma questão secundária. O problema central é que “a experiência de condução inteligente baseada em regras tem um limite superior e nunca pode ser antropomórfica”.

"Modelo mundial ponta a ponta + VLM +" é o paradigma ideal de implementação de inteligência artificial.

Simplificando, a solução ideal de ponta a ponta elimina os vários módulos independentes do sistema de direção inteligente original, como percepção, previsão e controle de planejamento, que dependem de regras artificiais, e os funde em uma grande rede neural. “Dados do sensor de entrada e trajetória planejada de saída.”

O modelo de linguagem visual VLM fornece um plug-in de ponta a ponta semelhante ao ChatGPT. A questão ponta a ponta é “que tipo de dados você fornece, que tipo de comportamento ele terá”. O modelo de linguagem visual VLM tem a capacidade de compreender o mundo e o raciocínio lógico. Em cenários complexos, os usuários ponta a ponta podem fazer perguntas ao VLM em tempo real, e este último dará sugestões de direção relevantes.

O modelo mundial é um enorme livro de testes errado, que pode gerar dados de simulação por meio de reconstrução + produção, além de casos reais acumulados antes do Ideal, formando “perguntas de teste reais + questões de teste simuladas” para testar o modelo ponta a ponta. Somente depois que o modelo passar no teste e obter pontuações altas ele poderá ser promovido aos usuários.

Internamente, esses três modelos são chamados de Sistema 1, Sistema 2 e Sistema 3 respectivamente. O Sistema 1 corresponde ao modo de pensamento em tempo real do cérebro humano, o Sistema 2 corresponde ao pensamento lógico do cérebro humano e o Sistema 3 é um modelo de exame responsável por aceitar os resultados de treinamento e aprendizagem do Sistema 1 e do Sistema 2.

A tecnologia de direção inteligente ponta a ponta foi iniciada pela Tesla. Em agosto de 2023, Musk demonstrou os recursos completos da versão FSD v12 em uma transmissão ao vivo. Atualmente, o FSD foi iterado para a versão v12.5. Mas, ao contrário do Tesla, além do modelo ponta a ponta e mundial, o Ideal também apresenta recursos de modelo de linguagem grande VLM.

Jia Peng explicou ao 36Kr que passou uma semana na Costa Leste e na Costa Oeste dos Estados Unidos testando o FSD da Tesla e descobriu que mesmo “ponta a ponta” tem um limite superior. Na costa leste dos Estados Unidos, onde as condições das estradas são complexas, como Nova York e Boston, a taxa de aceitação da Tesla aumentou significativamente "O número de parâmetros do modelo ponta a ponta que podem ser executados no HW3.0 não aumentará. ser particularmente grande, e a capacidade do modelo também tem um limite superior natural."

A função ideal do VLM é aumentar o limite superior de "ponta a ponta". Ele pode aprender sobre estradas esburacadas, escolas, ser responsável pela construção, rotatórias e outros eventos, e fornecer tomada de decisões de ponta a ponta. sistema final em momentos críticos.

Tanto Lang Xianpeng quanto Jia Peng acreditam que o VLM é a maior variável no sistema de direção inteligente ideal. Como os parâmetros do VLM atingiram 2,2 bilhões e o tempo de resposta é de 300 milissegundos, se houver um chip com maior poder computacional, o número de parâmetros que podem ser implantados pelo VLM chegará a dezenas de bilhões, que é o melhor caminho para avanço condução autônoma L3/L4.

"O próprio VLM também está acompanhando o desenvolvimento de tecnologia de modelos de linguagem de grande porte. Ninguém pode responder quão grande será o número de parâmetros."

Não é difícil descobrir que características como modelos de linguagem visual baseados em dados e grandes determinam que a indústria de direção inteligente participou do jogo do poder da computação iniciado por empresas como OpenAI, Microsoft e Tesla.

Lang Xianpeng não mediu palavras. Nesse ponto, o que todos estão comparando é a quantidade e a qualidade dos dados, bem como a reserva de energia computacional. Dados de alta qualidade são baseados em escala de dados absoluta; o suporte ao treinamento do modelo L4 requer cerca de dezenas de EFLOPS de poder computacional.

"Nenhuma empresa sem um lucro líquido de mil milhões de dólares será capaz de suportar a condução autónoma no futuro", disse Lang Xianpeng sem rodeios.

Atualmente, o poder de computação em nuvem da Li Auto é de 4,5EFLOPS, o que rapidamente reduziu a distância com a empresa líder Huawei. De acordo com a 36Kr Auto, a Ideal comprou recentemente um grande número de chips de nuvem NVIDIA e “basicamente comprou todas as placas nas mãos dos revendedores do canal”.

O próprio CEO Li Xiang também tem uma visão sobre a tendência desta competição: usar recursos e alavancar tecnologia inteligente para se livrar dos pares. Ele frequentemente toma a iniciativa de perguntar a Lang Xianpeng: “Existem recursos computacionais suficientes? Não o suficiente para Xie Yan (CTO ideal) obter mais”.

“Também temos carros e mais dinheiro do que outros. Temos uma grande chance de aumentar a distância com nossos oponentes nesta estrada”, disse Li. O relatório financeiro mostra que no primeiro trimestre deste ano, as reservas de caixa da Li Auto estavam próximas de 99 bilhões de yuans.

A Ideal pode ver a partir de dados internos que o ciclo fechado de negócios da direção inteligente começou a mostrar sinais. No início de julho, a Ideal começou a entregar a versão 6.0 Smart Driving que pode ser conduzida em todo o país para os usuários da versão Max do Smart Driving descobriu que a proporção do modelo Lideal Max ultrapassou rapidamente os 50%. mais de 10% a cada mês. Se 2%-3% pode ser entendido como jitter normal, mas mais de 10% é crescimento efetivo.”

Lang Xianpeng também sabe que embora a visão da condução autónoma L4 esteja a começar a ficar clara, o seu caminho de implementação não mudou “Devemos ajudar rapidamente a empresa a vender carros. dirigindo."

Se a direção inteligente for a vencedora no futuro campo de batalha automotivo, é obviamente um jogo de recursos mais cruel. A Ideal fez preparativos antecipados desde a estratégia de nível superior até à preparação técnica e investimento em recursos. E quanto aos outros?

A seguir está uma conversa entre 36Kr Automobile e Lang Xianpeng, vice-presidente de P&D da Ideal Intelligent Driving Technology, e Jia Peng, chefe de P&D da Ideal Intelligent Driving Technology editada:

Falando sobre o limite superior da direção inteligente: haja ou não uma imagem, é uma arquitetura homogênea

36Kr Auto: Houve uma revisão interna? Como deixar de ficar para trás na direção inteligente e atingir rapidamente um nível comparável ao da Huawei?

Lang Xianpeng: Na verdade, em comparação com Xiaopeng, NIO e Huawei, não queremos dizer que temos múltiplas cabeças, e podemos até não ter tantas famílias como outras, mas exigimos ser realistas. Às vezes sinto que as pessoas podem não procurar a essência do problema. Ao encontrar dificuldades, elas apenas pensam se o que estão fazendo agora pode ser modificado e iterado.

Por exemplo, desde ter fotos até não ter fotos, o maior problema é a própria foto. Já trabalhei muito no mapa antes e gostaria de lutar um pouco mais. Na verdade, quero investir rapidamente na próxima fase de pesquisa e desenvolvimento. Depende se conseguirmos encontrar o problema essencial e decidir corrigi-lo rapidamente.

Automóvel 36Kr: O ideal é conseguir uma direção inteligente sem mapas em todo o país. Existem muitas versões.

Lang Xianpeng: No ano passado, no Salão do Automóvel de Xangai, todos começaram a fazer NOA urbano. Cada empresa tem ideias semelhantes. Mapas de alta precisão são usados para rodovias, então o primeiro passo é ver se o plano de rodovias pode ser usado nas cidades. Você tem que perguntar ao revendedor de mapas que existem mapas de alta precisão. cidades, mas apenas para cerca de 20 cidades. Dissemos para tentar primeiro.

No entanto, a atualização iterativa do plano e do mapa está vinculada. Naquela época, estávamos trabalhando em Wangjing. Estávamos construindo estradas, mudando rotas e até mudando semáforos. Tivemos que esperar que o AutoNavi repetisse os desenhos antes de podermos continuar trabalhando. Por volta de junho do ano passado, decidimos não refazer o mapa e mudar para a solução NPN (uma rede neural anterior). É equivalente ao mapeamento local, usando informações prévias do NPN nos principais cruzamentos, rotatórias, etc., e nosso carro atualiza os recursos.

Mas nas grandes cidades como Pequim, Xangai, Guangzhou e Shenzhen, há muitos carros. Mas nas cidades pequenas, há poucos carros. Sempre faz isso em uma cidade grande? Os usuários não pagarão por isso. Naquela época, a equipe ainda estava hesitante e Pequim, Xangai e Guangzhou estavam bem. Há também vozes internas dizendo que em vez de construir cem cidades, deveríamos construir algumas cidades de primeira linha. De qualquer forma, a Huawei estará apenas em 50 cidades no início, então não precisamos ser o primeiro ou o segundo.

Eu disse que não é possível e ainda preciso fazer isso rápido. Ainda quero saber se é realmente feito em maior escala, o método NPN está certo? Esse é o problema. Os mapas sempre tiveram restrições, e também há críticas de que algumas cidades só podem abrir duas estradas. Então, depois de aprender com a experiência, começamos a cortar planos após entregar as 100 cidades em dezembro do ano passado.

36Kr Auto: Quais são as necessidades de desenvolver um NOA sem gráficos de ponta a ponta?

Lang Xianpeng: Ainda há um problema sem imagem. Acontece que o mapa pode fornecer algumas informações relativamente precisas. Depois de remover as informações anteriores do mapa, os requisitos para a percepção a montante tornam-se particularmente elevados. Na área de regulação e controle downstream, a entrada de informações era muito regular antes, mas agora percebe-se que existem alguns problemas de jitter e erros, sendo também um grande desafio.

Continuar a fazer isso exigirá muita mão de obra. Por exemplo, se houver um problema de percepção, muitas regras terão de ser adicionadas ao modelo ambiental intermédio. Se houver algum impacto na regulamentação subsequente, podem ser adicionadas regras para compensar. Isso representa um enorme desafio de recursos humanos para a equipe. Foi assim que a Huawei ficou sem fotos (vantagem de mão de obra). Originalmente, queríamos contratar mais pessoas no segundo semestre do ano passado.

Mas o limite máximo disso é bastante óbvio. Principalmente, todas as regras são feitas por pessoas e projetadas por engenheiros. Especialmente em janeiro e fevereiro deste ano, muitas vezes mudamos uma regra. Se este caso funcionar bem, outros casos não funcionarão. O envolvimento mútuo é muito grande e infinito.

É claro que investir recursos é secundário. O mais importante é que a experiência baseada em regras tem um limite máximo e nunca pode ser antropomórfica. Então, iteramos para o atual VLM de ponta a ponta. De ponta a ponta, é a primeira vez que se utiliza inteligência artificial para uma direção inteligente.

36Kr Auto: Quando é o momento ideal para começar a investir de ponta a ponta?

Lang Xianpeng:Sempre temos duas linhas de trabalho, uma é a linha aberta para produção e entrega em massa, no ano passado a imagem clara NPN para nenhuma imagem é a linha aberta, e a linha ponta a ponta é uma linha escura, que é nossa pré- linha de pesquisa.

Acontece que a Conferência Estratégica do Lago Yanqi deixou isso claro no ano passado. Na reunião estratégica, Li Xiang mencionou que a condução autónoma é a nossa estratégia central e que a ID (investigação e desenvolvimento tecnológico) deve atingir marcos importantes. A ideia de ponta a ponta já existe há muito tempo, mas sempre houve pressão para entregar e nenhum recurso para explorar.

36Kr Auto: Wutu pode ter que ir de ponta a ponta logo após ser lançado. Como esse ritmo é considerado?

Lang Xianpeng: No início do ano, eu disse a Li Xiang o seguinte: Embora queiramos fazer de ponta a ponta, ainda temos que fazer sem foto. Como a ausência de gráficos é um suporte de ponta a ponta. Sem a ausência de gráficos, de onde viriam os dados e a experiência para oferecer suporte de ponta a ponta?

E deve ser carregado sem fotos antes que o carro possa ser vendido facilmente. Caso contrário, como poderá competir com a Huawei? Agora que estamos no Wutu, estamos tentando ganhar tempo de ponta a ponta e, ao mesmo tempo, melhorar a capacidade de nossos produtos para ajudar a vender carros.

36Kr Auto: Ao longo do caminho, você tem negado seus planos. Existe alguma pressão da perspectiva da gestão ascendente?

Lang Xianpeng:Não. Primeiro, a minha responsabilidade é levar todos a realizar a condução autónoma; segundo, uma organização ideal tem a sua própria metodologia ou processo, como fazer as coisas certas, mas não fáceis. Parece um disparate, mas é crucial.

Li Xiang nunca diria por que Lang Bo negou o que havia feito antes. Deixamos claro para ele por que estávamos fazendo isso, que queríamos vencer na estratégia de IA e encontramos um paradigma de sistema duplo, que ele entendeu imediatamente. Ele diria apenas que de ponta a ponta é ótimo e deve ser feito rapidamente.

O que a inteligência artificial requer é poder de computação e dados. Li Xiang sempre vem e me pergunta: Lang Bo, você é poderoso o suficiente? Se não for suficiente, peça a Xie Yan para trazer mais para você.

Li queria dizer que também temos carros e mais dinheiro do que outros, por isso temos uma grande chance de aumentar a distância com outros nesta estrada. Portanto, não faça esses ajustes e apresse-se e faça a IA por trás disso.

Falando sobre o futuro da direção inteligente: End-to-end + VLM é o melhor paradigma para inteligência artificial

36Kr: Algumas empresas nunca fizeram no-map e acham que de ponta a ponta é uma oportunidade para mudar de faixa e ultrapassar.

Lang Xianpeng: Isso está meio certo. Na verdade, é possível mudar de faixa de ponta a ponta. Independentemente de haver um grafo, NPN ou nenhum grafo, o núcleo da solução é homogêneo. Remova o mapa, melhore a percepção, empilhe pequenos módulos em vários modelos grandes e use o mesmo plano para evoluir aos poucos.

Mas de ponta a ponta é diferente. Pela primeira vez, utiliza inteligência artificial para condução autônoma. Depois de usar um modelo para fazer tudo de ponta a ponta, a entrada são apenas dados, a saída é a trajetória e os módulos intermediários são integrados em um modelo.

Todo o sistema de processo de P&D é completamente diferente. No modelo tradicional de desenvolvimento de produtos, a força motriz vem do design da demanda ou do feedback do problema. Não funciona neste cenário. Depois que houver um bug, será necessária alguma iteração e verificação manual do projeto.

De ponta a ponta é uma caixa preta e suas capacidades dependem inteiramente do tipo de dados que lhe são fornecidos. O que estamos filtrando agora são os dados de motoristas experientes. Se os dados não forem bons, o modelo produzido não será bom. O que entra é lixo e o que sai é lixo. É um processo de treinamento de fluxo de dados. Costumava ser um processo de pesquisa e desenvolvimento de função de produto, mas agora é um processo de melhoria de capacidade.

Portanto, não há problema em mudar de faixa de ponta a ponta, mas se quiser ultrapassar é preciso ter dados e poder computacional de treinamento. Se não houver esses dois pré-requisitos, para ser sincero, todo mundo tem o modelo, e o modelo em si não será muito diferente. Não importa quão bom seja o modelo, sem dados e poder computacional, é apenas um monte de parâmetros.

36Kr: O ideal é acumular muitos dados, mas He Xiaopeng apresentou recentemente a ideia de que ter mais dados não significa que a condução autónoma possa ser alcançada.

Lang Xianpeng:Nossos dados de treinamento são clipes, que incluem dados completos do motorista dirigindo por dezenas de segundos, incluindo sensores visuais, informações sobre o status do veículo naquele momento e dados operacionais como acelerador e freio.

Mas os dados devem ser de alta qualidade para serem úteis. O que é alta qualidade? Juntamente com nossa equipe de avaliação de desempenho subjetivo de produtos e veículos, definimos em conjunto um padrão denominado "Motorista Humano de Alta Qualidade". Alguns motoristas dirigem todos os dias e são muito habilidosos. Se sempre acelerarem e desacelerarem repentinamente, usarem o AEB ou girarem o volante repentinamente, pode não funcionar.

De acordo com esses padrões, apenas 3% dos nossos 800.000 proprietários de automóveis são "motoristas humanos de alta qualidade". Juntamente com os dados de alta qualidade acumulados anteriormente, são finalmente formados milhões de clipes, que são os melhores. He Xiaopeng está certo, dados de alta qualidade são realmente necessários, mas a qualidade dos dados é baseada na escala absoluta dos dados.

36Kr Auto: Depois de ponta a ponta, o sistema da ferramenta de dados precisa ser atualizado?

Lang Xianpeng: A cadeia de ferramentas mudou muito. Anteriormente, era um processo de desenvolvimento de funções do produto, como controle do usuário, transmissão de dados, análise manual de problemas e, em seguida, modificação do código, avaliação real do veículo e liberação on-line. Esse processo de dados em circuito fechado já é muito eficiente. Mas também levará vários dias e muita mão de obra estará envolvida. Quanto mais testes houver, mais problemas haverá e mais pessoas precisarão fazer modificações.

O processo atual é que se o proprietário de um carro assumir o controle, após o retorno dos dados, cenas semelhantes serão geradas automaticamente usando o modelo mundial e transformadas em um banco de perguntas errado. Verifique também se há dados semelhantes no banco de dados de perguntas errado. Caso contrário, explore o banco de dados existente e conduza um treinamento conjunto.

Após treinar um novo modelo, o modelo retorna ao sistema de exame de modelo mundial e é testado duas vezes. A primeira vez é para ver se você fez as perguntas erradas corretamente e a segunda vez é um conjunto de perguntas reais para testar sua habilidade. Se não houver problema nas duas vezes, o modelo está fora. No extremo, não há ninguém no meio e é um processo de circuito fechado muito automatizado.

36Kr Auto: O processo de treinamento de ponta a ponta é uma caixa preta e muito código precisa ser adicionado para descobrir os detalhes.

Lang Xianpeng:Muito poucos. Nosso volume de código para a versão com gráficos é de cerca de 2 milhões de linhas, e para a versão sem gráficos é de 1,2 milhão. O total de ponta a ponta é de apenas 200.000, o que representa apenas 10% do original.

Na verdade, existem algumas regras ocultas para controlar isso. Como os dados do sensor são inseridos de ponta a ponta e a trajetória planejada é realmente emitida, pode haver problemas, então teremos algumas regras violentas para evitar alguns comportamentos de controle anormais, como girar o volante 180 graus.

36Kr Auto: Musk disse que 300.000 linhas de código foram excluídas. Você parece ser mais agressivo se houver mais e mais problemas após o push.

Lang Xianpeng: Eu não acho que isso vai mudar muito. O principal é que temos a capacidade de nos iterar constantemente.

36Kr Auto: A Ideal sempre teve duas linhas internamente: produção em massa e pré-pesquisa. A transição ponta a ponta da pré-pesquisa para a produção em massa é o que é pré-pesquisa agora?

Lang Xianpeng: L4. Isso remonta à nossa compreensão da inteligência artificial. Descobrimos que, se quisermos alcançar uma verdadeira condução autónoma, a abordagem atual é muito diferente.

De ponta a ponta, que tipo de dados são fornecidos a ele, que tipo de comportamento ele terá. Se não forem fornecidos dados semelhantes, não serão tratados. Mas as pessoas não. Por exemplo, se eu dirigir em Pequim, também posso dirigir nos Estados Unidos. Se realmente quisermos alcançar a condução autônoma, o sistema deve compreender as coisas como os humanos e ter a capacidade de raciocinar.

Estudamos como o cérebro humano funciona e pensa Em agosto e setembro do ano passado, Jia Peng e Zhan Kun viram a teoria do sistema duplo, que é uma estrutura muito boa para o pensamento humano. Suponha que a inteligência artificial seja um sistema duplo. O Sistema 1 tem a capacidade de responder rapidamente e o Sistema 2 tem a capacidade de pensar logicamente e pode lidar bem com coisas desconhecidas.

Tudo isso faz parte do Tao, coisas no nível teórico. Quando se trata de direção autônoma, o modelo ponta a ponta é o Sistema 1, e o Sistema 2 é o modelo de linguagem visual VLM. Esta é a melhor solução para implementar a inteligência artificial no mundo físico.

Então, como você mede as capacidades do Sistema 1 e do Sistema 2? Também temos um modelo mundial, que na verdade é chamado internamente de Sistema 3. Nosso uso do modelo mundial é muito claro. Ele é usado para testar o Sistema 1 e o Sistema 2. É um examinador.

Temos um banco de testes real, que consiste em dados reais sobre pessoas que dirigem normalmente. O modelo mundial é um modelo generativo que pode gerar outras questões através da elaboração de inferências a partir de dados existentes. Depois que um modelo for treinado, faça as perguntas reais uma vez e, em seguida, faça alguns conjuntos de perguntas simuladas para ver quanto você pontua. Cada modelo terá uma pontuação e, quanto maior a pontuação, mais poderoso será o modelo.

36Kr Auto: Em que circunstâncias o Sistema 2 será acionado?

Lang Xianpeng: O Sistema 1 e o Sistema 2 estão sempre funcionando. Se alguns sistemas forem mais complexos, o Sistema 1 poderá não ser fácil de identificar, como viadutos, poças e pisos de cimento recém-construídos. O Sistema 2 funcionará em tais cenários, mas a sua frequência de funcionamento será mais baixa, como 3-4 Hz. , o Sistema 1 pode estar funcionando em uma frequência alta de mais de dez Hz. Semelhante ao GPT, o Sistema 1 sempre fará perguntas ao Sistema 2 sobre o que fazer ao se deparar com esse cenário.

36Kr Auto: O próprio System 2 VLM tem limites de capacidade?

Lang Xianpeng: Você pode pensar nisso como um grande modelo de linguagem. Alguns modelos de linguagem grandes podem ser bons em matemática, alguns podem ser bons em codificação e ter capacidades diferentes. Nós nos concentramos em fornecer leis relacionadas à direção, vídeos didáticos e livros didáticos para as disciplinas 1 a 4. Nosso VLM é, na verdade, um grande modelo de linguagem com foco na direção.

No curto prazo, ainda não tem algum conhecimento, mas à medida que o circuito fechado gira cada vez mais rápido, o limite superior de suas capacidades se tornará cada vez mais alto. Os parâmetros ponta a ponta atuais são de apenas mais de 300 milhões e os parâmetros do sistema VLM são de 2,2 bilhões.

36Kr Auto: Então a maior variável no futuro da direção inteligente é o Sistema 2?

Lang Xianpeng:O suporte subjacente é o Sistema 1, mas para ir mais longe, incluindo a condução autônoma de nível L3L4, devemos ter capacidades muito fortes do Sistema 2. Os atuais 2,2 bilhões de parâmetros podem não ser suficientes e mais terão que ser adicionados.

Jia Peng: O Sistema 2 concentra-se principalmente em cenas complexas. O tempo de resposta de 2,2 bilhões de parâmetros é de 300 mm. Em cenas difíceis, esse tempo de inferência é adequado. Mas o sistema 1 definitivamente não é suficiente, leva cerca de dezenas de milissegundos.

36Kr Auto: Existe um limite superior para os parâmetros do modelo? Tipo 8 bilhões? Quais são os requisitos aproximados para o poder de computação do chip?

Jia Peng:Assim como o modelo de linguagem grande, ninguém pode responder quantos parâmetros ele possui.

Lang Xianpeng:Agora temos conhecimento e habilidades. O Sistema 1 mais o Sistema 2 é um bom paradigma de inteligência artificial, mas como implementá-lo especificamente exige que o exploremos lentamente.

36Kr Auto: Se o modelo segmentado de ponta a ponta evoluir para um modelo único, precisamos reinventar a roda?

Jia Peng: O desafio é muito grande. Nosso modelo sem gráfico é equivalente ao modelo segmentado, com apenas dois modelos. Mas primeiro, o desafio técnico é relativamente grande, porque os tradicionais já se foram. Como treinar o modelo para alcançar bons resultados? O segundo é o desafio humano. Como podem dois grupos de pessoas com experiências diferentes em percepção e controlo trabalhar em conjunto para construir um modelo?

Nossa equipe também está lutando e se debatendo. Quando se trata de ponta a ponta, os papéis de muitas pessoas podem ter mudado. Pessoas que faziam engenharia podem definir dados e cenários. Mudar de função é um grande desafio.

Falando sobre negócios de circuito fechado: você não pode se dar ao luxo de dirigir autônomo sem US$ 1 bilhão

36Kr Auto: Parece que os fundos estão queimando. Quanto você planeja investir de ponta a ponta?

Lang Xianpeng: Certamente, atualmente é de 1 bilhão de RMB. No futuro, o treinamento de modelos de direção autônoma poderá exigir 1 bilhão de dólares americanos, sem incluir outras coisas, como compras de cartões, contas de luz e talentos. Nenhuma empresa sem um lucro líquido de mil milhões de dólares pode arcar com isso.

36Kr Auto: De ponta a ponta pode ser um divisor de águas na indústria automotiva De uma perspectiva comercial de circuito fechado, qual é o desempenho comercial da direção inteligente?

Lang Xianpeng: A partir da versão 6.0, nos últimos 1-2 meses, nossa proporção de AD Max ultrapassou 50%, com um crescimento de mais de 10% a cada mês. Se 2%-3% pode ser entendido como jitter normal, mas mais de 10. % é o crescimento efetivo. Em Pequim, Xangai, Guangzhou e Shenzhen, a proporção dos nossos modelos de condução inteligentes atingiu 70%. O pedido AD MAX para o modelo L9 é de 75%, L8 é de 55% e L7 é de 65%.

Jia Peng: L6 também tem 22%. A condução inteligente já é um fator muito importante para os jovens comprarem automóveis. Depois de usar a direção inteligente, é difícil voltar ao estado original.

Lang Xianpeng: Hoje em dia, a NOA de alta velocidade é bem reconhecida por todos, enquanto a NOA urbana ainda está numa fase muito inicial. Em grande medida, as capacidades dos produtos urbanos não são boas o suficiente. Mesmo sem imagens, atingiram o limite máximo. Em comparação com o nível de conforto da condução humana, não são particularmente boas. Depois de ponta a ponta, tudo vai mudar, e algumas performances ficam bem próximas dos humanos.

Com a adição de dados e poder de computação, a condução urbana inteligente derivada da arquitetura ponta a ponta provavelmente proporcionará uma experiência de direção em alta velocidade. Nesta fase, é muito útil que os usuários comprem carros.

36Kr Auto: O valor comercial da direção inteligente está se tornando cada vez mais óbvio, mas a função ideal de direção inteligente sempre foi gratuita. A estratégia será rediscutida para tornar o valor comercial mais proeminente?

Lang Xianpeng: Muitas pessoas compram Ideal para geladeiras, TVs em cores e sofás grandes, mas no futuro também poderão comprar Ideal para direção inteligente, o que é suficiente para mostrar o valor comercial da direção inteligente. A diferença entre as versões Max e Pro é de 30.000 yuans.

Quanto à cobrança do software, se atingir o nível L4, será realmente incrível. Imagine poder ajudar os usuários a buscar seus filhos na porta da escola. À medida que as capacidades melhoram, surgirão alguns modelos de negócios adicionais, mas a premissa deve ser que as capacidades de condução inteligente melhorem bastante.

36Kr Auto: Xiaopeng mencionou que alcançará uma experiência semelhante ao Waymo do Google nos próximos 18 meses.

Lang Xianpeng: Não há problema se os dados e os negócios puderem apoiar os objetivos. Fizemos alguns cálculos internos. Não vamos falar sobre L3L4. Se quisermos oferecer suporte ao VLM e ao treinamento ponta a ponta, precisaremos de dezenas de poder de computação em nuvem EFLOPS.

O Xpeng é 2,51 EFLOPS, e o ideal é 4,5 EFLOPS. São necessários pelo menos 10 EFLOPS de poder de computação para alcançá-lo, o que equivale a cerca de 1 bilhão de dólares americanos e 6 bilhões de yuans por ano. Se você puder pagar todos os anos, você pode jogar.

36Kr Auto: Além do poder computacional, com base na arquitetura técnica atual, quanto investimento a equipe de direção inteligente precisará em média por ano?

Lang Xianpeng: A maior parte das despesas são chips de treinamento, armazenamento de dados e tráfego, que custam pelo menos 1 a 2 bilhões de dólares por ano. Mas indo mais longe, especialmente no modelo mundial, o objectivo final é restaurar todo o mundo físico real. Isso por si só também requer treinamento e muitos recursos computacionais.

Quanto a qual é o limite superior, não consigo imaginar agora. É pelo menos mais de 10 EFLOPS. Musk disse que seriam centenas de EFLOPS.

36Kr Auto: As montadoras ainda se baseiam no modelo de lucro da indústria manufatureira. Haverá uma guerra de preços este ano e os lucros serão afetados. É mais apropriado que as montadoras façam o que as empresas de tecnologia fazem.

Lang Xianpeng: Qualquer pessoa que consiga obter dados de alta qualidade e tenha poder computacional de treinamento suficiente pode construir um modelo grande. Pode não haver tantos talentos, mas os talentos correspondentes devem estar lá. Quem mais pode ter todos os três além de Ideal, Huawei e Tesla? Eu não consigo entender.

Nossa ideia atual é ajudar rapidamente a empresa a vender carros. Somente vendendo os carros poderemos ter dinheiro para comprar um cartão para treinar uma direção inteligente.

Quanto mais progredirmos na condução inteligente, maior se tornará a lacuna. Antes não havia fotos, mas todo mundo estava fazendo alguma coisa de onde dava para ver o teto. Para fazer avanços no futuro, será necessário adicionar IA, e o que todos estão competindo são dados e poder de computação. Se não puder ser resolvido, só poderemos passar para a dimensão anterior e passaremos para a próxima dimensão para colher os dividendos dos dados.

36Kr Auto: A tecnologia de direção inteligente muda tão rapidamente e o investimento é tão grande. Como Li Xiang pode manter sua consciência sobre a direção inteligente?

Lang Xianpeng: Ele conversava com a professora Jia e comigo a qualquer momento. Desde setembro do ano passado, realizamos um encontro semanal sobre inteligência artificial, que reúne todas as pessoas relacionadas à IA da empresa, incluindo pessoas em espaços inteligentes, infraestrutura e plataformas de treinamento. A compreensão de Li Xiang sobre inteligência artificial ainda é muito boa.

Ele também tem alguns outros recursos e conhece muitas pessoas. Ele conversou com Lu Qi, o CEO da Kimi, Yang Zhilin, Horizon Yu Kai e outros. Ele não apenas entende a essência central e a tecnologia essencial da IA, mas também pode expressá-la em alguns termos populares.

36Kr Auto: Quanta mão de obra é necessária para o design do modelo de ponta a ponta? Quantas pessoas terá o tamanho médio de uma futura equipe de direção inteligente?

Jia Peng: Você pode não precisar de muitos. Na verdade, a Tesla tem poucos fabricantes de modelos verdadeiramente de elite, e a equipe visual tem apenas 20 pessoas no total. Na verdade, isso pode ser inferido. Por exemplo, com o chip OrinX, o próprio modelo funciona a 12-15 Hz, o que basicamente determina o número de parâmetros do modelo e que tipo de estrutura do modelo usar para treinamento. isto.

Lang Xianpeng: A Tesla é mais extrema, com uma equipe de algoritmos de software de mais de 200 pessoas, mas fabrica apenas um chip e alguns modelos. Não podemos ser tão perfeitos quanto ele agora, mas ainda seremos várias vezes melhores que ele. Como as nossas plataformas de chips são diferentes e temos muitos modelos, embora não empreguemos um número particularmente grande de pessoas, ainda há algumas pessoas em cada local.

36Kr Auto: O poder da computação em nuvem será um grande investimento no futuro. Você já pensou em substituí-lo por chips domésticos? Será difícil mudar?

Jia Peng: Os J3 e J5 da Horizon foram usados pela primeira vez na extremidade do carro. Cloud está testando alguns produtos nacionais, mas a maior dificuldade no momento é que sua ecologia não é tão boa. O ecossistema CUDA da NVIDIA é tão invencível que seria muito difícil se adaptar a outro ecossistema. Agora ainda quero colocar a eficiência em primeiro lugar e prestar atenção ao progresso interno. Os intercâmbios e os testes já começaram.

36Kr Auto: Depois que o chip de direção inteligente autodesenvolvido for lançado, qual será o efeito da integração ponta a ponta?

Jia Peng: Combinar software e hardware certamente terá melhores resultados, e a Tesla já produziu um protótipo. Os chips são mais baratos, o poder de computação é maior e o suporte para AD é melhor. Eles queriam expandir os parâmetros em 5 vezes no FSD V12.5 e expandiram. Isto tem grandes vantagens.

Lang Xianpeng:O pré-requisito é que os algoritmos L3 e L4 sejam determinados.

36Kr Auto: Haverá um momento para a direção autônoma L4?

Lang Xianpeng: Apenas 3-5 anos. Entregamos primeiro o L3, que é o trampolim para o L4. Primeiro, permite-nos ter uma compreensão mais clara do poder computacional e dos requisitos de dados do L4, incluindo as capacidades básicas do sistema de exame e do circuito fechado de dados.

Em segundo lugar, em termos de produtos, precisamos de estabelecer uma relação de confiança mútua com as pessoas. Como o sistema de ponta a ponta ainda é uma caixa preta, as pessoas ainda não confiam no sistema. Então, por meio dos produtos L3, você pode construir uma boa relação de confiança com as pessoas.

36Kr Auto: A origem de muitas tecnologias de IA está no Vale do Silício. Eu costumava seguir Tesla, mas a Ideal agora também está fazendo exploração de ponta. árvore de tecnologia errada?

Lang Xianpeng:Já temos um sistema completo, ainda faltam 3 a 5 anos, mas já começamos a mexer nele. Se cometermos um erro, cometeremos um erro cedo e ainda há uma chance.

Na verdade, existe uma divisão na inteligência artificial entre a China e os Estados Unidos e, na verdade, existem muitos talentos na China. Fazemos o possível para encontrar os melhores jovens. Por exemplo, este ano recrutamos mais de 240 escolas. todas elas estão entre as 100 melhores do QS (as 100 melhores universidades do mundo).

Falando sobre Tesla: Aprenda com Tesla e supere Tesla

36Kr Auto: Algumas pessoas dizem que a diferença entre a direção doméstica e a condução inteligente da Tesla é de 2 anos.

Lang Xianpeng: Certamente não. Não comentaremos as soluções técnicas porque a Tesla não falou muito sobre as suas soluções técnicas nos últimos dois anos. Em termos de experiência do produto, estamos basicamente no nível em que a Tesla lançou a versão ponta a ponta no ano passado. Há uma lacuna de cerca de meio ano.

36Kr Auto: Tesla também encontrou alguns problemas. Musk disse que há menos dados e menos feedback.

Lang Xianpeng:São estágios diferentes. Quando os encontramos, significa que entramos no próximo estágio.

Jia Peng: O maior problema do Tesla agora é a verificação. Você pode ver que a v12.4 (número da versão do Tesla FSD) não teve um bom desempenho e então a v12.5 foi lançada, com o volume do parâmetro expandido em 5 vezes. Acho que a etapa de verificação não foi muito bem executada. Quando o modelo foi lançado, eu não sabia como funcionaria quando fosse realmente usado pelos usuários.

É por isso que enfatizamos os modelos mundiais. Aprendemos essas lições e devemos concluir a verificação com antecedência. Caso contrário, como o modelo pode ser verificado para todas as estradas do país, inclusive dentro das comunidades do parque?

Se você olhar para o AI Day da Tesla em 2022, ainda é uma simulação muito tradicional. A escalabilidade (escalabilidade) é muito baixa para apoiar sua abertura total na América do Norte. Neste ponto, existem de fato algumas lições que aprendemos com Tesla. É por isso que nos esforçamos tanto para criar modelos mundiais.

36Kr Auto: Há algo que você acha difícil no processo de construção da solução ponta a ponta? Como uma cadeia de ferramentas de dados?

Jia Peng: O conjunto de dados foi construído desde 2019 e pelo menos é o melhor da China. Dados e treinamento são, na verdade, rotinas e todos têm paradigmas a seguir. Atualmente, a verificação é o maior desafio.

Outro é o próprio VLM, que aos poucos está assumindo um papel cada vez mais importante. Pode ser usado em apenas 5% dos casos no início, mas posteriormente pode encontrar um limite superior de ponta a ponta, e o restante da experiência do produto dependerá do VLM para iterar. Isso será um desafio no futuro.

Isso também é diferente de Tesla. Fizemos o VLM e o modelo mundial porque vimos os problemas de Tesla. Há um problema com a verificação da versão 12.4. Já o dirigimos na América do Norte duas vezes, cada vez por cerca de uma semana, tanto na costa oeste quanto na costa leste. Aparentemente é bom na costa oeste e ruim na costa leste. Boston e Nova York não são tão boas porque essas duas cidades são muito mais complicadas que a Costa Oeste.

Na Costa Leste, a taxa média de aquisição da Tesla é bastante elevada, e talvez alguns dos limites máximos de ponta a ponta estejam aqui. Então, quando fazemos o VLM, queremos quebrar esse teto. O limite superior do VLM é muito alto, sendo possível ultrapassá-lo (Tesla) através deste conjunto de caminhos.

notícias

Li Auto Lang Xianpeng: Sem um lucro de US$ 1 bilhão no futuro, não podemos permitir a direção autônoma |

Introdução

minhas informações de contato