Executivo da Li Auto: Se não investirmos US$ 1 bilhão em poder de computação todos os anos no futuro, seremos eliminados

2024-08-08

Nota do editor: O Departamento Editorial da Tencent Automotive chama a onda de eletrificação da última década de "era turbulenta" da indústria automobilística da China. Agora, em 2024, um nó histórico conhecido como o "Ano da Condução Inteligente", não podemos ajudar. mas pergunto. P: Qual caminho técnico os principais participantes do setor seguirão? Como construir suas respectivas barreiras concorrenciais? A Tencent Auto lançou especialmente uma série de planejamento de direção inteligente. Por meio de entrevistas, testes reais, análises horizontais, análises e outros métodos, ela se esforça para estar na origem da história e obter mais informações sobre as enormes mudanças que podem ocorrer na indústria automotiva. nos próximos dez anos, proporcionando assim aos leitores e à indústria mais informações. Uma orientação abrangente sobre o conteúdo pode deixar notas de rodapé históricas valiosas para a indústria.

Notícias Tencent "Faixe Alto"

Autor Ao Dun

Editor Shi Ding

As soluções “ponta a ponta” (E2E) estão a ser reconhecidas como a melhor solução para a condução inteligente na indústria. No entanto, quando as pessoas tentam dissipar o nevoeiro e explorar a verdade, parece haver dez mil “ponta a ponta”. -end"soluções aos olhos de 10.000 montadoras. ponta a ponta”.

Em dezembro passado,TeslaDepois de lançar o FSD V12 e propor uma solução ponta a ponta, o termo ponta a ponta foi elevado no círculo de direção inteligente da noite para o dia, logo depois, a Huawei,Xiaopeng,horizonte,NIOOutras empresas propuseram soluções ponta a ponta No final de julho, He Xiaopeng, presidente e CEO da Xpeng Motors, disse que a Xpeng Motors é a única empresa automobilística no mundo que alcançou a produção em massa ponta a ponta de. modelos grandes.

5 de julho,carro ideal Uma nova arquitetura de tecnologia de direção autônoma baseada no modelo ponta a ponta, modelo de linguagem visual VLM e modelo mundial foi lançada. A primeira versão foi lançada para milhares de usuários de teste no final de julho. Li Xiang anunciou em junho deste ano que o plano será totalmente implementado no primeiro semestre deste ano, no mínimo, e no primeiro semestre do próximo ano, no mínimo.

De acordo com Lang Xianpeng, vice-presidente de P&D de direção inteligente da Li Auto, o projeto arquitetônico mencionado acima foi inspirado na teoria do sistema rápido-lento mencionada pelo ganhador do Prêmio Nobel Daniel Kahneman em "Thinking, Fast and Slow" e simula o pensamento humano e pensando no campo do processo de tomada de decisão de direção autônoma para formar uma solução de direção mais inteligente e humana.

O sistema rápido, nomeadamente Sistema 1, é implementado pelo modelo ponta a ponta, recebe entrada do sensor e emite diretamente a trajetória de condução para controle do veículo. O sistema lento, nomeadamente o Sistema 2, é implementado pelo modelo de linguagem visual VLM. Depois de receber a entrada do sensor, ele envia informações de tomada de decisão para o Sistema 1 após o pensamento lógico. A capacidade de condução autônoma composta pelos sistemas duplos também será treinada e verificada. usando o modelo mundial na nuvem.

Comparando horizontalmente com seus pares da indústria, Lang Xianpeng enfatizou que o modelo ponta a ponta da Li Auto é o primeiro modelo ponta a ponta de um modelo, que é muito diferente de outros modelos segmentados “Um modelo é onde os dados do sensor geram a trajetória. diretamente Não há outras regras ou modelos intermediários, e outros requisitos de ponta a ponta podem precisar ser vinculados a algumas regras."

A julgar pelas informações públicas, a indústria acredita que a Xpeng Motors e a Huawei são segmentadas de ponta a ponta. O modelo de larga escala ponta a ponta usado pela Xpeng Motors na produção em massa é composto pela rede neural XNet + o modelo de controle de larga escala XPlanner + o modelo de linguagem de larga escala XBrain, a parte de percepção de ponta a ponta da Huawei; o sistema final usa GOD (detecção geral de objetos, reconhecimento geral de obstáculos) grande percepção A parte de rede, tomada de decisão e planejamento usa a rede PDP (previsão-decisão, pré-decisão e planejamento) para realizar a pré-decisão e o planejamento de uma rede.

No passado, os sistemas de condução inteligentes podiam ser divididos em vários módulos principais: Percepção, Previsão, Planeamento e Controlo. Vários módulos eram responsáveis por diferentes tarefas. O popular ponta a ponta de hoje é, para ser mais preciso, um grande modelo de IA que pode usar tecnologia de aprendizado profundo para gerar resultados de saída diretamente a partir dos dados de entrada originais. resultados de saída e aceleração, Comportamentos de direção, como desacelerar e frear.

Na prática, as ideias acima não podem ser alcançadas de uma só vez. Apenas no lado técnico, uma série de questões complexas, como arquitetura de modelo, dados e verificação de engenharia, devem ser resolvidas. Do ponto de vista da experiência do usuário, o objetivo final da solução ponta a ponta é estar infinitamente próximo do "motorista experiente" humano e até mesmo superar o motorista veterano, explorando constantemente o limite superior de capacidades. nenhuma conclusão na indústria quando este objetivo pode ser alcançado.

Na opinião de Jia Peng, chefe de pesquisa e desenvolvimento de tecnologia de direção inteligente da Li Auto, estamos agora em uma terra desabitada de direção inteligente: “Ninguém mais disse como isso é feito de ponta a ponta, e todos estão 'cegos'. e tentando descobrir o elefante.'" No entanto, ele acredita que o significado de ponta a ponta não significa um modelo e dois modelos. Seu maior significado é essencialmente mudar todo o processo de P&D “Com o processo de IA que marcou época, será possível fazer o seu. sistema verdadeiramente tão humano quanto possível.”

Embora ponta a ponta seja considerada a solução ideal para uma direção inteligente, ela ainda está em seus estágios iniciais e não existe uma definição clara ou um padrão de avaliação na indústria. Lang Xianpeng acredita que os fabricantes de automóveis nacionais estão atualmente na mesma linha de partida de ponta a ponta, mas se você olhar para o Modelo Único, a Ideal pode estar à frente. Na sua opinião, a solução ponta a ponta de Li Auto é atualmente a melhor solução para implementar inteligência artificial no mundo físico, “porque simula muito bem a cognição humana e os mecanismos de pensamento, e realmente permite que o sistema tenha as capacidades do pensamento humano e pensar. A capacidade de compreender o mundo é a vantagem dos sistemas duais.

No longo prazo, de ponta a ponta pode ser uma competição e uma competição de força financeira. Lang Xianpeng acredita que, mais cedo ou mais tarde, os principais jogadores irão definitivamente avançar na direção de ponta a ponta, e a lacuna certamente aumentará até então. Na era da inteligência artificial, todos estarão lutando por duas coisas: 1. Existem. produtos de alta qualidade suficientes 2. Existe um cluster de poder computacional de treinamento suficiente para corresponder a isso?

“O que todos fazem no final é competir por poder computacional e dados, mas o limite para essas duas coisas é muito alto. Se as reservas financeiras não forem suficientes para suportar as despesas anuais de treinamento, você não poderá jogar o último L3 ou L4. Se falarmos de automóveis, se o número de empresas não for grande, os dados não serão capazes de suportar a procura de formação ", disse Lang Xianpeng, de acordo com estimativas preliminares, o actual investimento anual ideal em formação é de 1. bilhão de yuans, e espera-se que o custo chegue a 1 bilhão de dólares americanos por ano no futuro." É apenas o custo de treinamento de poder de computação, sem incluir outros custos de pessoal, então se você não pode gastar 1 bilhão de dólares americanos por ano para treinamento, você poderá ser eliminado na futura competição de direção autônoma.”

A seguir estão trechos (editados) de conversas entre Tencent News "High Beam" e outras mídias e Lang Xianpeng e Jia Peng:

Todos estão “cegos e tocando o elefante”, e Ideal entregou o melhor plano

P: Quais são as oportunidades para mudar da tecnologia tradicional de condução inteligente para a tecnologia ponta a ponta? Quais são as vantagens e desvantagens da solução técnica proposta por Lili em comparação com Tesla, Huawei e Xpeng?

Lang Xianpeng: Quanto às vantagens desta solução de arquitectura de sistema, devemos partir das nossas reflexões sobre a condução autónoma em Agosto e Setembro do ano passado. No ano passado, fizemos três gerações de pesquisa e desenvolvimento tecnológico, começando com o desenvolvimento em alta velocidade e depois passando para a condução autônoma nas cidades, usamos primeiro NPN (Neural PriorNet, rede neural anterior), uma solução com cenários,. e, em seguida, converter para a solução sem gráfico atual e, em seguida, iterar para a solução atual de ponta a ponta.

Durante este processo, descobrimos que esta solução ainda apresenta uma falha ou problema muito grande para a condução autônoma de nível L3 e L4 posterior. O problema é que nós, humanos, conseguimos entender cenas e lugares desconhecidos onde nunca estivemos, e quem dirige normalmente pode simplesmente se acostumar um pouco. Mas seja a solução ponta a ponta atual ou a solução sem imagem, são essencialmente as cenas que foram vistas ou os dados que foram treinados que podem ter um desempenho melhor. Se houver uma nova cena, ele pode não ser capaz de lidar com ela corretamente, mas se quisermos entregar completamente o carro ao sistema para dirigir em vez de pessoas, então nosso sistema deve ter a capacidade de lidar com cenas desconhecidas como humanos .

Para dar um exemplo simples, nossos semáforos são diferentes dos semáforos de outros lugares. Os semáforos em Tianjin são do tipo barra de progresso, mas em outros lugares temos lâmpadas ou contagens regressivas. entender. Mas acredito que se alguém com bom senso for a Tianjin e vir tal coisa erguida no cruzamento, vai pensar que é um semáforo e parar e arrancar normalmente de acordo com as instruções do semáforo. Então precisamos fazer com que o sistema também tenha esse tipo de compreensão da cena, ou a capacidade de raciocinar logicamente esse tipo de conhecimento. Como obter essa habilidade? Neste momento, vimos a teoria dos sistemas duais, que é uma boa explicação do mecanismo da cognição humana. O sistema rápido produz respostas de processamento oportunas, e o sistema lento corresponde ao pensamento complexo e aos julgamentos lógicos. o mecanismo da cognição e do pensamento humanos, por isso queremos pensar sobre como a teoria deste sistema pode ser aplicada à condução autónoma.

Então, o que exatamente o Sistema 1 usa para alcançar a sistematização? Finalmente optamos por implementar o sistema aplicando o modelo ponta a ponta, e o sistema 2 foi implementado usando o grande modelo de linguagem visual do VLM. Esses são nossos dois métodos de implementação específicos. Após pré-pesquisa e desenvolvimento, implementamos agora esses dois sistemas em nossos veículos reais produzidos em massa.Acreditamos que é atualmente a melhor solução para implementar a inteligência artificial no mundo físico, porque simula muito bem a cognição humana e os mecanismos de pensamento, e permite verdadeiramente que o sistema tenha a capacidade de pensar e compreender o mundo como os humanos. sistema. Vantagem.

Nosso sistema duplo possui alguns recursos exclusivos. Primeiro, nosso modelo ponta a ponta é o primeiro modelo ponta a ponta One Model, que é muito diferente de outros modelos segmentados. Em segundo lugar, nosso modelo VLM é o primeiro modelo que pode ser implantado no carro e produzido em massa. Outros modelos podem ser treinados e testados em seus próprios clusters de treinamento, mas o uso real de carros produzidos em massa como o Orin X estamos. o primeiro a otimizar o chip e implantá-lo no carro, e esse modelo é grande o suficiente, com 2,2 bilhões de parâmetros. Já é um modelo grande no sentido prático. Nosso sistema duplo também é o primeiro que propomos e implementamos. Da arquitetura do sistema à implementação do sistema, temos algumas de nossas próprias vantagens e características.

P: Com o modelo de fala visual ponta a ponta, esta solução pode apoiar o desenvolvimento de L3 e L4?

Lang Xianpeng:Pelo menos da perspectiva atual, acho que deveria ser possível em termos de métodos, mas sejam dois modelos de ponta a ponta mais VLM, ou dois modelos em um, ou um modelo com parâmetros maiores, ou outras estruturas, Acho que isso pode ser feito lentamente, mas acho que a ideia geral deve ser boa.

Pergunta: Como o Sistema 1 e o Sistema 2 são divididos?

Jia Peng: Temos dois modelos, dois Orin, porque o carro precisa ser controlado em tempo real. Embora o VLM tenha um grande número de parâmetros, ele não pode ser controlado a cada um ou dois segundos. Agora o otimizamos para um nível quase em tempo real de cerca de 3,4 Hz, com um atraso de cerca de trezentos milissegundos. Ele está tomando decisões a cada momento e produz duas decisões, como uma para desacelerar ou ceder, e a segunda dará uma trajetória de referência, como se estou indo em direção a esta ou aquela pista. será alimentado diretamente no modelo, e então os resultados serão produzidos ao mesmo tempo. É aproximadamente uma estrutura. O Sistema 1 não adota totalmente as opiniões do sistema 2. O Sistema 2 melhora a tomada de decisões do sistema 1.

O Sistema 1 desempenha o papel principal, e o Sistema 2 é apenas uma referência ou consulta para situações especiais. Ao chegar ao L4, o Sistema 2 terá um papel mais importante. está realmente desempenhando um papel. Ele desempenha um papel muito importante na tomada de decisões e no julgamento. Em alguns cenários desconhecidos, a habilidade do Sistema 2 determina se você pode alcançar o L4, mas a habilidade básica do Sistema 1 é a garantia necessária para o L3.

P: Os dois sistemas se fundirão em um só no futuro?

Jia Peng: Este é o próximo passo da nossa pré-pesquisa. Na verdade, a ideia atual é produzir dois modelos em massa. Atualmente, o Wutu 6.0 está disponível em todo o país. . Agora, daqui para frente, como fazer um L4 produzido em massa. Nossa ideia pode ser tornar o modelo maior em tamanho e capacidade e ao mesmo tempo aumentar sua taxa de quadros, ou há uma chance de que não sejam esses dois? os modelos podem ser combinados em um só. Deixe o modelo decidir por si mesmo se deseja usar o Sistema 1 ou o Sistema 2. Portanto, se houver chips com maior poder computacional e melhores plataformas no futuro, isso poderá desempenhar um grande papel.

Pergunta: Por que o VLM não pode ser chamado de ponta a ponta? Na minha opinião, também é ponta a ponta.

Jia Peng: Se o poder de computação no futuro for grande o suficiente, o próprio VLM poderá funcionar em tempo real, por exemplo, mais de dez Hz ou até 20 Hz. Talvez também possa obter uma resposta rápida de ponta a ponta, mas atualmente o VLM é. na verdade, várias rodadas de perguntas e respostas. Quero perguntar: Como posso dirigi-lo nessas condições de trabalho? Por que é aberto desta forma e quais são os resultados após abri-lo?

Lang Xianpeng: Na verdade, do nosso ponto de vista, o termo ponta a ponta significa que, desde que seja um modelo puramente baseado em dados, é ponta a ponta. No entanto, a sua entrada são dados e a sua saída é o resultado. , o resultado é a trajetória no sistema um, e o resultado no sistema dois é a tomada de decisão, deixe-me enfatizar novamente, há uma grande diferença entre ponta a ponta e ponta a ponta de vários modelos, ou um modelo e de ponta a ponta.porqueComo o modelo único que construímos idealmente aqui, a saída de dados do sensor é emitida diretamente da trajetória, sem quaisquer outras regras ou modelos intermediários. Outros requisitos de ponta a ponta podem precisar ser agrupados com algumas regras.

Pergunta: Qual é o limite superior das capacidades do sistema agora?

Lang Xianpeng: Agora a VLM deveria estar na fronteira de uma terra de ninguém. No futuro, todas as empresas, inclusive nós, terão que fazer isso de ponta a ponta, mas acredito que somos a primeira empresa a fazer isso. processo, teremos nossa própria exploração. À medida que o fazemos, encontraremos a melhoria de desempenho trazida pela escala de dados. Ainda estamos explorando a fronteira entre melhoria de dados e melhoria de desempenho, e ainda não a alcançamos.

Temos uma análise que o poder de computação do chip é limitado, então a escala de parâmetros tem limitações. Agora temos uma escala de parâmetros ponta a ponta de cerca de 300 milhões. consumir? Na verdade, existe um limite máximo. É impossível despejar isso nele indefinidamente.

Jia Peng: Embora o poder de computação tenha melhorado, para modelos grandes, o gargalo mais sério dos atuais chips automotivos é a largura de banda da memória. Realmente chegamos a um lugar relativamente desabitado. Ninguém mais disse como isso é feito de ponta a ponta, e todos estão "cegos e tentando entender o elefante".

Nosso modelo ponta a ponta atinge a trajetória, e alguns bolsões de segurança são adicionados após a trajetória, pois antes do modelo atingir o limite superior, ainda há algumas coisas para resolver, como girar o volante com força e deixá-lo livrar-se disso. Isso é o que planejamos.

O maior significado de ponta a ponta é que essencialmente muda todo o processo de P&D.

Pergunta: Como definir que o modelo integrado é mais poderoso e avançado que o modelo segmentado Qual é o teto para o desenvolvimento final de ponta a ponta Haverá modelos mais poderosos no futuro?

Lang Xianpeng:Em primeiro lugar, não creio que exista algo bom ou mau, seja adequado ou não. Se você quiser fazer níveis L3, 4 e superiores de direção autônoma, acho que este modelo integrado de ponta a ponta é o. modelo você deve escolher, porque não Mas escolher este modelo em si é mais sobre você escolher um processo e método iterativo ou de pesquisa e desenvolvimento mais avançado, segmentado e alguns modos anteriores. Eles também são muito adequados para direção assistida de nível L2.

De ponta a ponta, sua mudança não é tão simples quanto um modelo e dois modelos, mas todo o seu pensamento, o processo e a maneira de fazer as coisas, sofreu mudanças tremendas. alimentá-lo com dados de alta qualidade, além de treinamento para melhorar os recursos do modelo, para que ele possa tomar melhores planejamentos e decisões.

Então preciso fazer iterações razoáveis na estrutura do modelo. A maneira mais importante é encontrar dados de melhor qualidade. Esses dados devem ser grandes o suficiente em quantidade e bons o suficiente. Basicamente, atingimos o nível de 3 milhões de parâmetros e nossa seleção de dados é muito particular. Em primeiro lugar, conduzimos com a nossa equipa de produtos e a nossa equipa de avaliação subjectiva. Todas estas pessoas são condutores experientes e a sua experiência de condução é muito boa.

Eles trabalharam conosco para desenvolver um conjunto de padrões para motoristas experientes, como suas condições de direção seguras e seu estilo de direção. Depois que as iterações foram concluídas em várias dimensões, usamos esta regra para compará-la com nossos 80 proprietários de carros existentes. triagem, e queremos aqueles com pontuação de 90 ou superior. Este clipe precisa ser exibido.Como temos essa base, podemos filtrar 1 milhão ou 10 milhões de fragmentos de alta qualidade. Na superfície, podem parecer apenas 10 milhões, mas na verdade são filtrados de 1,2 bilhão de quilômetros de dados. que esses poucos Este é um dos dados de dezenas de milhões de quilômetros.

Quando selecionamos dados, temos nossa própria cadeia de ferramentas por trás disso. Não se trata apenas de selecionar e escolher, mas também temos alguns de nossos próprios índices e receitas de dados, o que também é muito crítico.

Pergunta: Algumas empresas dizem que muitos dados anteriores não podem ser usados na era de ponta a ponta. Agora estão passando pela coisa mais dolorosa: estão destruindo as pontes anteriores, construindo novas e construindo um sistema de segurança. que pode testá-los, o que você acha desta afirmação?

Lang Xianpeng: Na minha opinião, a sua afirmação é inconsistente. Ele quer dizer que os dados não são tão importantes, mas a sua afirmação também mostra que os dados são importantes. Na verdade, para os ideais, já percebemos isso há muito tempo. Qual é a coisa mais importante na direção autônoma? É financiamento de talentos? Acho que são dados. Sem dados, não haverá base para treinamento e verificação de algoritmos futuros.

Temos acumulado dados e construído nossa plataforma de dados desde que o primeiro veículo foi entregue em 2019.deIdeal L9 No início, somos todos bonecos matryoshka. As bonecas Matryoshka são de grande benefício para a condução autônoma. Todas as especificações da câmera e locais de instalação são iguais. Embora haja pequenas diferenças no comprimento, podemos reutilizar completamente esses dados. Mas alguns fabricantes podem ter carros ou SUVs e os sensores podem ser diferentes, o que pode realmente ser um desafio para eles.

P: Algumas pessoas dizem que de ponta a ponta simplificará o processo de desenvolvimento de direção inteligente e reduzirá os custos trabalhistas.

Lang Xianpeng:Se usarmos esta solução, realmente não precisaremos de tantas pessoas. Todo o processo de P&D de ponta a ponta significa simplesmente selecionar dados, modelos de treinamento, modelos de avaliação e modelos mundiais. O modelo mundial é chamado internamente de Sistema 3. é um sistema de exame. As capacidades do Sistema 1 e do Sistema 2 são avaliadas e certificadas pelo nosso Sistema 3. Mas anteriormente, nossa avaliação e teste deste sistema de direção autônoma eram realizados por humanos, seja realizando um grande teste de estrada ou executando um grande teste de estrada. carro O teste do local é avaliado pelas pessoas, mas as pessoas não podem avaliá-lo.

Existem milhões de quilômetros de estradas em todo o país que mudam ao longo do ano. É impossível que as pessoas as atropelem. Elas não são como as vias expressas. As vias expressas que você chega em Pequim não são muito diferentes das vias expressas de Guangdong. em ambientes urbanos, é realmente difícil cobri-los. Portanto, temos o Sistema 3, que nos ajudará a testar as capacidades do Sistema 1 e do Sistema 2. Após o teste, se passarmos na iteração e ficarmos online, a próxima rodada começará.

Neste processo, além da necessidade de pessoas no processo de desenvolvimento dessas plataformas de sistema, na verdade não há muitas pessoas envolvidas no próprio trabalho, o que reduzirá muito o uso de pessoas para uma gestão otimizada dentro da nossa organização, o. o uso de pessoas também terá muitos benefícios. Portanto, alguns dos nossos próximos ajustes são na verdade baseados em mudanças nesse negócio. Não são ajustes por ajuste como todos imaginam.

Pergunta: Do ponto de vista dos consumidores e usuários, quando a tecnologia ponta a ponta for implementada, que tipo de atualização será observada na experiência?

Lang Xianpeng:Do ponto de vista do usuário, se você usa tecnologias de ponta a ponta ou outras tecnologias, isso não depende de suas soluções técnicas e rotas. Os usuários só precisam experimentá-las, portanto, quando levamos o produto VLM de ponta a ponta para todos. usuários no futuro, esperamos que seria ótimo dar aos usuários a sensação de um motorista muito experiente dirigindo para mim.

Não há necessidade de os usuários saberem que tipo de tecnologia é essa, mas caso tenham interesse, podemos ter muitas referências.Não enfatizaremos demais o tipo de soluções técnicas que usamos para os usuários. Apenas comunicamos aos usuários o tipo de experiência com o produto que eles possuem.

P: Se de ponta a ponta for oficialmente enviado diretamente aos usuários, qual você acha que é um bom padrão? Quando pode ser lançado oficialmente?

Jia Peng: Acho que o padrão é a experiência do usuário. Por que precisamos ter 1.000 usuários antecipados em vez de definirmos nós mesmos algumas metas de aquisição. Se houver 1.000 usuários e 10.000 usuários, a experiência deles é muito boa, acho que pode ser promovida ou pode superar a experiência do não? -versão da imagem. Entre aqueles que estão atualmente participando do teste antecipado, conduzimos algumas avaliações e descobrimos que sua experiência, estabilidade e segurança atenderam aos padrões.

P: Com este plano progressivo, ele se voltará para um modelo único? Um modelo é a única direção correta?

Jia Peng: Do nosso ponto de vista, um modelo é ponta a ponta. Outros dizem que não é ponta a ponta. Porém, se alguém quiser adicionar desta forma, tudo bem, fazemos em segmentos sem. uma foto. Naquela época, chamávamos isso de modelo de percepção e modelo de planejamento preditivo. Mas você também pode dar a ele um modelo segmentado.

O significado de ponta a ponta não significa um modelo e dois modelos. Seu maior significado é que ele muda essencialmente todo o processo de pesquisa e desenvolvimento. Com o processo de IA que marcou época, é possível que você realmente faça seu sistema. Tenha habilidades de direção semelhantes às humanas.

No passado, era chamado apenas de função. Eu tinha a função de passar por rampas e passar por pedágios, mas agora tenho a habilidade de dirigir de um motorista experiente. Você poderá vivenciar nossa experiência de ponta a ponta mais tarde. Claro, eu dirigi muito este carro, pode-se dizer que começamos a dirigir a primeira versão de maneira estranha e agora estamos dirigindo muito bem. Muitas vezes ficamos surpresos com alguns dos desempenhos e capacidades deste modelo.

Quando recebesse 800.000 dados, não seria capaz de cruzar a rotatória, mas quando recebesse 1 milhão, de repente seria capaz de cruzar a rotatória um dia. Na verdade, não obtivemos deliberadamente alguns dados da rotatória para isso, apenas os mantivemos. alimentando-o. Apenas dados. É como ensinar uma criança. Que aula ela fará hoje e que aula ela fará amanhã? De repente, um dia ela virá e lhe ensinará algumas palavras em inglês.

De ponta a ponta é diferente da P&D anterior. Na P&D de produtos anteriores, eu sabia que você seria assim no futuro, porque foi assim que eu projetei você. O modelo ponta a ponta tem sua própria capacidade de crescer e emergir, ou você pode apenas descobrir suas capacidades, mas não pode projetar suas capacidades. Acho que essa é uma diferença muito grande.

P: Você encontrou algum desafio importante no processo de ponta a ponta?

Lang Xianpeng: Na verdade, existem muitos desafios. O ponto mais importante é que fizemos algum trabalho de pré-pesquisa com antecedência. Este é um deles.

Em segundo lugar, desde os ideais da empresa até à compreensão e cognição da condução inteligente da nossa equipa, penso que a compreensão da inteligência artificial é consistente e muito aprofundada. O maior desafio é saber se todos têm a mesma compreensão e cognição desta questão, se algumas pessoas pensam que é radical, outras pensam que é conservador, ou se algumas pessoas pensam que o plano é fiável ou não.

Na verdade, passei muito tempo explicando como passamos do NPN para o sem gráfico e de ponta a ponta, passo a passo. Este processo é o processo de descoberta e resolução de problemas Após o alinhamento cognitivo, a tomada de decisão é muito rápida, e a forte capacidade de execução do Li Auto é o que treinamos e acumulamos nos últimos anos.

Em termos de organização e eficiência, a construção da cadeia de ferramentas orientada por dados ou da infraestrutura deste sistema nos últimos cinco anos é muito crítica, embora agora tenhamos pessoas, poder computacional e dados, se não tivermos. completo Você não pode operar uma cadeia de ferramentas eficiente com eficiência. Devo usar infraestrutura de capacidade de circuito fechado de dados automatizados para realizar coleta de dados, rotulagem de amostras, rotulagem automatizada, treinamento automatizado, avaliação automatizada e desenvolvimento iterativo automatizado. As iterações continuaram desde o primeiro carro em 2019, portanto, a capacidade de construir uma infraestrutura de circuito fechado de dados ideal é absolutamente excelente no setor.

Aqueles que não puderem investir mil milhões de dólares em capacidade informática todos os anos serão eliminados.

P: Você mencionou uma vez que a experiência de direção inteligente ideal está meio ano atrás do Tesla. Como você chegou a essa conclusão?

Lang Xianpeng: A partir do Tesla FSD V12.3, vamos regularmente aos Estados Unidos para testá-lo. Na verdade, a Tesla está atualmente indo muito bem na Costa Oeste dos Estados Unidos, porque atualmente possui a maior parte dos dados na Califórnia. Mas quando você chegar a Boston e Nova York, descobrirá que seu desempenho cairá drasticamente. Especialmente depois de chegar a Nova York, seu MPI (milhagem por intervenção) atingiu basicamente cerca de 10 ou 11. Na verdade, o nível de aquisição em Nova York. Iorque é quase igual ao de Nova Iorque. O desempenho dos líderes nacionais não aumentou o fosso entre gerações. Mas mesmo as condições de trânsito em Nova Iorque são muito menos complicadas do que as de Xangai e Guangzhou, na China, e é por isso que nos atrevemos a tirar esta conclusão ou a dizer isto.

Por outro lado, Tesla (nos Estados Unidos) pode obter muitas informações que não estão disponíveis na China, como informações de mapas. Na verdade, o Google forneceu muitos desses mapas de navegação doméstica. dar-lhe esta informação Tesla Na verdade, consegui esta experiência com base em uma base muito boa.É por isso que dissemos que se o FSD vier para a China, ele deveria ser testado em Xangai agora. Acho que precisa de muito trabalho, incluindo mapas, porque não consegue obter tanta informação rica no mapa, e precisa. fazer muitas modificações, então fizemos esse julgamento.

P: O objetivo da Ideal este ano é tornar-se líder absoluto no campo da direção inteligente. Quais dimensões são usadas para defini-la?

Lang Xianpeng: Acho que no final tudo se resume ao volume. O nosso modelo AD Max é líder de mercado em volume de vendas este ano? Na verdade, este é o indicador mais importante. Eu olho apenas para os carros do Max, não para o total que vendi 50.000 carros este mês, mas se o AD Max vendeu apenas 10.000, significa que o que fiz com o AD Max foi um fracasso. estar alto.

No mês desde que lançamos o 6.0 até o lançamento de ponta a ponta, nossos proprietários de carros entraram mais na loja e as vendas também aumentaram. A proporção de pedidos de AD MAX de nossos usuários aumentou de 37% em maio para 49%. Para o modelo L9, 75% dos pedidos foram de AD MAX. Acho que essa é a coisa mais convincente quando os usuários realmente pagam pelo seu produto.

Para nós internamente também tivemos uma reflexão na reunião de estratégia de março deste ano, ou seja, não devemos olhar muito para a concorrência. Por que todos reclamaram da qualidade média da nossa primeira versão sem fotos no primeiro semestre deste ano? Na verdade, o problema naquela época era que olhávamos muito para a concorrência. Naquela época, considerávamos a Huawei muito boa. benchmark competitivo, e sua taxa de aquisição e indicadores de produto se tornaram nossos. Na verdade, olhando apenas para esses indicadores, nossa versão não é ruim, mas a experiência do usuário não é boa, então finalmente mudamos para experiência e avaliação do usuário, em vez de apenas olhar para os indicadores, mas os indicadores são uma referência é algo que precisa ser visto.

Pergunta: Depois que o Tesla FSD for lançado e resolver alguns problemas nas condições das estradas da China, algumas empresas automotivas líderes poderão estar na mesma linha de partida.

Lang Xianpeng: Isso também está relacionado a alguns de nossos planos subsequentes, começando de ponta a ponta, todos realmente usarão a inteligência artificial para dirigir de forma autônoma. Acredito que, mais cedo ou mais tarde, os principais players irão definitivamente nessa direção. Depois de entrar nessa direção, a distância entre todos certamente aumentará. Em vez de ser um motorista auxiliar como agora, você acha que alguém com 7.000 yuans pode fazer isso, certo? Você pode fazer isso com 1 Orin, você pode fazer isso com 2 Orin, você pode fazer isso com 4 Orin, mas se você realmente chegar à era da inteligência artificial, todos farão duas coisas.

A primeira é se você tem dados de alta qualidade suficientes e a segunda é se você tem um cluster com poder de computação de treinamento suficiente para igualá-lo. Portanto, no final, todos terão que lutar por poder de computação e dados, mas o limite para isso. duas coisas são muito altas. Se as reservas de capital da sua empresa não forem suficientes para sustentar suas despesas anuais de treinamento, você não poderá jogar o L3 ou L4 posterior. Se a sua montadora não tiver muitos desses carros, seus dados realmente não poderão. apoiar suas necessidades de treinamento.

Estimamos inicialmente que o investimento anual ideal atual em custos de treinamento é de 1 bilhão de yuans. Estimamos que o custo futuro será de 1 bilhão de dólares americanos por ano. Este é apenas o poder computacional do treinamento e não inclui outro pessoal e outros. despesas. Portanto, se você não puder gastar 1 bilhão de dólares por ano em treinamento, poderá ser eliminado na futura competição de direção autônoma.

Pergunta: Um bilhão de dólares por ano, como deduzir isso?

Lang Xianpeng:É mais direto do ponto de vista dos parâmetros do modelo. Tomando Tesla como exemplo, o FSD V12.3-12.5 expande o modelo em 5 vezes, e o poder de computação também é expandido em 5 vezes. tem cerca de 300 a 400 milhões de parâmetros e, em seguida, VLM São 2,2 bilhões de parâmetros. Pela geração Thor, seu poder de computação foi bastante melhorado. o poder de computação do treinamento também deve ser duplicado. Acho que essa é a lógica.

P: Os fabricantes nacionais estão agora na mesma linha de partida no caminho de ponta a ponta?

Lang Xianpeng: Os fabricantes nacionais estão na mesma linha de partida de ponta a ponta, mas acho que se você olhar para o Modelo Único, o Ideal pode estar à frente.Com base no modelo único, lançamos pela primeira vez nossa própria versão do ovo de pássaro, e foi um lançamento e entrega relativamente grande em uma escala de milhares de pessoas, e todos realmente experimentaram isso de ponta a ponta e A melhoria no desempenho e experiência trazida por alguém tão não ilustrado antes, meu julgamento agora é baseado nesta base.

Pergunta: Em relação às questões de poder computacional e compra de cartão, a empresa oferece suporte?

Lang Xianpeng: Nossa empresa também nos apoia muito. Agora Li Xiang vem de vez em quando perguntar: Lang Bo, seu cartão ainda é suficiente? Se você não tiver o suficiente, peça a alguém para ajudá-lo a resolver. Direi que sim e obrigado. Embora tenhamos feito um excelente trabalho em todos os aspectos das nossas operações, penso que Li Xiang tem uma compreensão relativamente completa da inteligência artificial. Portanto, não estamos particularmente preocupados com o poder computacional, etc. Quando eu quiser aprovar o orçamento, acho que ele irá considerar isso.

Pergunta: Você mencionou que nem toda montadora pode fazer direção autônoma. Em termos de poder computacional, quanta reserva é necessária para atender ao padrão do ingresso?

Lang Xianpeng: Agora que implementamos nossos ideais, devemos ter um gasto de poder computacional de 1 bilhão de yuans por ano. Se você não tiver um, sua velocidade de iteração será lenta ou seu produto não será competitivo o suficiente. No futuro, pensamos que 1 bilhão de dólares por ano pode ser necessário para esse investimento em poder de computação. Provavelmente nós mesmos estimamos isso. Agora temos cerca de 15.000 cartões, o que já é bastante tenso. Eu coordeno a alocação de cartões todos os dias. dia, mas com o passar do tempo acho que o aumento no número de parâmetros do modelo é de pelo menos 3-4 vezes (entrada), o que é bastante razoável. Como o poder de computação em si melhorou muito, sua largura de banda e armazenamento também melhoraram muito, acho que basicamente corresponde à sensação de um pequeno 100.000 A100, que pode ter cerca de 3 bilhões de Flops de poder de computação.

Pergunta: Esse tipo de investimento é infinito, ou haverá um limite máximo, ou pode estabilizar em determinado ponto. Como garantir o equilíbrio da comercialização?

Jia Peng: Nos últimos dois anos, os parâmetros do modelo aumentaram de dezenas de bilhões para trilhões, ou mesmo 10 trilhões de parâmetros. Esta é uma curva muito íngreme, mas recentemente todo mundo tem refletido novamente sobre uma coisa, se maior é melhor, e agora está começando a diminuir um pouco. Talvez fazer alguns modelos grandes em áreas profissionais não exija tantos parâmetros, desde que seja necessário. como a qualidade dos dados é suficiente, o número de parâmetros do meu modelo pode não precisar ser tão grande. Esta é uma curva HYPE. Ela pode cair novamente depois de um tempo, mas acho que eventualmente alcançará um estado estável. é o número de parâmetros do modelo ou poder de computação, existe esse processo. Todo mundo vai subir rapidamente no início e, no final, eles podem retornar um pouco e então alcançar a praticidade real.

P: Na primeira metade da competição de eletrificação, Tesla,BYDAgora que os concorrentes ficaram para trás, como será a competição de direção inteligente no segundo semestre?

Lang Xianpeng:A primeira metade é sobre eletrificação e a segunda metade é definitivamente sobre inteligência. A seguir, você certamente verá um pouco do nosso investimento e desempenho em inteligência de ponta a ponta.

notícias

Executivo da Li Auto: Se não investirmos US$ 1 bilhão em poder de computação todos os anos no futuro, seremos eliminados

Todos estão “cegos e tocando o elefante”, e Ideal entregou o melhor plano

O maior significado de ponta a ponta é que essencialmente muda todo o processo de P&D.

Aqueles que não puderem investir mil milhões de dólares em capacidade informática todos os anos serão eliminados.

Introdução

minhas informações de contato