notícias

de ponta a ponta pode trazer uma nova primavera? um mergulho profundo na fragmentada indústria de condução autônoma

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

a direção autônoma pode realmente dar frutos?

a humanidade consumiu incontáveis ​​tempo e dinheiro no desenvolvimento da condução autônoma. hoje, acidentes frequentes, queima interminável de dinheiro e progresso lento causaram muitas confusões e perguntas: dirigir sem motorista é uma fraude, ou mesmo, a indústria está morta?

esta indústria é realmente uma das indústrias mais divididas que já vi. cada facção tem opiniões diferentes, despreza-se e culpa-se mutuamente. depois da luta dos deuses, todos seguem seu próprio caminho, pisam em suas próprias armadilhas. e derrotar uns aos outros. todo mundo gasta seu próprio dinheiro.

o resultado é que a condução sem condutor entrará no inverno frio antes de 2024.

mas neste inverno frio, enquanto musk afirma ter reconstruído o fsd de tesla "através da tecnologia de ia ponta a ponta" e anunciou que entrará na indústria de táxis autônomos (robaxi), parece haver alguma nova vitalidade e esperança.

será que de ponta a ponta pode levar-nos a uma verdadeira condução sem condutor? l2 e l4 são definidos na direção autônoma realmente distantes? onde a tecnologia sem motorista se desenvolveu hoje? a batalha entre a visão pura e a multimodalidade é realmente interminável?

para explorar como a indústria de condução autônoma está se desenvolvendo, passamos três meses entrevistando as empresas de condução autônoma mais avançadas do mercado global, incluindo ex-funcionários principais da waymo e cruise, ex-engenheiros da tesla fsd e investidores do mercado primário e secundário. . existem até dez profissionais na indústria de direção autônoma.

descobrimos que a indústria ainda está fragmentada e não há consenso na indústria sobre muitas rotas técnicas.

nesta série de artigos, exploraremos o status de vanguarda da tecnologia atual de direção autônoma a partir de múltiplas perspectivas, como percepção, algoritmos, produtos, operações, economia e direito.

neste artigo falaremos primeiro sobre tecnologia de forma abrangente e na próxima edição iremos analisá-la sob uma perspectiva operacional e econômica.

1. o que é condução autônoma?

vamos primeiro fazer uma distinção conceptual: qual é a diferença entre condução sem condutor e condução autónoma?

de acordo com o grau de inteligência, a condução autônoma é dividida em 6 níveis de l0 a l5:

l0 significa sem automação, l1 significa assistência à condução, l2 significa condução parcialmente automática, l3 significa condução automática condicional, l4 significa condução altamente automática e l5 significa condução totalmente automática, ou seja, verdadeira condução sem condutor.

waymo e cruise, que mencionamos mais tarde, e os caminhões não tripulados construídos por hou xiaodi pertencem todos ao nível l4 tesla fsd pertence ao nível l2, mas o tesla robotaxi que musk afirma ser l4.

portanto, actualmente nesta indústria, quando se fala em condução autónoma, geralmente referem-se a empresas l4, porque ninguém ainda consegue atingir o l5 e, de um modo geral, a condução autónoma inclui todos os níveis e é uma chamada mais geral.

vamos dar uma olhada em como a indústria de direção autônoma começou.

embora os humanos tenham começado a explorar a condução autónoma já há 100 anos, reconhece-se que a condução autónoma moderna teve origem oficialmente no desafio darpa das forças armadas dos eua em 2004.

após vários anos de desenvolvimento, formou-se um elo operacional de percepção-planejamento-controle. o módulo de percepção inclui percepção e previsão.

a camada de percepção precisa obter as condições da estrada à frente por meio de sensores como radar e câmeras, prever as trajetórias de movimento dos objetos e gerar um mapa do ambiente circundante em tempo real, que é a visão aérea comum que vemos em carros e máquinas e, em seguida, passam essas informações para a camada de planejamento. o sistema determina a velocidade e a direção com base no algoritmo e é finalmente transferido para a camada de controle de execução para controlar o acelerador, freio e direção correspondentes.

mais tarde, com o surgimento da ia, as pessoas começaram a deixar a máquina aprender a dirigir sozinha. primeiro, deixe o algoritmo dirigir no mundo digital simulado. depois que o treinamento de simulação atingir um certo nível, ele poderá começar a testar na estrada. .

nos últimos dois anos, à medida que tesla aplicava a solução "ponta a ponta" à versão fsd v12, a ligação operacional entre percepção-planejamento-controle também começou a mudar.

a seguir, vamos nos concentrar em falar sobre as duas rotas técnicas da indústria da direção autônoma ao nível da percepção: a escola visual pura e a escola de fusão multimodal. essas duas facções lutam há muitos anos e cada uma tem a sua. méritos. vamos falar sobre suas queixas e ódios.

2. percepção: visão pura vs. fusão multimodal

atualmente, existem duas soluções de percepção convencionais para automóveis.

a primeira é uma solução de detecção de fusão multimodal adotada por muitas empresas, que agrega e funde informações coletadas por sensores como lidar, radar de ondas milimétricas, sensores ultrassônicos, câmeras e unidades de medição inercial para determinar o ambiente circundante.

voltando ao desafio darpa que mencionamos no capítulo anterior, na primeira sessão de 2004, embora nenhum veículo tenha terminado a corrida, um competidor chamado david hall percebeu a importância do lidar durante a competição. após a competição, a velodyne, a empresa que ele desenvolveu. fundada, começou a mudar do áudio para o lidar.

naquela época, o lidar fazia a varredura com uma única linha e só podia medir a distância em uma direção. no entanto, david hall inventou um lidar mecânico rotativo de 64 linhas que podia escanear o ambiente em 360 graus.

mais tarde, ele aproveitou esse lidar rotativo para participar do segundo desafio darpa em 2005. por fim, um carro com 5 lidars na cabeça terminou a corrida e venceu o campeonato.

mas este não era o carro de david hall... seu carro abandonou no meio do caminho devido a uma falha mecânica, mas seu desempenho fez com que todos percebessem que lidar é um "plug-in".

no terceiro desafio darpa em 2007, cinco das seis equipes que terminaram a competição usaram o lidar da velodyne. neste ponto, o lidar começou a se tornar popular na indústria de direção autônoma, e a velodyne também se tornou a empresa líder em lidar automotivo.

zhang hang (diretor sênior cientista da cruise):

agora, seja cruise ou waymo, algumas soluções baseadas em l4 são baseadas principalmente em lidar, que pode obter informações de localização diretamente. nesse caso, os requisitos para o algoritmo em si serão relativamente baixos, e então há muitas informações 3d. podem ser obtidos diretamente por meio de sensores, o que melhorará a robustez e a segurança do sistema e facilitará alguns problemas de cauda longa.

outra facção técnica é a solução puramente visual representada pela tesla, que depende apenas de câmeras para coletar informações ambientais e depois usa redes neurais para converter vídeos 2d em mapas 3d, que incluem obstáculos e previsões da trajetória do ambiente circundante, velocidade e outros. informação.

em comparação com a solução lidar que gera mapas 3d diretamente, a visão pura tem um processo adicional de conversão de 2d em 3d. na opinião de zhang hang, confiar exclusivamente em dados de treinamento de “vídeo” sem informações 3d trará certos desafios à segurança.

zhang hang (diretor sênior cientista da cruise):

é necessária uma grande quantidade de dados de treinamento para aprender a falta de informações 3d. nesse caso, há falta de supervisão. como não há objeto de referência, é difícil obter uma verdade básica (dados de valor verdadeiro). se for totalmente por meio dessa semissupervisão, acho que é mais difícil conseguir a segurança do sistema com base no método de aprendizagem. acho que o principal objetivo da tesla é controlar custos, incluindo a modificação de alguns mecanismos de mudança de marcha, tudo para economizar custos em algumas peças.

mas, de acordo com yu zhenhua, ex-engenheiro de ia da tesla, escolher a visão pura não significa apenas economizar custos.

1. mais é igual a caos?

yu zhenhua (ex-engenheiro de ia da tesla):

na verdade, o sistema de piloto automático original de tesla tinha radar de ondas milimétricas. a fusão de sensores é na verdade um algoritmo muito complexo, mas não é necessariamente bom quando implementado.

eu tinha um carro na época que foi um dos últimos carros a ter radar de ondas milimétricas. em 2023, meu carro passou por manutenção e o engenheiro de serviço removeu automaticamente meu radar. qual é a conclusão deste assunto? a retirada do radar de ondas milimétricas não é por questão de custo, porque meu carro já tem um radar de ondas milimétricas lá. a razão principal é que a visão pura ultrapassou o radar de ondas milimétricas. então tesla está fazendo subtração, removendo algumas coisas redundantes que ele considera desnecessárias ou complicadas.

yu zhenhua acredita que,se o algoritmo de fusão não for bem executado, ou se a visão pura puder alcançar resultados suficientemente bons, mais sensores se tornarão um fardo.

muitos profissionais de l4 que entrevistamos também concordaram que mais informações não são melhores. pelo contrário, muitas informações adicionais inválidas coletadas pelos sensores aumentarão a carga sobre o algoritmo.

então é possível confiar apenas no sensor da câmera que musk sempre defendeu?

2. menos é mais?

musk disse que, uma vez que os humanos podem dirigir com apenas dois olhos, os carros também podem alcançar a direção autônoma com base apenas nas informações da imagem. no entanto, a preocupação da indústria com o visual puro sempre foi o engano visual, o que de fato causou menos acidentes.

por exemplo, a tesla identifica um caminhão branco como o céu e a lua como uma luz amarela, ou a ideal identifica o conteúdo de um outdoor como um carro, levando a acidentes como frenagens repentinas e colisões traseiras em alta velocidade.

será que estes casos significam que soluções visuais puras sem informação profunda têm deficiências inerentes?

yu zhenhua (ex-engenheiro de ia da tesla):

vários fluxos de informações podem de fato fornecer mais informações, mas você precisa responder a uma pergunta: a própria câmera não possui informações suficientes? ou a capacidade do algoritmo de extrair informações é insuficiente?

por exemplo, ao frear repentinamente ou ao se sentir frustrado ao dirigir em estradas urbanas, a causa raiz é, na verdade, sua estimativa insuficiente da velocidade e do ângulo dos objetos ao redor. se esse for o motivo, então o lidar é realmente muito melhor do que as câmeras porque pode fornecer. se você fornecer informações mais diretas, a própria câmera realmente fornecerá informações, mas nosso algoritmo não é bom o suficiente para extrair essas informações.

yu zhenhua não acredita que a causa raiz do engano visual seja a informação insuficiente da câmera, mas que o algoritmo é insuficiente para processar ou extrair as informações fornecidas pela câmera. ele acredita que, especialmente após o lançamento do algoritmo fsd v12 da tesla, ficou provado que quando o algoritmo foi bastante otimizado, a mineração e o processamento das informações da câmera foram significativamente melhorados.

yu zhenhua (ex-engenheiro de ia da tesla):

o fsd v12 de hoje não é perfeito e tem muitos problemas, mas até agora não descobri qual problema se deve a sensores insuficientes. é claro que antes do v12 muitos problemas eram devidos a sensores insuficientes, mas o v12 de hoje não tem esse problema.

no entanto, os praticantes de l4 têm uma perspectiva diferente. eles acreditam que as câmeras têm desvantagens naturais.

zhang hang (diretor sênior cientista da cruise):

pessoalmente, acho que é difícil e não acho que seja necessariamente um problema com o algoritmo em si.

em primeiro lugar, a câmera em si não é tão complicada quanto o olho humano. cada câmera possui alguns parâmetros e suas limitações.

depois, há o algoritmo em si. as pessoas não precisam saber onde todos os carros estão se movendo em um raio de 200 metros. só preciso saber quais carros e quais pedestres podem afetar o comportamento do meu carro. pontos são suficientes e não preciso de muito poder de computação. talvez não seja possível atingir essa altura por meio de algoritmos no curto prazo. acho que lidar é um método complementar.

zhang hang, que está envolvido na pesquisa l4, acredita que as câmeras não podem corresponder ao olho humano. a principal razão é que a distância focal e os pixels da câmera são fixos, enquanto o olho humano tem uma precisão muito alta e pode aplicar zoom automaticamente. ao mesmo tempo, o modo de pensamento saltitante dos seres humanos não pode ser aplicado a computadores no curto prazo, então o lidar pode ser usado para complementar as deficiências das câmeras.

porém, existem outras opiniões no mercado, que acreditam que além das informações visuais, outros sensores também trarão informações de interferência.

por exemplo, o lidar também tem suas próprias deficiências. por usar alcance a laser, quando confrontado com alguns objetos refletivos, chuva ou neve, ou lasers emitidos por outros carros, ele interferirá no lidar e eventualmente causará efeitos ilusórios.

liu bingyan (chefe da kargo software):

sou uma pessoa visual pura e muito firme. as estradas neste mundo são projetadas para pessoas e visão. ou seja, além da visão, você pode pensar nas informações que coleta como interferência. a informação fornece interferência e o valor real que ela fornece, que tipo de distribuição é essa? acho que à medida que o visual fica cada vez melhor, pode ser exatamente o oposto.

se um algoritmo de fusão multissensor puder ser desenvolvido para permitir que as informações lidar e de imagem se verifiquem, a segurança do sistema poderá ser melhorada ainda mais.

hou xiaodi propôs uma metáfora vívida:quando dois alunos do mesmo nível fazem o exame, quem usa calculadora terá mais facilidade no final. é apenas a base econômica que determina se ele pode comprar uma calculadora.

o debate entre visão pura e soluções de fusão multimodal baseadas em lidar já se arrasta há vários anos e parece que não haverá resposta no curto prazo. oupara algumas startups, o caminho não é tão importante, mas os custos e as contas econômicas são os mais importantes.

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

eu costumava ser considerado uma pessoa visual porque o lidar não estava disponível na época, então fomos forçados a encontrar soluções mais visuais.

também não sou contra lidar;quando o lidar ficou barato? fui o primeiro a entrar na fila.o lidar está muito barato agora, então também estou na fila para comprar o lidar. para mim, é um bom gato que pega o rato. desde que o custo deste dispositivo seja suficientemente baixo e desde que este dispositivo possa fornecer-nos informações suficientemente valiosas do ponto de vista da teoria da informação, devemos utilizá-lo.

david (âncora de "big horses talking about technology"):

o círculo de direção autônomo da china rapidamente disponibilizou esses hardwares, como lidar e radar de ondas milimétricas, a preço de banana. neste estado, ainda deveríamos ter visão pura como tesla? na verdade, muitas empresas estão hesitando agora. devo comprar um lidar de estado sólido por mais de 1.000 yuans ou devo usar visão pura, mas isso causará muito desperdício de poder de computação.

yu zhenhua (ex-engenheiro de ia da tesla):

acho que 1.000 yuans é muito caro e a tesla nem está disposta a usar um sensor de chuva.

wang chensheng (ex-diretor de compras da tesla):

mas acho que à medida que a escala da cadeia de suprimentos aumenta e o custo cai significativamente, quando o lidar consegue atingir um preço semelhante ao das câmeras, especialmente em um cenário de aplicação ponta a ponta, a visão pura ainda é um caminho único?

3. arrepender-se?

curiosamente, à medida que o preço do lidar caiu significativamente, a indústria começou a discordar sobre se o próximo táxi autônomo da tesla usará o lidar.

por exemplo, zhang hang acredita que, como o robotaxi não requer intervenção humana e se algo der errado, a empresa precisa ser responsável, a tesla pode escolher uma rota mais conservadora e usar o lidar, que antes desprezava.

zhang hang (diretor sênior cientista da cruise):

principalmente quando precisa ser responsável por acidentes corporativos, precisa ser mais conservador, e acho que pode ser necessário um sensor adicional. nessa perspectiva, a tesla poderá adotar algumas tecnologias que antes desprezava.enquanto isso for útil e puder atingir seu propósito l4, ele irá adotá-lo gradualmente.

recentemente, também descobrimos que a tesla também está considerando alguns aspectos do l4 e l5, e também está falando sobre cooperação com alguns fabricantes deste lidar, então pode ser que todos alcancem o mesmo objetivo por caminhos diferentes.

este ano, o fabricante lidar luminar divulgou seu relatório financeiro do primeiro trimestre, mostrando que os pedidos da tesla atingiram 10%, tornando-o seu maior cliente. mas yu zhenhua discordou, pensando que isso não era novidade.

yu zhenhua (ex-engenheiro de ia da tesla):

em primeiro lugar, definitivamente não é para o uso de lidar em futuros carros produzidos em massa, porque a receita total da luminar no primeiro trimestre parece ser de 20 milhões de dólares americanos, e 10% é de 2 milhões, o que não é suficiente para instalar vários lidar. na verdade, não é nenhum segredo que os veículos de engenharia e veículos de teste da tesla estão equipados com lidar. o lidar é usado para coletar informações básicas (dados de valor verdadeiro) para treinar redes neurais, porque os humanos não podem marcar a quantos metros um objeto está de você. . sensores especiais devem ser usados ​​para marcação.

mas por que lumina divulgou isso no primeiro trimestre, na verdade estou muito confuso, porque musk também respondeu na época, dizendo que depois de chegarmos à v12, não precisamos de dados de valor verdadeiro porque são de ponta a ponta e ocupam rede esta é uma questão da era v11. posso pensar que há alguns mal-entendidos aqui, isto é, nos relatórios financeiros ou nas regras financeiras.

embora atualmente seja incerto se o próximo robotaxi da tesla será equipado com lidar, uma coisa é certa é que com a atual configuração de detecção da tesla, a segurança não é suficiente para alcançar l4 ou operar um robotaxi.

liu bingyan (chefe da kargo software):

tenho certeza de que os modelos tesla existentes têm pontos cegos muito claros, que são pontos cegos que não são visualmente acessíveis, e esse ponto cego fará com que se ele quiser alcançar o máximo, seja a direção autônoma l4 ou l5, seu próximo o carro deve resolver esse problema de ponto cego.

desmontaremos a mais recente atualização tecnológica ponta a ponta da tesla em detalhes nos capítulos 3 e 4, bem como especulações sobre os detalhes do robotaxi a serem anunciados em outubro. a seguir, vamos primeiro discutir outra tecnologia importante na percepção: mapas de alta precisão.

4. atemporal?

além do lidar, os mapas de alta precisão também são uma importante fonte de custos na área de detecção da direção autônoma.

mapas de alta precisão coletam informações rodoviárias antecipadamente, reduzem a pressão no módulo de percepção para desenhar mapas 3d e melhoram a precisão.

coincidentemente, a primeira pessoa a promover mapas de alta precisão foi sebastian thrun, vencedor do segundo desafio darpa em 2005, o proprietário de um carro com cinco lidars na cabeça.

durante o desafio darpa de 2004, o google estava preparando o projeto "street view", larry page, fundador do google, foi pessoalmente ao site da competição para identificar talentos. após a competição em 2005, page abordou sebastian thrun e o convidou para trabalhar no google. desenhar o mapa foi dado a ele.

no processo, thrun e page perceberam de repente:se houver um mapa que possa registrar com precisão todas as linhas de faixa, sinais de trânsito, semáforos e outras informações rodoviárias, será de grande ajuda para a direção autônoma., que também estabelece a posição importante dos mapas de alta precisão em projetos de condução autônoma.

no entanto, produzir mapas de alta precisão é muito caro. o custo médio para as empresas de condução autónoma recolherem mapas de alta precisão é de cerca de 5.000 dólares por quilómetro. se quiserem cobrir 6,6 milhões de quilómetros de estradas nos estados unidos, só o custo da recolha. atingirá us$ 3,3 bilhões.

juntamente com os frequentes custos de manutenção do mapa, o consumo final será inimaginavelmente astronômico.

muitas empresas automóveis estão agora a promover soluções sem mapas que abandonam mapas de alta precisão e, em vez disso, utilizam veículos para construir mapas ambientais localmente.

um engenheiro de direção autônomo que entrevistamos anonimamente disse que essas comparações e promoções se devem mais a considerações de modelo de negócios. para empresas que fazem negócios com robotaxi, o uso de mapas de alta precisão pode aumentar a segurança.para as montadoras, desistir dos mapas de alta precisão pode efetivamente reduzir custos, por isso não significa que desistir dos mapas de alta precisão levará a um nível técnico mais elevado.

entrevistado anônimo (engenheiro l4):

a huawei também tem um ideal. a solução deles é um carro produzido em massa. os clientes podem vir de várias cidades e você deseja poder dirigi-lo em qualquer cidade.

o principal limite para o mapa convencional de alta precisão é que ele requer um processo de coleta de mapas. esse processo de coleta de mapas é, na verdade, relativamente demorado e trabalhoso, e também requer experiência profissional.

portanto, se você está no ramo de produção de carros em massa, não pode dizer que tenho um carro dedicado para coleta de mapas e que viajei por toda a china para você.

empresas l2 como tesla, huawei e ideal abandonaram os mapas de alta precisão porque não conseguiam cobrir todas as ruas e becos.

enquanto waymo e cruise faziam isso, a empresa l4 da robotaxi optou por continuar usando mapas de alta precisão porque descobriram queprecisamos apenas cobrir algumas cidades importantes para capturar mercados suficientes.

portanto, a utilização de mapas de alta precisão torna-seo problema de contabilidade financeira do robotaxi não é um problema técnico.

minfa wang (ex-engenheiro sênior de aprendizado de máquina da waymo):

se você olhar apenas para o modelo de negócios do robotaxi e dividir a demanda por robotaxi nos estados unidos, verá que as cinco principais cidades já respondem por metade do volume comercial nos estados unidos. em qualquer lugar dos estados unidos. na verdade, você já tem um mercado bastante grande.

da mesma forma, outro convidado que entrevistamos e que trabalha em caminhões autônomos l4 também compartilhou que se quiserem expandir suas rotas operacionais, ou seja, ampliar a cobertura de mapas de alta precisão, devem primeiro avaliar se essa rota é lucrativa, caso contrário, eles só vai perder com prejuízo.

depois de tanta conversa, não há uma visão unificada na indústria do lado da percepção. assim como hou xiaodi disse, um gato é um bom gato se pegar ratos.

a seguir, vamos nos concentrar no progresso recente em algoritmos de direção autônoma aos quais todos estão prestando muita atenção recentemente, especialmente a tecnologia “ponta a ponta” que a tesla promoveu recentemente. isso realmente mudará a direção da indústria de direção autônoma?

3. algoritmo: o futuro da direção autônoma é de ponta a ponta?

1. o que é tradição?

o elo de operação tradicional da direção autônoma é primeiro sentir, prever, depois planejar e, finalmente, controlar.

o módulo de percepção deve primeiro identificar a estrada por meio de sensores como câmeras e radares, traduzir essas informações para uma linguagem que a máquina possa ver e passá-las para o módulo de previsão.

o modelo de previsão julgará as trajetórias de condução de outros veículos e pedestres, depois passará essas informações para o módulo de planejamento para encontrar o caminho com menor risco e, finalmente, passará o sinal de controle para o sistema de controle.

o algoritmo neste momento é orientado principalmente pela "base de regras". os engenheiros precisam escrever continuamente várias regras, como diminuir a velocidade ao encontrar pedestres, parar no sinal vermelho, etc. você tem que cobrir todas as possibilidades tanto quanto possível e, portanto, o código é muito, muito longo.

quais são as dificuldades com tal algoritmo?

o maior problema é que o sistema está dividido em módulos diferentes, mas a transmissão de informações entre os módulos será perdida. se o downstream não conseguir obter informações abrangentes, a dificuldade de previsão e planejamento aumentará.

para dar um exemplo simples e fácil de entender, todo mundo já ouviu falar do jogo de teletransporte multijogador, certo? 10 pessoas pronunciam uma frase do início ao fim, mas muitas vezes os detalhes são perdidos ou adulterados durante o processo de entrega por várias pessoas, de modo que o significado é completamente diferente quando chega à última pessoa.

da mesma forma, no modelo tradicional baseado em regras, se o módulo da camada superior não funcionar bem o suficiente, isso afetará o desempenho da próxima camada.

outra desvantagem é que todas as regras são projetadas e definidas por humanos, mas regras limitadas não podem cobrir infinitas situações possíveis da vida real. para alguns problemas incomuns e facilmente esquecidos, é difícil para as máquinas encontrarem soluções correspondentes. o "caso de cauda longa" também é chamado de "caso de canto", o que acarretará custos muito elevados para implementação em larga escala.

yu zhenhua (ex-engenheiro de ia da tesla):

outra coisa é que quando ela é dividida em dois módulos, acho que essa tecnologia fica difícil de escalar. por quê? cada vez que você adiciona uma nova tarefa a uma cena complexa e realista, é necessário adicionar algumas novas interfaces e alterar a percepção e o planejamento de controle.

veja o caso da tesla, por exemplo. há alguns anos, a nhtsa (administração de segurança de transporte dos eua) exigiu que a tesla detectasse veículos de emergência, como caminhões de bombeiros e ambulâncias. precisa fazer isso. esta é apenas uma tarefa. pode haver centenas ou milhares de tarefas desse tipo. você sabia que existem milhares de engenheiros na huawei? cerca de 6.000 engenheiros, porque teremos tantas tarefas novas surgindo. quanto mais complexo o ambiente, mais tarefas não acho que este seja um modelo escalável.

david (âncora de "big horses talking about technology"):

este método ainda é relativamente antiquado. embora pareça ser uma metodologia relativamente inteligente para a indústria robotaxi, não poderá satisfazer as necessidades dos automóveis de passageiros e de milhões de veículos que circularão nas estradas de todo o mundo no futuro.

então, quais são as soluções para esses problemas? neste momento, temos que falar sobre “end to end”.

2. novas estrelas

no campo da condução autônoma, a definição atual de “ponta a ponta” é:as informações coletadas pelo sensor são passadas para o grande modelo baseado na rede neural sem qualquer processamento, e os resultados do controle são emitidos diretamente.

em outras palavras, não há necessidade de escrever manualmente várias regras e deixar o algoritmo aprender como dirigir seguindo os dados que lhe são fornecidos.

yu zhenhua (ex-engenheiro de ia da tesla):

porque quando nós, humanos, dirigimos, não julgamos a velocidade e o ângulo de um determinado carro em nossas mentes. você toma suas decisões inconscientemente em um ambiente complexo.

a lógica de pensamento de "tornar os algoritmos mais parecidos com os humanos, porque é assim que os humanos funcionam" é exatamente a direção de musk para liderar a tesla. não é de admirar que a tecnologia "ponta a ponta" não seja nova na direção autônoma. tesla.

embora a tesla lance o fsd v12 usando "ponta a ponta" pela primeira vez no final de 2023, "ponta a ponta" não é novidade no mundo da direção autônoma. na verdade, já em 2016, a nvidia publicou um artigo propondo “ponta a ponta”.

agora, "ponta a ponta" também está dividido em dois tipos. um é substituir alguns módulos por redes neurais. esse "ponta a ponta" de submódulos é apenas uma forma excessiva, não completa, porque. cada módulo para transferir informações entre eles, diversas interfaces ainda precisam ser definidas, causando perda de dados.

na visão dominante, somente quando vários módulos são integrados em um todo e as definições de camada de percepção, camada de previsão e camada de planejamento são removidas, isso pode ser considerado puro "ponta a ponta".

em 2023, o melhor artigo do cvpr "condução autônoma orientada ao planejamento" propôs que o passado "ponta a ponta" funcionava apenas em alguns módulos ou exigia a inserção de alguns componentes no sistema.

este artigo propõe a arquitetura do modelo uniad, que é a primeira vez que todos os módulos de detecção, previsão e planejamento são integrados em uma estrutura de rede ponta a ponta baseada no transformer.

comparado com o link de execução tradicional baseado em regras (orientado por regras), "ponta a ponta" não exige mais que os engenheiros de algoritmos melhorem repetidamente a base de regras, então, quando musk lançou o fsd v12, ele afirmou que "seu código cresceu de 300.000 linhas para foi reduzido para 2.000 linhas."

embora a tecnologia "ponta a ponta" na condução autônoma não tenha sido inventada pela tesla, a tesla foi de fato a primeira empresa a desenvolver a tecnologia "ponta a ponta" de redes neurais e trazê-la para o mercado convencional.

3. vantagens “ponta a ponta”

em novembro de 2023, a tesla lançou a primeira versão de teste do fsd v12, mas estava aberta apenas a funcionários selecionados. no início de 2024, a tesla começará a abrir a versão fsd v12 para todos os proprietários de tesla nos estados unidos, e cada proprietário terá um mês de teste gratuito.

após o lançamento do fsd v12, causou alvoroço por um tempo. pela experiência do usuário, vemos que a maioria das opiniões públicas acredita que a função do fsd da tesla está muito melhorada em comparação com o anterior. “primeiro no mundo da direção autônoma”. momento chatgpt”.

david (âncora de "big horses talking about technology"):

o que realmente me faz pensar que o progresso é o planejamento. por exemplo, quando se trata de rotatórias, é muito difícil atravessar a rotatória no sentido tradicional do planejamento, porque o carro da frente tem que ficar preso e você tem que pegar. fora da rotatória como configurar o meio esse tipo de prioridade?

mesmo se você definir a prioridade, a que distância você deve se manter do carro da frente e do carro ao seu lado antes de poder sair? na verdade, essa é uma lógica muito complicada, mas o desempenho disso na nova versão do fsd realmente faz? me sinto incrível. isso me dá uma grande surpresa.

muitas pessoas que experimentaram o fsd v12 disseram que este sistema, que aprende a partir de dados de direção humanos, tem um estilo de direção muito humano e não tem mais a frustração causada por algoritmos mecânicos.

mas, ao mesmo tempo, alguns convidados pensaram depois de experimentar,o fsd v12 não é tão bom que as pessoas precisem usá-lo, e ainda há uma certa lacuna entre ele e o l4.

justin mok (diretor de investimentos de um family office):

mas não é tão bom quanto o gpt4, e não é tão bom a ponto de eu precisar usar essa coisa, ou de usá-la imediatamente, e pode ser adequado para uso em muitos dos meus cenários.

minfa wang (ex-engenheiro sênior de aprendizado de máquina da waymo):

seu desempenho é relativamente bom na rodovia, mas nas ruas sinto que basicamente precisa ser controlado manualmente a cada 8 quilômetros ou mais.

especialmente no que chamamos de curva à esquerda desprotegida, é relativamente fácil de fazer, o que me faz sentir que não é um comportamento muito seguro. se o seu mpi (quilometragem de aquisição) for de apenas 5, então está obviamente longe de l4. ainda está um pouco distante.

eu também experimentei a versão fsd 12.4.4. comparado com veículos l4 como waymo, o tesla fsd atual ainda me assusta em certos momentos, ou às vezes exibe um comportamento inexplicável.

por exemplo, ao virar à direita, porque o raio de viragem era muito grande, quase bateu no carro que se aproximava, por isso tive que assumir manualmente.

do ponto de vista do desempenho, o fsd v12 “ponta a ponta” ainda tem espaço para melhorias. do ponto de vista de engenharia, operação e gerenciamento, as vantagens “ponta a ponta” têm três pontos:

primeiro, pode tornar o sistema geral mais simples.depois de remover a base de regras, você só precisa adicionar continuamente casos de treinamento para melhorar ainda mais o desempenho do modelo, e os custos de manutenção e atualização também serão significativamente reduzidos.

em segundo lugar, economize custos trabalhistas.como “ponta a ponta” não depende mais de uma base de regras complexa, não há necessidade de implantar uma grande equipe de desenvolvimento ou mesmo de contar com especialistas.

terceiro, pode alcançar uma promoção mais ampla.você pode ver que atualmente as empresas l4 só podem operar em áreas limitadas, independentemente das restrições regulatórias e de licença, porque não é uma solução "ponta a ponta" e precisa ser otimizada para regiões específicas, e "ponta a ponta" " pode lidar com todas as condições da estrada. , mais como um driver "universal", que é uma das razões pelas quais o tesla fsd v12 é comparado ao chatgpt.

dado que "ponta a ponta" tem tantas vantagens, poderá resolver os problemas técnicos enfrentados actualmente pela condução autónoma?

4. modelo de caixa preta

muitos convidados que entrevistamos acreditavam que,nesta fase, o desenvolvimento adicional da rota de ponta a ponta é uma tendência reconhecida no campo da condução autónoma., mas ainda existem muitos problemas.

zhang hang (diretor sênior cientista da cruise):

acho que essa direção é a direção certa. é impossível para nós fazermos uma solução l4 em grande escala corrigindo-a o tempo todo. mas, no momento, acho que é impossível alcançar rapidamente uma solução l4 completamente. solução de ponta a ponta, então agora é um momento contraditório.

o motivo pelo qual o atual ponto a ponto ainda está muito atrás do l4 começa com sua incerteza.

de ponta a ponta é como uma caixa preta, que trará mais incertezas.

por exemplo, os engenheiros não conseguem verificar se os casos de dados de entrada foram aprendidos pelo modelo ou, ao encontrarem um bug, não conseguem localizar qual link causou o problema ou se os dados recém-adicionados farão com que o conhecimento aprendido seja esquecido ou substituído; , esta situação é chamada de esquecimento catastrófico.

por exemplo, a versão do tesla fsd 12.4.2 foi produzida internamente há muito tempo, mas demorou muito para ser lançada em grande escala, musk explicou isso porque os dados alimentados continham muitos vídeos que foram controlados manualmente. , foi difícil o nível do modelo regrediu.

como a essência do ponta a ponta é a imitação, se a situação encontrada tiver casos semelhantes nos dados de treinamento, ela terá um desempenho muito bom, mas se exceder os casos de referência existentes, o desempenho será pior, ou seja, digamos, ponta a ponta tem requisitos muito elevados quanto à quantidade de dados de treinamento e à riqueza dos casos.

zhang hang (diretor sênior cientista da cruise):

quando há um semáforo vermelho em um cruzamento de trânsito, você não deve ultrapassar o semáforo vermelho. é uma regra tão simples. se for baseado em heurística (algoritmo heurístico), podemos simplesmente usar um if else para obter tal efeito.

mas se for um modelo totalmente ponta a ponta, depende inteiramente do aprendizado. no final, é realmente muito difícil para ele aprender dessa forma. então acho que ainda há uma grande lacuna entre l4 ponta a ponta em um curto período de tempo. acho que esse algoritmo é imaturo.

liu bingyan (chefe da kargo software):

você não tem regras rígidas e rápidas, mas ele pode tentar fazer todas as coisas que você definir e que não podem ser feitas. portanto, haverá muitas colisões frontais na simulação.

ao mesmo tempo, a inexplicabilidade provocada pelo processo de ponta a ponta também é uma preocupação para algumas pessoas.

a chamada inexplicabilidade significa que alterar qualquer peso, nó ou número de camadas no modelo do algoritmo terá um impacto imprevisível no desempenho do modelo. mesmo os projetistas e treinadores do modelo não podem conhecer o processo de raciocínio intermediário.

o oposto é a interpretabilidade. por exemplo, no modo baseado em regras, os engenheiros escreveram a regra de que “você pode continuar dirigindo quando um saco plástico for detectado passando”, então não precisamos nos preocupar com mudanças repentinas nesta situação. . vamos, pise no freio.

liu bingyan (chefe da kargo software):

você pode ver que no v12 a exibição na tela é muito melhor, mas de onde vem essa chamada exibição ponta a ponta? se esta exibição vier do modelo original, um dos problemas envolvidos é que na verdade adicionamos uma camada de interfaces definidas artificialmente a este modelo para que você possa extrair essas informações de um determinado local no modelo.

outra coisa que acho ainda mais assustadora é que esse display segue um caminho completamente diferente. isso também significa que o carro mostra que tem um caminhão na frente. não significa que o modelo controlado realmente pensa que tem um caminhão na frente. se isso acontecer, seria muito, muito assustador ver um carro na frente dele, mas você não tem certeza se ele não vai bater nele.

na verdade, tenho algumas dúvidas sobre se é realmente de ponta a ponta, ou posso não duvidar, mas pode haver outros perigos aqui.

wang chensheng (ex-diretor de compras da tesla):

então, para indústrias como a condução autónoma, que têm requisitos de segurança tão elevados, será a inexplicabilidade provocada pelo modelo ponta a ponta o outro lado da moeda?

como a tesla ainda não anunciou a tecnologia do fsd v12, não sabemos se o fsd adota uma estratégia multimódulo, mas descobrimos quealguns proprietários de automóveis encontraram casos em que a exibição da tela não corresponde ao comportamento real.

por exemplo, a vista aérea construída pelo veículo mostrou que havia alguém na frente, mas não deu nenhum sinal de frenagem, mas continuou a passar. felizmente, foi apenas um erro de detecção do sensor e nenhum acidente ocorreu. .

embora este caso possa ser visto que sob o algoritmo ponta a ponta, os erros da camada superior não afetarão as vantagens da tomada de decisão da camada inferior, mas também mostra que a camada de planejamento ocasionalmente não reconhece os resultados da camada de percepção , confirmando as preocupações de liu bingyan.

será que a inexplicabilidade se tornará um grande problema que impede o desenvolvimento de ponta a ponta? em seguida vem o terceiro conflito que vemos.

yu zhenhua (ex-engenheiro de ia da tesla):

eu penso que sim,um problema muito sério com a ia é que a sua natureza teórica está muito atrasada.

a ia não diz se isso definitivamente funcionará ou não. portanto, é um assunto experimental. não é considerado ciência e requer muita verificação.

o v12 esmaga completamente o v11, então isso é uma questão de resultados. então você acha que se existe tanta inexplicação de ponta a ponta, então porque está completamente esmagado, é muito estúpido, e você deveria cair.

yu zhenhua acredita que a ia é um assunto experimental. desde que os resultados atendam às expectativas, isso prova que a direção está correta e deve continuar avançando. hou xiaodi disse que o desempenho do v12 está significativamente à frente do v11, só porque a base do v11 é muito pobre e seu desempenho ainda está longe da verdadeira direção sem motorista.

wang chensheng (ex-diretor de compras da tesla):

se for realmente full self driving e estiver restrito por l5, deve passar pelas autoridades reguladoras, e elas precisam ter explicabilidade ou previsibilidade.

além disso, existem tantas cidades no mundo e, nos estados unidos, cada cidade pode ter leis e regulamentos diferentes. se este carro precisa se adaptar às leis e regulamentos locais em termos de hardware e software tornou-se uma grande questão se ele pode ser ampliado.

de ponta a ponta não é possível ajustar o modelo através de regras definidas artificialmente, pelo que a capacidade de adaptação a diferentes regulamentações tornou-se um desafio à escala de ponta a ponta.

outro fator que afeta a escala é que ponta a ponta é mais sensível ao volume de dados e aos sensores.

5. o futuro é incerto

liu bingyan (chefe da kargo software):

existe um problema muito grave de ponta a ponta, que éserá mais sensível ao sensor, ou seja, quando você troca o sensor ou a distribuição do sensor, seu modelo pode ser totalmente retreinado.

de outra perspectiva, é inaceitável do ponto de vista da engenharia, ou não podemos imaginar que o mesmo carro estará nas estradas de todo o mundo no futuro.

uma vez alterada a distribuição do sensor, o modelo se tornará inválido e o treinamento terá que ser reiniciado. uma grande quantidade de dados terá que ser coletada para treinamento, o que inevitavelmente trará enormes custos.

a mídia financeira americana cnbc informou que no início de 2023,para treinar o fsd, a tesla usou mais de 10 milhões de vídeos de condução de proprietários de tesla.

além disso, estes mais de 10 milhões de dados de formação não são utilizados casualmente. devem ser condutores humanos com competências de condução relativamente elevadas, caso contrário, o nível do modelo só se tornará cada vez pior.

portanto, treinar o modelo ponta a ponta não requer apenas muitos dados, mas também uma triagem complexa, que consome muita mão de obra. pode não ser um problema para a tesla, que vende muitos carros, mas para outras empresas, as fontes de dados tornaram-se um grande problema.

david (âncora de "big horses talking about technology"):

muitos oems foram enganados porque seguiram cegamente a metodologia de tesla, mas esse conjunto de coisas realmente não é adequado para 90% dos oems.

isso significa que outros fabricantes realmente não podem entrar no campo ponta a ponta?

embora a nvidia e a tesla conduzam operações de algoritmos de ponta a ponta por meio de visão pura, de ponta a ponta podem, na verdade, aceitar entradas multimodais.

sensores comumente usados, como radar de ondas milimétricas, lidar e radar ultrassônico, têm posições relativamente fixas no veículo, especialmente lidar, que está basicamente no teto do veículo. portanto, o acesso multimodal de ponta a ponta pode ser usado. para os dados coletados de diferentes modelos são usados ​​para treinar o modelo, e o espaço de design deixado para o oem será maior.

depois de mais uma rodada de bate-papo, cada algoritmo tem seus próprios méritos e ainda não está claro qual método pode nos levar a um futuro totalmente sem motoristas.

zhang hang (diretor sênior cientista da cruise):

não acho que exista nenhum algoritmo atualmente que possa ser simples e em grande escala e depois atender ao padrão l4. acho que o algoritmo em si não existe. este campo é um campo que todos deveriam promover juntos. estou muito otimista de que todos chegarão ao mesmo destino por caminhos diferentes, embora todos tenham desvios ligeiramente diferentes.

6. nada pode ser feito

não importa qual algoritmo seja usado, ele acabará enfrentando o problema da cauda longa.

no modelo tradicional baseado em regras (orientado por regras), escrever uma base de regras exige que uma equipe enorme gaste muita energia e é difícil cobrir tudo. o mesmo ocorre com o problema da cauda longa. ser resolvido?

minfa wang (ex-engenheiro sênior de aprendizado de máquina da waymo):

ele resolveu os casos convencionais, mas acho que o problema da cauda longa ainda existirá.

minfa acredita que a taxa de tolerância a falhas do sistema de condução autónoma é muito baixa. se um sistema de caixa negra for utilizado no l4, outros mecanismos de segurança devem ser introduzidos, mas isto volta à questão do custo no modo baseado em regras.

o algoritmo de condução autônoma será praticado primeiro no sistema de simulação. o treinamento de simulação pode resolver certos problemas de cauda longa?

zhang hang (diretor sênior cientista da cruise):

atualmente, não existe uma boa solução que possa realmente ajudar nosso desempenho na estrada na vida real por meio dos dados de simulação gerados.

minfa wang (ex-engenheiro sênior de aprendizado de máquina da waymo):

nas áreas de direção autônoma ou robótica, o ambiente é muito, muito complexo. se você quiser simular, você não está apenas simulando a si mesmo, mas também como o carro se moverá no futuro. mudanças no próprio carro. às vezes, você influenciará o comportamento de todos os carros e das pessoas ao seu redor.

como simular bem sem causar deslocamento de distribuição (deslocamento de distribuição), acho que ainda é um tema em aberto.

uma vez que as cenas virtuais não podem simular totalmente as possibilidades da realidade, isso significa que atualmente não há maneira de resolver o problema da cauda longa na indústria e só pode contar com a acumulação de experiência a longo prazo?

entrevistado anônimo (engenheiro l4):

até certo ponto sim, mas você não precisa ser perfeito, certo? os humanos não são perfeitos, você apenas precisa fazer melhor que os outros. as pessoas também têm suas próprias taxas de acidentes, desde que você faça melhor que isso, é o suficiente.

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

acho que a questão da cauda longa é, na verdade, uma proposição falsa. fico feliz que você tenha tocado no assunto.

na minha opinião, existe um problema de cauda longa. por exemplo, o que devo fazer se vir um crocodilo? o que devo fazer se vir um elefante? vejo uma aeronave de asa fixa estacionada na rodovia, o que devo fazer?

na verdade, para muitos problemas de cauda longa, nós os agrupamos em uma grande categoria de problemas: como lidar com objetos que nunca vi antes? é bastante tratável se você envolver em um tipo de problema mais geral.

por exemplo, uma vez vimos uma aeronave de asa fixa estacionada na rodovia, então nossa solução foi muito simples, pare, certo?

o problema da cauda longa é uma proposição falsa ou é um problema que precisa ser resolvido? todos podem ter sua própria resposta para este tópico. o problema da cauda longa corresponde a quando l4 ou mesmo l5 podem ser implementados em larga escala, então, a seguir, vamos dar uma olhada no conflito feroz entre l2 e l4.

4. tesla robotaxi pode ter sucesso: o conflito entre l2 e l4

1. “isso não pode ser feito”

pedimos a opinião dos convidados antes de musk anunciar o adiamento do robotaxi. todos tinham uma opinião muito unânime sobre isso, ou seja, é impossível que o táxi autônomo da tesla seja lançado este ano.

a maior razão pela qual todos têm uma visão tão unificada é que os modelos existentes da tesla não podem cumprir o padrão l4 para táxis autónomos.

liu bingyan (chefe da kargo software):

tenho certeza de que os modelos tesla existentes têm pontos cegos muito claros. se ele quiser alcançar o máximo, seja a direção autônoma l4 ou l5, seu próximo carro deverá resolver esse ponto cego. para resolver este problema de ponto cego, voltamos ao que acabamos de dizer. é necessário ajustar a posição do sensor da câmera. o resultado imediato do ajuste dessas posições é que o modelo anterior irá falhar completamente.

do ponto de vista da arquitetura visual da câmera, é impossível para os carros existentes atingirem o fsd que pode ser completamente autônomo. nessa perspectiva, deve contar com um novo hardware.

zhang hang (diretor sênior cientista da cruise):

do ponto de vista do sensor, é necessário introduzir alguma redundância, que pode não ter sido necessária antes em l2.

embora os membros da indústria não estejam otimistas, o que deixa musk tão confiante no lançamento do robotaxi?

yu zhenhua (ex-engenheiro de ia da tesla):

acho que o principal motivo são os vários avanços técnicos deste fsd v12. como personagem de musk, quando viu o fsd v12 hoje, em seu plano, ele sentiu que o robotaxi deveria ser colocado na agenda.

então, o fsd v12 pode permitir que tesla passe para l4 e assuma a importante tarefa de robotaxi? qual é o tamanho da diferença em comparação com o waymo ou o cruise existentes?

ao entrevistar hou xiaodi sobre esta questão, a sua resposta permitiu-nos ver outro ponto de vista na indústria: ou seja, a diferença entre l2 e l4 é muito grande.

2. “nem perto”

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

em primeiro lugar, o que tesla está fazendo não é dirigir sem motorista. o que estamos falando hoje é uma solução que remove pessoas e faz com que as empresas de desenvolvimento de software assumam a responsabilidade. dirigir, o que não é dirigir sem motorista, então o que você faz não é a mesma coisa.

atualmente, a direção assistida l2 é amplamente utilizada por empresas automobilísticas, como tesla, xiaomi, huawei, xpeng, etc., enquanto empresas como waymo, cruise, baidu e outros táxis autônomos usam l4 condução altamente automatizada, deixando de lado a escrita definições de conceito,a diferença essencial entre os dois é quem assume a responsabilidade.

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

a solução que afasta pessoas e coloca a responsabilidade nas empresas de desenvolvimento de software é chamada de direção autônoma. deixe-me contar uma piada: e se um tesla atingir alguém e matá-lo? para elon musk, não é da conta deles.

portanto, se a tesla quiser fazer táxis autônomos, ela deverá assumir sua própria responsabilidade. então, quais são as diferenças técnicas entre condução assistida e condução autónoma?

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

qual é o problema central a ser resolvido pela direção autônoma l4? é segurança, é redundância, quando todos os módulos de um sistema podem falhar, o sistema ainda pode garantir a segurança final. essa coisa é a parte mais difícil e crítica do l4. ele tem que resolver o problema de segurança antes de ganhar dinheiro, mas esse assunto não é de forma alguma o objetivo do design da tesla.

outro pesquisador de direção autônoma l4 também analisou as diferenças entre l2 e l4 do ponto de vista de hardware e software.

zhang hang (diretor sênior cientista da cruise):

a solução l4, em primeiro lugar, é que temos sensores relativamente poderosos, que podem ser difíceis de usar em cenários l2, pelo menos não em lidar de alta precisão.

do ponto de vista algorítmico, l2 pode estar mais focado em ser mais eficiente e reduzir muito o custo. não requer sensores particularmente caros e pode exigir menos cálculos para obter tal efeito. na verdade, esses l2s não precisam considerar esse caso um em um milhão.

então, o que nós, na l4, pretendemos é que a assistência remota humana precise ser introduzida apenas uma vez por milhão de milhas ou mais.

para resumir:a solução l4 utiliza sensores com maior precisão, o chip tem mais poder computacional e pode lidar com cenários mais abrangentes.

no entanto, na solução l2, a principal consideração é o custo, portanto o nível de hardware será um pouco menor. ao mesmo tempo, para se adaptar ao hardware de nível inferior, o algoritmo prestará mais atenção à eficiência do que à segurança, portanto. a frequência de aquisição de l2 será muito maior que a de l4.

então, as empresas l2 como a tesla podem alcançar efeitos l4 melhorando hardware e software?

3. “duas coisas diferentes”

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

não apoio a evolução lenta de l2 para l4 e l5. penso que esta questão é outra proposição falsa com fortes propriedades de extrapolação.

com o tempo, os golfinhos podem evoluir para a civilização? acho que é possível, mas devemos saber que a civilização terrestre não aguenta mais a evolução dos golfinhos, porque já existem empresas que fizeram isso. minha empresa está aqui para colocar o l4 em prática o mais rápido possível. não terei nada a ver com você depois que cair no chão, certo? quando o homo sapiens pegou o dardo, não havia golfinhos para criar a civilização.

na opinião de hou xiaodi,as empresas l4 existentes já construíram barreiras técnicas. sob a concorrência acirrada, não darão à l2 a oportunidade de evoluir., ao mesmo tempo, algumas pessoas acreditam que isso não significa que a tecnologia l4 seja mais avançada que a l2, mas que todos visam cenários diferentes.

yu zhenhua (ex-engenheiro de ia da tesla):

se dissermos que o l4 é verdadeiramente superior tecnicamente e à frente do l2 como todos imaginam, é absolutamente avançado. então, eu gostaria de perguntar por que a tecnologia l4 não pode ser rebaixada diretamente para l2?

na verdade, nos últimos anos, devido à pressão sobre os rendimentos, as empresas l4 têm ajudado os fabricantes de automóveis a fabricar l2, mas não podem simplesmente fazer o downgrade, têm basicamente de se desenvolver novamente.

então também sabemos que nos estados unidos, a gm (general motors) é dona da empresa cruise l4, e a ford é dona da argo ai, que também é uma empresa l4. por que a gm não pode usar a tecnologia da cruise em seus veículos produzidos em massa? por que a ford não pode usar a tecnologia l4 da argo ai em seus veículos de produção? então l4 não é absolutamente mais avançado que l2. em termos de dificuldade técnica, não acho que se você fizer l4, você parecerá muito avançado.

por que a tecnologia l4 não pode ser rebaixada diretamente para uso l2? zhang hang explicou que como o l4 usa especificações de hardware mais altas e o algoritmo do l2 deve se adaptar a sensores com especificações mais baixas e processadores com menor poder de computação, as tecnologias dos dois não podem ser migradas diretamente.

assim como um designer de arquitetura cujo computador foi confiscado e recebeu apenas uma régua, caneta e papel menos precisos, ele também teve que se adaptar à nova forma de desenhar.

zhang hang (diretor sênior cientista da cruise):

o problema que você mencionou anteriormente é a quantidade de cálculo. é impossível apoiar a solução l2. colocamos um supercomputador no porta-malas de um carro.

ao mesmo tempo, zhang hang também mostrou uma mente mais aberta ao comparar as tecnologias de l2 e l4, tem uma cobertura mais ampla e precisa enfrentar mais cenários, e apenas problemas básicos precisam ser resolvidos. l4 tem cobertura limitada, mas presta mais atenção a vários detalhes. portanto, há prós e contras entre os dois.

zhang hang (diretor sênior cientista da cruise):

o próprio l4 não pode ser usado como uma solução l2 simplesmente simplificando o sistema existente e removendo a redundância, mas vice-versa. se você deseja atingir os padrões l4 em l2, leva muito tempo para aprimorar. você precisa de muito tempo para coletar dados e depois acumular experiência.

mas não acho que isso signifique que nossa rota técnica ou profundidade técnica será maior que l2. não acho que seja necessariamente esse o caso. l4 pode ter muitos algoritmos que não são muito avançados, mas são resolvidos por meio de alguns. design cuidadoso. esses são alguns problemas de cauda longa muito detalhados.

qual visão você apoiaria? você pode deixar uma mensagem para nos contar. nas nossas entrevistas, diferentes pessoas terão as suas próprias respostas a esta pergunta.

yu zhenhua (ex-engenheiro tesla l2):

acho que o público em geral, e até mesmo algumas empresas l4, irão incutir um conceito em todos, ou seja, a tecnologia l4 é melhor que l3, e depois melhor que l2. acho que esse é um cenário que foge de suas restrições para enganar o público, pois o atual robotaxi da l4 tem cenários muito restritos e deve estar em uma região específica. por exemplo, o waymo só pode operar em uma região de operação.

shao xuhui (investidor sócio-gerente da foothill ventures):

eu pessoalmente ainda estarei otimista em relação às empresas l4, pois a partir dessa lógica, l4 pode reduzir a dimensionalidade e atacar, mas se você fizer apenas isso, você não será promovido para l2, ou será muito, muito difícil ser promovido.

entrevistado anônimo (engenheiro l4):

na verdade, não creio que haja um limite particularmente difícil na pilha de tecnologia. por exemplo, se uma empresa pode afirmar ser uma empresa l2 hoje, então talvez ela adicione algumas novas tecnologias amanhã e também possa fazer l4, certo. ? tudo depende da tecnologia que utiliza na sua aplicação, ou dos novos avanços tecnológicos que possui, certo?

hou xiaodi (ex-fundador e ceo da tusimple, fundador da bot.auto):

a direção assistida e a direção sem motorista são duas coisas diferentes.

produtores: hong jun, chen qian, autor: wang ziqin, editor: chen qian