notícias

Melhor ator do SenseTime, Wang Xiaogang: Mesmo que a abordagem ponta a ponta de "dois estágios" seja implementada por mais dez anos, ela não se tornará o "ChatGPT" para direção inteligente.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang, cofundador e cientista-chefe da SenseTime Technology e presidente do Jueying Intelligent Automotive Business Group

No recém-concluído WAIC 2024, SenseTime lançou um vídeo único.

No vídeo, um veículo UniAD equipado com apenas 7 câmeras pode não apenas circular livremente por estradas de construção urbana, grandes cruzamentos e cruzamentos de semáforos sem imagens, mas também navegar suavemente por estradas rurais com condições de tráfego complexas por meio de cruzamentos assimétricos sem marcações. você pode evitar veículos parados estacionados na beira da estrada e veículos em faixas estreitas, e também pode virar à direita em curvas de grande curvatura sem faixas.

Esta série de movimentos de condução suaves como seda é impressionante. Por trás disso está a solução de direção autônoma ponta a ponta UniAD proposta pela SenseTime Jueying, que é a primeira do setor a integrar percepção e tomada de decisão.

Nos últimos anos, a condução inteligente tem sido o foco das empresas automobilísticas, mas o nível real de condução é muitas vezes insatisfatório. Após o surgimento do ChatGPT, a indústria de direção inteligente ansiava pelo mesmo momento de mudança qualitativa.

Neste momento, “ponta a ponta” aponta uma direção. Desde este ano, a indústria de direção inteligente tem prestado cada vez mais atenção de ponta a ponta. Quer sejam empresas automobilísticas como Xpeng, Ideal, NIO ou Great Wall, ou fornecedores de tecnologia como Huawei, Yuanrong Qixing e Haomo Zhixing, todos eles optaram pelo caminho de ponta a ponta.

Já no final de 2022, SenseTime Jueying propôs o UniAD, um modelo geral para direção autônoma integrada na percepção e na tomada de decisões. DriveAGI também é baseado iterativamente no UniAD. Ele usa grandes modelos multimodais para apoiar soluções ponta a ponta. para criar a próxima geração de tecnologia de condução autônoma. Mesmo se você encontrar uma ambulância na estrada, com as capacidades cognitivas do DriveAGI, o veículo pode identificar e compreender com precisão o alvo e ceder ativamente.


DriveAGI pode não apenas identificar ambulâncias, mas também dar passagem proativamente às ambulâncias de plantão.

Após dois anos de planejamento proativo, as vantagens de entrada antecipada e iteração rápida do SenseTime Jueying estão gradualmente emergindo. Ele cooperou com mais de 30 empresas automotivas nacionais e estrangeiras, cobrindo mais de 90 modelos, e entregou um total de 1,95 milhão de carros inteligentes. . Durante o processo de cooperação, a SenseTime Jueying e as empresas automóveis encontraram os seus respectivos limites, aproveitaram plenamente as suas respectivas vantagens e estão a trabalhar em conjunto para acelerar a chegada do "momento GPT" da condução autónoma.

Se a rota técnica estiver errada, até entrar no ônibus será em vão.”

Em um momento em que muitos jogadores estão se reunindo para entrar no campo de ponta a ponta, Wang Xiaogang, cofundador, cientista-chefe da SenseTime e presidente do Jueying Intelligent Automotive Business Group, comentou no TMTpost Media App por que foi o primeiro a focar em ponta a ponta?

Em 2017, a SenseTime e a japonesa Honda Motor anunciaram uma cooperação para desenvolver conjuntamente a tecnologia de condução autônoma L4. O próprio SenseTime começou com a tecnologia de visão AI. Naquela época, a Honda pediu ao SenseTime que usasse apenas câmeras e implementasse funções de direção inteligentes sem mapas de alta precisão. Desde então, a equipe continuou trabalhando de ponta a ponta.

Agora, embora a competição ponta a ponta esteja em pleno andamento, um problema comum é que a rota técnica ponta a ponta ainda não formou a melhor prática e há diferenças na rota técnica.

Wang Xiaogang disse ao TMTpost App que a maioria das atuais soluções ponta a ponta adotam uma solução de “duas etapas” mais fácil de implementar, ou seja, consiste em dois modelos: percepção e tomada de decisão. “A parte de percepção do primeiro parágrafo em si já utiliza redes neurais, então não há muitas mudanças. A maior mudança está na parte de planejamento e controle do segundo parágrafo. redes neurais.

Porém, em sua opinião, a solução em “dois estágios” é conectar dois pequenos modelos e otimizá-los conjuntamente de ponta a ponta. Na solução de “dois estágios”, após a informação ser filtrada pelo modelo de percepção, há muita perda, restando apenas alguns rótulos como pessoas, carros e objetos, então o modelo de segundo estágio é na verdade apenas um pequeno modelo. “A principal diferença entre o plano de duas etapas e o plano de uma etapa é se esta é a era dos modelos pequenos ou a era dos modelos grandes.”

Wang Xiaogang disse sem rodeios que mesmo que a solução de “dois estágios” seja implementada por mais 10 anos, ela não se tornará “ChatGPT” para direção autônoma.

É precisamente com essas questões em mente que desde o início da pesquisa e desenvolvimento, a SenseTime Jueying adotou uma solução de "uma etapa" que integra percepção, tomada de decisão, planejamento e outros módulos em um Transformer full-stack de ponta a ponta. modelo final para alcançar percepção e tomada de decisão integradas. Ou seja, a entrada do sensor é usada para gerar diretamente a trajetória do comportamento.

Nesse processo, a máquina irá sintetizar informações e pensar e julgar como o cérebro humano, assim como você está lendo um romance de mistério. Existem vários personagens e enredos no romance, incluindo salas secretas e mistérios. romance Não está completamente claro o que acontecerá a seguir. Através de diferentes personagens e enredos do romance, você pode prever diversas possibilidades para o assassino. O que o cérebro da máquina faz é como um romance de mistério.

No entanto, embora haja apenas uma diferença de palavra entre o plano de uma etapa e o plano de duas etapas, a dificuldade é muito diferente. Wang Xiaogang explicou que com a rota de estágio único, a quantidade de informações de vídeo no front-end é muito grande, mas o sinal de saída precisa ser muito preciso, o que exige mais treinamento, dados e pipeline de toda a rede.

"A solução de 'um estágio' é difícil, mas uma vez aprendido o modelo, suas capacidades serão muito fortes. Este é o momento 'ChatGPT' na direção autônoma que estamos buscando."

Um modelo de condução autônoma de ponta a ponta não é a resposta final para a direção autônoma.”

A escolha da rota técnica é o primeiro passo. No final de 2022, SenseTime e seus laboratórios conjuntos propuseram o UniAD, o primeiro modelo universal da indústria para direção autônoma integrada na percepção e tomada de decisão, e ganhou o melhor artigo na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões (CVPR) de 2023, o ano seguinte.

No Salão do Automóvel de Pequim deste ano, SenseTime Jueying demonstrou os resultados do veículo real da UniAD na estrada, que pode circular livremente em estradas urbanas e rurais. Imediatamente depois, no WAIC 2024, o SenseTime mostrou uma demonstração real do veículo do UniAD em estradas urbanas complexas, estradas rurais, etc.

UniAD é um modelo universal de direção autônoma de ponta a ponta, embora melhore as capacidades de direção do sistema de direção inteligente, o modelo de direção autônoma de ponta a ponta puro não é a resposta final à direção autônoma. Wang Xiaogang disse que um sinal importante de que os carros inteligentes estão se tornando superinteligentes é possuir ainda mais as capacidades de percepção, raciocínio, tomada de decisão e interação no mundo aberto. Portanto, a SenseTime Jueying criou o DriveAGI, um grande modelo de direção inteligente baseado no grande modelo multimodal.

A direção evolutiva do DriveAGI é tornar a direção inteligente de ponta a ponta “interpretável e interativa”.

A chamada explicabilidade significa que não só permite que os veículos compreendam o complexo mundo real mais como os humanos, obtenham insights sobre as motivações comportamentais de vários participantes do trânsito, aprendam rapidamente várias regras de trânsito, compreendam informações rodoviárias em constante mudança, mas também expliquem a condução. decisões aos usuários.

Por exemplo, se um veículo que normalmente circula no lado direito de uma estrada de duas pistas estiver equipado com DriveAGI, ao encontrar uma ambulância se aproximando por trás, poderá reconhecê-la imediatamente e determinar que a ambulância está de serviço. Portanto, considera-se inicialmente que há espaço para mudar de faixa no lado esquerdo da estrada, e o lado direito da estrada é mudado para o lado esquerdo a tempo de garantir que a ambulância possa passar de maneira suave e rápida. Todo o processo é semelhante ao cérebro humano. Ele não só pode ver claramente as diferentes situações encontradas na estrada, mas também pode pensar e julgar com base nas regras de trânsito e tomar ações de direção corretas.

Interoperabilidade significa que os usuários podem não apenas pedir ao DriveAGI que explique seu processo de tomada de decisão, mas também controlar o comportamento de direção autônoma por meio de instruções de voz ou gestos. Por exemplo, no futuro, em condução autônoma, a navegação instrui o veículo a virar no próximo cruzamento para chegar ao destino, mas o motorista sabe que há um atalho à frente e pode virar diretamente, então ele só precisa dizer "virar esquerda diretamente" para o sistema. O sistema executará este comando com base nas condições atuais da estrada.

Da operação de caixa preta e saída unidirecional à interpretabilidade e interatividade, o principal truque é como treinar o modelo.

O primeiro elemento do treinamento do modelo é uma grande quantidade de dados e grandes parâmetros do modelo. Musk já falou sobre a importância dos dados para modelos autônomos: 1 milhão de casos de vídeo são treinados, o que mal chega a 2 milhões, o que é um pouco melhor, e você vai se sentir Uau, para 10 milhões; inacreditável.

Wang Xiaogang também disse que a estrutura de rede atual não é o segredo principal e que a estrutura de rede de todos é relativamente semelhante. A chave é como alcançar excelente qualidade de desempenho em estruturas de rede semelhantes. Isso depende principalmente se o tamanho do modelo é grande o suficiente e se o pipeline de produção de dados é poderoso.

Tendo estado profundamente envolvido no campo da IA ​​durante dez anos, o SenseTime foi implantado em muitos setores, incluindo inteligência urbana, comércio, assistência médica, finanças, condução autônoma e até mesmo cenários industriais como aço, mineração de carvão e energia elétrica. e acumulou uma grande quantidade de dados multimodais em vários setores. Em 5 de julho, SenseTime Jueying demonstrou ao vivo no WAIC 2024 que a solução de implantação de extremidade de carro modelo 8B montada na plataforma 200 TOPS+ tinha 8 bilhões de parâmetros.


Desempenho do modelo multimodal 8B do lado final do veículo SenseTime Jueying

Se houver quantidade, a qualidade também deve ser garantida. Wang Xiaogang disse que não podemos nos concentrar apenas na quantidade de dados e no número de parâmetros do modelo. Se não houver uma tarefa difícil, mesmo que a quantidade de dados e parâmetros aumente, as capacidades do modelo estarão apenas girando.

Então, ele deu um exemplo: As abelhas podem trabalhar em um favo de mel tão complexo, com tanta precisão e tão bem, mas elas sempre têm apenas uma habilidade e só podem fazer uma coisa. O cérebro humano é diferente. Após milhares de anos de evolução, os humanos podem enviar satélites e foguetes para o céu. "Esta é a diferença entre habilidades gerais e habilidades exclusivas. Uma abelha só faz uma coisa durante toda a sua vida, duas vidas, ou três vidas. Assim como um modelo, se você fornecer apenas dados sobre pessoas, carros e objetos, ela vontade Só pode fazer isso pelo resto da vida.”

Além dos dados, o fornecimento de poder computacional poderoso é o fator mais escasso e competitivo atualmente.

SenseTime Jueying é um dos poucos grandes fornecedores de poder de computação do setor. A partir de 2018, a SenseTime começou a projetar a infraestrutura de computação e construiu um centro de computação inteligente AIDC em Lingang, Xangai. Possui 45.000 GPUs para fornecer treinamento de grandes modelos e serviços de inferência para o mundo exterior, e pode treinar modelos com centenas de bilhões ou até mesmo. trilhões de parâmetros. Contando com o apoio do AIDC, o poder de computação operacional do SenseTime Jueying atingiu 12.000 P. Espera-se que, no quarto trimestre de 2024, o pico de poder de computação atinja 25.000 P.

Não exclua a entrega de caixa branca, só quando a vegetação prosperar poderemos alcançar resultados ecológicos vantajosos para todos.”

Não importa quão boa seja a tecnologia, a chave ainda está na sua implementação.

Wang Xiaogang apresentou que os produtos de direção inteligente produzidos em massa da SenseTime Jueying foram lançados em várias marcas e modelos, como GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT e Hongqi de alta velocidade e outras funções também começaram a ser. implementado Ao mesmo tempo, Jueying também está promovendo a entrega de mais modelos. No início de junho, GAC e FAW foram selecionados para o primeiro lote de projetos-piloto nacionais de L3, e o SenseTime Jueying forneceu-lhes algoritmos de percepção orientados para L3. Além disso, as múltiplas soluções atuais de direção inteligente produzidas em massa da SenseTime Jueying podem ser atualizadas para uma arquitetura ponta a ponta no futuro.

Eles têm muitos clientes e pedidos, mas os fornecedores de soluções tecnológicas representados pela SenseTime Jueying têm que enfrentar um problema - a autopesquisa por parte das montadoras.

Tomemos como exemplo a Tesla. Sua característica é que ela faz IA e possui uma grande quantidade de infraestrutura, como milhares de GPUs. Ela também produz milhões de carros todos os anos e mantém informações e dados do usuário final.

Outras montadoras seguirão o exemplo? E pode ser imitado? Wang Xiaogang disse que mesmo uma empresa tão poderosa e rica em recursos humanos como a Microsoft optou por cortar a sua equipa de IA e, em vez disso, cooperar com a OpenAI.

Ao mesmo tempo, explicou que a chamada “autopesquisa” não significa que você tenha que fazer tudo sozinho do começo ao fim. “Desde que os clientes da montadora entendam e assumam a liderança no controle de tudo o que acontece, e possam usar suas próprias plataformas para iterar produtos, isso é suficiente.”

Portanto, em termos de métodos de cooperação, no passado, o SenseTime Jueying tendia a entregar o código como uma caixa preta, acreditando que este era o ativo mais valioso. Mas Wang Xiaogang revelou que agora o SenseTime Jueying não rejeita a entrega em caixa branca. Porque mesmo que o código seja fornecido, a competitividade pode ser rapidamente melhorada através de iteração e cooperação mais profundas.

Além disso, a cooperação também pode ajudar as montadoras a economizar dinheiro. "Investimos mais de 10 mil milhões de euros em grandes modelos e, no processo, estabelecemos a nossa própria infraestrutura, grandes instalações e serviços na nuvem rentáveis ​​para atingir o ponto de equilíbrio. Ao trabalhar connosco, as empresas automóveis não terão de suportar este fardo. Alguns investimentos enormes Os fabricantes de automóveis não precisam de se envolver nestas áreas, abriremos recursos relevantes aos fabricantes de automóveis.”

No entanto, ele também admitiu que um dos problemas enfrentados na cooperação com as montadoras é a falta de feedback dos dados. Normalmente, o feedback dos dados do terminal depende da iniciativa fornecida pelo fabricante do automóvel, o que pode levar a uma iteração e ciclo de dados ineficientes. Portanto, a cooperação aprofundada com os clientes das montadoras é particularmente importante.

Por meio da entrega em caixa branca, o SenseTime Jueying ajuda os parceiros das montadoras a entender a tecnologia de grandes modelos e dominar o know-how. Por outro lado, os OEMs, como parceiros, podem compartilhar dados e informações que não envolvem privacidade e confidencialidade com a Jueying. modelo grande nativo de veículo, e as duas partes irão desenvolvê-lo em conjunto para acelerar a iteração do produto e criar um produto de modelo grande de IA nativo de carro inteligente verdadeiramente centrado no usuário.

Com base no abundante poder de computação líder do setor e nas capacidades de grande modelo "Ririxin" líderes mundiais, e por meio de um modelo de cooperação estratégica mais aprofundado, o SenseTime Jueying criará uma situação ganha-ganha com muitos parceiros, como OEMs.

SenseTime Jueying definiu o tempo de lançamento do modelo grande de ponta a ponta em 2025. Wang Xiaogang disse que quando o ChatGPT foi lançado, nem tudo foi feito perfeitamente. Por exemplo, quando o GPT 3.5 estava executando tarefas, havia muitas coisas que não conseguia. faça o bem. Mas a chave é que todos viram a direção certa. Não há problema em seguir esse caminho, mas serão necessários mais alguns meses de iteração. O mesmo vale para ponta a ponta.

Ao mesmo tempo, ele também afirmou com segurança que quando a produção em massa ponta a ponta do SenseTime Jueying começar no próximo ano, os usuários verão coisas que eram completamente impossíveis de fazer antes em alguns cenários, e esses serão os novos recursos que surgirão.

Wu Xinzhou, vice-presidente da divisão automotiva da NVIDIA, declarou publicamente que de ponta a ponta é a música final da trilogia de direção inteligente. No caminho para o fim, Shangtang Jueying merece foco e expectativas.