notícias

Supervisor de Ph.D. da Universidade de Pequim pós-anos 90 constrói robô humanóide, não aprende com Tesla

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Os Estados Unidos não são um modelo para a China.

Texto丨Wang Yutong
Editor丨Cheng Manqi

Em maio deste ano, um novo grupo de trabalhadores com 1,72 metros de altura veio trabalhar na fábrica do Texas, nos Estados Unidos. Eles foram responsáveis ​​​​por carregar células de bateria cilíndricas 4680 da mesa de transferência para a caixa vermelha à sua frente. . Eles não são muito habilidosos, são até lentos e desajeitados. Mas estes trabalhadores são o Optimus, o robô humanóide que a Tesla vai lançar em 2022, e tudo é diferente.

“Cenários de uso perfeitos”, “progresso rápido” e “aviso de desemprego”, no vídeo dos robôs divulgado pela Tesla, os comentários das pessoas variaram da exclamação à preocupação.

Wang Ele não pensa assim. Ele acha que a Optimus “ainda é uma pesquisa (pesquisa)” nesta fase.

Wang He, nascido em 1992, é atualmente professor assistente e supervisor de doutorado no Frontier Computing Research Center da Universidade de Pequim. Ele se formou no Departamento de Eletrônica da Universidade de Tsinghua com bacharelado e doutorado pela Universidade de Stanford. participou da CVPR ICCV, a principal conferência sobre visão computacional, robótica e inteligência artificial. Aguarde a publicação de dezenas de artigos.

Depois de maio do ano passado, Wang He atraiu mais atenção como timoneiro da empresa de robôs inteligentes "Galaxy General". Em junho deste ano, o Galaxy General quebrou o recorde de financiamento da rodada anjo de 2024 com um financiamento de 700 milhões de yuans.

A maioria das empresas fabrica robôs humanóides completos. Wang He acredita que as pernas não são a solução ideal neste estágio e só aumentarão os custos. “Não é que a capacidade operacional do robô humanóide seja forte o suficiente, mas ele não tem pernas. É que ainda existem muitas tarefas que os braços robóticos tradicionais não conseguem realizar. Wang He julgou que suas mãos são mais valiosas ao pousar no local. e um grande número de cenas não os exige. Com capacidades motoras suficientes, como inspeção e patrulhamento, o cão-robô pode fazer o mesmo que o carro.

Galbot do Galaxy Universal está coletando lixo. Não tem pernas, mas uma perna única dobrável + chassi com rodas.

A obtenção de dados suficientes é uma dificuldade no desenvolvimento da inteligência incorporada. Tesla e Google optaram por usar a “teleoperação” para coletar dados, ou seja, permitir que pessoas reais usem algum equipamento de coleta para realizar as ações que o robô precisa aprender. Wang He sentiu que isso não era um bom negócio: “O Google levou mais de dez meses e dezenas de milhões de dólares para produzir centenas de milhares de dados”. O Galaxy Universal escolheu tudo em “Sim2Real (migração da simulação para a máquina real”. )", isto é, contando principalmente com dados de simulação sintética.

As empresas de robôs humanóides nos Estados Unidos têm muito dinheiro e são ousadas. Uma das observações de Wang He é que isso as impede de buscar estritamente o PMF (Product Market Fit, ajuste de produto e mercado). tem dinheiro, é só juntar tudo de uma vez”. Porém, problemas da indústria como falta de dados reais e hardware instável devem ser resolvidos em cenários, por isso ele acredita que a comercialização deve ser considerada desde o primeiro dia.

"Não devemos considerar o que Tesla faz como um padrão." Wang He disse que as startups chinesas "se ainda contarem histórias de outras pessoas sem capital abundante nos Estados Unidos, isso só pode ser um beco sem saída".

Wang He não concorda com Tesla e muitas pessoas na indústria não concordam com Galaxy GM. Tomando o Sim2Real, no qual Wang He está interessado, como exemplo, muitos profissionais acreditam que existem diferenças naturais entre os dados sintéticos simulados e o mundo real, o que afetará o efeito do treinamento. Depois que o primeiro robô Gabot do Galaxy Universal foi lançado, alguns oponentes disseram que se sentiram "aliviados": "Há uma grande lacuna entre a demonstração e a aplicação real", "Escrevi muitos artigos sobre agarrar e a última mão foi uma sucção xícara. "

A grande questão é que agora não é hora de começar um negócio fabricando robôs humanóides. Alguns investidores acreditam que estas empresas se tornarão mártires porque muitas tecnologias, como hardware, materiais e energia, ainda não estão maduras. Kaifu Lee falou sobre inteligência incorporada e disse: “Definitivamente não podemos investir agora em algo que acontecerá 10 anos depois”. Dai Yusen, sócio da Zhenge, disse que a incorporação ainda está na era do BlackBerry e não pode investir no iPhone. .

Os robôs humanóides e a inteligência incorporada ainda estão numa fase muito inicial e esta é uma indústria com uma cadeia longa e uma pilha de tecnologia complexa, incluindo IA, materiais, energia, desenvolvimento mecânico, produção, gestão da cadeia de abastecimento, desenvolvimento de clientes e, em última análise; a empresa que sobrevive Não pode haver deficiências.

É muito cedo para dizer o vencedor, mas esta entrevista regista o que um jovem cientista viu um ano depois de partir. Ele agora acredita que, embora as grandes empresas tenham mais recursos, não estão necessariamente corretas. Esta é a sua oportunidade.

Inteligência incorporada e sociedade humanamáximo divisor comum de

"Mais tarde": Você estuda a inteligência incorporada atual desde 2016 - combinando modelos visuais, modelos de linguagem natural e modelos de operação de robôs. O que você viu nesses anos de pesquisa e desenvolvimento?

Wang He: Eu estava trabalhando com inteligência incorporada quando estava estudando para meu doutorado. Naquela época, não era chamada de "inteligência incorporada". Inicialmente, combinei esses três pequenos modelos separados para obter uma estimativa de pose de objeto em nível de categoria (pose: um). objeto A posição e postura no espaço tridimensional estimativa de posição: encontrar a postura de um objeto) é na verdade uma operação bimanual.

Depois de retornar à China e antes de fundar aqui, instalei um braço nas costas do cão-robô Yushu e tentei fazê-lo realizar uma série de operações. No entanto, descobrimos que muitos aspectos da computação, dos recursos e até mesmo de todo o sistema não atendiam às nossas necessidades.

Naquela época, senti que se não produzíssemos hardware, teríamos que depender inteiramente de terceiros e as iterações de desenvolvimento do sistema seriam limitadas. Quando a indústria robótica não existe, é difícil fazer apenas inteligência.

"Mais tarde": Que mudanças aconteceram depois? Por que você decidiu abrir um negócio em 2023?

Wang He: O empreendedorismo inteligente incorporado começou a fermentar na China mais cedo do que nos Estados Unidos. A principal razão é a maturidade do hardware e da ontologia.

A indústria transformadora nos Estados Unidos não permite a produção rápida de demonstrações completas de inteligência incorporada. O fornecimento de peças nos Estados Unidos é incompleto, muitas coisas têm de ser importadas e há escassez de engenheiros de hardware. A produção de hardware da China pode atingir o menor custo e a maior confiabilidade. Por exemplo, o robô humanóide de Yushu pode ser construído por algumas pessoas em meio ano.

Mas a ontologia é apenas um grande brinquedo. O próximo passo é como competir em termos de inteligência. Em 2023, grandes modelos multimodais incorporados, como o PaLM-E, surgiram em todo o mundo, e a faísca entre a percepção multimodal e a operação incorporada foi acesa. Decidi abrir um negócio nesta época.

"Mais tarde": Por que você escolheu iniciar um robô humanóide? O portador da inteligência incorporada não é necessariamente humanóide.

Wang He: Na verdade existem várias formas, incluindo cães, aviões e carros. Mas entre todas as formas, o maior denominador comum entre a inteligência incorporada e a sociedade humana só pode ser a “forma humana”.

Como todo o ambiente de produção e de vida é projetado para humanos, o humanóide pode realizar o maior número de operações, terá o maior número no futuro e terá o maior valor de produção econômica. Do ponto de vista da visão, a inteligência incorporada e os robôs humanóides podem ser equiparados.

"Tarde": Muitas pessoas acreditam que a janela empreendedora para a inteligência incorporada ainda não chegou. Agora, essas empresas se tornarão mártires e muitas tecnologias, como hardware, materiais e energia, ainda não estão maduras. Por exemplo, quando Kai-fu Lee falou sobre inteligência incorporada, ele disse: “Definitivamente não podemos investir em algo que acontecerá 10 anos depois, Dai Yusen, sócio da Zhenge, disse que a incorporação ainda está na era do BlackBerry”. e não pode investir no iPhone.

Wang He: Quando me encontrei com o Sr. Kaifu Li em 2019, ele disse que levaria mais 50 anos. Agora ele acelerou de 50 para 10 anos.

Não podemos usar os telemóveis como uma analogia à inteligência incorporada. Dos telefones funcionais aos smartphones, a tecnologia mudou muito e agora a direcção técnica da inteligência incorporada é clara: a ontologia é integrada com um grande modelo para se tornar um robô universal. .

Neste momento, quanto mais cedo o jogo terminar, mais tecnologia e dados serão acumulados, o que aumentará a lacuna na fase posterior. Depois que o robô entra em cena, os dados da cena real complementarão sua inteligência. É extremamente difícil para os participantes tardios superarem uma empresa que já possui dezenas de milhares de robôs, está constantemente retornando dados reais e já enfrentou armadilhas no cenário.

Isto eCondução autônomaDa mesma forma, somente com a venda de um número suficiente de carros haverá dados suficientes, e os dados poderão ser usados ​​para melhorar o algoritmo mais rapidamente. Na batalha entre Google e Tesla, a Tesla vence porque tem carros suficientes.

A inteligência incorporada tem potencial para crescer em um mercado comparável ao dos automóveis. Tem as mesmas características das mudanças tecnológicas anteriores: é lento no início e substitui gradualmente os robôs para fins especiais, mas quando atingir a escala de 10.000 unidades, irá acelerar a substituição das indústrias tradicionais;

"Tarde": Um facto é que o boom do empreendedorismo de inteligência incorporada ocorreu em Bate-papoGPT e a grande mania dos modelos. Mas, na verdade, grandes modelos só podem resolver uma pequena parte dos problemas da inteligência incorporada, por isso algumas pessoas pensam que é muito cedo.

Wang He: A inteligência incorporada é o produto da integração de software, hardware e algoritmos. Nesta fase, seus pontos de integração com grandes modelos são: percepção geral e comunicação linguística, que resolve problemas de interação. Por exemplo, alguém chega a uma farmácia e pergunta ao robô que remédio deve tomar quando se sente desconfortável? Somente robôs familiarizados com os nomes e localizações dos medicamentos podem falar com as pessoas.

Outra combinação é que agora, ao realizar operações específicas, como agarrar e colocar objetos, o robô também realizou ponta a ponta com base no modelo grande (a trajetória do robô será emitida diretamente após inserir as informações sensoriais, no futuro). o grande modelo desempenhará um papel em todo o planeamento global.

No geral, os modelos grandes são agora auxiliares, mas a combinação de modelos grandes e modelos pequenos pode levar a robôs universais.

"Tarde": A rota da Galáxia é um pequeno modelo visual tridimensional + um grande modelo básico.

Wang He: Assim como nós, humanos, temos o Sistema 1 e o Sistema 2, pensamento rápido e pensamento lento. O primeiro é a habilidade do cerebelo, e nos robôs são habilidades como controle interativo e operação hábil, que podem ser controladas por pequenos modelos. ; o último é As capacidades do cérebro são cognição, compreensão, planejamento e resolução de problemas com modelos grandes.

Este é um sistema de três camadas: a camada inferior é o hardware, a camada intermediária são pequenos modelos que podem executar várias habilidades e a camada superior é o grande modelo básico responsável pelo planejamento de tarefas. Após o robô receber a instrução, o modelo grande é responsável por chamar o modelo pequeno na camada intermediária. Após a execução do modelo pequeno, o modelo grande estudará a próxima etapa com base nos resultados.

Os pés não são tão importantes;As mãos são a chave

"Mais tarde": Eles são todos humanóides. A maioria das empresas do setor possui robôs com pernas. Seu primeiro robô, Galbot, é um chassi com rodas + mãos.

Wang He: A questão mais essencial é: que valor seu produto pode trazer para a cena? Os bípedes apenas resolvem o problema do trânsito e não têm capacidade operacional, por isso só podem fazer patrulhas, inspeções e outras cenas. Isso não representa uma mudança qualitativa em relação ao uso de carros e cães no passado.

Mas as mãos podem realizar uma produção flexível que os robôs tradicionais não conseguem realizar. São, em sua maioria, trabalhos difíceis em indústrias de mão-de-obra intensiva e são mais fáceis de generalizar. Existem muitos espaços e cenários imaginativos, portanto a parte superior do corpo é mais importante do que a parte inferior.

"Late Later": O que é mais difícil, a capacidade de operar as mãos ou a capacidade de realizar movimentos complexos dos pés? A forma final que todos imaginam é uma forma humana completa. Será que a empresa que começa primeiro será incapaz de acompanhar quando quiser complementar suas capacidades atléticas?

Wang He: Hoje em dia, a maioria das operações é realizada com as duas mãos, então primeiro usamos as "mãos" para entrar em cena e usamos chassis com rodas substituíveis e de baixo custo para as pernas. Primeiro comercializamos e obtemos dados reais.

O problema com os produtos de duas pernas é que não podem ser implementados em cenários reais, pelo que as empresas que produzem produtos de duas pernas devem esforçar-se por capacidades de financiamento sustentáveis, e haverá grandes ondas nos próximos três anos. Claro, à medida que o desempenho das pernas melhorar e o preço for justo, também substituiremos as pernas.

"Mais tarde": Por que não é uma opção fazer isso juntos?

Wang He: Porque as capacidades operacionais do robô humanóide não são fortes o suficiente, mas faltam pernas. Ainda existem muitos trabalhos que os braços robóticos tradicionais não conseguem realizar.

Considerando o uso real, o custo e a estabilidade dos robôs com rodas são muito melhores do que os dos robôs bípedes. Na mesma altura, o BOM (custo da matéria-prima) de duas pernas é dez vezes mais caro que um chassi com rodas. Além disso, os pés caem facilmente e, se o robô cair, ficará completamente danificado.

As atuais dificuldades técnicas das pernas ainda precisam ser superadas e estão muito atrasadas em relação às duas mãos. Por exemplo, se algo cair de uma prateleira no chão, nenhum robô humanoide com pernas no mundo poderá se abaixar para pegá-lo.

"Mais tarde": Agachar é muito fácil para os humanos, por que os robôs não conseguem fazer isso?

Wang He: O mais difícil é manter o equilíbrio corporal durante todo o processo. A capacidade de equilíbrio das pernas tem vários estágios: o primeiro passo é andar e o segundo é subir os degraus. Isso já deixou várias empresas perplexas. O terceiro passo é curvar-se. A dificuldade é que o centro de gravidade vai sair. Depois, há os agachamentos e os agachamentos divididos, que atualmente não são possíveis em laboratório.

O desenvolvimento das pernas fica atrás do das mãos, e o mesmo se aplica às pessoas quando os bebês só conseguem engatinhar, suas mãos podem explorar todos os lugares, mas leva muito tempo para se levantar e andar de maneira estável. seis ou sete anos.

Na verdade, houve demonstrações de caminhada bípede há 20 anos. Hoje, há apenas um punhado de pessoas que conseguem andar no chão por dez minutos sem nenhum problema. A estabilidade de muitos robôs bípedes simplesmente não atende às expectativas de todos. No campo da inteligência incorporada, o desenvolvimento do cérebro está à frente dos braços e das mãos, e os braços e as mãos estão à frente das pernas.

"Tarde": O robô humanóide Optimus de Tesla tem mãos e pés e agora pode trabalhar em fábricas.

Wang He: O atual cenário de trabalho da Optimus não tem nada a ver com as pernas. Pegar baterias na fábrica e fazer inspeções no estacionamento não exige melhoria na capacidade das pernas.

E é difícil calcular: o custo do robô é de centenas de milhares a duzentos mil dólares, mas sua função é colocar exatamente as mesmas baterias em uma caixa de cinco por seis com um total de trinta grades, ou seja, para coloque baterias padrão em padrão Na cesta, a posição da cesta é fixa. Por que algo assim exigiria inteligência incorporada? Por que não usar o tradicionalAutomação industrial

"Tarde": Galaxy General Galbot separa remédios nas farmácias de Meituan. Isso também pode ser feito com um braço robótico, mas você também usou uma parte superior do corpo humanóide.

Wang He: Criamos esta cena para demonstrar nossas habilidades incorporadas. Se algo for muito difícil e a tecnologia ainda não estiver desenvolvida até este estágio, devemos primeiro procurar algo que possa ser feito. A cena de Tesla foi originalmente realizada com um braço robótico, nem mesmo substituindo pessoas. O trabalho feito na farmácia é feito por humanos, e a dificuldade em si é maior que a de Tesla. Em segundo lugar, não pode ser alcançado apenas com a automação industrial, porque medicamentos diferentes não são produtos padrão e pedidos diferentes não são requisitos padrão.

Não considere Tesla como um modelo,A operação remota não pode resolver problemas de dados

"Tarde": A falta de dados é uma das dificuldades da inteligência incorporada hoje: os dados de texto são agora 15T, as imagens são 6B e os vídeos são 2,6B, mas os dados do robô são apenas 2,4M. Tesla e Google coletam dados por meio de “teleoperação”, ou seja, permitindo que pessoas reais usem o equipamento de coleta para completar as ações que o robô precisa aprender, enquanto o Galaxy General usa “tudo em Sim2Real”, ou seja, dados sintéticos simulados. Por que você é diferente deles?

Wang He: O controle remoto não é algo que as empresas iniciantes possam pagar. A operação remota requer a contratação de muitas pessoas para realizar diversas operações repetidamente. Para obter um dado válido, é necessário que um robô e uma pessoa passem 30 segundos ou um minuto juntos.

É aqui que os robôs humanóides são muito diferentes da direção autônoma. A direção autônoma da Tesla permite que um milhão de proprietários de automóveis gastem dinheiro para comprar um carro e dirigi-lo por centenas de milhões de horas sem ter que gastar dinheiro adicional em dados. E dirigir é só uma coisa, mas há muitos tipos de trabalhos na fábrica – os que colam, os que colocam baterias, os que apertam parafusos... A correlação entre as diferentes tarefas pode ser forte ou fraca.

Tesla encontrou dezenas de pessoas para realizar operações remotas no local de colocação de baterias, mas depois houve mais cenas de operação, como enrolamento e montagem, e isso não foi tudo. A Tesla tem muito dinheiro e uma fábrica própria para comprar seus próprios robôs. Ela pode fazer isso, mas as startups não.

Assim como os carros sem motorista agora possuem monitores remotos, a teleoperação pode desempenhar o papel de controle remoto. Se algo der errado enquanto o robô estiver trabalhando no local e não houver ninguém no local, o controle remoto poderá ser usado para intervir.

"Mais tarde": Então o controle remoto é um jogo produzido por uma grande empresa?

Wang He: Esta é a história que Musk está contando. Não vamos considerar o que Tesla faz como padrão. Para ser honesto, isso é pesquisa.

Quando o Google estava trabalhando no RT (robot transformer, um algoritmo de controle de robô), havia uma equipe de "Robôs Diários" de mais de 200 pessoas. Depois de terminar o RT-1, esse departamento foi abolido porque o modelo de negócios não existia.

Actualmente, entre as empresas de inteligência incorporadas na China, apenas aquelas que não têm rotas próprias podem imitar a Tesla e a Google nos Estados Unidos. Se uma empresa americana não estiver bem capitalizada e ainda contar histórias de outras pessoas, será um beco sem saída.

"Mais tarde": Isso também depende da quantidade de dados necessários para fazer um robô universal? Se for menor que uma ordem de magnitude, uma grande empresa particularmente rica ou uma startup que possa arrecadar dinheiro também poderá operar o controle remoto? rota de operação?

Wang He: Nossos próprios experimentos descobriram que, por exemplo, na tarefa de rastreamento, quando há um bilhão de rastreamentos de dados, a taxa de sucesso do robô pode chegar a 87%. , ou seja, 100.000 Ao rastrear pela primeira vez, a taxa de sucesso foi de apenas 58%. Isto mostra que a inteligência incorporada também tem leis de escala claras e tem uma maior sede de dados.

No mundo real, é difícil obter milhares de milhões de dados. O Google levou mais de dez meses e dezenas de milhões de dólares para compilar centenas de milhares de dados.

“Atrasado”: ​​Quanto a simulação pode reduzir custos?

Wang He: Através da síntese de simulação, todas as sessenta imagens podem ser renderizadas em um segundo. Em comparação com a recolha de dados do mundo real, os dados sintéticos são quase gratuitos. Nossa segunda curva é obter dados do mundo real.

No simulador, sintetizamos o movimento de cada objeto em 200 vídeos e depois simulamos e sintetizamos um único objeto em uma classe de objetos. Isto gera uma grande quantidade de dados, que usamos para treinar as capacidades de preensão do robô.

"Tarde": Muitas pessoas acreditam que os dados sintéticos obtidos por meio de um emulador (sistema que fornece um ambiente virtual simulado) são naturalmente diferentes dos dados do mundo real, o que afetará o efeito do treinamento. Como você resolve isso?

Wang He: O simulador nunca pode ser totalmente real, mas a rota Sim2Real não exige que o simulador seja totalmente simulado. É um processo de otimização conjunta de hardware, algoritmos e simulação.

Nesta fase, o simulador é uma ferramenta de verificação, e o modelo físico matemático expresso em um algoritmo é o núcleo para a obtenção de qualificações de rastreamento.

O simulador tem algumas limitações. Por exemplo, quando nossas mãos tocam uma garrafa de água mineral, ou seja, quando uma mão flexível e deformável toca um objeto aparentemente rígido que pode realmente se deformar, esse processo não é um contato pontual, mas sim um atrito. fisicamente perfeitamente modelado.

Neste momento, nosso algoritmo precisa ter fortes capacidades adaptativas, como adicionar controle de toque e força, aprender a "forma" e controlá-la após apreendê-la. Outra premissa é que o hardware deve ser suficientemente robusto (Robusto, o que significa que o sistema pode funcionar de forma relativamente estável mesmo em circunstâncias anormais).

"Tarde": Como simuladores e algoritmos como modelos matemáticos e físicos cooperam?

Wang He: Propomos um conjunto de modelos matemáticos e físicos para capturar buscas eficientes e, em seguida, usamos um simulador para verificar se tal captura é viável.

A diferença entre aprendizagem por reforço e aprendizagem supervisionada também é abordada aqui. Se for aprendizado por reforço, significa interagir com o simulador várias vezes, tentativa e erro, e descobrir uma solução. Isso terá muitos requisitos para a autenticidade do simulador. A caminhada a pé depende inteiramente do aprendizado por reforço do simulador Sim2Real. Mas isto foi testado e a eficiência é relativamente baixa.

Se você puder dizer ao robô como entender, ele poderá ser convertido em aprendizado supervisionado e a eficiência do aprendizado será maior. Usamos o aprendizado supervisionado para aprender a agarrar com dois e cinco dedos.

Considere isso desde o primeiro diacomercialização

"Mais tarde": a maioria das empresas chinesas que fabricam humanóides também fabricam outros produtos. Por exemplo, Zhiyuan tem um robô de limpeza comercial, Zhuji e Yushu estão fabricando cães-robôs, enquanto os Estados Unidos estão lançando principalmente robôs humanóides diretamente. Por que existe essa diferença?

Wang He: A abundância de capital na China e nos Estados Unidos é diferente. Nos Estados Unidos, como têm dinheiro, fazem tudo de uma vez. Empresas como Figure AI e Tesla usam modelos humanóides. No entanto, a avaliação atual da Figure AI é de US$ 2,5 bilhões, e as operações mostradas na demonstração não têm nada a ver com capacidade atlética. A bolha nos Estados Unidos impede-os de pensar em termos de PMF (product market fit) muito rigoroso.

Em agosto deste ano, a FigureAI lançou um novo robô, o Figura 02, que já pode fazer algumas demonstrações de montagem na fábrica de automóveis BMW.

"Mais tarde": Você acha que a maneira mais correta é pensar na implementação do produto desde o início. Isso é muito ansioso em um campo de vanguarda como os robôs humanóides?

Wang He: Por um lado, ainda é uma questão de dados. A inteligência incorporada está vinculada ao hardware, portanto, se o robô não estiver implantado na cena, será difícil obter uma grande quantidade de dados. Mas não pode ser distribuído gratuitamente em grandes quantidades porque o custo de construção do corpo principal é demasiado elevado. Grandes modelos não precisam ser comercializados para obtenção de dados porque o custo de sua popularização ainda é muito inferior ao dos robôs.

Ao mesmo tempo, o robô também precisa de polimento. Sem observação de longo prazo do robô na cena, é impossível iterar o robô até um estado em que ele possa funcionar de forma estável. Esta é também a razão pela qual não existem empresas PPT na área de robótica.

"Mais tarde": Que tipo de implementação de produto você viu?

Wang He: O primeiro passo é realizar uma única operação em vários objetos em um único ambiente, como mover coisas diferentes na mesma fábrica ou na mesma linha de produção. Isto é o que o Google RT-1 e o Tesla Optimus fazem agora, mas o Optimus lida com menos objetos. Ambos não são verdadeiramente generalizados, isto é, universais, e ainda não podem realmente gerar dinheiro.

A próxima etapa é que os robôs realizem as mesmas operações em objetos diferentes em cenários diferentes no mesmo setor. Por exemplo, na indústria de produção industrial, expandiu-se da capacidade de obter peças em fábricas de automóveis para a capacidade de obter todas as peças em qualquer fábrica no setor retalhista, expandiu-se da capacidade de armazenar mercadorias em pequenos supermercados para se tornar capaz de armazenar mercadorias em pequenos supermercados; poder estocar mercadorias no Wal-Mart. Uma sessão de treinamento para analisar diferentes cenários no mesmo setor é de grande valor.

O próximo passo é ter mais tarefas, mais cenários, lidar com todos os setores e continuar a se tornar universal.

"Mais tarde": Toda a indústria está dando o primeiro passo. Como você escolhe a primeira cena ou o primeiro lote de cenas neste momento?

Wang He: Em qualquer indústria, desde que seja um cenário de produção flexível, mas não totalmente automatizado, é provável que sejam implementados robôs inteligentes incorporados. Em particular, existem algumas operações discretas na indústria transformadora. A procura pode ser forte e a tecnologia necessária pode não ser complicada.

Temos que fazer isso um por um, do fácil ao difícil, do alto custo da mão de obra ao baixo custo da mão de obra, da alta demanda à baixa demanda.

"Mais tarde": Comprar remédio na farmácia está de acordo com a lógica que você mencionou? Ou você fez essa cena porque Meituan votou em você?

Wang He: Queremos ser os primeiros a aproveitar cenários de alto lucro e alto valor que podem ser transformados em versatilidade mais forte. Nosso objetivo futuro é entrar na casa.

B para C é mais adequado para uso doméstico do que puro para B, por isso montamos um cenário B para C no varejo para interagir com as pessoas.

"Mais tarde": Quando seu primeiro robô será lançado?

Wang He: Aceitaremos pedidos de pequenos lotes no quarto trimestre deste ano, ao preço de 500.000.

"Depois": É muito caro comprar o remédio na farmácia?

Wang He: Agora temos duas direções principais de vendas: cenários de pesquisa científica e cenários comerciais como Meituan. Os preços e configurações desses cenários são diferentes.

O que vendemos para cenários de pesquisa científica é uma versão desenvolvível com poder computacional suficiente. Os produtos que vendemos para cenários comerciais não suportam desenvolvimento e irão adicionar algumas funções e reduzir outras funções desnecessárias e poder computacional. Por exemplo, os robôs agora estão equipados com cartões OrinX, mas em cenários comerciais, a computação pode ser colocada na nuvem. .

Existem agora dezenas de reservas para cenas de pesquisa científica. Em cenários empresariais, desde máquinas a serviços, a nossa equipa será responsável por todo o processo.

"Mais tarde": Você disse uma vez que espera-se que o Galaxy controle o custo de um conjunto de robôs em 50.000 yuans.

Wang He: Não podemos fazer isso este ano, mas quando atingirmos 1.000 ou 10.000 unidades, continuaremos nos aproximando dessa meta.

"Mais tarde": Há uma piada de que as vendas de robôs humanóides na China são apoiadas por startups, laboratórios universitários e outros pares.

Wang He: O limite máximo para a investigação científica é definitivamente baixo, mas a investigação científica é o primeiro passo. É impossível para uma empresa com um ano de existência vender mil robôs, a menos que seja um brinquedo.

"Mais tarde": Falamos muito sobre o atual não consenso na indústria de inteligência incorporada. Qual você acha que é o consenso atual?

Wang He: Até agora, não surgiu nenhum cenário de inteligência incorporada que pudesse produzir benefícios económicos em grande escala. Não há consenso sobre como ganhar dinheiro, portanto não há consenso sobre a forma do produto, a tecnologia, a indústria e os cenários a serem adiados.

Nenhum consenso é uma coisa boa. Ou seja, se todos chegarem a um consenso, a batalha final será sobre custos, recursos e conexões. Esses fatores não são aquilo em que os empreendedores são bons e são prejudiciais ao empreendedorismo.

Mas para imaginar o futuro, o fim da tecnologia, entrar na casa + humanóide completo + modelo grande, temo que todos possam concordar com isso.

"Mais tarde": Como você descreveria o grande número de novas empresas que agora buscam o Empowered? AGI A viagem?

Wang He: Este é o processo em que os seres humanos desempenham novamente o papel de criadores. A indústria automobilística também é uma indústria totalmente criada por pessoas, e o mesmo acontecerá com os robôs de uso geral no futuro. Haverá também empresas automobilísticas líderes como a Tesla entre nós.