notícias

o robô da openai é muito parecido com o humano? os investidores ficaram surpresos: pensaram que havia uma pessoa real sob as roupas

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

série de representantes de classe - a interpretação mais rápida e completa dos principais eventos de ia este artigo se concentra no mais recente robô neo lançado pela 1x technologies, um robô humanóide investido pela openai, e usa isso como uma pista para revelar o caminho técnico especial e considerações de posicionamento. adotado por robôs 1x.

guia do futuro da ia ​​para o norte, de hao boyang e zhou xiaoyan

editor zheng kejun

embora depois de visitar a conferência mundial de robôs, alguns investidores disseram à tencent technology que na trilha do robô humanóide, mas vejaproduzido pela 1x, uma empresa de robôs humanóides investida pela openaidepois do robô neo, eles começaram a ter confiança novamente.

até mesmo wang yuquan, fundador da haiyin capital, que sempre se opôs a transformar robôs em formas humanóides, ficou surpreso. ele disse à tencent technology: “os movimentos do neo são muito naturais e coordenados, livrando-se completamente dos estereótipos de robôs das pessoas”. quando vi este robô pela primeira vez, minha primeira reação foi que havia uma pessoa real sob as roupas.”

o robô investido pela openai começou a fazer trabalhos domésticos e era tão realista que foi questionado como uma concha humana

também ficamos maravilhados com a sua suavidade, mas além disso, o que queremos saber mais é, por que optou por usar o modo “bipé” no mundo do modo “roda” na cena familiar?

no relatório acima, mencionamos que mais de 80% dos robôs que atendem a cenários industriais adotarão um modo “bípede” no design da parte inferior do corpo. no cenário doméstico, as tarefas são menos padronizadas, as tarefas são mais triviais e as emergências são mais frequentes, o que exige que os robôs domésticos sejam seguros e silenciosos. comparado com o alto custo e os algoritmos de controle imaturos dos "bipés", que levam à instabilidade ao caminhar e ficar em pé, e ao alto ruído, o tipo com rodas é mais silencioso e estável em estradas planas.

neo adota uma abordagem diferente. é um robô de modo “bípede” raro em cenas domésticas.

no vídeo de exibição, o neo é bem “suave”.sem o barbante pendurado nas costas, pareceria um ser humano de verdade empacotando taças na cozinha.

ele pode prever o próximo passo dos humanos nas tarefas domésticas sem quaisquer instruções, confiando apenas em suas próprias “observações”.

o neo se move muito silenciosamente, mas se você aumentar o volume do vídeo exibido, ainda poderá ouvir o zumbido sutil que o neo emite quando se inclina para pegar a mochila.

ao contrário de muitos robôs humanóides que parecem “altos”, o neo parece um vizinho que chega em sua casa vestindo roupas casuais e pode ajudá-lo nas tarefas domésticas.

neo tem 1,65 metros de altura e 55 graus de liberdade em todo o corpo. ele pesa apenas 30 kg, o que é quase 1/3 ~ 1/2 mais leve do que a maioria dos robôs humanóides da mesma altura. de acordo com relatórios médios, o neo tem uma carga útil de 20 kg e sua aderência é forte o suficiente para levantar 70 kg (154 libras).

(foto: comparação do peso de robôs humanóides na faixa de “altura adulta” no país e no exterior)

a julgar pelos parâmetros, o neo é pequeno em tamanho, mas sua força não é inferior à dos principais robôs humanóides da indústria. entre esses robôs humanóides bípedes, apenas o neo está claramente posicionado para atender cenários de aplicação doméstica, enquanto outros robôs bípedes atendem basicamente a cenários industriais.

então, como o neo pode andar “levemente” em casa? como podemos prever as ações humanas apenas observando-as? será que superou o problema de generalização dos robôs humanóides?

de onde vem a divergência de design entre rodas e pernas?

os robôs humanóides bípedes são adequados em cenários industriais, mas enfrentam muitos desafios quando mudam para o modo doméstico.

o cerne do desafio é que a estrutura mecânica do “bipé” é complexa e mais articulações precisam ser mobilizadas para manter o funcionamento do robô, o que inevitavelmente exigirá maior potência. deve resolver uma série de problemas causados ​​por problemas de alta perda de potência, como dissipação de calor e ruído.

em contrapartida, em cenários industriais, os robôs geralmente trabalham em armazéns ou fábricas fechadas. esses locais costumam ser equipados com equipamentos de refrigeração ou resfriamento para auxiliar na dissipação de calor, portanto, os robôs bípedes não precisam se preocupar muito com a influência das altas temperaturas nesses ambientes. .

como “trabalhadores”, eles não possuem grandes exigências de aparência. podem ficar seminus (com as peças expostas), ou até mesmo andar pela fábrica com fios pendurados. a falta de “roupas” também ajuda a dissipar o calor. como o atlas hidráulico da boston dynamics. você pode correr para frente e para trás "ferozmente".

(foto: atlas hidráulico de potência de boston)

além disso, o próprio ambiente industrial é repleto de vários sons mecânicos, e o som das articulações em movimento do robô bípede e o som dos passos ao caminhar não são tão perceptíveis.

mas quando você muda para o cenário doméstico, todos esses problemas que não são óbvios no cenário industrial tornam-se bugs: o baixo desempenho de dissipação de calor do robô pode causar incêndios, muito ruído pode causar neurastenia e as peças expostas são especialmente para famílias com crianças. existem enormes riscos de segurança.

o tipo com rodas possui baixo consumo de energia, o que reduz naturalmente problemas como dissipação de calor e ruído.

isto significa que para mover um robô “bípede” para uma cena doméstica, ele deve ser otimizado e transformado a partir da ontologia.

eric jiang, vice-presidente da 1x robotics ai, forneceu soluções para a produção de neo otimizando o “motor”, o componente principal do robô, disse ele em uma entrevista recente.ao contrário da ideia de "motor pequeno, grande relação de transmissão e alta energia cinética" usada por muitos robôs humanóides, a senha principal do neo é o "alto torque, pequena relação de transmissão e baixa energia cinética".

então, como entender o que eric jiang disse? podemos primeiro compreender brevemente a relação entre o “motor” e a “relação de transmissão” dos robôs humanóides.

análogo aos humanos, existem na verdade apenas dois tipos de movimento para robôs humanóides: movimento linear e movimento rotacional. por exemplo, no vídeo de exibição 1x, há alguns segundos em que o neo “acena” para os humanos. os componentes anatômicos dessa ação são: primeiro estender a mão direita (movimento linear) e depois acenar com a mão (movimento rotacional). ).

se você tentar desmontá-lo, descobrirá que todo o sistema de movimento do robô humanóide é uma combinação desses dois movimentos.

entre eles, o movimento linear é realizado pela combinação “motor + parafuso” do robô humanóide, enquanto o movimento rotacional é realizado por “motor + redutor”. aqui nos concentramos na realização do movimento rotacional “motor + redutor” ajuda o robô. completar a rotação "articular", em comparação com o tipo de roda, os principais movimentos envolvidos no "bipé" também se refletem nas articulações.

o núcleo da “relação de transmissão” afeta a velocidade de rotação, que é a velocidade combinada do “motor + redutor”.

simplificando,"relação de transmissão" refere-se àvelocidade de saídaea velocidade na qual o componente é realmente executadoa proporção entre. por exemplo, se a velocidade de movimento das pernas do robô humanóide for v, uma relação de transmissão alta significa que o motor funciona em alta velocidade, e uma relação de transmissão baixa significa que o motor funciona em baixa velocidade.

muitos robôs humanóides têm altas relações de transmissão(por exemplo, 10:1), depois que a velocidade do motor for reduzida pela engrenagem, a velocidade de movimento das articulações do robô diminuirá. esta configuração é mais adequada para ocasiões que exigem alta resistência, mas não exigem movimentos em alta velocidade.

se uma relação de transmissão baixa for usada(por exemplo, 3:1), a velocidade do motor sofre uma desaceleração menor e as articulações do robô se movem mais rapidamente. esta configuração é adequada para situações que exigem resposta rápida e operação flexível.

neo pode reduzir o consumo de energia das juntas centrais, definindo uma relação de transmissão baixa e reduzindo a velocidade de saída do motor.

a baixa relação de transmissão do motor significa que a velocidade operacional do motor é sacrificada. eric jiang disse no documento técnico "motor physics" que escreveu que o neo usa "alto torque" para compensar a falta de potência que pode ser causada. pela baixa operação do motor. ele também afirmou: "a maioria dos motores não é potente o suficiente para exercer grandes quantidades de torque, então os engenheiros mecânicos pegam motores de alta velocidade e adicionam engrenagens a eles, trocando velocidade por torque."

(foto: captura de tela do documento técnico "motor physics" publicado por eric jiang, descrevendo como os engenheiros mecânicos trocam a velocidade do motor por torque)

isso explica por que muitos robôs bípedes só podem ser usados ​​em cenários industriais:"a maioria das empresas de robótica humanóide opta por implantar seus robôs em fábricas, em vez de em residências, porque dependem de sistemas de acionamento rígidos e altamente equipados. esses sistemas não são seguros perto de pessoas e devem ser fechados em gaiolas."

dessa perspectiva, a equipe 1x encontrou um caminho de hardware para robôs bípedes operarem com segurança em cenários domésticos, para que o neo possa usar roupas humanas sem se preocupar em queimar roupas devido ao baixo desempenho de dissipação de calor.

na verdade, eve, o robô da geração anterior do 1x, tinha rodas. foi apenas na geração neo que se tornou bípede.

a cena doméstica é muito complexa e exige que o robô alcance debaixo da mesa para pegar coisas ou pegar coisas no balcão. como a base ocupa espaço, um robô com chassi com rodas deve “estender” os braços para alcançar alguns cantos. da casa. eric jiang acredita que “neste caso, o robô deve usar a mudança de seu centro de gravidade para pegar coisas como humanos. por exemplo, ao se deparar com uma situação em que algo cai no canto do armário”. o robô deve ser capaz de levantar uma perna como um humano e colocar uma mão sobre a mesa e usar seu centro de gravidade para alcançar o objeto.

eric jiang também levantou um exemplo na entrevista: por que muitas estantes deixam um certo espaço na parte inferior? “é apenas para tornar mais fácil para os humanos colocarem os dedos dos pés”, para que as pessoas possam pressionar seus corpos contra a estante para pegar os livros.

portanto, os dois pés podem reduzir a pegada de movimento do robô, enquanto a distância entre eixos não pode se adaptar a cenas domésticas triviais.

esta é a lógica de 1x passar da postura com rodas para a postura com os pés. talvez, num ambiente familiar, a postura com rodas não possa “correr” tão bem quanto a postura com os pés. além disso, o neo também possui algumas fórmulas “únicas” em termos de generalização e coleta de dados.

os robôs capazes de generalização já estão no limiar?

sendo um robô que pode ser usado em casa, além da segurança, o mais importante é que possa ser um verdadeiro ajudante multifacetado. isso exige que o robô seja “inteligente”, capaz de entender as necessidades do proprietário, capaz de operar de forma autônoma e suficientemente generalizado.

olhando para todas as empresas de robôs em que a openai investiu, a característica comum de seus produtos é que eles são muito “inteligentes”, ou seja, podem combinar muito bem modelos grandes com robôs.

por exemplo, o desempenho surpreendente da figura 01 vem em grande parte da sua capacidade de compreender instruções e identificar itens para fazer julgamentos. e este é exatamente o resultado da combinação de grandes modelos e robôs multimodais.

outra empresa investida, a physical intelligence, possui apenas uma página na web e nenhum produto até o momento. mas em entrevistas, a empresa disse que a sua visão é “construir um modelo de inteligência artificial de uso geral que, em vez de alimentar robôs que realizam tarefas repetitivas em armazéns ou fábricas, possa ser aplicado a uma ampla gama de cenários”.

quanto à parte mecânica, chegaram a anunciar que não fabricarão eles próprios o hardware, mas adquirirão diversos tipos de robôs para treinar seu software.

(foto: inteligência física)

esta não é tanto uma empresa de robótica, mas sim uma empresa modelo em grande escala.

e os robôs da 1x não são exceção.

eric jang, vice-presidente de ia da 1x, tem vasta experiência na integração de grandes modelos em robôs. antes de ingressar na 1x em 2022, ele liderou uma equipe no projeto saycan do google deepmind. este projeto é a primeira tentativa de inteligência incorporada para integrar modelos de linguagem e robôs.

em fevereiro deste ano, a 1x lançou um vídeo de seu eve realizando uma missão completa de rede neural, que se tornou um pequeno sucesso. numa reunião de partilha grasp sfi em 24 de abril, podemos ver a lógica operacional geral deste modelo.

também é dividido em pipeline (formulário de fluxo de trabalho). primeiro, é utilizado um modelo dit (diffusion-transformer), combinado com comandos de linguagem natural, para usar a difusão para gerar uma imagem prevista de sua posição futura. em seguida, coloque essa previsão, a imagem atual e o alvo em um novo modelo do transformer para prever as atividades mecânicas necessárias subsequentes.

no vídeo, podemos ver que eve pode separar itens, carregá-los e até mesmo se carregar (não é à toa que se chama eve). algumas dessas tarefas também podem ser realizadas com as duas mãos. no entanto, se você olhar atentamente para este vídeo, descobrirá que as capacidades do eve naquela época eram na verdade limitadas a identificar, pegar e colocar itens. mais tarde, essas capacidades básicas foram combinadas em tarefas específicas, como empacotar, mover e classificar. .

até agosto ou setembro deste ano, basicamente todas as empresas de robótica que têm acesso a circuitos modelo em grande escala serão capazes de atingir essas capacidades.

por exemplo, a figura 01 divulgou no final de fevereiro um vídeo de seu próprio robô usando um modelo grande para fazer café, no qual ele pode até corrigir erros sozinho.

(foto: figura 01 preparando café no vídeo de demonstração)

porém, depois disso, figure e 1x seguiram caminhos diferentes em termos de modelos.

em março, a figure optou por usar diretamente o gpt-4o, dando aos seus robôs fortes capacidades de conversação e lógica. eles usaram um pipeline (fluxo de trabalho) para integrar os três modelos.

primeiro, o modelo grande gpt-4o é usado para reconhecer a linguagem e planejar ações. então, sua própria camada de política neural, ou seja, seu próprio modelo de tarefa treinado de ponta a ponta, executa a ação. ao mesmo tempo, utiliza seu próprio modelo de controle corporal para manter o equilíbrio do robô.

(foto: figura explicação oficial da composição do modelo)

depois que a interação se tornou o maior destaque de seu robô, a figura 02 também enfatizou a melhoria no nível cerebral proporcionada por seu poder de computação 3x. em termos de modelos, uma melhor integração dos modelos openai tornou-se o seu foco de desenvolvimento.

mas foi só em 31 de maio que a 1x lançou sua atualização de diretiva de idioma. em seu vídeo de demonstração, o robô pode finalmente compreender as tarefas e realizar as operações correspondentes por meio de comunicação de voz. mas mesmo até agora, 1x ainda não usa um grande modelo de linguagem de alto nível. na documentação na página de exibição de seu site oficial, eles mencionaram: “depois de construir um conjunto de dados de pares de comandos de linguagem visual para linguagem natural, a próxima etapa é usar modelos de linguagem visual como gpt-4o, vila e gemini vision para prever automaticamente alta- ações de nível "isso também faz com que seus robôs não tenham a capacidade de planejar tarefas complexas.

parece que o 1x está um grande passo atrás em termos de desempenho inteligente.

mas isto pode acontecer porque os seus esforços estão em direcções diferentes. comparado com as capacidades de interação e planejamento, o 1x se preocupa mais com a generalização das tarefas.

em seu blog oficial de março, a 1x explicou o modelo que estava construindo. eles estão tentando treinar um “modelo básico” para compreender uma ampla gama de comportamentos físicos, desde limpar e arrumar a casa até pegar objetos e interagir socialmente com humanos e outros robôs. eles então adicionaram conjuntos mais específicos de habilidades ao modelo (por exemplo, um modelo para operações gerais de portas e outro para tarefas de armazém), acumulando mais dados de treinamento de habilidades. em outras palavras, eles estão tentando construir um “modelo básico” de robô que suporte generalização multitarefa.

esta é a generalização das capacidades de tarefas, permitindo que um único robô dependa de um único modelo para realizar múltiplas tarefas. na verdade, isso não é nada especial. quase todas as empresas que fabricam software para robôs estão treinando em múltiplas tarefas únicas. no entanto, em vários vídeos de demonstração de robôs e exposições em conferências, raramente vimos um robô completando continuamente uma tarefa complexa ao mesmo tempo, como limpar uma sala inteira e depois cozinhar.

isso ocorre porque atualmente nenhum modelo pode generalizar entre tarefas.

eric jang disse em entrevista ao "the robot report", "já demonstramos anteriormente que nossos robôs podem pegar e manipular objetos simples, mas para ter um robô doméstico verdadeiramente prático, ele deve ser capaz de executar múltiplas tarefas em série sem problemas. " mas isso não pode ser conseguido simplesmente dividindo uma tarefa complexa em múltiplas tarefas por meio de um modelo de alto nível como um "cérebro". porque a posição inicial e as condições são diferentes entre as tarefas.

se um robô precisar realizar uma segunda tarefa, ele deverá primeiro compensar as deficiências da primeira tarefa. por exemplo, se o primeiro robô não conseguir alcançar a posição correta ao lado da mesa, o segundo robô terá que estender os braços para agarrar o objeto, e a terceira tarefa exigirá compensação adicional. os erros tendem a se acumular.

a solução 1x é dividir o modelo. atualmente, seu modelo consiste em duas partes, uma é um modelo básico que compreende todas as tarefas e "cadeias de tarefas", e a outra consiste em muitos modelos pequenos que compreendem melhor tarefas específicas. também se tornou uma espécie de pipeline (fluxo de trabalho).

eles desenvolveram uma interface de linguagem natural que permite aos funcionários guiar o robô por voz para completar as ações combinadas de vários pequenos modelos e intervir em erros durante o processo. isso permite que os modelos sejam conectados em série em “cadeias de tarefas” de longo prazo. os dados relativos a estas intervenções e a toda a multitarefa serão utilizados para treinar o grande “modelo base”. eventualmente, eles irão ajustar e treinar o “modelo básico” através de dados de tarefas acumuladas e dados de “cadeia de tarefas”, para que este modelo básico possa não apenas resolver a execução de uma única tarefa, mas também resolver o problema de conexão entre tarefas.

(foto: interface de controle de linguagem natural desenvolvida pela 1x)

portanto, é diferente do caminho escolhido pela figura que enfatiza a interação e o planejamento. o principal problema que 1x atualmente opta por resolver é a capacidade de generalização entre tarefas. e este pode ser o principal obstáculo para que os robôs atuais se tornem verdadeiramente universais.

então, como está o progresso da generalização entre tarefas do 1x?

no último documentário, podemos ver um funcionário usando a voz para instruir um robô a completar as tarefas de abrir a porta, entrar no vaso sanitário, fechar o assento do vaso sanitário e sair passo a passo. esta tarefa não é dada de uma só vez, mas sim individual e conectada.

isso não parece muito “automático”, mas na verdade prova que o robô 1x já tem a capacidade preliminar de trabalhar continuamente entre múltiplas tarefas de comando. contanto que tenha as capacidades básicas de execução da “cadeia de tarefas” e as capacidades de planejamento de modelos de ponta como o gpt-4, em breve será possível concluir tarefas complexas e contínuas de forma autônoma.

eric jang parece pensar assim também. em um blog intitulado “todos os caminhos levam à robótica”, em março deste ano, ele escreveu: “muitos pesquisadores de inteligência artificial ainda acreditam que os robôs de uso geral levarão décadas para serem alcançados. acho que o campo da robótica também dará início a tais mudanças.”

aos seus olhos, robôs de uso geral que podem generalizar parecem estar à vista.

mas o pessimismo da indústria é justificado. a sua principal preocupação não é com o algoritmo, mas com o facto de que os dados actuais de inteligência incorporada não são abundantes, são também muito difíceis de recolher e há falta de padrões.

mas grandes quantidades de dados são a chave para alcançar a generalização na lei de escalabilidade. comparada com um modelo simples de linguagem em grande escala, a inteligência incorporada pode exigir uma quantidade maior de dados para ser universal, porque inclui imagens e ações. e coletar esses dados leva muito tempo.

usando métodos “burros” para coletar dados “inteligentes”

eric jang certa vez fez uma declaração no documentário que contrariava as preocupações gerais da indústria,"muitas pessoas sobrestimam o estrangulamento na recolha de dados. na prática, nos próximos 12 meses, os dados poderão tornar-se cada vez menos importantes."

sua confiança nos dados vem de práticas anteriores. a lógica da 1x na coleta de dados sempre foi um pouco diferente de outras empresas de robótica.

outras empresas geralmente utilizam todos os meios disponíveis para coletar o máximo de dados possível. os métodos incluem colocar robôs simulados em ambientes físicos simulados como o unreal 5 para coletar grandes quantidades de dados ou usar dados de vídeo para interceptar vídeos de humanos operando objetos e extrair informações.

mas, na verdade, o método convencional mais comumente usado no momento é usar a teleoperação (training from demostration) para obter dados por meio de humanos usando vr para demonstrar aos robôs.

esse tipo de coleta por operação remota geralmente coloca o robô em um ambiente de "fábrica de coleta de dados" muito fixo para coletar dados suficientes da maneira mais eficiente possível. mesmo que haja algumas repetições e semelhanças.

(foto: fábrica de coleta de dados da tesla)

de acordo com eric jang, o método atual que eles usam é muito “estúpido”. em comparação com o modo de coleta centralizado aparentemente eficiente usado por tesla, 1x optou por insistir em restaurar diversas cenas da vida para coleta. então, nós os vemos sendo coletados em muitos espaços diferentes de uma fábrica. também não utilizaram dados de treinamento em vídeo e simulação, insistindo em utilizar apenas dados coletados por teleoperação.

(foto: as cenas de treinamento de eve são surpreendentemente diversas)

o ceo bernt bornich declarou em uma entrevista: “a diversidade é o aspecto mais importante dos dados dos robôs humanóides. aprender com a diversidade no ambiente não estruturado dos robôs de consumo tornará possíveis robôs de uso geral verdadeiramente inteligentes.

na visão do x1, os ambientes domésticos e de escritório onde os robôs eventualmente pousarão não têm estrutura fixa e estão em constante mudança com o uso humano, portanto deve haver dados diversificados suficientes para serem significativos. portanto, a fórmula de coleta de dados 1x dada por eric jang é “diversidade>qualidade>quantidade>algoritmo”.

para alcançar essa diversidade de coleta, a 1x organizou especialmente uma equipe de operadores de robôs, todos cuidadosamente selecionados. eles podem treinar pessoalmente alguns modelos comportamentais por meio de um conjunto de interfaces gráficas nle simples. a esse respeito, eric jang escreveu em um blog técnico: "1x é a primeira empresa que conheço que permite que os coletores de dados treinem as capacidades do robô por conta própria. isso reduz bastante o tempo necessário para o modelo atingir um bom estado, porque os dados os coletores podem obter feedback rapidamente sobre a qualidade dos dados e a quantidade de dados realmente necessária para resolver tarefas robóticas é algo que prevejo que se tornará um padrão comum para a coleta de dados robótica no futuro.”

portanto, eles não têm apenas trabalhadores de coleta, mas também um grupo de engenheiros de coleta que podem ajustar diretamente o modelo. eles identificam o que não está funcionando em tarefas específicas, coletam dados para esses cenários, depois treinam e ajustam novamente o modelo e repetem o processo até que o modelo esteja perfeito. treinamento tudo-em-um.

(foto: no linkedin da 1x, o recrutamento destes operadores são todos empregos a tempo inteiro, não terceirizados, com um salário mensal de us$6.000-8.000, o que é cerca de 1,5 vezes o salário médio mensal nos estados unidos)

esses métodos “estúpidos” garantem a qualidade e a diversidade dos dados coletados, e cada dado é tão “útil” quanto possível. em entrevistas nos últimos dias, rric disse: “se você implantar robôs em uma fábrica e executar exatamente as mesmas tarefas repetidamente, os dados serão basicamente inúteis”.

esta recolha relativamente fina irá, sem dúvida, abrandar o crescimento da magnitude dos dados, mas o seu efeito é muito significativo.

(superior: número de horas de dados coletados por 1x, inferior: diversidade de ações coletadas por 1x)

de acordo com o compartilhamento técnico de eric jang, até março de 2024, eles coletaram um total de 1.400 horas de dados de treinamento envolvendo 7.000 ações únicas diferentes. ele disse ainda que com o treinamento desses dados, o robô eve pode atualmente ter centenas de habilidades independentes.

em contraste, o rt-2 usou 130.000 exemplos em treinamento, e 13 robôs passaram 17 meses inteiros coletando-os. se cada um desses exemplos tiver em média 5 segundos, a duração total desses exemplos pode chegar a dezenas de milhares de horas. pode realizar tarefas com 700 instruções diferentes.

deste ponto de vista, o efeito da recolha de dados refinada é realmente bom. use 1/10 dos dados para atingir pelo menos metade do nível de habilidade. a ideia de que a pressa gera desperdício também é verdadeira no mundo da robótica.

conclusão

no geral, o maior “trunfo” da 1x é o foco nas pessoas.

a cultura corporativa transmitida pelo 1x revela uma sensação de “relaxamento”. seja o eve anterior ou o neo recente, seus vídeos promocionais são completamente diferentes dos números frios e tecnológicos que evitam arestas vivas e não acionam deliberadamente em grande escala. a comunicação também é uma espécie de idealismo.

pode-se ver no vídeo promocional do neo que 1x está criando uma imagem de “homem caloroso” como o “irmão ao lado”. ele usa roupas casuais justas, destacando as linhas musculares semelhantes às dos homens humanos. ele cuida do dia a dia de sua família, arruma seus pacotes antes de você sair e lhe dá um abraço caloroso antes de sair.

além disso, pode-se ver no vídeo de demonstração que o neo pode compreender os gestos humanos, o que também é uma compreensão aprofundada da comunicação humana. muita comunicação entre as pessoas não depende da linguagem. há momentos em que os humanos ficam "sem palavras". portanto, o neo pode "ler" o próximo passo dos humanos e pode dar um ao outro uma compreensão sem palavras. particularmente especial. a terra tem um sabor “humano”.

do ponto de vista da generalização de tarefas e do design flexível, o neo pode ser chamado de primeiro robô humanóide bípede no cenário doméstico.

se os robôs podem ser eternos no futuro, então que tipo de robô precisamos para nos acompanhar e até mesmo às gerações futuras? talvez neo seja uma boa resposta.