notícias

Da inteligência espacial à inteligência incorporada, o caminho mais eficiente para praticar Sim2Real AI em todas as dimensões

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Coração da Máquina lançado

Departamento Editorial de Coração de Máquina

Em mais de um ano desde o advento da mania da inteligência incorporada, ocorreram mudanças revolucionárias nos métodos de produção e interação do mundo físico e da informação.

Ao mesmo tempo, uma nova batalha está começando silenciosamente: os principais fabricantes estão quebrando a cabeça para capturar o "combustível" de IA mais valioso - os dados. Atualmente, a falta de dados ainda é um obstáculo à inteligência incorporada universal. Ao longo dos últimos três anos, nas pesquisas sobre inteligência incorporada por empresas conhecidas como Google, NVIDIA e OpenAI, ainda não vimos o surgimento da Lei de Escalabilidade. Isto está relacionado com a falta de vários tipos de dados.

Como resolver esse ponto problemático fundamental? Do ponto de vista tecnológico, o Sim2Real AI é um caminho de longa data. No entanto, devido ao "viés conceitual" na eliminação da lacuna do Sim2Real, a academia e a indústria consideram-no mais como um método auxiliar de suplemento de dados.

Mas é realmente assim?

Jia Kui, professor titular da Universidade Chinesa de Hong Kong (Shenzhen) e fundador da Cross-Dimensional Intelligence, deu a resposta através da prática de longo prazo da academia à indústria: “Sim2Real AI é o caminho mais eficiente para a inteligência incorporada”.

Da visão bidimensional à visão tridimensional, da inteligência espacial à inteligência incorporada, da investigação científica aos produtos e à implementação comercial, Jia Kui explora este campo há mais de vinte anos. Recentemente, no WAIC, foi realizada uma conversa sobre como a inteligência incorporada pode romper o dilema dos dados.

Se você usasse IA para tentar entender esta conversa, isso poderia ajudá-lo a resumir estes pontos-chave:

Qual é a natureza da inteligência espacial e da inteligência incorporada que são atualmente os tópicos mais quentes?

Qual é o significado específico de realizar inteligência espacial e incorporada usando o paradigma da Lei de Escala?

Qual é o caminho mais eficiente para alcançar a inteligência incorporada universal?

Como a inteligência incorporada passa da tecnologia para o produto e para a implementação comercial?

No futuro, que imaginações podem tornar-se realidade para romper o paradigma de produção da indústria?

Claro, também há partes que a IA ainda não consegue compreender - este investigador científico e empresário demonstrou a sua firme confiança e missão histórica.

A seguir está a transcrição da entrevista:

Construa um “modelo mundial”

Acionando a “espiritualidade” do robô

P: O professor Li Feifei, conhecido como a “madrinha da IA”, escolheu a direção da “inteligência espacial” quando iniciou seu primeiro negócio, que atraiu ampla atenção neste campo. Você pode falar sobre sua compreensão da inteligência espacial e da inteligência incorporada?

Jacqui: A inteligência espacial e a inteligência incorporada são temas que têm atraído muita atenção a nível social nos últimos anos, mas a investigação académica por detrás deles já se arrasta há muito tempo. Inteligência Espacial é um conceito multidimensional que geralmente se refere às habilidades cognitivas e de raciocínio de um indivíduo no espaço físico tridimensional e no tempo e espaço quadridimensionais, incluindo percepção, raciocínio, tomada de decisão, etc. Inteligência Incorporada refere-se à inteligência na qual um sistema inteligente tem uma forma física e interage com o ambiente através desta forma. A inteligência incorporada não se concentra apenas na percepção, mas também inclui as ações e reações de agentes inteligentes ao meio ambiente. Assim como os humanos usam os olhos para perceber o mundo, a inteligência incorporada exige que os robôs sejam capazes de perceber, interagir e tomar decisões através de sensores multimodais para formar cognição espacial abrangente e capacidades operacionais.

P: Quais são as semelhanças e diferenças entre a inteligência espacial e a inteligência incorporada?

Jacqui: Como mencionado anteriormente, a inteligência espacial dá à IA a capacidade de perceber e compreender o mundo real, enquanto a inteligência incorporada não requer apenas a percepção e o raciocínio cognitivo de objetos, ambientes e outros agentes envolvidos na inteligência espacial, mas também abrange ainda o planejamento de movimento de alto nível. e controle de movimento de baixo nível necessário para a operação do robô, bem como várias "habilidades" do robô semelhantes às capacidades operacionais humanas definidas pela interação entre o corpo do robô e o objeto operacional. O domínio de cada habilidade significa que o robô pode manusear diversos objetos relacionados àquela habilidade, e não apenas um objeto específico e específico.

Essas habilidades incluem uma coleção de "sub-habilidades" e "habilidades atômicas", formando uma biblioteca de habilidades do robô ou "espaço de habilidades". A essência da inteligência incorporada é aprender e generalizar esse espaço de habilidades, alcançando assim a inteligência artificial geral (AGI) com atributos incorporados como os humanos.

Em aplicações específicas, a inteligência espacial tem um escopo mais amplo e pode ser anexada ao robô ou separada do robô. É essencialmente uma questão de compreensão do espaço, como sua importante aplicação AR/VR. A inteligência incorporada reflete-se principalmente em robôs, especialmente robôs de uso geral (humanóides).

Em geral, a inteligência espacial concentra-se mais nas capacidades cognitivas e de raciocínio no espaço e no tempo quadridimensionais, enquanto a inteligência incorporada inclui ainda a capacidade de interagir diretamente com o ambiente através de formas físicas.

P: Por que você escolheu iniciar um negócio na direção do espaço e da inteligência incorporada?

Jacqui: Pode-se dizer que desde muito cedo prestamos atenção a este campo e temos um profundo acúmulo histórico e de tecnologia. A equipa criou o “Laboratório de Percepção e Inteligência Geométrica” nos primeiros tempos, quando esta área ainda não tinha sido envolvida pelos conhecidos “grandes fabricantes”.Somos um dos primeiros académicos e equipas na China a aplicar tecnologia de inteligência artificial a dados não europeus, como 3D.

Nossa equipe conduziu um grande número de pesquisas de inovação cruzada nas áreas de aprendizado geométrico profundo, modelagem 3D, percepção espacial e aplicações robóticas, e alcançou uma série de resultados representativos, incluindo Grasp Proposal Networks (NeurIPS 2020), Analytic Marching (ICML 2020/TPAMI 2021), Convolução Dirigível Esparsa (NeurIPS 2021), 3D AffordanceNet (CVPR 2021), Fantasia3D (ICCV 2023), SAM-6D (CVPR 2024) e muito mais.



O DexVerse™ 2.0 apresenta a nova tecnologia 4D Mesh, que é especialmente projetada para simulação física dinâmica e geração de renderização de dados, e pode lidar uniformemente com vários objetos, como corpos rígidos, corpos moles e fluidos. Como forma de expressão central do mecanismo, o 4D Mesh percorrerá todo o processo, desde a simulação física, geração de anotação de dados até o treinamento de grandes modelos.

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5 ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

P: Qual é a sua compreensão dos conceitos centrais de espaço e inteligência incorporada? Neste caminho quente, quais são as vantagens da interdimensionalidade?

Jacqui:Acreditamos que,O cerne da inteligência espacial e incorporada é estabelecer um “modelo de mundo” para que os robôs tenham “espiritualidade” semelhante à percepção humana.Especificamente, é necessário estabelecer um "modelo mundial" que possa modelar, compreender e raciocinar com precisão a geometria espacial e os processos físicos, de modo que vários sensores robóticos, incluindo visão, força, toque, etc., possam ter a capacidade de percepção humana.

Sob a atual arquitetura de IA e paradigma de modelo, nossa equipe esperaAtravés da simulação física generativa, capturamos o espelho quadridimensional do espaço-tempo do mundo vivo humano para obter infinitos dados de atributos físicos - esta é a chave para realizar a inteligência espacial e incorporada.

Portanto, desde a sua criação, a Kuandimensional criou o espaço DexVerse™ subjacente autodesenvolvido e o mecanismo de inteligência incorporado, que pode realizar a automação completa da cadeia de "simulação física - síntese de dados - treinamento de modelo" para cenários de negócios específicos, e com base nesta formação um grande kit de modelos de inteligência espacial e incorporada e sensores visuais inteligentes puros, dando aos robôs universais um cérebro e olhos inteligentes.

Atualmente, a Kuandimension alcançou uma taxa de sucesso de missão de mais de 99,9% com dados 100% sintéticos e requisitos de precisão operacional milimétrica/submilimétrica em vários cenários comerciais.

Espaço universal e inteligência incorporada

A que distância está do fim?

P: Você acabou de falar sobre o uso do paradigma da Lei de Escala para realizar a inteligência espacial e incorporada. Você pode explicar seu significado específico? É mais difícil perceber o espaço universal e a inteligência incorporada do que perceber a universalidade de grandes modelos de linguagem? Qual é a dificuldade?

Jacqui: Na verdade, é mais difícil alcançar o espaço universal e a inteligência incorporada do que alcançar a universalidade de grandes modelos linguísticos. Grandes modelos de linguagem, representados pela série GPT da OpenAI, alcançam amostra zero (zero-shot), ou seja, capacidades gerais, mostrando o surgimento do chamado AGI.

A linguagem natural humana pode ser considerada como um código semântico refinado através de um alto grau de abstração do universo e do ambiente natural em que vivemos. Portanto, é relativamente fácil para grandes modelos de linguagem aprenderem e generalizarem diretamente no nível abstrato.

Comparativamente falando,A inteligência espacial requer aprendizagem a partir de sinais brutos adquiridos por sensores, o que significa cruzar a “lacuna semântica” entre sinais digitais brutos e símbolos semânticos humanos.Para aprender inteligência geral através de um paradigma Scaling Law semelhante ao GPT, é necessária uma grande quantidade de dados de treinamento;Os dados de treinamento de inteligência espacial não requerem apenas uma grande quantidade de dados, mas também exigem calibração precisa dos sinais originais obtidos pelos sensores para garantir que eles tenham medições em escala física absoluta. Isso é muito mais difícil do que obter imagens massivas e dados de texto. da internet.

A inteligência incorporada vai um passo além, além de aprender a inteligência geral a partir de sinais sensoriais de alta dimensão, como visão, força e tato, Seu objetivo mais essencial é conhecer o “espaço de habilidades” do robô definido conjuntamente pela ontologia do robô e pelo objeto operacional. A generalidade da inteligência incorporada reflete-se na generalização no espaço de habilidades, o que aumenta a dificuldade de aprendizagem de diferentes paradigmas.

P: Você pode falar sobre os recursos específicos de grandes modelos multimodais necessários para inteligência espacial e inteligência incorporada?

Jacqui:A inteligência espacial envolve tarefas como percepção, interação, raciocínio e tomada de decisão no mundo físico tridimensional. A inteligência incorporada requer ainda a formação de uma biblioteca de habilidades de operação autônoma de um robô com base na análise inteligente de sinais de percepção espacial, como visão, força. e toque.

Portanto, são necessárias capacidades multimodais de grandes modelos, incluindo linguagem natural, toque forçado, estado corporal do robô e outras modalidades.Estas multimodalidades podem ser “integradas” num espaço semântico, espaço-temporal e de competências comum, alcançando assim uma inteligência espacial e incorporada semelhante à humana.

P: Na sua opinião, até que ponto o espaço universal e a inteligência incorporada estão longe de ser o fim do jogo?

Jacqui:Atualmente, o paradigma Scaling Law AI, que é caracterizado por dados massivos, modelos grandes e enorme poder de computação, pode ser produzido em massa de forma estável e econômica, com base na premissa de que o hardware do robô universal está maduro, ou seja, os componentes principais como robôs humanóides, mãos hábeis e sensores humanóides, pelo menos pode suportar inteligência espacial e incorporada para formar valor comercial independente em vários cenários de negócios de circuito fechado com limites e ROI razoável.

Especificamente, em vários cenários, como indústria, logística, comércio e residência, os robôs podem realizar uma variedade de tarefas de maneira generalizável. É claro que isso requer a aquisição de dados multimodais massivos com propriedades físicas, bem como o cálculo automático de anotações ricas que suportam múltiplas estratégias de aprendizagem, como treinamento supervisionado, aprendizagem por imitação e aprendizagem por reforço.

O caminho mais eficiente para alcançar a inteligência incorporada universal

P: Percebi que você mencionou "Sim2Real AI é o caminho mais eficiente para realizar a inteligência incorporada" em seu discurso WAIC. Você pode expandir isso?

Jacqui: Para alcançar a inteligência incorporada, a natureza e a finalidade dos dados devem ser consideradas. O objetivo da inteligência incorporada é permitir que os robôs alcancem capacidades operacionais gerais no mundo físico em constante mudança, com base em sinais de sensores como visão, força e tato, exatamente como nós, humanos, fazemos todos os dias em nossas vidas diárias.

Sob o paradigma Scaling Law AI, ou seja, os modelos de aprendizado de máquina não possuem inteligência geral real ou generalização, mas apenas têm a capacidade de "interpolar" no aprendizado de distribuições estatísticas e suas distribuições estatísticas. O treinamento de robôs inteligentes incorporados requer a aquisição de um grande. quantidade de dados.

Esses dados devem abranger as diversas condições operacionais envolvidas em cada habilidade do robô, como todas as condições operacionais de manhã à noite, primavera, verão, outono e inverno, de interior a exterior. Se você depende de sistemas robóticos de coleta de dados ou de dispositivos vestíveis, como a conhecida "teleoperação", então, para coletar dados suficientes, primeiro você precisa estabelecer um modelo de negócios que permita aos usuários desfrutar de serviços e valor comercial, ao mesmo tempo que ajuda a coletar dados. dados, mas atualmente não existe tal maneira.

Em comparação,Sim2Real AI pode cobrir todas as mudanças acima de forma mais eficiente por meio de simulação física e dados sintéticos. Este método permite a simulação de vários objetos operacionais, mudanças ambientais, configurações de robôs e mudanças de sensores no ambiente virtual, e pode compartilhar a simulação física subjacente e capacidades de geração de dados para diferentes cenários de negócios. Quaisquer objetos operacionais, incluindo corpos rígidos, dobradiças, corpos moles, fluidos, etc., podem suportar a geração de dados por meio de simulação física precisa.

Então, em geral,Embora o uso de sistemas de coleta de dados de robôs ou "teleoperação" de dispositivos vestíveis possa demonstrar rapidamente algumas ações operacionais semelhantes às humanas, em comparação com as capacidades de inteligência incorporadas necessárias para alcançar robôs gerais, este método parece ser "o oposto que Sim2Real AI pode". É o caminho mais eficiente para atingir seus objetivos.

Pergunta: Sob esta abordagem técnica, como eliminar a lacuna entre os dados sintéticos e os dados reais?

Jacqui: De uma perspectiva acadêmica, Sim2Real AI é um caminho tecnológico de longa data e um dos principais caminhos para alcançar inteligência espacial e incorporada. Nossa equipe também começou na academia. No processo de implementação de produtos e negócios, trilhamos com sucesso um caminho único: capaz de atingir 99,9% de precisão em vários cenários com dados 100% sintéticos sob requisitos de precisão milimétrica/submilimétrica. taxa, que pode ser única no mundo.

Qualquer sucesso não é acidental, mas se baseia em uma compreensão profunda do problema e em uma solução sistemática. Partindo dos primeiros princípios e pensando no significado interno das coisas, a equipe multidimensional encontrou soluções eficazes simplificando problemas complexos e desmontando-os camada por camada.

Simplificando, usar Sim2Real AI para obter inteligência incorporada requer:

1) Simulação de corpo de robô, simulação de sensor multimodal, diferentes formas de simulação de objetos operacionais e simulação de processos dinâmicos;

2) Os dados e anotações correspondentes à simulação são renderizados e gerados;

3) Estabelecer uma cadeia automatizada que possa ser migrada para Sim2Real em aspectos como design e treinamento de grandes modelos inteligentes incorporados, e pelo menos os seguintes limites técnicos básicos precisam ser superados:

Simulação de física incorporada controlável de baixo nível

Treinamento eficiente de grandes modelos multimodais e aprendizado contínuo

Lidar eficazmente com as diferenças entre domínios de dados sintéticos e reais

Aquisição de baixo custo de ativos digitais massivos

P: Com base no caminho da tecnologia Sim2Real AI que você acabou de mencionar, quais são os resultados práticos em todas as dimensões?

Jacqui: Kuandimensional construiu um mecanismo de inteligência incorporado DexVerse™ de baixo para cima, incluindo módulos como simulação física, renderização e geração de dados, cálculo automático de anotações, design de modelo e treinamento. Este motor não requer a participação de pessoal de P&D.O SDK pode gerar automaticamente SDKs de modelo de IA para tarefas de inteligência incorporadas em toda a cadeia. A velocidade de geração de dados está na mesma frequência que a velocidade de iteração de treinamento do modelo de IA, portanto, não há necessidade de armazenar dados. não importa quantos dados de treinamento sejam acumulados, eles não serão mais considerados inteligência incorporada. Um padrão quantitativo para implementação.Atualmente, o DexVerse™ oferece suporte à implementação de produtos de software e hardware da Kuaodi em vários cenários.



Conforme mostrado acima, o DexVerse™ 2.0 vai um passo além:

Em primeiro lugar, dado um cenário de negócios com limites claros e uma configuração de hardware do robô, o DexVerse™ 2.0 pode usar um grande modelo de linguagem para desmontar automaticamente as habilidades e sub-habilidades do robô envolvidas.

Em segundo lugar, para qualquer habilidade ou subhabilidade, o DexVerse™ 2.0 pode gerar automaticamente ativos digitais, como objetos e cenas necessários para simulação, e simular e renderizar com base nesses ativos para gerar faixas de dados do processo de operação do robô no espaço virtual.

Em seguida, o modelo 3D inteligente VLA (Vision Language Action) incorporado é treinado por meio da geração de dados no espaço virtual.

Finalmente, o modelo treinado pode conduzir a ontologia do robô em cenários de negócios selecionados para completar várias operações de habilidades do robô de maneira universal.



Através do DexVerse™ Empowered Intelligence Engine 2.0, toda a cadeia de desmontagem de tarefas, geração de cena, geração de configuração de treinamento e treinamento de modelo é automatizada, e o modelo treinado é importado para a máquina real para guiar o robô para completar a montagem do cervo blocos de construção.

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5 ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CN#rd

Através deste mecanismo totalmente automatizado, o volante para os robôs universais praticarem habilidades/sub-habilidades inteligentes incorporadas girará de forma mais eficiente, promovendo a implementação de robôs universais em mais cenários.Kuanwei cooperará com mais partes industriais para abrir o ecossistema e alcançar uma cooperação ganha-ganha para promover conjuntamente o rápido desenvolvimento da inteligência incorporada e da indústria geral de robôs da China.

P: Por que Kuaodi escolheu um motor desenvolvido por ele mesmo? Quais são as diferenças entre o mecanismo DexVerse™ multidimensional e o Omniverse™ da NVIDIA?

Jacqui:O conceito de construção de um mecanismo de inteligência incorporada multidimensional é completamente diferente de mecanismos como o Omniverse™ da NVIDIA.

Se Omniverse™ for uma expansão horizontal, abrangendo diferentes setores, como robótica, computação científica e IA para Ciência, ao mesmo tempo que atende aos produtos de poder de computação de IA da NVIDIA, entãoO DexVerse™ multidimensional é uma penetração vertical de ponta a ponta, e a evolução iterativa do mecanismo serve à realização de tarefas de habilidades inteligentes incorporadas em cenários verticais.

Atualmente, o Sim2Real AI ainda está no estágio de implementação de negócios de produtos orientados à inovação. Somente contar com o mecanismo de autopesquisa pode suportar todos os aspectos do processo de pesquisa e desenvolvimento, desde simulação física, renderização e geração de dados, cálculo automático de anotações, incorporado. design e treinamento de modelos inteligentes, ponto por ponto Somente resolvendo os principais problemas e dominando o know-how o produto pode ser verdadeiramente implementado em cenários de negócios.

O caminho L1-L5 da implementação de negócios inteligentes incorporados

P: Qual você acha que é o caminho de implementação da inteligência incorporada, da tecnologia ao produto e à implementação comercial?

Jacqui:A essência da inteligência incorporada é fornecer a todos os tipos de robôs capacidades operacionais gerais em diferentes cenários de aplicação, aprendendo uma biblioteca de habilidades de robôs que contém várias habilidades generalizáveis, portanto, sua comercialização deve ser baseada na indústria, agricultura, comércio e negócios pessoais/direcionados; cenários com limites como famílias, "começam com o fim em mente" e formam o valor do produto e a implementação comercial, estabelecendo habilidades comuns para robôs em cenários de negócios independentes.

Tecnicamente, a inteligência incorporada deve usar Sim2Real AI para abrir a cadeia automatizada de compreensão de tarefas, geração de ativos digitais, geração de simulação de dados e treinamento de modelo de IA para alcançar o aprendizado universal de tarefas de robôs da maneira mais eficiente e formar produtos de software e hardware aplicáveis. para diferentes cenários de negócios, incluindo SoCs inteligentes incorporados, sensores inteligentes, controladores de robôs universais, etc.

No caminho, a inteligência incorporada precisa primeiro capacitar ontologias de hardware relativamente maduras, como braços robóticos e robôs compostos. Com a produção em massa madura de ontologias universais, como mãos hábeis e robôs humanóides, as capacidades gerais serão melhoradas ainda mais e maior valor comercial será. ser gerado.



Pergunta: Com base nos cinco estágios de inteligência incorporada altamente versátil L1-L5 que você propôs, em qual estágio o Interdimensional está atualmente?

Jacqui:Com base no mecanismo de inteligência incorporado DexVerse™ autodesenvolvido, a Kuandimensional estabeleceu recursos de cadeia completa, como compreensão de tarefas de cenário, geração de ativos digitais, geração de simulação de dados e treinamento de modelo de IA para atender cenários de aplicação como manufatura inteligente e agricultura inteligente, e formou uma rede abrangente que inclui sensores de visão inteligentes, software PickWiz, robôs compostos e outros produtos inteligentes incorporados.

Atualmente, a Kuanwei implementou o modelo de negócios "Simulação para a Realidade" e o implementou em mais de 30 setores, como peças automotivas, fabricação 3C, novas energias, eletrodomésticos, produtos químicos e logística. , Haier, muitos clientes líderes do setor, incluindo Panasonic e Lens Technology.

Referindo-se a L1-L5 na figura acima, Kuandimension completou o desenvolvimento do estágio L1 de inteligência incorporada e está avançando constantemente em direção ao nível L2, que é um dos poucos no mundo.

P: Qual você acha que será a cadeia ecológica final de inteligência incorporada e robôs humanóides? A Kuan Dimension fabricará hardware robótico completo (humanóide)?

Jacqui: A cadeia ecológica final do robô universal consiste em fabricantes de corpos humanóides, fabricantes de componentes, fabricantes de sensores visuais e táteis, fornecedores de soluções e chips inteligentes incorporados, etc. O mecanismo de inteligência incorporado DexVerse™ multidimensional desempenhará um papel decisivo no caminho tecnológico, na forma do produto, na implementação do cenário de negócios, etc. no processo da cadeia industrial que atinge seu estado final por meio dos recursos de cadeia completa de IA Sim2Real do DexVerse™. , começará com o fim em mente, a partir de uma abordagem comercial de circuito fechado para promover padrões unificados para robôs inteligentes incorporados em termos de configuração de hardware, seleção de sensores, paradigmas modais de dados e grandes modelos multimodais.

Kuandimensional formou produtos inteligentes incorporados, como robôs compostos, sensores visuais inteligentes e software PickWiz. No processo de implementação de mais cenários de negócios, Kuandimensional primeiro capacitará o chassi móvel/com rodas relativamente maduro + braços robóticos duplos. eventualmente, unir forças com fabricantes de ontologias de robôs humanóides para alcançar a implementação generalizada de inteligência incorporada geral.