notícias

O primeiro do mundo!Pesquisaram quase 400 documentos, Laboratório Pengcheng

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

A inteligência incorporada é a única maneira de alcançar a inteligência artificial geral. Seu núcleo é completar tarefas complexas por meio da interação de agentes inteligentes com o espaço digital e o mundo físico. Nos últimos anos, os grandes modelos multimodais e a tecnologia robótica fizeram grandes progressos, e a inteligência incorporada tornou-se um novo foco da tecnologia global e da competição industrial. No entanto, falta actualmente uma revisão que possa analisar de forma abrangente o estado actual do desenvolvimento da inteligência incorporada. portanto,O Instituto de Inteligência Multiagente e Incorporada do Laboratório Pengcheng colabora com pesquisadores do Laboratório HCP da Universidade Sun Yat-sen, uma análise abrangente dos últimos desenvolvimentos em inteligência incorporada,Lançou a primeira revisão mundial de inteligência incorporada na era dos grandes modelos multimodais.

Esta revisão pesquisou cerca de 400 documentos e conduziu uma análise abrangente da pesquisa sobre inteligência incorporada em múltiplas dimensões.Esta revisão apresenta primeiro alguns representantesRobôs incorporados e plataformas de simulação incorporadas , fornece uma análise aprofundada do foco e das limitações de sua pesquisa. Em seguida, são analisados ​​detalhadamente quatro conteúdos principais da pesquisa: 1)percepção incorporada,2)interação incorporada,3)inteligência incorporadae 4)Migração do virtual para a realidade , esses conteúdos de pesquisa abrangem métodos de última geração, paradigmas básicos e conjuntos de dados abrangentes. Além disso, a revisão explora os desafios enfrentados pelos agentes incorporados em espaços digitais e mundos físicos, enfatizando a sua importância para a interação ativa em ambientes digitais e físicos dinâmicos. Finalmente, a revisão resume os desafios e limitações da inteligência incorporada e discute as suas potenciais direções futuras. Esta revisão espera fornecer uma referência básica para a investigação de inteligência incorporada e promover a inovação tecnológica relacionada. Além disso, esta revisão também lançou uma lista de documentos de inteligência incorporados no Github. Os artigos relacionados e os repositórios de código serão atualizados continuamente, portanto, preste atenção.



Endereço do artigo: https://arxiv.org/pdf/2407.06886

Lista de artigos de inteligência incorporada: https://github.com/HCPLab-SYSU/Empowered_AI_Paper_List

1. As vidas passadas e presentes da inteligência incorporada

O conceito de inteligência incorporada foi proposto pela primeira vez por Alan Turing no Teste de Turing Corporificado estabelecido em 1950 para determinar se um agente pode demonstrar inteligência (inteligência) que não se limita a resolver problemas abstratos em um ambiente virtual (espaço digital). base na inteligência incorporada, existente tanto no espaço digital quanto no mundo físico, e sendo incorporada na forma de várias entidades, incluindo não apenas robôs, mas também outros dispositivos, e capaz de lidar com a complexidade e incompreensibilidade do mundo físico. Portanto, o desenvolvimento da inteligência incorporada é considerado uma forma básica de alcançar a inteligência artificial geral. É particularmente importante aprofundar a complexidade da inteligência incorporada, avaliar o seu actual estado de desenvolvimento e considerar a sua trajectória futura.Hoje, a inteligência incorporada abrange muitas tecnologias-chave, como visão computacional, processamento de linguagem natural e robótica, a mais representativa das quais éPercepção incorporada, interação incorporada, inteligência incorporada e transferência do virtual para a realidade . Nas tarefas incorporadas, os agentes incorporados devem compreender plenamente as intenções humanas nas instruções linguísticas, explorar proativamente o ambiente circundante, perceber de forma abrangente os elementos multimodais dos ambientes virtuais e físicos e realizar operações apropriadas para completar tarefas complexas. O rápido progresso dos modelos multimodais demonstra maior diversidade, flexibilidade e capacidades de generalização do que os métodos tradicionais de aprendizagem por reforço profundo em ambientes complexos. As representações visuais pré-treinadas por codificadores visuais de última geração fornecem estimativas precisas de categorias, poses e geometrias de objetos, permitindo que modelos incorporados percebam de forma abrangente ambientes complexos e dinâmicos. Modelos poderosos de linguagem grande permitem que os robôs entendam melhor as instruções da linguagem humana e fornecem uma maneira viável de alinhar representações visuais e linguísticas para robôs incorporados. Os modelos mundiais demonstram capacidades de simulação significativas e uma boa compreensão das leis físicas, permitindo que os modelos incorporados compreendam completamente a física e os ambientes reais. Esses avanços permitem que a inteligência incorporada perceba ambientes complexos de forma abrangente, interaja naturalmente com os humanos e execute tarefas de maneira confiável. A figura abaixo mostra a arquitetura típica de um agente incorporado.



Estrutura de Inteligência Incorporada

Nesta revisão, fornecemos uma visão abrangente dos avanços atuais na inteligência incorporada, incluindo: (1)robô encarnado——Soluções de hardware para inteligência incorporada no mundo físico;Plataforma de simulação incorporada——Um espaço digital para treinar agentes incorporados de forma eficiente e segura (3);percepção incorporada—— Perceber ativamente o espaço 3D e integrar múltiplas modalidades sensoriais;interação incorporada——Interaja com o ambiente de forma eficaz e razoável e até mesmo mude o ambiente para completar as tarefas designadas;inteligência incorporada——Use grandes modelos multimodais para compreender instruções abstratas e dividi-las em uma série de subtarefas e, em seguida, concluí-las passo a passo;Migração do virtual para a realidade ——Transferir e generalizar habilidades aprendidas no espaço digital para o mundo físico. A figura abaixo mostra a estrutura do sistema de inteligência incorporada do espaço digital ao mundo físico. Esta revisão tem como objetivo fornecer um conhecimento prévio abrangente, tendências de pesquisa e insights técnicos sobre inteligência incorporada.



A estrutura geral desta revisão

2. Robôs Incorporados

A inteligência incorporada interage ativamente com o ambiente físico e abrange uma ampla gama de formas incorporadas, incluindo robôs, eletrodomésticos inteligentes, óculos inteligentes e veículos autônomos. Entre eles, os robôs, como uma das formas incorporadas mais proeminentes, têm atraído muita atenção. De acordo com diferentes cenários de aplicação, os robôs são projetados de várias formas para fazer uso total de seus recursos de hardware para concluir tarefas específicas. Conforme mostrado na figura abaixo, os robôs incorporados geralmente podem ser divididos em: (1) robôs de base fixa, como braços robóticos, que são frequentemente usados ​​em síntese de automação de laboratório, educação, indústria e outros campos (2) robôs com rodas, que; são altamente eficientes Famosos pela sua mobilidade, são amplamente utilizados em logística, armazenamento e inspeções de segurança (3) Os robôs sobre esteiras, com fortes capacidades off-road e mobilidade, demonstraram potencial na agricultura, construção e resposta a desastres; Quadrúpedes O robô, conhecido por sua estabilidade e adaptabilidade, é ideal para detecção em terrenos complexos, missões de resgate e aplicações militares. (5) Os robôs humanóides, com mãos hábeis como chave, são amplamente utilizados na indústria de serviços, saúde e ambientes colaborativos. (6) Os robôs biónicos realizam tarefas em ambientes complexos e dinâmicos, simulando os movimentos e funções eficazes dos organismos naturais.



Diferentes formas de robôs incorporados

3. Plataforma de simulação inteligente incorporada

As plataformas de simulação de inteligência incorporada são essenciais para a inteligência incorporada porque fornecem meios de experimentação com boa relação custo-benefício, a capacidade de garantir a segurança simulando cenários potencialmente perigosos, a escalabilidade para testar em diversos ambientes e a capacidade de criar rapidamente protótipos de recursos de design que facilitam a implementação mais ampla. comunidade de pesquisa, fornece um ambiente controlado para pesquisas precisas, gera dados para treinamento e avaliação e fornece uma referência padronizada para comparação de algoritmos. Para que o agente interaja com o ambiente, um ambiente simulado realista deve ser construído. Isto requer levar em conta as características físicas do ambiente, as propriedades dos objetos e suas interações. Conforme mostrado na figura abaixo, esta revisão analisará duas plataformas de simulação: uma plataforma geral baseada em simulação subjacente e uma plataforma de simulação baseada em cenários reais.



Plataforma de simulação universal



Plataforma de simulação baseada em cenários reais

4. Percepção incorporada

A “Estrela do Norte” da percepção visual futura é o raciocínio visual e a inteligência social centrados na incorporação. Conforme mostrado na figura abaixo, em vez de apenas reconhecer objetos em imagens, os agentes com percepção incorporada devem mover-se no mundo físico e interagir com o ambiente, o que requer uma compreensão mais aprofundada do espaço tridimensional e dos ambientes dinâmicos. A percepção incorporada requer percepção visual e capacidades de raciocínio, compreensão das relações tridimensionais em uma cena e previsão e execução de tarefas complexas com base em informações visuais. Esta revisão apresenta percepção visual ativa, localização visual 3D, navegação de linguagem visual, percepção não visual (sensores táteis), etc.



Estrutura de percepção visual ativa

5. Interação incorporada

A interação incorporada refere-se a cenários em que um agente interage com os humanos e o ambiente em um espaço físico ou simulado. As tarefas típicas de interação incorporada incluem resposta a perguntas incorporadas e compreensão incorporada. Conforme mostrado na figura abaixo, na tarefa incorporada de perguntas e respostas, o agente precisa explorar o ambiente a partir de uma perspectiva de primeira pessoa para coletar as informações necessárias para responder à pergunta. Um agente com capacidade autônoma de exploração e tomada de decisão deve não apenas considerar quais ações tomar para explorar o ambiente, mas também decidir quando parar de explorar para responder perguntas, conforme mostrado na figura abaixo.



Estrutura de perguntas e respostas incorporada

Além das interações de perguntas e respostas com humanos, a interação incorporada também envolve a realização de operações baseadas em instruções humanas, como agarrar e colocar objetos, completando assim a interação entre agentes, humanos e objetos. Como mostrado, a apreensão incorporada requer compreensão semântica abrangente, consciência da cena, tomada de decisão e planejamento de controle robusto. O método de apreensão incorporado combina a apreensão cinemática do robô tradicional com modelos de grande escala (como modelos de linguagem grande e modelos básicos de linguagem visual), permitindo que os agentes executem tarefas de apreensão sob percepção multissensorial, incluindo percepção visual ativa, compreensão da linguagem e raciocínio.



Estrutura de rastreamento interativo guiada por idioma

6. Inteligência Incorporada

Um agente é definido como uma entidade autônoma capaz de sentir o ambiente e tomar ações para atingir objetivos específicos. Avanços recentes em grandes modelos multimodais expandiram ainda mais a aplicação de agentes em cenários do mundo real. Quando estes grandes agentes multimodais baseados em modelos são incorporados em entidades físicas, eles são capazes de transferir eficazmente as suas capacidades do espaço virtual para o mundo físico, tornando-se assim agentes incorporados. Para que os agentes incorporados operem no mundo real complexo e rico em informações, eles foram desenvolvidos com poderosas capacidades de percepção, interação e planejamento multimodais. Conforme mostrado na figura abaixo, para completar uma tarefa, um agente incorporado geralmente envolve os seguintes processos:

(1) Decompor tarefas abstratas e complexas em subtarefas específicas, ou seja, planejamento de tarefas incorporadas de alto nível.

(2) Implementar gradualmente estas subtarefas, utilizando eficazmente os modelos de percepção incorporada e de interação incorporada, ou utilizando as funções estratégicas do modelo básico, que é chamado planeamento de ação incorporada de baixo nível.

Vale a pena notar que o planeamento da missão envolve pensar antes de agir e, portanto, é frequentemente considerado num espaço digital. Em contraste, o planeamento da acção deve ter em conta as interacções efectivas com o ambiente e fornecer esta informação ao planeador da missão para ajustar o planeamento da missão. Portanto, é crucial que os agentes incorporados alinhem e generalizem as suas capacidades do espaço digital para o mundo físico.



Estrutura de agente incorporada baseada em grandes modelos multimodais

7. Migração do virtual para a realidade

A adaptação Sim-to-Real na inteligência incorporada refere-se ao processo de transferência de habilidades ou comportamentos aprendidos em um ambiente simulado (espaço digital) para o mundo real (mundo físico). O processo inclui validar e melhorar a eficácia de algoritmos, modelos e estratégias de controle desenvolvidos em simulação para garantir que eles funcionem de forma estável e confiável no ambiente físico. Para conseguir a adaptação da simulação à realidade, modelos de mundo incorporados, métodos de coleta e treinamento de dados e algoritmos de controle incorporados são três elementos-chave. A figura abaixo mostra cinco paradigmas diferentes do Sim para o Real.



Cinco opções de migração do virtual para a realidade

8. Desafios e direções futuras de desenvolvimento

Embora a inteligência incorporada esteja a desenvolver-se rapidamente, enfrenta vários desafios e apresenta excitantes direções futuras:

(1)Conjunto de dados de robôs de alta qualidade . A obtenção de dados robóticos suficientes do mundo real continua a ser um desafio significativo. A coleta desses dados é demorada e consome muitos recursos. Depender apenas de dados simulados agravará o problema da lacuna entre a simulação e a realidade. A criação de diversos conjuntos de dados robóticos do mundo real requer uma colaboração estreita e extensa entre instituições. Além disso, o desenvolvimento de simuladores mais realistas e eficientes é crucial para melhorar a qualidade dos dados de simulação. A fim de construir um modelo universal incorporado que possa alcançar aplicações entre cenários e tarefas cruzadas no campo da robótica, é necessário construir conjuntos de dados em grande escala e usar dados ambientais simulados de alta qualidade para auxiliar os dados do mundo real.

(2)Uso eficaz de dados de demonstração humana . A utilização eficiente de dados de demonstração humana envolve o aproveitamento de ações e comportamentos demonstrados por humanos para treinar e melhorar sistemas robóticos. Este processo envolve coletar, processar e aprender a partir de conjuntos de dados de grande escala e alta qualidade, com humanos executando as tarefas que o robô precisa aprender. Portanto, é importante utilizar efetivamente grandes quantidades de dados de demonstração humana não estruturados, multi-rótulos e multimodais combinados com dados de rótulos de ação para treinar modelos incorporados que possam aprender uma variedade de tarefas em um tempo relativamente curto. Ao aproveitar de forma eficiente os dados de demonstração humana, os sistemas robóticos podem atingir níveis mais elevados de desempenho e adaptabilidade, tornando-os mais capazes de executar tarefas complexas em ambientes dinâmicos.

(3)Cognição de ambiente complexo . A cognição de ambiente complexo refere-se à capacidade dos agentes incorporados de perceber, compreender e navegar em ambientes complexos do mundo real em ambientes físicos ou virtuais. Para ambientes abertos não estruturados, o trabalho atual geralmente depende do mecanismo de decomposição de tarefas do LLM pré-treinado, usando amplo conhecimento de bom senso para planejamento de tarefas simples, mas carece de compreensão específica da cena. É fundamental melhorar a transferência e a generalização do conhecimento em ambientes complexos. Um sistema robótico verdadeiramente versátil deve ser capaz de compreender e executar instruções em linguagem natural em uma variedade de cenários diferentes e invisíveis. Isto requer o desenvolvimento de arquiteturas de agentes incorporados adaptáveis ​​e escaláveis.

(4)Execução de tarefas de longo alcance . A execução de um único comando geralmente envolve o robô executando uma tarefa de longo alcance, como um comando como “limpar a cozinha”, que envolve reorganizar itens, varrer o chão, limpar mesas e outras atividades. A conclusão bem-sucedida dessas tarefas exige que o robô seja capaz de planejar e executar uma série de ações de baixo nível durante um longo período de tempo. Embora os actuais planeadores de tarefas de alto nível tenham demonstrado sucesso inicial, muitas vezes ficam aquém em diversos cenários devido à falta de adaptação às tarefas incorporadas. Enfrentar este desafio requer o desenvolvimento de planeadores eficientes com fortes capacidades perceptivas e amplo conhecimento de bom senso.

(5)Descoberta causal . Os agentes incorporados orientados por dados existentes tomam decisões com base em correlações dentro dos dados. No entanto, este método de modelação não pode permitir que o modelo compreenda verdadeiramente a relação causal entre conhecimento, comportamento e ambiente, resultando em estratégias tendenciosas. Isso os torna difíceis de operar de maneira interpretável, robusta e confiável em ambientes do mundo real. Portanto, a inteligência incorporada precisa ser impulsionada pelo conhecimento mundial e ter capacidades autônomas de raciocínio causal.

(6)Aprendizado contínuo . Em aplicações robóticas, a aprendizagem contínua é crucial para a implementação de estratégias de aprendizagem de robôs em diversos ambientes, mas esta área permanece pouco explorada. Embora algumas pesquisas recentes tenham explorado subtópicos de aprendizagem contínua, como aprendizagem incremental, adaptação de movimento rápido e aprendizagem de interação humano-computador, essas soluções são geralmente projetadas para uma única tarefa ou plataforma e ainda não consideraram o modelo subjacente. As questões de pesquisa abertas e possíveis abordagens incluem: 1) combinar diferentes proporções de distribuições de dados anteriores ao ajustar os dados mais recentes para mitigar o esquecimento catastrófico, 2) desenvolver protótipos eficientes de distribuições ou cursos anteriores para aprendizagem de inferência de novas tarefas, 3) melhorar o estabilidade de treinamento e eficiência de amostragem de algoritmos de aprendizagem on-line, 4) identificar métodos de princípios para integração perfeita de modelos de grande capacidade em estruturas de controle, possivelmente por meio de aprendizagem hierárquica ou controle lento-rápido, para alcançar raciocínio em tempo real.

(7)Referência de avaliação unificada . Embora existam muitos parâmetros de referência para avaliar estratégias de controlo de baixo nível, muitas vezes diferem significativamente nas suas competências de avaliação. Além disso, os objetos e cenas incluídos nesses benchmarks são frequentemente limitados pelo simulador. Para avaliar completamente os modelos incorporados, são necessários benchmarks que abranjam múltiplas habilidades usando simuladores realistas. Em termos de planejamento de tarefas de alto nível, muitos benchmarks avaliam as habilidades de planejamento por meio de tarefas de perguntas e respostas. Contudo, uma abordagem mais ideal seria avaliar exaustivamente as capacidades de execução dos planeadores de missões de alto nível e das estratégias de controlo de baixo nível, especialmente na execução de missões de longa duração e medir as taxas de sucesso, em vez de confiar apenas na avaliação dos planeadores. Esta abordagem abrangente permite uma avaliação mais abrangente das capacidades dos sistemas inteligentes incorporados.

Em suma, a inteligência incorporada permite que agentes inteligentes percebam, reconheçam e interajam com vários objetos no espaço digital e no mundo físico, demonstrando a sua importância na realização da inteligência artificial geral. Esta revisão fornece uma revisão abrangente de robôs incorporados, plataformas de simulação incorporadas, percepção incorporada, interação incorporada, agentes incorporados, controle de robôs do virtual para a realidade e direções de pesquisa futuras, que são valiosas para promover o desenvolvimento da inteligência incorporada.

Sobre o Instituto Laboratório Pengcheng de Inteligência Multiagente e Incorporada

O Instituto de Inteligência Multiagente e Incorporada, afiliado ao Laboratório Pengcheng, reúne dezenas de jovens cientistas de ponta nas áreas de ciência inteligente e robótica. Baseando-se em infraestrutura de IA independente e controlável, como Pengcheng Cloud Brain e China Computing Network, é. comprometida com a construção de plataformas básicas universais, como colaboração multiagente e plataformas de treinamento de simulação e grandes modelos multimodais incorporados e colaborativos baseados em nuvem, capacitando as principais necessidades de aplicativos, como a Internet industrial, governança social e serviços.