notícias

Zhang Zhengyou, cientista-chefe da Tencent: Apenas colocar grandes modelos em robôs não pode produzir inteligência incorporada real

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Cientista Chefe da Tencent, Diretor do Laboratório Tencent Robotics X

A fim de explorar profundamente a relação homem-máquina na era da IA ​​​​e levar a sociedade a pensar conjuntamente sobre oportunidades de desenvolvimento econômico e estratégias de resposta social na era da simbiose homem-máquina, o Instituto de Pesquisa Tencent organizou conjuntamente o Instituto Qianhai de Assuntos Internacionais , Qingteng, Hong Kong Science and Technology Parks Corporation e outras instituiçõesPerspectivas para relações homem-máquina na era da IAFórum, isso também éSérie de seminários de alto nível sobre Inteligência Artificial + Desenvolvimento Socialda segunda questão.
No fórum, Zhang Zhengyou, cientista-chefe da Tencent e diretor da Tencent Robotics "Hierárquico" inclui três níveis de controle sobre ontologia, ambiente e tarefas. A vantagem da inteligência incorporada hierárquica é que o conhecimento em cada nível pode ser continuamente atualizado e acumulado, e as capacidades entre os níveis podem ser dissociadas.Robótica da Tencent

Quanto à forma como os robôs inteligentes entrarão na vida das pessoas, Zhang Zhengyou disse: "No longo prazo, os robôs certamente entrarão em milhares de lares. Atualmente, os robôs podem primeiro trazer grandes mudanças nas áreas de reabilitação, cuidados a idosos e educação personalizada .

A seguir está o texto completo do compartilhamento de Zhang Zhengyou:


Queridos dirigentes, ilustres convidados, ilustres professores e ilustres alunos: Boa tarde a todos. Hoje quero compartilhar com vocês alguns desafios e progressos relacionados à inteligência incorporada.

Quanto ao que é inteligência incorporada, esse termo tornou-se repentinamente popular no ano passado e todos acharam que era legal. Na verdade, a inteligência incorporada é relativa à inteligência não incorporada. ChatGPT tem inteligência sem corpo. Para mim, um agente encarnado é um robô inteligente. Quanto a saber se essa inteligência deveria ter um corpo ou não, nós, que fazemos robôs, definitivamente queremos ter um corpo. Somente tendo um corpo a inteligência pode se desenvolver melhor.

No início de 2018, o presidente e CEO da Tencent, Ma Huateng, decidiu estabelecer a Tencent Robotics Os mortos-vivos, a alma sem corpo é um fantasma do nada. Não fazemos mortos-vivos, não queremos que fantasmas vaguem, nós. criar robôs que ajudem as pessoas de forma harmoniosa!” Ou seja, queremos criar robôs inteligentes para aprimorar a inteligência humana e liberar o potencial físico humano, promovendo a interação entre humanos e robôs e acolhendo uma era de coexistência, co. -criação e ganha-ganha entre humanos e robôs, esta é a nossa intenção original de estabelecer a Tencent Robotics X.

Na verdade, é controverso se a inteligência requer incorporação. Esta controvérsia gira principalmente em torno da ciência cognitiva. Neste campo, todos acreditam que muitas características cognitivas requerem as características gerais do organismo para moldar a inteligência do organismo. No entanto, algumas pessoas acreditam que a inteligência não requer o corpo, porque o que enfrentamos principalmente é o processamento de informações, a resolução de problemas, e tomada de decisões e governação e outras tarefas, que podem ser realizadas através de software e algoritmos. O termo e o conceito de inteligência incorporada existem há muito tempo. Para muitas pessoas, o corpo é crucial para a inteligência, porque a inteligência se origina da interação entre um organismo e seu ambiente, e a interação entre os dois conduz ao crescimento e. desenvolvimento da inteligência.

Olhando para trás, Turing escreveu um artigo em 1950 que discutia como alcançar inteligência de máquina. Percebe-se que algumas pessoas pensam que algumas atividades muito abstratas, como jogar xadrez, podem ser usadas para alcançar (inteligência), e algumas pessoas pensam que a máquina deveria ter algum órgão (órgão), como um alto-falante (microfone) para ajudar Realizamos a inteligência da máquina com mais rapidez. No entanto, o próprio Turing disse que não sabia qual categoria era a melhor. Quando a Open AI comprou pela primeira vez centenas de braços robóticos, eles esperavam diretamente usar robôs para implementar AGI. Depois de mais de um ano de trabalho duro, eles descobriram que esse caminho estava temporariamente impraticável, então desistiram e se concentraram em AGI baseado em texto. modelo e, finalmente, o ChatGPT foi desenvolvido com sucesso.

Os robôs têm uma longa história. Originalmente, era a automação de braços mecânicos em linhas de produção, o que significa realizar uma série de ações em um ambiente conhecido e que exige controle preciso, porque esse processo não requer nenhuma inteligência. Embora este tipo de robô tenha capacidades operacionais muito fortes, essas capacidades operacionais são pré-programadas para um ambiente fixo e têm inteligência zero.

Entrando na era dos modelos grandes, algumas pessoas pensam que os modelos grandes são muito poderosos e podem ser implementados imediatamente em robôs. Qual é a situação agora? Para usar uma analogia, é equivalente a colocar um cérebro de 20 anos em um corpo de 3 anos. Embora o robô tenha certas capacidades de movimento, suas capacidades operacionais são muito fracas. A inteligência incorporada real deve ser capaz de aprender e lidar com problemas de forma independente, e ser capaz de ajustar e planejar automaticamente quando o ambiente muda e é incerto. Este é um processo muito importante que acreditamos que pode levar à AGI ou à criação de um robô inteligente geral.

Especificamente,Inteligência incorporada é a capacidade de um agente com portador físico (robô inteligente) acumular conhecimentos e habilidades por meio da percepção, controle e aprendizagem autônoma em uma série de interações, formando inteligência e influenciando o mundo físico. Isso é diferente do ChatGPT. A inteligência incorporada adquire conhecimento por meio de métodos de percepção semelhantes aos humanos (visão, audição, linguagem, tato) e o abstrai em uma semântica de expressão para compreender o mundo, realizar ações e interagir com o mundo. Isto envolve a integração de múltiplas disciplinas, incluindo automação de engenharia mecânica, otimização de controle de sistemas embarcados, ciências cognitivas, neurociências, etc. É uma capacidade que pode surgir depois que todos os campos se desenvolverem até certo ponto.

A inteligência incorporada enfrenta muitos desafios.

A primeira são as capacidades de percepção complexas, incluindo visão e audição. Agora, o modelo grande que inclui o GPT-4o inclui apenas visão e audição, e nenhum toque. Para a inteligência incorporada, o toque é muito importante. Os robôs precisam ter capacidades de percepção complexas para perceber e compreender os ambientes e objetos imprevisíveis e não estruturados ao seu redor.

A segunda são poderosas capacidades de execução, incluindo movimento, preensão e manipulação para poder interagir com o ambiente e os objetos.

A terceira é a capacidade de aprendizagem, a capacidade de aprender e adaptar-se a partir da experiência e dos dados, a fim de melhor compreender e responder às mudanças no ambiente.

A quarta é a capacidade adaptativa, a capacidade de ajustar de forma independente o comportamento e as estratégias para lidar melhor com diferentes ambientes e tarefas.

O quinto é muito importante. Não é que a superposição destas capacidades alcance a inteligência incorporada, mas a integração colaborativa orgânica e eficiente destas capacidades para alcançar verdadeiramente a desejada inteligência incorporada de que estamos a falar.

Em sexto lugar, neste processo, os dados de que precisamos são muito escassos. A Open AI inicialmente esperava alcançar AGI diretamente através de robôs, mas depois desistiu devido à falta de dados. dados são enormes desafios. A privacidade do usuário também precisa ser protegida durante a coleta de dados em cenários reais.

Sétimo, porque a inteligência incorporada necessita de viver num habitat humano, deve garantir a sua própria segurança e a do seu entorno.

A oitava é a questão da ética social. Quando os robôs interagem com os humanos, devem seguir as normas morais e legais e proteger os interesses e a dignidade humanos.

Muito trabalho precisa ser feito para alcançar a inteligência incorporada. Atualmente, todos pensam que modelos grandes podem resolver o problema dos robôs inteligentes. Desenhei aqui, o que equivale a colocar um modelo grande na cabeça do robô. . Parece estar resolvido. Mas isso é apenas parte da história. Esperamos que a inteligência e a ontologia sejam organicamente integradas, para que a verdadeira inteligência possa emergir da interação entre os robôs e o meio ambiente.

Para alcançar esta visão,Acho que o paradigma de controle precisa mudar. Se você olhar os livros didáticos sobre robôs, o paradigma de controle tradicional é um processo de circuito fechado de percepção primeiro, percepção seguida de planejamento, planejamento seguido de ação e ação seguida de percepção. Esse paradigma de controle não pode alcançar a inteligência. Em 2018, propus um “paradigma SLAP”, onde S é percepção, L é aprendizagem, A é ação e P é planejamento. A percepção e a ação precisam estar estreitamente ligadas para responder a ambientes em mudança em tempo real. Acima deles estão planos para resolver tarefas mais complexas. A aprendizagem permeia cada módulo, sendo capaz de aprender com a experiência e dos dados e de ajustar o próprio comportamento e estratégias de forma independente. Este paradigma SLAP é muito semelhante à inteligência humana.

O ganhador do Prêmio Nobel Daniel Kahneman tem um livro chamado "Thinking, Fast and Slow", que acredita que o cérebro humano possui dois sistemas. O primeiro sistema, o Sistema 1, é mais intuitivo e resolve problemas rapidamente. O segundo sistema é um pensamento mais aprofundado, o pensamento racional, denominado Sistema 2. Na verdade, as pessoas passam 95% do seu tempo no Sistema 1 e só precisam programar o Sistema 2 para poucas e complexas tarefas. Então, por que o cérebro humano é tão eficiente? uma GPU consome Nenhuma energia é necessária. Isso ocorre porque os humanos podem resolver 95% dos problemas no Sistema 1, e apenas tarefas difíceis vão para o Sistema 2.

O paradigma SLAP que propus, no nível inferior, está intimamente ligado entre a percepção e a ação para resolver a autonomia reativa, que corresponde ao Sistema 1. Autonomia consciente é alcançar o pensamento e o pensamento racional do Sistema 2.

De acordo com o paradigma SLAP, combinado com o conhecimento de como o cérebro humano e o cerebelo controlam os membros, desenvolvemos um sistema hierárquico de inteligência incorporada, dividido em três camadas: a camada inferior é a Propriocepção, que é a percepção que o robô tem de si mesmo. o sinal do motor que controla o movimento do motor.

A segunda camada é a Exterocepção, que é a percepção do ambiente. Através da inteligência de percepção do ambiente, sabe quais capacidades precisam ser chamadas para completar a tarefa.

A camada superior está relacionada à tarefa e é chamada de planejador de nível estratégico. Somente planejando a tarefa específica, o ambiente e as capacidades do corpo do robô a tarefa pode ser bem resolvida.

Abaixo darei algumas demonstrações específicas. O controle do movimento no nível mais baixo (Nível de Propriocepção) também é aprendido a partir dos dados. Aqui, um cão real pode correr continuamente na esteira e a coleta de dados é realizada simultaneamente. Através da aprendizagem por imitação e da aprendizagem por reforço, o robô pode aprender movimentos semelhantes aos de cães reais. Usamos um mundo de mundo virtual e real integrado, gêmeo digital, mundo virtual e real unificado. O que vemos aqui é apenas o método de movimento para fora do cão, mas como o robô se move, quanta força é necessária e a intensidade do sinal das articulações e motores a serem enviados, tudo precisa ser obtido por meio do aprendizado por reforço.

Outro vídeo, onde não há controle humano especial, é deixar o cão-robô aprender o método de movimento de um cão real. Depois de aprender, ele corre sozinho, o que parece um pouco real.

Esta é a habilidade mais básica (capacidade motora). O próximo passo é perceber o ambiente e completar essas tarefas no ambiente que acabei de falar. O segundo passo é adicionar informações ambientais. rastejar como subir degraus naturalmente, como ultrapassar obstáculos e como saltar sobre obstáculos.

Neste momento, o cão-robô aprendeu a pular e cruzar obstáculos no mundo da simulação. Este cão é autodesenvolvido por nós e se chama Max. O que o diferencia dos cães comuns é que ele tem rodas nos joelhos. Ele pode andar mais rápido em terreno plano com rodas e pode usar quatro patas em locais irregulares, por isso é diferente. combinações modais.

Quando temos capacidade de nos adaptar ao ambiente, podemos deixá-lo fazer várias coisas. Por exemplo, pedimos a um dos cães que alcance o outro cão e, depois de alcançá-lo, ele vencerá. Para aumentar a complexidade, se uma bandeira aparecer, o cão que estava fugindo originalmente pode se tornar uma perseguição ao tocar a bandeira. Você pode dar uma olhada, isso também é aprendido automaticamente por meio do aprendizado por reforço. Um cachorro está perseguindo outro cachorro. Claro, limitamos a velocidade para fazer o cachorro correr mais devagar. Agora é o cachorro correndo que persegue. Depois que o cachorro perseguidor muda, ele vira uma esquina e engana o outro cachorro.

A vantagem de uma inteligência incorporada hierárquica é que o conhecimento em cada nível pode ser continuamente atualizado e acumulado, e as capacidades entre os níveis podem ser dissociadas. A atualização de outros níveis não afetará outros níveis de conhecimento existentes.

Por exemplo, quando um cachorro perseguiu outro cachorro agora há pouco, só aprendi a treinar em terreno plano durante o aprendizado intensivo, sem adicionar nenhum obstáculo. Agora, depois de adicionar obstáculos, não há necessidade de reaprender, ele aprendeu automaticamente. sei lidar com obstáculos quando estou no térreo. Você pode dar uma olhada no vídeo. Isso é algo que não treinamos novamente. Quando ele encontra um pedaço de pau, ele passa por cima dele. é automático (aprendizado).

Este trabalho foi concluído no início do ano passado e será publicado na importante revista acadêmica internacional Nature Machine Intelligence em um futuro próximo. Também será usado como matéria de capa, indicando que todos acreditam que esse trabalho ainda está liderando o caminho. .

Vamos falar sobre o que fizemos no ano passadoProgresso na fusão de grandes modelos , isto é, integrando grandes modelos de linguagem e modelos de percepção multimodal em nosso sistema hierárquico de inteligência incorporada. Por exemplo, se um humano atribui uma tarefa de omelete a um robô, o grande modelo de planejamento baseado em LLM decompõe a tarefa de omelete, ou seja, primeiro tire os ovos da geladeira, quebre-os na panela e depois frite os ovos. ovos. A partir da percepção multimodal, devemos primeiro saber que o ovo está colocado na geladeira, e as seguintes habilidades de nível médio precisam ser chamadas. O robô deve primeiro ir até a geladeira para retirar o ovo, abrir a porta da geladeira, pegue o ovo e coloque-o de volta no fogão. A parte inferior é o controle de nível inferior, controlando como o robô vai até a geladeira, como abrir a porta da geladeira, etc. Finalmente, retorne ao Planejador de Nível Estratégico de nível superior. Observe que neste circuito fechado, as ações do robô atuam em um mundo integrado virtual-real, no qual o mundo digital e o mundo físico estão intimamente integrados. No espaço de simulação digital, existem robôs e cenas muito reais, de modo que o. as habilidades do robô podem ser aprendidas no espaço virtual aplicadas diretamente ao espaço real.

Assista a um vídeo aqui. Colocamos um robô inteligente em um ambiente que ele nunca viu antes. O primeiro passo é o robô se virar e explorar o mundo. Por exemplo, no vídeo, a tarefa do robô é enviar o lixo para a lixeira, então ele deve primeiro encontrar a lixeira e depois colocá-la lá após encontrá-la. Mova também a lata de lixo para outro local. Suponha que ele não conheça o ambiente, encontre a lata de lixo por meio da exploração e depois envie o lixo para lá.

A cena a seguir é sobre dar o mouse para a pessoa vestindo roupas azuis e jeans. Há muitas outras pessoas aqui. Ele deve encontrar a pessoa vestindo roupas azuis e jeans, e ele irá automaticamente explorá-las e encontrá-las. Muitas das pessoas que conheci nesse período usavam roupas azuis ou jeans. Até que o robô viu roupas azuis e jeans, mandou o mouse.

Durante o processo de exploração, o robô pode lembrar o ambiente circundante e não precisa explorar novamente todas as vezes. Na cena seguinte, o remédio é primeiro entregue a um colega, e a sacola de remédios para resfriado é então jogada fora pelo robô. Ele já sabe onde está a lixeira durante a exploração e modelagem, e vai direto para a lixeira. Você também pode usar a relação entre o espaço, como onde está o banco e onde está o quadro branco. Se quiser enviar um objeto para uma pessoa entre o quadro branco e o banco alto, se houver obstáculos no meio, pode ser. automaticamente evitado.

No ano passado também fizemos um robô bartender. Naquela época, ele usava uma mão de três dedos desenvolvida por nós mesmos e o chassi era consertado.

Este bartender sofisticado também reuniu primeiro uma pessoa real para fazer bartender, aprendeu sua trajetória e depois a implementou no robô. Também existem sensores táteis nos dedos. Agora, para inserir o bastão no buraco, a capacidade visual por si só não é suficiente e a precisão não é suficiente, por isso depende da percepção tátil para ver se ele está inserido. , ele precisa ser movido para o lado. Mova-o para cima e finalmente insira o stick.

Este foi o trabalho do ano passado. O trabalho deste ano inclui uma mão de cinco dedos autodesenvolvida e um braço robótico que também desenvolvemos. Não houve braço robótico autodesenvolvido no ano passado. grande modelo de detecção e um grande modelo de planejamento, que pode realizar operações. O robô pode falar e completar tarefas livremente.

O canto inferior direito é o que se vê do robô inteligente móvel. Uma garrafa de uísque é encontrada sobre a mesa e é solicitado que ele sirva um copo de uísque. Isso é visto do campo de visão do robô, e ele pode reconhecer vários. tipos de vinho em tempo real.

Compartilhe aqui agora. obrigado a todos.