notícias

Do refogado aos pontos!A equipe de camarão frito de Stanford constrói seu próprio "AI Da Vinci" e trabalha duro para se tornar um cirurgião

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria] O autor de Stanford’s Shrimp Fried Robot lançou um novo trabalho! Através da aprendizagem por imitação, o robô Da Vinci aprendeu a realizar “cirurgias” por conta própria – levantando tecidos, pegando agulhas e suturando e dando nós. O mais importante é que ele execute todas as ações acima de forma independente.

O autor do Stanford Shrimp Robot lançou um novo trabalho.

Desta vez, o robô não está fazendo arroz frito para nós, mas sim fazendo uma cirurgia em nós!

Recentemente, pesquisadores da Johns Hopkins e da Universidade de Stanford conduziram uma nova exploração——

O famoso robô médico Da Vinci pode aprender tarefas cirúrgicas por meio do aprendizado por imitação?

Depois de experimentar, eles conseguiram!

Da Vinci pode completar as três tarefas cirúrgicas básicas de manipulação de tecidos, manuseio de agulhas e nós de forma independente.


A primeira é a técnica de sutura e nó que exige que os estudantes de medicina pratiquem suas habilidades de digitação. Vi a "linha da agulha voadora" de Leonardo da Vinci e ele conseguiu dar o nó com muita habilidade:


O próximo passo é pegar e entregar a agulha. Da Vinci também pode operá-la com precisão ao mesmo tempo, sem qualquer descuido.


A terceira tarefa principal é elevar a organização. Pode-se ver que Da Vinci escolheu o foco certo e levantou facilmente a organização.


O mais importante é que todas as ações acima foram realizadas por Leonardo da Vinci de forma independente!


Com certeza, esse nível de operação delicada tem um cheiro familiar, não importa como você olhe para ele.


Endereço do artigo: https://arxiv.org/abs/2407.12998

Endereço do blog: https://surgical-robot-transformer.github.io/

Lembre-se, em comparação com operações de mesa em ambiente doméstico, as tarefas cirúrgicas exigem manipulação precisa de objetos deformáveis ​​e enfrentam problemas difíceis de percepção com iluminação e oclusão inconsistentes.

Além disso, os robôs cirúrgicos muitas vezes podem ter propriocepção e histerese imprecisas.

Como eles superaram esses problemas?

Grande repositório de dados clínicos, os robôs podem aprender

A aprendizagem por imitação em larga escala mostra-se muito promissora em sistemas de uso geral para tarefas operacionais, como ter robôs fazendo tarefas domésticas para nós.


Mas desta vez os pesquisadores estão se concentrando na área da cirurgia.

O campo da cirurgia é um campo inexplorado com enorme potencial, especialmente com a ajuda do robô cirúrgico da Vinci.

Em 2021, 6.500 sistemas da Vinci foram usados ​​em 67 países ao redor do mundo e mais de 10 milhões de cirurgias foram realizadas.

Além disso, os procedimentos dessas cirurgias foram integralmente registrados, proporcionando-nos um grande repositório de dados demonstrativos.

Esses dados em grande escala podem ser utilizados para construir um sistema generalista para cirurgia autônoma?

No entanto, quando os investigadores começaram a estudar, descobriram que existe uma dificuldade em deixar o robô Da Vinci realizar operações cirúrgicas através da aprendizagem por imitação -

A natureza única do sistema DaVinci cria desafios únicos que dificultam a implementação da aprendizagem por imitação.


O canto superior direito é o ambiente médico real e o canto inferior direito é a configuração experimental do pesquisador.

Além disso, como as medições conjuntas são imprecisas, a sua cinemática direta será inconsistente, e o simples treinamento de uma política usando esses dados cinemáticos aproximados muitas vezes levará ao fracasso da tarefa.

Mesmo uma simples tarefa de servo visual não pode ser executada pelo robô. Políticas treinadas para gerar poses absolutas de efetores finais (uma abordagem comum para treinar políticas de robôs) têm uma taxa de sucesso próxima de 0 em todas as tarefas.


Como superar essa limitação?

A equipe descobriu que o movimento relativo do sistema da Vinci é mais consistente do que a sua cinemática direta absoluta.

Portanto, eles pensaram em uma maneira: introduzir uma fórmula de ação relativa e usar seus dados cinemáticos aproximados para treinamento e implantação de estratégia.

Eles consideraram três opções: operações centradas na câmera, centradas em ferramentas e operações híbridas.


A representação da ação centrada na câmera é uma abordagem básica que modela a ação como a pose absoluta do efetor final em relação à ponta do endoscópio.As outras duas são fórmulas relativas que definem ações relativas à estrutura da ferramenta atual (ou seja, atuador final) ou à estrutura da ponta do endoscópio.

Em seguida, a política é treinada usando imagens como entrada e as representações de ação acima.

Neste aspecto, a sua abordagem é diferente dos trabalhos anteriores, que utilizaram dados cinemáticos como entrada. No entanto, neste trabalho, os dados cinemáticos de Da Vinci podem não ser fiáveis.

Seu modelo é baseado em ACT, uma arquitetura baseada em Transformer.


A equipe propôs um design de estratégia que usa apenas gráficos como entrada e gera trajetórias de atitude relativas

Se esta abordagem for bem sucedida, grandes repositórios de dados clínicos contendo cinemática aproximada poderão ser usados ​​diretamente para aprendizagem de robôs sem correção adicional.

Isto é, sem dúvida, de grande importância para operações cirúrgicas clínicas de robôs.

Com certeza, depois de introduzir a fórmula de ação relativa, a equipe usou dados cinemáticos aproximados para demonstrar com sucesso o aprendizado de imitação no DaVinci. Não apenas não exigiu correção cinemática adicional, mas o efeito também foi muito melhor do que o método de linha de base.

Experimentos mostram que a aprendizagem por imitação pode não apenas aprender com eficácia tarefas cirúrgicas complexas, mas também generalizar para novos cenários, como em tecidos humanos reais invisíveis.

Além disso, a câmera de pulso também é muito importante para o aprendizado de tarefas de operação cirúrgica.


Agora, além das tarefas autônomas demonstradas anteriormente de manipulação de tecidos, manuseio de agulhas e atamento de nós, o robô da Vinci também pode realizar uma variedade de operações.

Generalização zero-shot

O modelo da equipe de Stanford mostrou capacidade de adaptação a novos cenários, como a presença de tecido animal desconhecido.

Este é um vídeo de Leonardo da Vinci costurando e amarrando carne de porco -


Se fosse frango, Da Vinci também poderia pegar com precisão a agulha cirúrgica colocada na superfície da carne.


Isto mostra a promessa de expansão em estudos clínicos futuros.

repetir comportamento

Então, se houver alguns distúrbios ambientais, Leonardo da Vinci ainda poderá ter um desempenho estável?

Pode-se observar que depois que outros instrumentos invadiram repentinamente e retiraram deliberadamente as suturas cirúrgicas, Leonardo da Vinci não parou e continuou o ato de dar nós.


Ao longo do vídeo abaixo, o da Vinci não consegue pegar a agulha cirúrgica durante a primeira operação. Ele rapidamente percebe esse fato e pega a agulha com sucesso por meio do ajuste automático.


teste de repetibilidade

A cirurgia clínica não é brincadeira de criança. O robô clínico deve ser reproduzível e “infalível” é a sua capacidade essencial.

A equipe de pesquisa divulgou um vídeo do teste de repetibilidade de Da Vinci e observou suas múltiplas operações de diferentes ângulos de visão, e foi basicamente impecável.




Caminho técnico

Conforme mostrado na figura abaixo, o sistema dVRK do robô da Vinci consiste em um manipulador de câmera endoscópica (ECM) e dois manipuladores do lado do paciente (PSM1, PSM2) que compartilham a mesma base do robô.

Cada braço é uma combinação sequencial de articulações passivas, seguidas por articulações ativas motorizadas.

Entretanto, em geral, o uso de potenciômetros em todas as articulações resultará em uma cinemática frontal imprecisa do braço, até mesmo em até 5 cm.


Infelizmente, os dados de cinemática direta fornecidos pelo dVRK não são estáveis. Isso ocorre porque o ajuste da junta (azul) utiliza apenas um potenciômetro para medição da junta, o que não é confiável.A junta ativa (rosa) usa um potenciômetro e um codificador de motor para melhorar a precisão

A fim de permitir que Da Vinci conclua tarefas de operação cirúrgica por meio de aprendizagem por imitação, tendo em vista a cinemática direta imprecisa do robô, a equipe propôs os três métodos de representação de ação mencionados acima, entre os quais o método relativo misto melhorou ainda mais a precisão dos movimentos translacionais.

Detalhes de implementação

Para treinar políticas viáveis, estuda-se o uso de action chunking com Transformer (ACT) e estratégias de difusão.

Eles treinaram a política usando imagens endoscópicas e de câmeras de pulso como entrada, que foram reduzidas para um tamanho de imagem 224x224x3.

O tamanho de entrada original da imagem endoscópica cirúrgica é 1024x1280x3 e a imagem do pulso é 480x640x3.

Os dados cinemáticos não são fornecidos como entrada, como é comum em outros métodos de aprendizagem por imitação, porque os dados cinemáticos são frequentemente inconsistentes devido às limitações de projeto do dVRK.

Os resultados da política incluem a posição do efetor final (delta), a orientação (delta) e o ângulo mandibular de ambos os braços.

procedimento experimental

Nesta experiência, o objetivo dos investigadores era descobrir as respostas a estas perguntas -

1. A aprendizagem por imitação é suficiente para tarefas cirúrgicas complexas? 2. O movimento relativo do dVRK é mais estável do que a sua cinemática direta absoluta? 3. O uso de uma câmera de pulso é fundamental para melhorar as taxas de sucesso? 4. O modelo pode generalizar eficazmente em cenários novos e inéditos?

A primeira coisa a avaliar é se o movimento relativo de da Vinci é mais consistente do que a sua cinemática direta absoluta.

O método de avaliação consiste em registrar repetidamente trajetórias de referência usando fórmulas de movimento absoluto e relativo sob diferentes configurações de robô.

Especificamente, o robô precisa colocar o braço e o endoscópio em posições aproximadamente semelhantes, usando os mesmos orifícios em uma cúpula que simula o abdômen humano.

Esta tarefa não é trivial porque o furo é muito maior que as dimensões do endoscópio e do eixo da ferramenta, e a ferramenta deve ser colocada manualmente no furo movendo a junta de montagem.

No geral, os experimentos mostram que o movimento relativo é mais consistente na presença de erros de medição. Portanto, modelar ações estratégicas como movimento relativo é uma escolha melhor.


Nesta configuração, foram coletados um total de 224 experimentos de levantamento de tecidos, 250 experimentos de coleta e entrega de agulhas e 500 experimentos de nós.

A Figura 5 mostra trajetórias de referência registradas repetidamente em várias configurações de robô para testar a repetibilidade de todas as representações de ação.

A imagem da esquerda mostra uma reconstrução perfeita da trajetória de referência para todas as representações de movimento, uma vez que as juntas do robô não se moveram desde que a trajetória de referência foi adquirida.

Quando o robô se move para a esquerda ou para a direita (fotos do meio e da direita), a representação da ação centrada na câmera não pode rastrear a trajetória de referência, enquanto a representação da ação relativa pode rastrear bem a trajetória de referência.


Rastreamento de trajetória sob diversas configurações de robô

Além disso, a equipe também avaliou a taxa de sucesso de tarefas de modelos treinados usando diversas representações de ação.

Os resultados mostram que estratégias treinadas usando representações de ação relativa (representações de ação centradas em ferramentas e representações híbridas de ação relativa) apresentam bom desempenho, enquanto estratégias treinadas usando cinemática direta absoluta falham.

Na imagem abaixo, a linha superior é a tarefa de levantar o tecido. O robô precisa agarrar o canto da almofada de borracha (tecido) e levantá-lo.

Durante o treino, o canto do tecido permanece dentro da caixa vermelha, mostrando a configuração do canto no teste.

A linha do meio é a coleta e entrega das agulhas.

Durante o treinamento, as agulhas foram colocadas aleatoriamente dentro de caixas vermelhas. Durante o teste, a protuberância central da agulha foi colocada em 9 posições, conforme mostrado, para garantir uma configuração consistente durante a avaliação.

Na linha inferior, o robô está dando um nó usando a corda à esquerda para formar um laço, agarrando a ponta da corda através do laço e, em seguida, afastando os grampos um do outro.

Durante o treinamento, a posição da corda no tapete foi colocada aleatoriamente dentro da caixa vermelha, enquanto durante o teste, a corda foi colocada no centro da caixa vermelha.


O vídeo abaixo mostra os resultados de uma estratégia de treinamento utilizando cinemática direta absoluta (movimento centrado na câmera) do braço.

Estas estratégias não conseguiram completar a tarefa devido a erros na cinemática dianteira dos braços de da Vinci, que mudam significativamente entre o treino e a inferência.




Além disso, os pesquisadores observaram que a câmera de pulso resultou em melhorias significativas de desempenho no aprendizado de tarefas cirúrgicas.


Obviamente, espera-se que robôs cirúrgicos que possam aprender de forma autônoma expandam ainda mais as capacidades dos cirurgiões no futuro.

Referências:

https://surgical-robot-transformer.github.io/