notizia

Dal soffritto ai punti!La squadra di gamberetti fritti di Stanford costruisce la propria "AI Da Vinci" e lavora duramente per diventare un chirurgo

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza] L’autore di Shrimp Fried Robot di Stanford ha pubblicato un nuovo lavoro! Attraverso l'apprendimento per imitazione, il robot Da Vinci ha imparato a eseguire la "chirurgia" da solo: sollevando tessuti, raccogliendo aghi, suturando e legando nodi. La cosa più importante è che completi tutte le azioni di cui sopra in modo indipendente.

L'autore dello Stanford Shrimp Robot ha pubblicato un nuovo lavoro.

Questa volta il robot non ci sta preparando il riso fritto, ma ci sta eseguendo un intervento chirurgico!

Recentemente, i ricercatori della Johns Hopkins e della Stanford University hanno condotto una nuova esplorazione:

Può il famoso robot medico Da Vinci apprendere compiti chirurgici attraverso l’apprendimento per imitazione?

Dopo aver sperimentato, ci sono riusciti!

Da Vinci è in grado di completare in modo indipendente le tre attività chirurgiche di base: manipolazione dei tessuti, manipolazione dell'ago e annodamento.


La prima è la tecnica di sutura e annodamento che richiede agli studenti di medicina di esercitare le proprie abilità di diteggiatura. Ho visto il "filo dell'ago volante" di Leonardo da Vinci e lui è stato in grado di annodare il nodo in modo molto abile:


Il passo successivo è prendere e consegnare l'ago. Da Vinci può anche azionarlo con precisione contemporaneamente senza alcuna trascuratezza.


Il terzo compito principale è quello di migliorare l'organizzazione. Si può vedere che Da Vinci ha scelto il giusto focus e ha facilmente migliorato l'organizzazione.


La cosa più importante è che tutte le azioni di cui sopra sono state completate da Leonardo da Vinci in modo indipendente!


Sicuramente, questo livello di operazione delicata ha un odore familiare, non importa come lo guardi.


Indirizzo del documento: https://arxiv.org/abs/2407.12998

Indirizzo del blog: https://surgical-robot-transformer.github.io/

Ricorda, rispetto alle operazioni desktop in un ambiente domestico, le attività chirurgiche richiedono una manipolazione precisa di oggetti deformabili e affrontano problemi di percezione difficili con illuminazione e occlusione incoerenti.

Inoltre, i robot chirurgici possono spesso avere propriocezione e isteresi imprecise.

Come hanno superato questi problemi?

Ampio archivio di dati clinici, i robot possono imparare

L’apprendimento per imitazione su larga scala si dimostra molto promettente nei sistemi di uso generale per compiti operativi, come ad esempio fare in modo che i robot svolgano i lavori domestici per noi.


Ma questa volta i ricercatori si stanno concentrando sul campo della chirurgia.

Il campo della chirurgia è un campo inesplorato con un enorme potenziale, soprattutto con l’aiuto del robot chirurgico Da Vinci.

Nel 2021, sono stati utilizzati 6.500 sistemi Da Vinci in 67 paesi in tutto il mondo e sono stati eseguiti oltre 10 milioni di interventi chirurgici.

Inoltre, le procedure di questi interventi sono state completamente registrate, fornendoci un ampio archivio di dati dimostrativi.

È possibile utilizzare dati così su larga scala per costruire un sistema generalista per la chirurgia autonoma?

Tuttavia, quando i ricercatori hanno iniziato a studiare, hanno scoperto che è difficile lasciare che il robot Da Vinci esegua operazioni chirurgiche attraverso l'apprendimento per imitazione.

La natura unica del sistema DaVinci crea sfide uniche che ostacolano l’implementazione dell’apprendimento per imitazione.


In alto a destra è l’ambiente medico reale, mentre in basso a destra è l’apparato sperimentale del ricercatore.

Inoltre, poiché le misurazioni congiunte sono imprecise, la loro cinematica anticipata sarà incoerente e il semplice addestramento di una politica utilizzando questi dati cinematici approssimativi porterà spesso al fallimento del compito.

Anche un semplice compito di assistenza visiva non può essere eseguito dal robot. Le politiche addestrate per produrre pose assolute dell’effettore finale (un approccio comune per addestrare le politiche dei robot) hanno un tasso di successo vicino allo 0 in tutte le attività.


Come superare questa limitazione?

Il team ha scoperto che il movimento relativo del sistema da Vinci è più coerente della sua cinematica assoluta.

Pertanto, hanno pensato a un modo: introdurre una formula di azione relativa e utilizzare i suoi dati cinematici approssimativi per l'addestramento e l'implementazione della strategia.

Hanno considerato tre opzioni: operazioni incentrate sulla fotocamera, incentrate sullo strumento e relative ad ibride.


La rappresentazione dell'azione centrata sulla telecamera è un approccio di base che modella l'azione come la posa assoluta dell'effettore finale rispetto alla punta dell'endoscopio.Le altre due sono formule relative che definiscono azioni relative al telaio dello strumento corrente (ovvero l'effettore finale) o al telaio della punta dell'endoscopio

Quindi, la policy viene addestrata utilizzando le immagini come input e le rappresentazioni delle azioni di cui sopra.

A questo proposito, il loro approccio è diverso dal lavoro precedente, che utilizzava dati cinematici come input. Tuttavia, in questo lavoro, i dati cinematici di Da Vinci potrebbero non essere affidabili.

Il loro modello è basato su ACT, un'architettura basata su Transformer.


Il team ha proposto un disegno strategico che prende solo la grafica come input e produce traiettorie di atteggiamento relative

Se questo approccio avrà successo, grandi archivi di dati clinici contenenti cinematica approssimativa potrebbero essere utilizzati direttamente per l’apprendimento dei robot senza ulteriori correzioni.

Ciò è senza dubbio di grande importanza per le operazioni chirurgiche cliniche dei robot.

Sicuramente, dopo aver introdotto la formula di azione relativa, il team ha utilizzato dati cinematici approssimativi per dimostrare con successo l'apprendimento per imitazione su DaVinci. Non solo non è stata necessaria un'ulteriore correzione cinematica, ma l'effetto è stato anche molto migliore rispetto al metodo di base.

Gli esperimenti dimostrano che l’apprendimento per imitazione può non solo apprendere efficacemente compiti chirurgici complessi, ma anche generalizzarsi a nuovi scenari, come su tessuti umani reali invisibili.

Inoltre, la telecamera da polso è molto importante anche per l'apprendimento delle attività operative chirurgiche.


Ora, oltre ai compiti autonomi precedentemente dimostrati di manipolazione dei tessuti, manipolazione degli aghi e legatura dei nodi, il robot da Vinci può anche eseguire una serie di operazioni.

Generalizzazione a colpo zero

Il modello del team di Stanford ha mostrato la capacità di adattarsi a nuovi scenari, come la presenza di tessuti animali sconosciuti.

Questo è un video di Leonardo da Vinci che cuce e lega la carne di maiale -


Se si trattasse di pollo, Da Vinci potrebbe anche raccogliere con precisione l'ago chirurgico posto sulla superficie della carne.


Ciò mostra la promessa di espansione nei futuri studi clinici.

riprovare il comportamento

Quindi, se ci sono alcuni disturbi ambientali, Leonardo da Vinci può ancora funzionare stabilmente?

Si può vedere che dopo che altri strumenti si sono rotti improvvisamente e hanno deliberatamente staccato le suture chirurgiche, Leonardo da Vinci non si è fermato e ha continuato l'atto di annodamento.


Nel video qui sotto, il da Vinci non riesce a prendere l'ago chirurgico durante la prima operazione. Si rende subito conto di questo fatto e prende con successo l'ago attraverso la regolazione automatica.


prova di ripetibilità

La chirurgia clinica non è un gioco da ragazzi. Il robot clinico deve essere riproducibile e la sua capacità essenziale è “infallibile”.

Il gruppo di ricerca ha pubblicato un video del test di ripetibilità di Da Vinci e ha osservato le sue molteplici operazioni da diversi angoli di visione, ed è stato sostanzialmente impeccabile.




Percorso tecnico

Come mostrato nella figura seguente, il sistema dVRK del robot da Vinci è costituito da un manipolatore per telecamera endoscopica (ECM) e due manipolatori lato paziente (PSM1, PSM2) che condividono la stessa base del robot.

Ciascun braccio è una combinazione sequenziale di giunti impostati passivamente, seguiti da giunti attivi motorizzati.

Tuttavia, in generale, l'utilizzo dei potenziometri in tutte le articolazioni comporterà una cinematica in avanti del braccio imprecisa, anche fino a 5 cm.


Sfortunatamente, i dati sulla cinematica diretta forniti da dVRK non sono stabili. Questo perché l'impostazione del giunto (blu) utilizza solo un potenziometro per la misurazione del giunto, che non è affidabile.Il giunto attivo (rosa) utilizza sia un potenziometro che un codificatore del motore per migliorare la precisione

Per consentire a Da Vinci di completare le attività operative chirurgiche attraverso l'apprendimento per imitazione, vista l'imprecisa cinematica in avanti del robot, il team ha proposto i tre metodi di rappresentazione dell'azione sopra menzionati, tra cui il metodo relativo misto ha ulteriormente migliorato la precisione dei movimenti traslatori.

Dettagli di implementazione

Al fine di formare politiche realizzabili, vengono studiati l'uso dell'azione in blocchi con Transformer (ACT) e strategie di diffusione.

Hanno addestrato la politica utilizzando come input le immagini della fotocamera endoscopica e del polso, che sono state ridotte alla dimensione dell'immagine 224x224x3.

La dimensione di input originale dell'immagine endoscopica chirurgica è 1024x1280x3 e l'immagine del polso è 480x640x3.

I dati cinematici non vengono forniti come input come è comune in altri metodi di apprendimento per imitazione perché i dati cinematici sono spesso incoerenti a causa delle limitazioni di progettazione di dVRK.

I risultati politici includono la posizione dell'effettore finale (delta), l'orientamento (delta) e l'angolo mandibolare di entrambe le braccia.

procedura dell'esperimento

In questo esperimento, l'obiettivo dei ricercatori era trovare le risposte a queste domande:

1. L’apprendimento per imitazione è sufficiente per compiti chirurgici complessi? 2. Il movimento relativo di dVRK è più stabile della sua cinematica assoluta? 3. L'utilizzo di una fotocamera da polso è fondamentale per migliorare le percentuali di successo? 4. Il modello può generalizzarsi efficacemente in scenari nuovi e mai visti?

La prima cosa da valutare è se il movimento relativo di Leonardo da Vinci è più coerente della sua cinematica assoluta.

Il metodo di valutazione consiste nel registrare ripetutamente le traiettorie di riferimento utilizzando formule di movimento assoluto e relativo in diverse configurazioni del robot.

Nello specifico, il robot deve posizionare il braccio e l’endoscopio in posizioni più o meno simili utilizzando gli stessi fori in una cupola che simula l’addome umano.

Questo compito non è banale perché il foro è molto più grande delle dimensioni dell'endoscopio e dell'asta dello strumento e lo strumento deve essere posizionato manualmente nel foro spostando il giunto di montaggio.

Nel complesso, gli esperimenti mostrano che il movimento relativo è più consistente in presenza di errori di misurazione. Pertanto, modellare le azioni strategiche come movimento relativo è una scelta migliore.


In questa configurazione sono stati raccolti un totale di 224 esperimenti di sollevamento dei tessuti, 250 esperimenti di prelievo e passaggio dell'ago e 500 esperimenti di annodamento

La Figura 5 mostra le traiettorie di riferimento registrate ripetutamente in varie configurazioni del robot per testare la ripetibilità di tutte le rappresentazioni delle azioni.

L'immagine a sinistra mostra una perfetta ricostruzione della traiettoria di riferimento per tutte le rappresentazioni del movimento, poiché i giunti del robot non si sono mossi da quando è stata acquisita la traiettoria di riferimento.

Quando il robot si muove a sinistra o a destra (immagini al centro e a destra), la rappresentazione dell'azione centrata sulla telecamera non può seguire la traiettoria di riferimento, mentre la rappresentazione dell'azione relativa può seguire bene la traiettoria di riferimento.


Tracciamento della traiettoria in varie configurazioni del robot

Oltre a ciò, il team ha anche valutato il tasso di successo delle attività dei modelli addestrati utilizzando varie rappresentazioni di azioni.

I risultati mostrano che le strategie addestrate utilizzando rappresentazioni di azioni relative (rappresentazioni di azioni centrate sullo strumento e rappresentazioni di azioni relative ibride) funzionano bene, mentre le strategie addestrate utilizzando la cinematica diretta assoluta falliscono.

Nell'immagine seguente, la riga superiore rappresenta l'attività di sollevamento del tessuto. Il robot deve afferrare l'angolo del cuscinetto di gomma (tessuto) e sollevarlo verso l'alto.

Durante l'allenamento, l'angolo del tessuto rimane all'interno del riquadro rosso, mostrando la configurazione dell'angolo in prova.

La fila centrale è la raccolta e la consegna degli aghi.

Durante l'allenamento, gli aghi venivano posizionati casualmente all'interno di scatole rosse. Durante il test, la gobba centrale dell'ago è stata posizionata in 9 posizioni, come mostrato, per garantire un'impostazione coerente durante la valutazione.

Nella fila inferiore, il robot sta facendo un nodo utilizzando la corda a sinistra per formare un anello, afferrando l'estremità della corda attraverso l'anello e quindi allontanando i morsetti l'uno dall'altro.

Durante l'allenamento, la posizione della corda sul tappetino è stata posizionata in modo casuale all'interno del riquadro rosso, mentre durante il test la corda è stata posizionata al centro del riquadro rosso.


Il video qui sotto mostra i risultati di una strategia di allenamento che utilizza la cinematica in avanti assoluta (movimento centrato sulla telecamera) del braccio.

Queste strategie non sono riuscite a completare il compito a causa di errori nella cinematica in avanti delle braccia di Leonardo, che cambiano in modo significativo tra allenamento e inferenza.




Inoltre, i ricercatori hanno osservato che la fotocamera da polso ha portato a miglioramenti significativi delle prestazioni durante l’apprendimento delle attività chirurgiche.


Ovviamente, si prevede che in futuro i robot chirurgici in grado di apprendere autonomamente amplieranno ulteriormente le capacità dei chirurghi.

Riferimenti:

https://surgical-robot-transformer.github.io/