소식

볶음부터 바느질까지!스탠포드 새우튀김팀, 자체 'AI 다빈치' 구축하고 외과의사가 되기 위해 노력

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] 스탠포드 새우튀김 로봇 작가의 신작이 나왔습니다! 다빈치 로봇은 모방 학습을 통해 조직 들어올리기, 바늘 집기, 봉합 및 매듭 묶기 등 스스로 '수술'을 수행하는 방법을 배웠습니다. 가장 중요한 것은 위의 모든 작업을 독립적으로 완료한다는 것입니다.

스탠포드 새우 로봇의 저자가 신작을 발표했습니다.

이번엔 로봇이 볶음밥을 만들어주는 게 아니라 수술을 해준다는 거!

최근 존스 홉킨스와 스탠포드 대학의 연구자들은 새로운 탐사를 실시했습니다.

유명 의료로봇 다빈치는 모방학습을 통해 수술을 배울 수 있을까?

실험 끝에 성공했습니다!

다빈치는 조직 조작, 바늘 취급, 매듭짓기 등 세 가지 기본 수술 작업을 독립적으로 완료할 수 있습니다.


첫 번째는 의대생들이 운지법을 연습하는 데 필요한 봉합 및 매듭 기술입니다. 나는 레오나르도 다빈치의 "날아다니는 바늘실"을 보았고 그는 매우 능숙하게 매듭을 묶을 수 있었습니다.


다음 단계는 바늘을 집어 넘겨주는 것입니다. 다빈치도 엉성함 없이 한 번에 정확하게 조작할 수 있습니다.


세 번째 주요과제는 조직을 들어올리는 것이다. 다빈치가 올바른 초점을 선택해 쉽게 조직을 들어올렸다고 볼 수 있다.


가장 중요한 것은 위의 모든 작업이 Leonardo da Vinci가 독립적으로 완료했다는 것입니다!


역시 이 정도의 섬세한 조작은 어떻게 보아도 익숙한 냄새가 난다.


논문 주소: https://arxiv.org/abs/2407.12998

블로그 주소: https://surgical-robot-transformer.github.io/

가정 환경에서의 데스크톱 작업과 비교할 때 수술 작업에는 변형 가능한 물체를 정밀하게 조작해야 하며 일관되지 않은 조명 및 폐색으로 인해 어려운 인식 문제가 있다는 점을 기억하십시오.

또한 수술 로봇은 종종 부정확한 고유 감각과 히스테리시스를 가질 수 있습니다.

그들은 이러한 문제를 어떻게 극복했는가?

대규모 임상 데이터 저장소, 로봇이 학습할 수 있음

대규모 모방 학습은 로봇이 집안일을 하게 하는 것과 같은 작업을 수행하는 범용 시스템에서 큰 가능성을 보여줍니다.


하지만 이번에 연구자들은 수술 분야에 집중하고 있다.

수술 분야는 특히 da Vinci 수술 로봇의 도움으로 엄청난 잠재력을 지닌 미개척 분야입니다.

2021년 기준으로 다빈치 시스템은 전 세계 67개국에서 6,500대가 사용됐고, 1천만 건 이상의 수술이 이뤄졌다.

더욱이, 이러한 수술의 절차는 완전히 기록되어 대규모 데모 데이터 저장소를 제공합니다.

이런 대규모 데이터를 활용해 자율수술을 위한 종합 시스템을 구축할 수 있을까?

하지만 연구진이 연구를 시작하면서 모방학습을 통해 다빈치 로봇이 수술을 하게 하는 데는 어려움이 있다는 사실을 발견하게 됐다.

DaVinci 시스템의 고유한 특성으로 인해 모방 학습 구현을 방해하는 고유한 과제가 발생합니다.


오른쪽 상단은 실제 의료 환경이고 오른쪽 하단은 연구원의 실험 설정입니다.

또한 관절 측정이 부정확하기 때문에 순방향 운동학이 일관되지 않으며 이 대략적인 운동학 데이터를 사용하여 정책을 교육하는 것만으로도 작업이 실패하는 경우가 많습니다.

단순한 시각적 서보 작업도 로봇이 수행할 수 없습니다. 절대 엔드 이펙터 포즈(로봇 정책 교육에 대한 일반적인 접근 방식)를 출력하도록 교육된 정책은 모든 작업에서 성공률이 0에 가깝습니다.


이 한계를 극복하는 방법은 무엇입니까?

팀은 다빈치 시스템의 상대 운동이 절대 순방향 운동학보다 더 일관적이라는 것을 발견했습니다.

따라서 그들은 상대 동작 공식을 도입하고 대략적인 운동학 데이터를 전략 훈련 및 배포에 사용하는 방법을 생각했습니다.

그들은 카메라 중심, 도구 중심, 하이브리드 관련 작업이라는 세 가지 옵션을 고려했습니다.


카메라 중심 동작 표현은 내시경 팁을 기준으로 엔드 이펙터의 절대 자세로 동작을 모델링하는 기본 접근 방식입니다.나머지 두 개는 현재 도구(예: 엔드 이펙터) 프레임 또는 내시경 팁 프레임과 관련된 동작을 정의하는 상대 공식입니다.

그런 다음 이미지를 입력으로 사용하고 위의 작업 표현을 사용하여 정책을 학습합니다.

이런 점에서 그들의 접근 방식은 운동학적 데이터를 입력으로 사용했던 이전 작업과 다릅니다. 그러나 이 작업에서는 다빈치의 운동학적 데이터가 신뢰성이 없을 수 있습니다.

해당 모델은 Transformer 기반 아키텍처인 ACT를 기반으로 합니다.


팀은 그래픽만을 입력으로 취하고 상대적 태도 궤적을 출력하는 전략 설계를 제안했습니다.

이 접근 방식이 성공하면 대략적인 운동학을 포함하는 대규모 임상 데이터 저장소를 추가 수정 없이 로봇 학습에 직접 사용할 수 있습니다.

이는 의심할 여지없이 로봇의 임상 수술에 큰 의미가 있습니다.

물론, 상대 동작 공식을 도입한 후 팀은 대략적인 운동학 데이터를 사용하여 DaVinci에서 모방 학습을 성공적으로 시연했습니다. 더 이상의 운동학 보정이 필요하지 않았을 뿐만 아니라 효과도 기본 방법보다 훨씬 좋았습니다.

실험에 따르면 모방 학습은 복잡한 수술 작업을 효과적으로 학습할 수 있을 뿐만 아니라 보이지 않는 실제 인간 조직과 같은 새로운 시나리오로 일반화할 수도 있습니다.

또한 손목 카메라는 수술 작업을 학습하는 데에도 매우 중요합니다.


이제 다빈치 로봇은 이전에 시연된 조직 조작, 바늘 취급, 매듭 묶기 등의 자율 작업 외에도 다양한 작업을 수행할 수 있습니다.

제로샷 일반화

스탠포드팀의 모델은 알려지지 않은 동물 조직의 존재와 같은 새로운 시나리오에 적응할 수 있는 능력을 보여주었습니다.

레오나르도 다빈치가 돼지고기를 꿰매고 묶는 영상이에요~


닭고기라면 다빈치는 고기 표면에 놓인 수술용 바늘도 정확하게 집어낼 수 있었다.


이는 향후 임상 연구의 확장 가능성을 보여줍니다.

재시도 동작

그렇다면 환경에 어떤 교란이 있어도 레오나르도 다빈치는 여전히 안정적으로 활동할 수 있을까요?

갑자기 다른 기구들이 부러져 수술용 봉합사를 고의로 떼어낸 뒤에도 레오나르도 다빈치는 멈추지 않고 매듭짓는 행위를 계속한 것으로 볼 수 있다.


아래 영상 전반에 걸쳐 다빈치는 1차 수술 시 수술용 바늘을 집지 못하는 모습을 빠르게 인지하고 자동 조절을 통해 바늘을 집는 데 성공합니다.


반복성 테스트

임상 수술은 결코 쉬운 일이 아닙니다. 임상 로봇은 재현 가능해야 하며 "완벽함"이 필수 기능입니다.

연구팀은 다빈치의 반복성 테스트 영상을 공개하고 다양한 시야각에서 여러 작동을 관찰했는데 기본적으로 흠잡을 데가 없었다.




기술 경로

아래 그림과 같이 다빈치 로봇의 dVRK 시스템은 내시경 카메라 매니퓰레이터(ECM)와 동일한 로봇 베이스를 공유하는 2개의 환자측 매니퓰레이터(PSM1, PSM2)로 구성됩니다.

각 팔은 수동적으로 설정된 관절과 전동식 능동 관절의 순차적 조합입니다.

그러나 일반적으로 모든 관절에 전위차계를 사용하면 팔의 순방향 운동학이 최대 5cm까지 부정확해집니다.


불행하게도 dVRK에서 제공하는 순운동학 데이터는 안정적이지 않습니다. 조인트(파란색)를 설정하면 조인트 측정용 전위차계만 사용하기 때문에 신뢰성이 없습니다.활성 조인트(분홍색)는 전위차계와 모터 인코더를 모두 사용하여 정확도를 향상시킵니다.

다빈치가 모방 학습을 통해 수술 작업을 완료할 수 있도록 로봇의 부정확한 순기구학을 고려하여 팀은 위에서 언급한 세 가지 동작 표현 방법을 제안했으며, 그 중 혼합 상대 방법은 병진 운동의 정확도를 더욱 향상시켰습니다.

구현 세부정보

실행 가능한 정책을 훈련하기 위해 ACT(Transformer)를 이용한 액션 청킹(Action Chunking)과 확산 전략을 연구한다.

그들은 224x224x3 이미지 크기로 축소된 내시경 및 손목 카메라 이미지를 입력으로 사용하여 정책을 훈련했습니다.

수술용 내시경 영상의 원래 입력 크기는 1024x1280x3이고 손목 영상은 480x640x3입니다.

운동학적 데이터는 dVRK의 설계 제한으로 인해 운동학적 데이터가 종종 일관성이 없기 때문에 다른 모방 학습 방법에서 흔히 볼 수 있는 입력으로 제공되지 않습니다.

정책 출력에는 엔드 이펙터(델타) 위치, (델타) 방향 및 양쪽 팔의 하악 각도가 포함됩니다.

실험 절차

이번 실험에서 연구자들의 목표는 다음 질문에 대한 답을 찾는 것이었습니다.

1. 복잡한 수술 작업에는 모방 학습이 충분합니까? 2. dVRK의 상대 운동은 절대 순 운동학보다 더 안정적입니까? 3. 성공률을 높이려면 손목 카메라를 사용하는 것이 중요합니까? 4. 보이지 않는 새로운 시나리오에서 모델이 효과적으로 일반화될 수 있습니까?

가장 먼저 평가해야 할 것은 da Vinci의 상대 운동이 절대 순 운동학보다 더 일관된지 여부입니다.

평가 방법은 다양한 로봇 구성에서 절대 및 상대 모션 공식을 사용하여 참조 궤적을 반복적으로 기록하는 것입니다.

특히 로봇은 인간의 복부를 시뮬레이션하는 돔의 동일한 구멍을 사용하여 팔과 내시경을 대략 유사한 위치에 배치해야 합니다.

구멍이 내시경 및 도구 샤프트의 치수보다 훨씬 크고 장착 조인트를 움직여 도구를 구멍에 수동으로 배치해야 하기 때문에 이 작업은 쉽지 않습니다.

전반적으로, 실험은 측정 오류가 있을 때 상대적인 움직임이 더 일관적이라는 것을 보여줍니다. 따라서 전략적 행동을 상대적인 움직임으로 모델링하는 것이 더 나은 선택입니다.


이 구성에서는 총 224회의 조직 리프팅 실험, 250회의 바늘 픽업 및 핸드오버 실험, 500회의 매듭 실험이 수집되었습니다.

그림 5는 모든 동작 표현의 반복성을 테스트하기 위해 다양한 로봇 구성에서 반복적으로 기록된 참조 궤적을 보여줍니다.

왼쪽 이미지는 기준 궤적을 획득한 이후 로봇 관절이 움직이지 않았기 때문에 모든 모션 표현에 대한 기준 궤적의 완벽한 재구성을 보여줍니다.

로봇이 왼쪽이나 오른쪽으로 움직일 때(가운데와 오른쪽 그림), 카메라 중심의 동작 표현은 기준 궤적을 추적할 수 없지만 상대 동작 표현은 기준 궤적을 잘 추적할 수 있습니다.


다양한 로봇 구성에 따른 궤적 추적

이 외에도 팀은 다양한 행동 표현을 사용하여 훈련된 모델의 작업 성공률도 평가했습니다.

결과는 상대 동작 표현(도구 중심 동작 표현 및 하이브리드 상대 동작 표현)을 사용하여 훈련된 전략이 잘 수행되는 반면 절대 순기구학을 사용하여 훈련된 전략은 실패한다는 것을 보여줍니다.

아래 사진에서 윗줄은 조직 들어올리기 작업으로, 로봇이 고무패드(조직)의 모서리를 잡고 위로 들어 올려야 하는 작업입니다.

훈련 중에 조직의 모서리는 빨간색 상자 안에 남아 테스트 시 모서리의 구성을 보여줍니다.

가운데 줄은 바늘을 따고 넘겨주는 일입니다.

훈련하는 동안 바늘은 빨간색 상자 안에 무작위로 배치되었습니다. 테스트할 때 바늘의 중앙 혹을 표시된 대로 9개 위치에 배치하여 평가 중에 일관된 설정을 적용했습니다.

아래쪽 줄에서는 로봇이 왼쪽의 로프를 사용하여 고리를 형성하고, 고리를 통해 로프의 끝을 잡고 클램프를 서로 당겨서 매듭을 묶는 과정을 수행하고 있습니다.

훈련 중에는 매트의 로프 위치를 빨간색 상자 안에 무작위로 배치한 반면, 테스트 중에는 로프를 빨간색 상자 중앙에 배치했습니다.


아래 영상은 팔의 절대 순운동학(카메라 중심 동작)을 이용한 훈련 전략의 결과를 보여줍니다.

이러한 전략은 훈련과 추론 사이에서 크게 변화하는 다빈치 팔의 순운동학 오류로 인해 작업을 완료하지 못했습니다.




또한 연구원들은 손목 카메라가 수술 작업을 학습할 때 성능이 크게 향상된다는 사실을 관찰했습니다.


분명히, 자율적으로 학습할 수 있는 수술 로봇은 앞으로 외과 의사의 역량을 더욱 확장시킬 것으로 기대됩니다.

참고자료:

https://surgical-robot-transformer.github.io/