ニュース

炒め物からぬい目まで!スタンフォード大学のエビフライチームが独自の「AIダヴィンチ」を構築し外科医を目指して奮闘中

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】スタンフォードのエビフライロボットの著者が新作を発表!模倣学習を通じて、ダ ヴィンチ ロボットは組織を持ち上げたり、針を拾ったり、縫合したり結び目を結んだりする「手術」を自分で行うことを学びました。最も重要なことは、上記のすべてのアクションを独立して完了できることです。

スタンフォードシュリンプロボットの作者が新作を発表しました。

今度はロボットがチャーハンを作ってくれるのではなく、手術をしてくれるのです!

最近、ジョンズ・ホプキンス大学とスタンフォード大学の研究者らが新たな探査を実施した——

有名な医療ロボット「ダヴィンチ」は模倣学習で手術業務を学習できるのか?

実験した結果、彼らは成功しました!

ダ ヴィンチは、組織操作、針の取り扱い、結び目作成という 3 つの基本的な外科作業を独立して実行できます。


1 つ目は、医学生が指使いの練習を必要とする縫合と結び目の技術です。レオナルド ダ ヴィンチの「空飛ぶ針糸」を見たところ、彼は非常に上手に結び目を作ることができました。


次のステップは、針を拾って渡すことですが、ダ・ヴィンチはそれを一度に正確に操作できます。


3 番目の主要な課題は、組織を向上させることです。ダ ヴィンチが適切な焦点を選択し、組織を容易に向上させたことがわかります。


最も重要なことは、上記の行動はすべてレオナルド・ダ・ヴィンチが単独で完了したということです。


案の定、このレベルの繊細な操作はどう見ても懐かしい匂いがする。


論文アドレス: https://arxiv.org/abs/2407.12998

ブログアドレス: https://surgical-robot-transformer.github.io/

家庭環境でのデスクトップ操作と比較して、外科的作業では、変形可能なオブジェクトの正確な操作が必要であり、不均一な照明や遮蔽などの認識が困難な問題に直面していることに注意してください。

さらに、手術用ロボットには不正確な固有受容とヒステリシスが存在する場合があります。

彼らはこれらの問題をどのように克服したのでしょうか?

大規模な臨床データ リポジトリ、ロボットが学習可能

大規模な模倣学習は、ロボットに家事をさせるなど、タスクを操作するための汎用システムで大きな可能性を示しています。


しかし今回、研究者らは外科分野に焦点を当てている。

外科分野は、特にダヴィンチ手術ロボットの助けを借りて、大きな可能性を秘めた未開発の分野です。

2021 年の時点で、6,500 台のダ ヴィンチ システムが世界 67 か国で使用され、1,000 万件以上の手術が行われています。

さらに、これらの手術の手順は完全に記録されており、実証データの大規模なリポジトリが得られました。

このような大規模なデータを活用して、自律手術のためのジェネラリスト システムを構築できるでしょうか?

しかし研究者らが研究を始めると、模倣学習によってダヴィンチロボットに手術をさせるのは難しいことが判明した――。

DaVinci システムの独特な性質は、模倣学習の実装を妨げる独特の課題を生み出します。


右上は実際の医療環境、右下は研究者の実験装置です。

さらに、関節の測定が不正確であるため、順運動学に一貫性がなくなり、この近似的な運動学データを使用してポリシーをトレーニングするだけでは、タスクの失敗につながることがよくあります。

単純な視覚的サーボタスクでさえ、ロボットが実行することはできません。絶対的なエンドエフェクター ポーズを出力するようにトレーニングされたポリシー (ロボット ポリシーをトレーニングする一般的なアプローチ) の成功率は、すべてのタスクにわたって 0 に近くなります。


この制限を克服するにはどうすればよいでしょうか?

研究チームは、ダ ヴィンチ システムの相対運動は、絶対的な順運動学よりも一貫していることを発見しました。

そこで彼らは、相対アクション公式を導入し、その近似運動学データを戦略の訓練と展開に使用する方法を考えました。

彼らは、カメラ中心、ツール中心、ハイブリッド関連の操作という 3 つのオプションを検討しました。


カメラ中心のアクション表現は、内視鏡先端に対するエンドエフェクターの絶対的な姿勢としてアクションをモデル化するベースライン アプローチです。他の 2 つは、現在のツール (つまり、エンド エフェクター) フレームまたは内視鏡先端フレームを基準にしてアクションを定義する相対式です。

次に、入力として画像と上記のアクション表現を使用してポリシーがトレーニングされます。

この点で、彼らのアプローチは、運動学データを入力として使用した以前の研究とは異なります。ただし、この研究では、ダ ヴィンチの運動学データは信頼できない可能性があります。

彼らのモデルは、Transformer ベースのアーキテクチャである ACT に基づいています。


チームは、グラフィックスのみを入力として受け取り、相対姿勢軌道を出力する戦略設計を提案しました。

このアプローチが成功すれば、近似運動学を含む大規模な臨床データ リポジトリを、さらに修正することなくロボット学習に直接使用できる可能性があります。

これはロボットの臨床外科手術にとって間違いなく非常に重要です。

案の定、相対動作式を導入した後、チームは近似運動学データを使用して、DaVinci での模倣学習を実証することに成功しました。追加の運動学補正が必要なかっただけでなく、その効果もベースライン手法よりもはるかに優れていました。

実験によれば、模倣学習は複雑な手術作業を効果的に学習できるだけでなく、目に見えない実際の人間の組織などの新しいシナリオにも一般化できることが示されています。

また、手首カメラは外科手術の学習にも非常に重要です。


今回、ダ ヴィンチ ロボットは、これまで実証されてきた組織操作、針の取り扱い、結び目を結ぶといった自律的なタスクに加えて、さまざまな操作も実行できるようになりました。

ゼロショットの一般化

スタンフォード大学チームのモデルは、未知の動物組織の存在などの新しいシナリオに適応する能力を示しました。

これはレオナルド・ダ・ヴィンチが豚肉を縫って縛るビデオです -


鶏肉であれば、ダ・ヴィンチは肉の表面に置かれた手術用の針を正確に拾うこともできた。


これは、将来の臨床研究の拡大が期待できることを示しています。

再試行動作

では、環境に何らかの混乱があったとしても、レオナルド・ダ・ヴィンチは安定したパフォーマンスを維持できるのでしょうか?

他の器具が突然侵入し、意図的に手術用の縫合糸を剥がした後も、レオナルド・ダ・ヴィンチは止まらず、結び目を作る行為を続けたことがわかります。


以下のビデオでは、ダ ヴィンチは最初の手術中に手術針の拾い上げに失敗していますが、すぐにこの事実に気づき、自動調整によって針の拾い上げに成功しています。


再現性試験

臨床手術は子供の遊びではありません。臨床ロボットは再現可能でなければならず、「絶対確実」であることがその必須の機能です。

研究チームはダ・ヴィンチの再現性テストのビデオを公開し、さまざまな角度からその複数の動作を観察したが、基本的に完璧だった。




テクニカルパス

以下の図に示すように、ダ ヴィンチ ロボットの dVRK システムは、同じロボット ベースを共有する内視鏡カメラ マニピュレーター (ECM) と 2 つの患者側マニピュレーター (PSM1、PSM2) で構成されます。

各アームは、受動的に設定されたジョイントと、それに続く電動のアクティブなジョイントの連続的な組み合わせです。

ただし、一般に、すべての関節にポテンショメータを使用すると、最大 5 cm であっても腕の前方運動学が不正確になります。


残念ながら、dVRK が提供する順運動学データは安定していません。これは、ジョイント (青) の設定ではジョイントの測定にポテンショメータのみが使用されるため、信頼性が低いためです。アクティブ ジョイント (ピンク) はポテンショメータとモーター エンコーダの両方を使用して精度を向上させます。

ダヴィンチが模倣学習を通じて外科手術タスクを完了できるようにするために、ロボットの順運動学が不正確であることを考慮して、研究チームは上記の 3 つの動作表現方法を提案しました。その中で、混合相対法は並進運動の精度をさらに向上させました。

実装の詳細

実現可能な政策を訓練するために、Transformer (ACT) を使用したアクション チャンキングと普及戦略の使用が研究されています。

彼らは、224x224x3 の画像サイズに縮小された内視鏡画像とリストカメラ画像を入力として使用してポリシーをトレーニングしました。

手術内視鏡画像の元の入力サイズは 1024x1280x3、手首画像は 480x640x3 です。

運動学的データは、dVRK の設計制限により一貫性がないことが多いため、他の模倣学習方法では一般的であるように、運動学的データは入力として提供されません。

ポリシー出力には、エンドエフェクター (デルタ) 位置、(デルタ) 方向、両アームの下顎角度が含まれます。

実験手順

この実験での研究者の目標は、これらの質問に対する答えを見つけることでした。

1. 複雑な外科的タスクには模倣学習で十分ですか? 2. dVRK の相対運動は、絶対的な順運動学よりも安定していますか? 3. リストカメラの使用は成功率を向上させるために重要ですか? 4. モデルは、まだ見たことのない新しいシナリオで効果的に一般化できますか?

最初に評価すべきことは、ダ ヴィンチの相対運動が絶対的な順運動学よりも一貫しているかどうかです。

評価方法は、異なるロボット構成の下で絶対および相対運動式を使用して基準軌道を繰り返し記録することです。

具体的には、ロボットは、人間の腹部を模したドーム内の同じ穴を使用して、アームと内視鏡をほぼ同じ位置に配置する必要があります。

この作業は簡単ではありません。なぜなら、穴は内視鏡やツールのシャフトの寸法よりはるかに大きく、取り付けジョイントを動かしてツールを手動で穴に配置する必要があるからです。

全体的に、実験は、測定誤差が存在する場合、相対運動がより一貫していることを示しています。したがって、戦略的アクションを相対運動としてモデル化することは、より良い選択です。


この構成では、合計 224 件の組織リフティング実験、250 件の針のピックアップとハンドオーバー実験、および 500 件の結び目実験が収集されました。

図 5 は、すべてのアクション表現の再現性をテストするために、さまざまなロボット構成の下で繰り返し記録された基準軌道を示しています。

左側の画像は、基準軌道が取得されてからロボットの関節が動いていないため、すべての動作表現の基準軌道が完全に再構成されたものを示しています。

ロボットが左右に動く場合(写真中、右)、カメラ中心の動作表現では基準軌道を追従できませんが、相対動作表現では基準軌道をうまく追従できます。


さまざまなロボット構成での軌道追跡

これに加えて、チームはさまざまなアクション表現を使用してトレーニングされたモデルのタスク成功率も評価しました。

結果は、相対アクション表現 (ツール中心のアクション表現とハイブリッド相対アクション表現) を使用してトレーニングされた戦略はうまく機能する一方、絶対順運動学を使用してトレーニングされた戦略は失敗することを示しています。

下の図では、上の行は組織を持ち上げるタスクです。ロボットはゴムパッド (組織) の角を掴んで上に持ち上げる必要があります。

トレーニング中、組織の角は赤いボックス内に残り、テスト時の角の構成を示します。

中段は針の採取と受け渡しです。

トレーニング中、針は赤いボックスの中にランダムに配置されました。テスト時には、評価中に一貫した設定を強制するために、示されているように針の中央のこぶを 9 つの位置に配置しました。

下の列では、ロボットが左側のロープを使って輪を作り、輪を通してロープの端を掴み、クランプを互いに引き離すことで結び目を作っているところです。

トレーニング中は、マットからのロープの位置が赤いボックス内にランダムに配置されましたが、テスト中はロープが赤いボックスの中央に配置されました。


以下のビデオは、腕の絶対順運動学 (カメラ中心の動き) を使用したトレーニング戦略の結果を示しています。

これらの戦略は、訓練と推論の間で大きく変化するダ ヴィンチの腕の前方運動学のエラーのため、タスクを完了できませんでした。




さらに研究者らは、リストカメラにより外科的作業を学習する際のパフォーマンスが大幅に向上することを観察しました。


自律的に学習できる手術ロボットは、将来的に外科医の能力をさらに拡大すると期待されているのは明らかです。

参考文献:

https://surgical-robot-transformer.github.io/