AIは人間の医師に完全敗北！この研究では、大規模モデルでの臨床意思決定は性急で安全ではなく、最も低い精度率はわずか 13

AIは人間の医師に完全敗北！この研究では、大規模モデルでの臨床意思決定は性急で安全ではなく、最も低い精度率はわずか 13 であることが判明しました。

2024-07-29

ChatGPTのような大型モデルのせいで人間の医師が次々と解雇されるのでしょうか？

この心配は杞憂ではない。結局のところ、Google の大きなモデル (Med-PaLM 2) は USMLE を簡単に通過し、医療専門家のレベルに達しました。

しかし、新しい研究は次のことを示しています。臨床的に言えば、人間の医師は現在の人工知能（AI）モデルを完全に打ち負かすことができ、個人の「失業」について過度に心配する必要はありません。

「臨床意思決定における大規模言語モデルの制限の評価と緩和」と題された関連研究論文が、最近科学雑誌 Nature Medicine に掲載されました。

この研究では、最先端の大規模言語モデル (LLM) であっても、すべての患者に対して正確な診断を行うことはできず、人間の医師よりもパフォーマンスが著しく悪いことが判明しました。

医師の診断精度は 89% でしたが、LLM の診断精度はわずか 73% でした。極端なケース (胆嚢炎の診断) では、LLM が正しかったのは 13% のみでした。

さらに驚くべきことに、症例に関する情報が増えるにつれてLLMの診断精度は低下し、場合によっては患者に深刻な健康リスクを引き起こす可能性のある検査が必要になることさえあります。

LLM は救急医としてどのように機能しますか?

LLM は USMLE に簡単に合格できますが、医師免許試験と臨床症例の課題は、受験者の一般的な医学知識を試験する場合にのみ適しており、毎日の複雑な臨床上の意思決定タスクよりもはるかに難易度が低いです。。

臨床上の意思決定は、証拠に基づいた患者の診断と治療の決定に到達するために、異種の情報源からのデータの収集と統合、および事実の継続的な評価を必要とする多段階のプロセスです。

臨床診断における LLM の可能性をさらに調査するために、ミュンヘン工科大学の研究チームとその協力者は、医療情報市場集中治療データベース (MIMIC-IV) に基づいて、実際の患者症例 2400 件と一般的な腹部疾患 4 つをカバーするデータベースを作成しました。虫垂炎、膵炎、胆嚢炎、憩室炎）、現実的な臨床環境をシミュレートし、救急治療室から治療までのプロセスを再現します。 、それによって臨床上の意思決定者としての適合性を評価します。

図 | データセットのソースと評価フレームワーク。このデータセットは MIMIC-IV データベース内の実際の症例から派生したもので、入院中に記録された包括的な電子医療記録データが含まれています。この評価フレームワークは実際の臨床現場を反映しており、診断の正確さ、診断と治療のガイドラインへの準拠、指示に従う一貫性、検査結果を解釈する能力、指示の変更への対応など、複数の基準にわたって LLM の包括的な評価を提供します。、情報量や情報順序の変化に対する堅牢性。 ICD、国際疾病分類、CT、コンピューター断層撮影、US、MRCP、磁気共鳴胆道膵管造影。

研究チームは、Llama 2 と、一般バージョン (Llama 2 Chat、Open Assistant、WizardLM など) および医療ドメインに合わせたモデル (Clinical Camel や Meditron など) を含むその派生製品をテストしました。

MIMIC データのプライバシーの問題とデータ使用契約により、このデータは OpenAI や Google などの外部 API に使用できないため、ChatGPT、GPT-4、および Med-PaLM はテストされませんでした。特に、Llama 2、Clinical Camel、Meditron は、医師免許試験や生物医学の質疑応答テストで ChatGPT のパフォーマンスと同等かそれを上回っています。

テストコントロールグループ 救急経験年数の異なる 2 か国の 4 人の医師 (それぞれ 2 年、3 年、4 年、29 年) が参加しました。その結果、LLM は臨床診断において人間の医師よりもはるかに悪いパフォーマンスを示しました。

1. LLM の診断性能は臨床診断性能よりも大幅に低い

医師の結果は、現在のLLMがすべての疾患の全体的なパフォーマンスにおいて医師よりも大幅に劣っていることを示しています（P < 0.001）。診断精度の差は 16% ～ 25% です 。このモデルは単純な虫垂炎の診断では良好に機能しますが、胆嚢炎などの他の病状の診断ではあまり機能しません。特に、メディトロンモデルは胆嚢炎の診断に失敗し、多くの場合、患者を「胆石」と診断します。

専門的な医療 LLM は、全体的なパフォーマンスにおいて他のモデルを大幅に上回ることはありません また、LLM がすべての情報を独自に収集する必要がある場合、そのパフォーマンスはさらに低下します。

図 | すべての情報が提供された場合の診断精度。データは MIMIC-CDM-FI のサブセット (n=80) に基づいており、平均診断精度が各バーの上に示され、垂直線は標準偏差を表します。 LLM の平均パフォーマンスは、特に胆嚢炎 (P < 0.001) および憩室炎 (P < 0.001) において著しく悪かった (P < 0.001)。

図 | 自律的な臨床意思決定シナリオにおける診断精度。完全な情報提供シナリオと比較すると、全体的なモデル判断の精度が大幅に低下しています。 LLM は虫垂炎の診断では最も優れた性能を発揮しましたが、胆嚢炎、憩室炎、膵炎の 3 つの病状ではあまり性能が良くありませんでした。

2. LLM の臨床決定は性急で安全ではない

研究チームが発見したのは、LLM は診断ガイドラインに従う能力が低く、重要な患者情報を簡単に見逃します。 。患者に必要な臨床検査の指示にも一貫性が欠けています。 LLM には、検査結果の解釈においても重大な欠点があります。これは、彼らが患者の症例を十分に理解せずに性急な診断を下しており、患者の健康に重大なリスクをもたらしていることを示唆しています。

図 | LLM が推奨する治療法の評価。望ましい治療計画は、臨床ガイドラインとデータセット内の患者が実際に受けた治療に基づいて決定されました。 808 人の患者のうち、Llama 2 Chat は 603 人を正しく診断しました。これら 603 人の患者のうち、Llama 2 Chat は 97.5% の確率で虫垂切除術を正しく推奨しました。

3. LLM は依然として医師による広範な臨床監督を必要とします

加えて、現在のLLMはすべて、基本的な医療指導に従ったパフォーマンスが低い 、2 ～ 4 件ごとにエラーが発生し、2 ～ 5 件ごとに存在しないガイダンスが作成されます。

図 | さまざまなデータ量での LLM のパフォーマンス。この研究では、すべての診断情報を使用した場合と、単一の診断検査と現在の病気の病歴のみを使用した場合とで、各モデルのパフォーマンスを比較しました。ほぼすべての疾患について、MIMIC-CDM-FI データセットでは、すべての情報を提供しても最適なパフォーマンスは得られませんでした。これは、LLM が重要な事実に焦点を当てることができず、提供される情報が多すぎるとパフォーマンスが低下することを示唆しています。

この研究では、各モデルに最高のパフォーマンスを提供する情報の順序が病状ごとに異なることも示されており、これが間違いなくその後のモデルの最適化の難易度をさらに高めています。医師による広範な監督と事前の評価がなければ、この作業を確実に実行することはできません。全体として、指示への従うこと、情報が処理される順序、関連情報の処理に詳細な欠陥があるため、正しく機能することを確認するには重要な臨床監督が必要です。

この研究ではLLMの臨床診断にさまざまな問題があることが判明したが、LLMは依然として医学において大きな期待があり、病歴や検査結果に基づく診断にはより適していると考えられる。研究チームは次のように考えていますこの研究活動には、次の 2 つの側面においてさらに拡張する余地があります。 ：

モデルの検証とテスト: 実際の臨床現場での有効性を確保するために、さらなる研究は LLM のより包括的な検証とテストに焦点を当てる必要があります。
学際的なコラボレーション: AI 専門家が臨床医と緊密に連携して、臨床実践に適した LLM を共同開発および最適化し、実際のアプリケーションの問題を解決することが推奨されます。

AI は医療にどのような混乱をもたらしているのでしょうか?

上記の研究だけでなく、国立衛生研究所 (NIH) のチームとその協力者も同様の問題を発見しました。207 の画像チャレンジの質問に答えると、GPT-4V は、正しい診断を選択する点では高いスコアを示しますが、医療画像の説明や診断の背後にある理由の説明ではしばしば間違いを犯します。 。

現在、AI は人間の専門の医師に比べてはるかに劣っていますが、医療業界における AI の研究と応用は常に、国内外のテクノロジー企業や科学研究大学が競争する重要な「戦場」となってきました。

たとえば、Google が公開しているのは、医療AI大型モデル Med-PaLM2 は、強力な診断および治療機能を備えており、MedQA テストセットで「エキスパート」レベルに達した最初の大型モデルでもあります。

清華大学の研究チームが提案「エージェント病院」 、病気の治療プロセス全体をシミュレートでき、その中心的な目標は、医師エージェントに模擬環境で病気の治療方法を学習させ、成功例と失敗例から継続的に経験を蓄積して自己進化を達成することです。

ハーバード大学医学部が人間の病理学のための新しいツールの開発を主導視覚言語総合AIアシスタント——PathChat 、ほぼ90%のケースで生検切片から疾患を正確に特定でき、そのパフォーマンスは一般的なAIモデルやGPT-4Vなど現在市場にある専門的な医療モデルよりも優れています。

図 | データセットと PathChat 構築を微調整する手順

最近、OpenAI CEO のサムアルトマンは、AI テクノロジーを利用して人々の日常習慣を改善し、慢性疾患による死亡率を減らすことを目的とした新会社 Thrive AI Health の設立に参加しました。

彼らは言った、ハイパーパーソナライズされた AI テクノロジー 人々の生活習慣を効果的に改善し、それによって慢性疾患を予防および管理し、医療経済的負担を軽減し、人々の健康全体を改善することができます。

現在、医療業界における AI の応用は初期の実験段階から実用化の段階に徐々に移行していますが、臨床医の能力向上や臨床上の意思決定の向上に役立つようになるまでには、まだ長い道のりが残されている可能性があります。直接交換しても構いません。

ニュース

AIは人間の医師に完全敗北！この研究では、大規模モデルでの臨床意思決定は性急で安全ではなく、最も低い精度率はわずか 13 であることが判明しました。

導入

私の連絡先情報