L’intelligenza artificiale sconfigge completamente i medici umani! Lo studio ha rilevato che il processo decisionale clinico in modelli di grandi dimensioni è affrettato e pericoloso, con il tasso di precisione più basso pari solo a 13

L’intelligenza artificiale sconfigge completamente i medici umani! Lo studio ha rilevato che il processo decisionale clinico in modelli di grandi dimensioni è affrettato e pericoloso, con il tasso di precisione più basso pari a soli 13

2024-07-29

I medici umani verranno licenziati a causa di modelli di grandi dimensioni come ChatGPT?

Questa preoccupazione non è infondata. Dopotutto, il grande modello di Google (Med-PaLM 2) ha facilmente superato l’USMLE e ha raggiunto il livello di un esperto medico.

Tuttavia, un nuovo studio mostra:In termini clinici,I medici umani possono sconfiggere completamente l’attuale modello di intelligenza artificiale (AI) e non c’è bisogno di preoccuparsi troppo della “disoccupazione” personale.

Un articolo di ricerca correlato intitolato "Valutazione e mitigazione delle limitazioni dei grandi modelli linguistici nel processo decisionale clinico" è stato recentemente pubblicato sulla rivista scientifica Nature Medicine.

Lo studio ha rilevato che anche i modelli LLM (Large Language Model) più avanzati non possono effettuare diagnosi accurate per tutti i pazienti e hanno risultati significativamente peggiori rispetto ai medici umani.

L'accuratezza della diagnosi dei medici era dell'89%, mentre l'accuratezza della diagnosi del LLM era solo del 73%. In un caso estremo (diagnosi di colecistite), il LLM è stato corretto solo nel 13% dei casi.

Ancora più sorprendentemente, l'accuratezza diagnostica del LLM diminuisce man mano che vengono apprese maggiori informazioni sul caso, a volte richiedendo anche test che possono comportare seri rischi per la salute del paziente.

Come si comporta un LLM come medico di emergenza?

Sebbene il LLM possa facilmente superare l'USMLE,L'esame di licenza medica e le sfide dei casi clinici sono adatti solo per testare le conoscenze mediche generali dei candidati e sono molto meno difficili dei complessi compiti decisionali clinici quotidiani. 。

Il processo decisionale clinico è un processo in più fasi che richiede la raccolta e l’integrazione di dati provenienti da fonti disparate e la valutazione continua dei fatti per arrivare a decisioni basate sull’evidenza sulla diagnosi e sul trattamento del paziente.

Per studiare ulteriormente il potenziale del LLM nella diagnosi clinica, un gruppo di ricerca dell'Università Tecnica di Monaco e i suoi collaboratori hanno prodotto un database che copre 2400 casi di pazienti reali e 4 malattie addominali comuni basato sul Medical Information Market Intensive Care Database (MIMIC-IV) appendicite, pancreatite, colecistite e diverticolite),Simula un ambiente clinico realistico e riproduci il processo dal pronto soccorso al trattamento , valutando così la sua idoneità come decisore clinico.

Figura |. Fonte del set di dati e quadro di valutazione. Questo set di dati deriva da casi reali nel database MIMIC-IV e contiene dati completi della cartella clinica elettronica registrati durante il ricovero. Il quadro di valutazione riflette un contesto clinico reale e fornisce una valutazione completa degli LLM secondo molteplici criteri, tra cui accuratezza diagnostica, conformità con le linee guida diagnostiche e terapeutiche, coerenza nel seguire le istruzioni, capacità di interpretare i risultati di laboratorio e risposta ai cambiamenti nelle istruzioni. , robustezza ai cambiamenti nel volume e nell'ordine delle informazioni. ICD, Classificazione Internazionale delle Malattie; TC, tomografia computerizzata, ecografia MRCP, risonanza magnetica colangiopancreatografica;

Il team di ricerca ha testato Llama 2 e i suoi derivati, comprese le versioni generali (come Llama 2 Chat, Open Assistant, WizardLM) e modelli allineati al dominio medico (come Clinical Camel e Meditron).

A causa di problemi di privacy e accordi sull'utilizzo dei dati MIMIC, i dati non possono essere utilizzati per API esterne come OpenAI o Google, quindi ChatGPT, GPT-4 e Med-PaLM non sono stati testati. In particolare, Llama 2, Clinical Camel e Meditron hanno eguagliato o superato le prestazioni di ChatGPT negli esami di licenza medica e nei test di domande e risposte biomediche.

gruppo di controllo del test Sono stati inclusi quattro medici provenienti da due paesi con diversi anni di esperienza in emergenza (rispettivamente 2, 3, 4 e 29 anni). I risultati hanno mostrato che LLM ha ottenuto risultati molto peggiori rispetto ai medici umani nella diagnosi clinica.

1. La prestazione diagnostica del LLM è significativamente inferiore a quella clinica

I risultati dei medici mostrano che l’attuale LLM è significativamente inferiore ai medici nella prestazione complessiva di tutte le malattie (P <0,001),Il divario nell’accuratezza diagnostica è compreso tra il 16% e il 25% . Sebbene il modello funzioni bene nella diagnosi dell'appendicite semplice, funziona male nella diagnosi di altre patologie come la colecistite. In particolare, il modello Meditron fallisce nella diagnosi della colecistite e spesso diagnostica i pazienti con "calcoli biliari".

LLM medico professionale non supera in modo significativo gli altri modelli in termini di prestazioni complessive e quando LLM dovrà raccogliere tutte le informazioni da solo, le sue prestazioni peggioreranno ulteriormente.

Figura |. Precisione diagnostica a condizione che siano fornite tutte le informazioni. I dati si basano su un sottoinsieme di MIMIC-CDM-FI (n=80), l'accuratezza diagnostica media è mostrata sopra ogni barra e la linea verticale rappresenta la deviazione standard. La performance media del LLM è stata significativamente peggiore (P < 0,001), soprattutto nella colecistite (P < 0,001) e nella diverticolite (P < 0,001).

Figura |. Accuratezza diagnostica negli scenari decisionali clinici autonomi. Rispetto allo scenario di fornitura completa delle informazioni, l’accuratezza complessiva del giudizio del modello è diminuita in modo significativo. LLM ha ottenuto risultati migliori nella diagnosi dell'appendicite, ma ha avuto risultati scarsi in tre patologie: colecistite, diverticolite e pancreatite.

2. Il processo decisionale clinico di LLM è affrettato e pericoloso

Il gruppo di ricerca lo ha scopertoL'LLM ha prestazioni scarse nel seguire le linee guida diagnostiche e perde facilmente informazioni importanti sul paziente. . C’è anche una mancanza di coerenza nell’ordinare i test di laboratorio necessari per i pazienti. LLM presenta anche carenze significative nell'interpretazione dei risultati di laboratorio. Ciò suggerisce che stanno facendo diagnosi affrettate senza comprendere appieno il caso del paziente, ponendo un serio rischio per la salute del paziente.

Figura |. Valutazione dei metodi di trattamento raccomandati per il LLM. Il regime terapeutico desiderato è stato determinato sulla base delle linee guida cliniche e dei trattamenti effettivamente ricevuti dai pazienti nel set di dati. Su 808 pazienti, Llama 2 Chat ha diagnosticato correttamente 603 persone. Di questi 603 pazienti, Llama 2 Chat ha consigliato correttamente l'appendicectomia nel 97,5% dei casi.

3. Il LLM richiede ancora un'ampia supervisione clinica da parte dei medici

Inoltre,Tutti gli attuali LLM ottengono scarsi risultati nel seguire le linee guida mediche di base , si verifica un errore ogni 2-4 casi e una guida inesistente viene inventata ogni 2-5 casi.

Figura |. Prestazioni LLM con diverse quantità di dati. Lo studio ha confrontato le prestazioni di ciascun modello utilizzando tutte le informazioni diagnostiche rispetto all'utilizzo di un solo esame diagnostico e dell'anamnesi della malattia attuale. Per quasi tutte le malattie, nel set di dati MIMIC-CDM-FI, fornire tutte le informazioni non ha portato a prestazioni ottimali. Ciò suggerisce che LLM non è in grado di concentrarsi sui fatti chiave e le prestazioni diminuiscono quando vengono fornite troppe informazioni.

Dallo studio è inoltre emerso che l'ordine delle informazioni che fornisce le migliori prestazioni per ciascun modello è diverso per ciascuna patologia, il che senza dubbio aumenta ulteriormente la difficoltà di una successiva ottimizzazione del modello. Il compito non può essere eseguito in modo affidabile senza un’ampia supervisione medica e una valutazione preventiva. Nel complesso, presentano carenze dettagliate nel seguire le istruzioni, nell'ordine in cui le informazioni vengono elaborate e nell'elaborazione delle informazioni rilevanti, e pertanto richiedono una supervisione clinica significativa per garantire che funzionino correttamente.

Sebbene lo studio abbia riscontrato vari problemi con la diagnosi clinica di LLM, LLM è ancora molto promettente in medicina ed è probabilmente più adatto per la diagnosi basata sull'anamnesi medica e sui risultati dei test. Il gruppo di ricerca ne è convintoIl presente lavoro di ricerca ha margini di ulteriore ampliamento nei seguenti due aspetti: ：

Convalida e test del modello: ulteriori ricerche dovrebbero concentrarsi su una convalida e un test più completi del LLM per garantirne l'efficacia in contesti clinici reali.
Collaborazione multidisciplinare: si raccomanda che gli esperti di intelligenza artificiale lavorino a stretto contatto con i medici per sviluppare e ottimizzare congiuntamente LLM adatto alla pratica clinica e risolvere problemi nelle applicazioni pratiche.

In che modo l’intelligenza artificiale sta rivoluzionando l’assistenza sanitaria?

Non solo la ricerca sopra citata, ma anche un team del National Institutes of Health (NIH) e i suoi collaboratori hanno riscontrato problemi simili - rispondendo a 207 domande di sfida sull'immagine,Sebbene GPT-4V ottenga ottimi risultati nella scelta della diagnosi corretta, spesso commette errori nel descrivere le immagini mediche e nello spiegare le ragioni della diagnosi. 。

Sebbene l'intelligenza artificiale sia attualmente di gran lunga inferiore ai medici professionisti umani, la sua ricerca e applicazione nel settore medico è sempre stata un importante "campo di battaglia" per la competizione di aziende tecnologiche nazionali ed estere e università di ricerca scientifica.

Ad esempio, Google pubblicaModello grande di IA medica Med-PaLM2 , ha potenti capacità diagnostiche e terapeutiche ed è anche il primo grande modello a raggiungere il livello "esperto" nel set di test MedQA.

Proposto da un gruppo di ricerca dell'Università di Tsinghua“Agente Ospedale” , può simulare l'intero processo di cura delle malattie e il suo obiettivo principale è consentire all'agente medico di imparare come trattare le malattie in un ambiente simulato e persino accumulare continuamente esperienza da casi riusciti e falliti per raggiungere l'autoevoluzione.

La Harvard Medical School guida lo sviluppo di un nuovo strumento per la patologia umanaAssistente AI generale per il linguaggio visivo: PathChat , che può identificare correttamente le malattie dalle sezioni bioptiche in quasi il 90% dei casi e le sue prestazioni sono migliori rispetto ai modelli di intelligenza artificiale generali e ai modelli medici professionali attualmente sul mercato come GPT-4V.

Figura |. Istruzioni per ottimizzare il set di dati e la costruzione di PathChat

Recentemente, il CEO di OpenAI Sam Altman ha partecipato alla creazione di una nuova società, Thrive AI Health, che mira a utilizzare la tecnologia dell’intelligenza artificiale per aiutare le persone a migliorare le proprie abitudini quotidiane e a ridurre la mortalità dovuta a malattie croniche.

Loro hanno detto,Tecnologia AI iper-personalizzata Può migliorare efficacemente le abitudini di vita delle persone, prevenendo e gestendo così le malattie croniche, riducendo l'onere economico medico e migliorando la salute generale delle persone.

Oggi, l’applicazione dell’IA nel settore medico è gradualmente passata dalla fase sperimentale iniziale alla fase di applicazione pratica, ma potrebbe esserci ancora molta strada da fare prima che possa aiutare i medici a migliorare le proprie capacità, migliorare il processo decisionale clinico o anche sostituirlo direttamente.

notizia

L’intelligenza artificiale sconfigge completamente i medici umani! Lo studio ha rilevato che il processo decisionale clinico in modelli di grandi dimensioni è affrettato e pericoloso, con il tasso di precisione più basso pari a soli 13

introduzione

le mie informazioni di contatto