L’IA bat complètement les médecins humains ! L'étude a révélé que la prise de décision clinique dans les grands modèles est hâtive et dangereuse, le taux de précision le plus bas n'étant que de 13.

L’IA bat complètement les médecins humains ! L'étude a révélé que la prise de décision clinique dans les grands modèles est hâtive et dangereuse, le taux de précision le plus bas étant de seulement 13.

2024-07-29

Les médecins humains seront-ils licenciés les uns après les autres à cause des grands modèles comme ChatGPT ?

Cette inquiétude n’est pas sans fondement. Après tout, le grand modèle de Google (Med-PaLM 2) a facilement passé l’USMLE et atteint le niveau d’expert médical.

Cependant, une nouvelle étude montre :En termes cliniques,Les médecins humains peuvent complètement vaincre le modèle actuel d'intelligence artificielle (IA), et il n'y a pas lieu de trop s'inquiéter du « chômage » personnel.

Un article de recherche connexe intitulé « Évaluation et atténuation des limites des grands modèles de langage dans la prise de décision clinique » a été récemment publié dans la revue scientifique Nature Medicine.

L'étude a révélé que même les grands modèles de langage (LLM) les plus avancés ne peuvent pas établir de diagnostics précis pour tous les patients et sont bien moins performants que les médecins humains -

La précision du diagnostic des médecins était de 89 %, tandis que celle du LLM n'était que de 73 %. Dans un cas extrême (diagnostic de cholécystite), le LLM n’était correct que dans 13 % des cas.

Plus surprenant encore, la précision du diagnostic du LLM diminue à mesure que davantage d'informations sont obtenues sur le cas, nécessitant parfois même des tests pouvant présenter de graves risques pour la santé du patient.

Comment fonctionne un LLM en tant que médecin urgentiste?

Bien que le LLM puisse facilement réussir l'USMLE,L’examen d’autorisation médicale et le défi de cas clinique conviennent uniquement pour tester les connaissances médicales générales des candidats et sont beaucoup moins difficiles que les tâches complexes de prise de décision clinique quotidienne. 。

La prise de décision clinique est un processus en plusieurs étapes qui nécessite la collecte et l'intégration de données provenant de sources disparates et l'évaluation continue des faits pour arriver à des décisions fondées sur des preuves concernant le diagnostic et le traitement du patient.

Pour étudier plus en détail le potentiel du LLM dans le diagnostic clinique, une équipe de recherche de l'Université technique de Munich et ses collaborateurs ont produit une base de données couvrant 2 400 cas de patients réels et 4 maladies abdominales courantes, basée sur la base de données sur les soins intensifs du marché de l'information médicale (MIMIC-IV). .appendicite, pancréatite, cholécystite et diverticulite).Simulez un environnement clinique réaliste et reproduisez le processus de la salle d'urgence au traitement. , évaluant ainsi son aptitude en tant que décideur clinique.

Figure | Source de l’ensemble de données et cadre d’évaluation. Cet ensemble de données est dérivé de cas réels dans la base de données MIMIC-IV et contient des données complètes du dossier de santé électronique enregistrées pendant l'hospitalisation. Le cadre d'évaluation reflète un environnement clinique réel et fournit une évaluation complète des LLM selon plusieurs critères, notamment l'exactitude du diagnostic, le respect des directives de diagnostic et de traitement, la cohérence dans le suivi des instructions, la capacité à interpréter les résultats de laboratoire et la réponse aux modifications des instructions. , robustesse aux changements de volume et d’ordre des informations. CIM, Classification internationale des maladies ; tomodensitométrie ; échographie, MRCP, cholangiopancréatographie par résonance magnétique.

L'équipe de recherche a testé Llama 2 et ses dérivés, y compris des versions générales (telles que Llama 2 Chat, Open Assistant, WizardLM) et des modèles alignés sur le domaine médical (tels que Clinical Camel et Meditron).

En raison de problèmes de confidentialité et d'accords d'utilisation des données MIMIC, les données ne peuvent pas être utilisées pour des API externes telles que OpenAI ou Google, c'est pourquoi ChatGPT, GPT-4 et Med-PaLM n'ont pas été testés. Notamment, Llama 2, Clinical Camel et Meditron ont égalé ou dépassé les performances de ChatGPT aux examens de licence médicale et aux tests de questions et réponses biomédicales.

groupe témoin de test Quatre médecins de deux pays ayant différentes années d'expérience en urgence (respectivement 2, 3, 4 et 29 ans) ont été inclus. Les résultats ont montré que les LLM étaient bien moins performants que les médecins humains en matière de diagnostic clinique.

1. Les performances diagnostiques du LLM sont nettement inférieures à celles du clinique

Les résultats des médecins montrent que le LLM actuel est nettement inférieur aux médecins dans la performance globale de toutes les maladies (P < 0,001),L'écart de précision du diagnostic se situe entre 16 % et 25 % . Bien que le modèle soit performant dans le diagnostic de l'appendicite simple, il fonctionne mal dans le diagnostic d'autres pathologies telles que la cholécystite. En particulier, le modèle Meditron échoue dans le diagnostic de la cholécystite et diagnostique souvent des « calculs biliaires ».

Le LLM médical professionnel ne surpasse pas de manière significative les autres modèles en termes de performances globales , et lorsque LLM doit collecter toutes les informations par lui-même, ses performances se dégraderont encore davantage.

Figure | Précision du diagnostic à condition que toutes les informations soient fournies. Les données sont basées sur un sous-ensemble de MIMIC-CDM-FI (n = 80), la précision diagnostique moyenne est indiquée au-dessus de chaque barre et la ligne verticale représente l'écart type. Les performances moyennes du LLM étaient significativement moins bonnes (P < 0,001), notamment dans les cholécystites (P < 0,001) et les diverticulites (P < 0,001).

Figure | Précision du diagnostic dans des scénarios de prise de décision clinique autonome. Par rapport au scénario de fourniture d’informations complètes, la précision globale du jugement du modèle a considérablement diminué. Le LLM a donné les meilleurs résultats dans le diagnostic de l'appendicite, mais a donné de mauvais résultats dans trois pathologies : la cholécystite, la diverticulite et la pancréatite.

2. La prise de décision clinique du LLM est hâtive et dangereuse

L'équipe de recherche a découvert queLLM fonctionne mal en suivant les directives de diagnostic et manque facilement des informations importantes sur les patients. . Il existe également un manque de cohérence dans la prescription des tests de laboratoire nécessaires pour les patients. Le LLM présente également des lacunes importantes dans l’interprétation des résultats de laboratoire. Cela suggère qu'ils posent des diagnostics hâtifs sans bien comprendre le cas du patient, ce qui pose un risque sérieux pour la santé du patient.

Figure | Évaluation des méthodes de traitement recommandées par LLM. Le schéma thérapeutique souhaité a été déterminé sur la base des directives cliniques et des traitements réellement reçus par les patients dans l'ensemble de données. Sur 808 patients, Llama 2 Chat a correctement diagnostiqué 603 personnes. Sur ces 603 patients, Llama 2 Chat a correctement recommandé l'appendicectomie dans 97,5 % des cas.

3. Le LLM nécessite toujours une supervision clinique approfondie de la part des médecins

en outre,Tous les LLM actuels fonctionnent mal en suivant les conseils médicaux de base , une erreur se produit tous les 2 à 4 cas et un guidage inexistant est inventé tous les 2 à 5 cas.

Figure | Performances LLM sous différentes quantités de données. L'étude a comparé les performances de chaque modèle en utilisant toutes les informations diagnostiques par rapport à l'utilisation d'un seul examen diagnostique et des antécédents de la maladie actuelle. Pour presque toutes les maladies, dans l’ensemble de données MIMIC-CDM-FI, la fourniture de toutes les informations n’a pas conduit à des performances optimales. Cela suggère que LLM est incapable de se concentrer sur les faits clés et que les performances se dégradent lorsque trop d'informations sont fournies.

L'étude a également montré que l'ordre des informations qui fournit les meilleures performances pour chaque modèle est différent pour chaque pathologie, ce qui augmente sans doute encore la difficulté de l'optimisation ultérieure du modèle. La tâche ne peut être effectuée de manière fiable sans une supervision médicale approfondie et une évaluation préalable. Dans l’ensemble, ils présentent des lacunes détaillées dans le suivi des instructions, l’ordre dans lequel les informations sont traitées et le traitement des informations pertinentes, et nécessitent donc une supervision clinique importante pour garantir leur bon fonctionnement.

Bien que l'étude ait révélé divers problèmes liés au diagnostic clinique du LLM, le LLM reste très prometteur en médecine et est probablement plus adapté au diagnostic basé sur les antécédents médicaux et les résultats des tests. L'équipe de recherche estime queCe travail de recherche pourrait être développé davantage dans les deux aspects suivants : ：

Validation et tests du modèle : des recherches supplémentaires devraient se concentrer sur une validation et des tests plus complets du LLM pour garantir son efficacité dans des contextes cliniques réels.
Collaboration multidisciplinaire : il est recommandé que les experts en IA travaillent en étroite collaboration avec les cliniciens pour développer et optimiser conjointement le LLM adapté à la pratique clinique et résoudre les problèmes dans des applications pratiques.

Comment l’IA bouleverse-t-elle les soins de santé ?

Non seulement la recherche mentionnée ci-dessus, mais également une équipe des National Institutes of Health (NIH) et leurs collaborateurs ont également découvert des problèmes similaires : en répondant à 207 questions de défi d'image,Bien que le GPT-4V obtienne d’excellents résultats dans la sélection du diagnostic correct, il commet souvent des erreurs dans la description des images médicales et dans l’explication des raisons du diagnostic. 。

Bien que l'IA soit actuellement bien inférieure aux médecins professionnels humains, sa recherche et ses applications dans l'industrie médicale ont toujours été un « champ de bataille » important pour la concurrence entre les entreprises technologiques nationales et étrangères et les universités de recherche scientifique.

Par exemple, Google publieIA médicale grand modèle Med-PaLM2 , possède de puissantes capacités de diagnostic et de traitement, et est également le premier grand modèle à atteindre le niveau « expert » dans l'ensemble de tests MedQA.

Proposé par une équipe de recherche de l'Université Tsinghua« Hôpital des agents » , peut simuler l'ensemble du processus de traitement des maladies, et son objectif principal est de permettre à l'agent médecin d'apprendre à traiter les maladies dans un environnement simulé, et même d'accumuler continuellement l'expérience des cas réussis et échoués pour parvenir à une auto-évolution.

La Harvard Medical School dirige le développement d’un nouvel outil pour la pathologie humaineAssistant général d'IA en langage visuel——PathChat , qui peut identifier correctement les maladies à partir de coupes de biopsie dans près de 90 % des cas, et ses performances sont meilleures que les modèles d'IA généraux et les modèles médicaux professionnels actuellement sur le marché tels que le GPT-4V.

Figure | Instructions pour affiner l'ensemble de données et la construction de PathChat

Récemment, Sam Altman, PDG d'OpenAI, a participé à la création d'une nouvelle société, Thrive AI Health, qui vise à utiliser la technologie de l'IA pour aider les gens à améliorer leurs habitudes quotidiennes et à réduire la mortalité due aux maladies chroniques.

Ils ont dit,Technologie d'IA hyper-personnalisée Il peut améliorer efficacement les habitudes de vie des gens, prévenant et gérant ainsi les maladies chroniques, réduisant le fardeau médical et économique et améliorant la santé globale des gens.

Aujourd’hui, l’application de l’IA dans l’industrie médicale est progressivement passée de la phase expérimentale initiale à la phase d’application pratique, mais il reste peut-être encore un long chemin à parcourir avant qu’elle puisse aider les cliniciens à renforcer leurs capacités, à améliorer la prise de décision clinique ou même le remplacer directement.

nouvelles

L’IA bat complètement les médecins humains ! L'étude a révélé que la prise de décision clinique dans les grands modèles est hâtive et dangereuse, le taux de précision le plus bas étant de seulement 13.

Introduction

mes coordonnées