noticias

¡La IA es completamente derrotada por los médicos humanos! El estudio encontró que la toma de decisiones clínicas en modelos grandes es apresurada e insegura, siendo la tasa de precisión más baja de solo 13

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


¿Los médicos humanos serán despedidos uno tras otro debido a grandes modelos como ChatGPT?

Esta preocupación no es infundada. Después de todo, el gran modelo de Google (Med-PaLM 2) pasó fácilmente el USMLE y alcanzó el nivel de experto médico.

Sin embargo, un nuevo estudio muestra:En términos clínicos,Los médicos humanos pueden derrotar por completo el modelo actual de inteligencia artificial (IA) y no hay necesidad de preocuparse demasiado por el "desempleo" personal.

Recientemente se publicó en la revista científica Nature Medicine un artículo de investigación relacionado titulado "Evaluación y mitigación de las limitaciones de los modelos de lenguaje grandes en la toma de decisiones clínicas".


El estudio encontró que incluso los modelos de lenguaje grande (LLM) más avanzados no pueden realizar diagnósticos precisos para todos los pacientes y funcionan significativamente peor que los médicos humanos.

La precisión del diagnóstico de los médicos fue del 89%, mientras que la precisión del diagnóstico del LLM fue solo del 73%. En un caso extremo (diagnóstico de colecistitis), la LLM fue correcta sólo el 13% de las veces.

Aún más sorprendente es que la precisión diagnóstica de LLM disminuye a medida que se obtiene más información sobre el caso, y en ocasiones incluso se requieren pruebas que pueden plantear graves riesgos para la salud del paciente.

¿Cómo le va a un LLM como médico de urgencias?

Aunque el LLM puede aprobar fácilmente el USMLE,El examen de licencia médica y los desafíos de casos clínicos son adecuados para evaluar el conocimiento médico general de los candidatos únicamente y son mucho menos difíciles que las complejas tareas diarias de toma de decisiones clínicas.

La toma de decisiones clínicas es un proceso de varios pasos que requiere la recopilación e integración de datos de fuentes dispares y la evaluación continua de los hechos para llegar a un diagnóstico del paciente y decisiones de tratamiento basadas en evidencia.

Para investigar más a fondo el potencial de LLM en el diagnóstico clínico, un equipo de investigación de la Universidad Técnica de Munich y sus colaboradores produjeron una base de datos que cubre 2400 casos reales de pacientes y 4 enfermedades abdominales comunes basada en la base de datos de cuidados intensivos del mercado de información médica (MIMIC-IV). . apendicitis, pancreatitis, colecistitis y diverticulitis).Simule un entorno clínico realista y reproduzca el proceso desde la sala de urgencias hasta el tratamiento. , evaluando así su idoneidad como tomador de decisiones clínicas.


Figura | Fuente del conjunto de datos y marco de evaluación. Este conjunto de datos se deriva de casos reales en la base de datos MIMIC-IV y contiene datos completos de registros médicos electrónicos registrados durante la hospitalización. El marco de evaluación refleja un entorno clínico de la vida real y proporciona una evaluación integral de los LLM a través de múltiples criterios, incluida la precisión del diagnóstico, el cumplimiento de las pautas de diagnóstico y tratamiento, la coherencia en el seguimiento de las instrucciones, la capacidad de interpretar los resultados de laboratorio y la respuesta a los cambios en las instrucciones. , robustez ante cambios en el volumen y el orden de la información. CIE, Clasificación Internacional de Enfermedades; TC, tomografía computarizada; ecografía, CPRM, colangiopancreatografía por resonancia magnética.

El equipo de investigación probó Llama 2 y sus derivados, incluidas versiones generales (como Llama 2 Chat, Open Assistant, WizardLM) y modelos alineados con el dominio médico (como Clinical Camel y Meditron).

Debido a problemas de privacidad y acuerdos de uso de datos de MIMIC, los datos no se pueden utilizar para API externas como OpenAI o Google, por lo que ChatGPT, GPT-4 y Med-PaLM no se probaron. En particular, Llama 2, Clinical Camel y Meditron han igualado o superado el rendimiento de ChatGPT en exámenes de licencia médica y pruebas biomédicas de preguntas y respuestas.

grupo de control de prueba Se incluyeron cuatro médicos de dos países con diferentes años de experiencia en emergencias (2, 3, 4 y 29 años, respectivamente). Los resultados mostraron que LLM tuvo un desempeño mucho peor que los médicos humanos en el diagnóstico clínico.

1. El rendimiento diagnóstico de LLM es significativamente menor que el de la clínica.

Los resultados de los médicos muestran que el LLM actual es significativamente inferior a los médicos en el desempeño general de todas las enfermedades (P <0,001),La brecha de precisión diagnóstica está entre el 16% y el 25% . Aunque el modelo funciona bien en el diagnóstico de apendicitis simple, funciona mal en el diagnóstico de otras patologías como la colecistitis. En particular, el modelo Meditron falla en el diagnóstico de colecistitis y, a menudo, diagnostica pacientes con "cálculos biliares".

El LLM médico profesional no supera significativamente a otros modelos en rendimiento general Y cuando LLM necesite recopilar toda la información por sí mismo, su rendimiento se degradará aún más.


Figura | Precisión del diagnóstico bajo la condición de que se proporcione toda la información. Los datos se basan en un subconjunto de MIMIC-CDM-FI (n=80), la precisión diagnóstica promedio se muestra encima de cada barra y la línea vertical representa la desviación estándar. El rendimiento medio de LLM fue significativamente peor (P <0,001), especialmente en colecistitis (P <0,001) y diverticulitis (P <0,001).


Figura | Precisión diagnóstica en escenarios de toma de decisiones clínicas autónomas. En comparación con el escenario de provisión de información completa, la precisión general del juicio del modelo ha disminuido significativamente. LLM tuvo mejores resultados en el diagnóstico de apendicitis, pero tuvo malos resultados en tres patologías: colecistitis, diverticulitis y pancreatitis.

2. Las decisiones clínicas de LLM son apresuradas e inseguras

El equipo de investigación encontró queLLM tiene un desempeño deficiente a la hora de seguir las pautas de diagnóstico y fácilmente pasa por alto información importante del paciente. . También hay una falta de coherencia a la hora de solicitar las pruebas de laboratorio necesarias para los pacientes. LLM también tiene importantes deficiencias en la interpretación de los resultados de laboratorio. Esto sugiere que están haciendo diagnósticos apresurados sin comprender completamente el caso del paciente, lo que representa un grave riesgo para la salud del paciente.


Figura | Evaluación de los métodos de tratamiento recomendados por LLM. El régimen de tratamiento deseado se determinó en función de las directrices clínicas y los tratamientos realmente recibidos por los pacientes en el conjunto de datos. De 808 pacientes, Llama 2 Chat diagnosticó correctamente a 603 personas. De estos 603 pacientes, Llama 2 Chat recomendó correctamente la apendicectomía el 97,5% de las veces.

3. LLM todavía requiere una amplia supervisión clínica por parte de los médicos

además,Todos los LLM actuales tienen un desempeño deficiente en el seguimiento de las pautas médicas básicas. , se produce un error cada 2-4 casos y cada 2-5 casos se inventa una guía inexistente.


Figura | Rendimiento de LLM con diferentes cantidades de datos. El estudio comparó el rendimiento de cada modelo utilizando toda la información de diagnóstico versus el uso de un solo examen de diagnóstico y el historial de la enfermedad actual. Para casi todas las enfermedades, en el conjunto de datos MIMIC-CDM-FI, proporcionar toda la información no condujo a un rendimiento óptimo. Esto sugiere que LLM no puede centrarse en hechos clave y el rendimiento se degrada cuando se proporciona demasiada información.

El estudio también demostró que el orden de información que mejor rendimiento proporciona para cada modelo es diferente para cada patología, lo que sin duda aumenta aún más la dificultad de optimización posterior del modelo. La tarea no se puede realizar de manera confiable sin una supervisión médica exhaustiva y una evaluación previa. En general, tienen deficiencias detalladas en el seguimiento de instrucciones, el orden en que se procesa la información y el procesamiento de información relevante y, por lo tanto, requieren una supervisión clínica significativa para garantizar que funcionen correctamente.

Aunque el estudio encontró varios problemas con el diagnóstico clínico de LLM, LLM todavía es muy prometedor en medicina y es probable que sea más adecuado para el diagnóstico basado en el historial médico y los resultados de las pruebas. El equipo de investigación cree queEste trabajo de investigación tiene margen de ampliación en los siguientes dos aspectos:

  • Validación y pruebas del modelo: las investigaciones futuras deberían centrarse en una validación y pruebas más completas del LLM para garantizar su eficacia en entornos clínicos reales.

  • Colaboración multidisciplinaria: se recomienda que los expertos en IA trabajen en estrecha colaboración con los médicos para desarrollar y optimizar conjuntamente el LLM adecuado para la práctica clínica y resolver problemas en aplicaciones prácticas.

¿Cómo está alterando la IA la atención sanitaria?

No solo la investigación mencionada anteriormente, sino que también un equipo de los Institutos Nacionales de Salud (NIH) y sus colaboradores encontraron problemas similares: al responder 207 preguntas de desafío de imágenes,Si bien GPT-4V obtiene una puntuación alta en la selección del diagnóstico correcto, a menudo comete errores al describir imágenes médicas y explicar las razones detrás del diagnóstico.

Aunque la IA es actualmente muy inferior a los médicos profesionales humanos, su investigación y aplicación en la industria médica siempre ha sido un "campo de batalla" importante para que compitan las empresas de tecnología nacionales y extranjeras y las universidades de investigación científica.

Por ejemplo, Google publicaModelo grande de IA médica Med-PaLM2 Tiene potentes capacidades de diagnóstico y tratamiento y también es el primer modelo grande que alcanza el nivel "experto" en el conjunto de pruebas MedQA.


Propuesto por un equipo de investigación de la Universidad de Tsinghua“Hospital Agente” Puede simular todo el proceso de tratamiento de enfermedades, y su objetivo principal es permitir que el agente médico aprenda cómo tratar enfermedades en un entorno simulado, e incluso acumule continuamente experiencia de casos exitosos y fallidos para lograr la autoevolución.


La Facultad de Medicina de Harvard lidera el desarrollo de una nueva herramienta para patología humanaAsistente general de IA de lenguaje visual——PathChat , que puede identificar correctamente enfermedades a partir de secciones de biopsia en casi el 90% de los casos, y su rendimiento es mejor que los modelos de IA generales y los modelos médicos profesionales actualmente en el mercado, como el GPT-4V.


Figura | Instrucciones para ajustar el conjunto de datos y la construcción de PathChat

Recientemente, el director ejecutivo de OpenAI, Sam Altman, participó en la creación de una nueva empresa, Thrive AI Health, cuyo objetivo es utilizar la tecnología de inteligencia artificial para ayudar a las personas a mejorar sus hábitos diarios y reducir la mortalidad por enfermedades crónicas.

Ellos dijeron,Tecnología de IA hiperpersonalizada Puede mejorar eficazmente los hábitos de vida de las personas, previniendo y controlando enfermedades crónicas, reduciendo la carga económica médica y mejorando la salud general de las personas.

Hoy en día, la aplicación de la IA en la industria médica ha pasado gradualmente de la etapa experimental inicial a la etapa de aplicación práctica, pero aún queda un largo camino por recorrer antes de que pueda ayudar a los médicos a mejorar sus capacidades, mejorar la toma de decisiones clínicas o Incluso reemplazarlo directamente.