A IA derrota completamente os médicos humanos! O estudo descobriu que a tomada de decisão clínica em grandes modelos é precipitada e insegura, sendo a menor taxa de precisão apenas 13

2024-07-29

Os médicos humanos serão demitidos devido a modelos grandes como o ChatGPT?

Esta preocupação não é infundada. Afinal, o grande modelo do Google (Med-PaLM 2) passou facilmente no USMLE e atingiu o nível de especialista médico.

No entanto, um novo estudo mostra:Em termos clínicos,Os médicos humanos podem derrotar completamente o atual modelo de inteligência artificial (IA), e não há necessidade de se preocupar muito com o “desemprego” pessoal.

Um artigo de pesquisa relacionado intitulado “Avaliação e mitigação das limitações de grandes modelos de linguagem na tomada de decisões clínicas” foi publicado recentemente na revista científica Nature Medicine.

O estudo descobriu que mesmo os modelos de linguagem grande (LLM) mais avançados não conseguem fazer diagnósticos precisos para todos os pacientes e têm um desempenho significativamente pior do que os médicos humanos.

A precisão do diagnóstico dos médicos foi de 89%, enquanto a precisão do diagnóstico do LLM foi de apenas 73%. Num caso extremo (diagnóstico de colecistite), o LLM estava correto apenas 13% das vezes.

Ainda mais surpreendente é que a precisão diagnóstica do LLM diminui à medida que mais informações são obtidas sobre o caso, às vezes até exigindo exames que podem representar sérios riscos à saúde do paciente.

Como um LLM se sai como médico de emergência?

Embora o LLM possa passar facilmente no USMLE,O exame de licenciamento médico e os desafios de casos clínicos são adequados apenas para testar o conhecimento médico geral dos candidatos e são muito menos difíceis do que as complexas tarefas diárias de tomada de decisão clínica. 。

A tomada de decisão clínica é um processo de várias etapas que requer a recolha e integração de dados de fontes díspares e a avaliação contínua dos factos para chegar a decisões baseadas em evidências sobre o diagnóstico e tratamento do paciente.

Para investigar ainda mais o potencial do LLM no diagnóstico clínico, uma equipe de pesquisa da Universidade Técnica de Munique e seus colaboradores produziram um banco de dados cobrindo 2.400 casos reais de pacientes e 4 doenças abdominais comuns com base no Banco de Dados de Cuidados Intensivos do Mercado de Informações Médicas (MIMIC-IV). . apendicite, pancreatite, colecistite e diverticulite),Simule um ambiente clínico realista e reproduza o processo desde a sala de emergência até o tratamento , avaliando assim a sua adequação como tomador de decisões clínicas.

Figura | Fonte do conjunto de dados e estrutura de avaliação. Este conjunto de dados é derivado de casos reais no banco de dados MIMIC-IV e contém dados abrangentes de registros eletrônicos de saúde registrados durante a hospitalização. A estrutura de avaliação reflete um cenário clínico da vida real e fornece uma avaliação abrangente dos LLMs em vários critérios, incluindo precisão diagnóstica, conformidade com diretrizes de diagnóstico e tratamento, consistência no seguimento de instruções, capacidade de interpretar resultados laboratoriais e resposta a alterações nas instruções. , robustez a mudanças no volume e na ordem das informações. CID, Classificação Internacional de Doenças TC, tomografia computadorizada, CPRM, colangiopancreatografia por ressonância magnética;

A equipe de pesquisa testou o Llama 2 e seus derivados, incluindo versões gerais (como Llama 2 Chat, Open Assistant, WizardLM) e modelos alinhados ao domínio médico (como Clinical Camel e Meditron).

Devido a questões de privacidade e acordos de uso de dados MIMIC, os dados não podem ser usados para APIs externas como OpenAI ou Google, portanto ChatGPT, GPT-4 e Med-PaLM não foram testados. Notavelmente, Llama 2, Clinical Camel e Meditron igualaram ou superaram o desempenho do ChatGPT em exames de licenciamento médico e testes de perguntas e respostas biomédicas.

grupo de controle de teste Foram incluídos quatro médicos de dois países com diferentes anos de experiência em emergências (2, 3, 4 e 29 anos, respectivamente). Os resultados mostraram que o LLM teve um desempenho muito pior do que os médicos humanos no diagnóstico clínico.

1. O desempenho diagnóstico do LLM é significativamente inferior ao do clínico

Os resultados dos médicos mostram que o atual LLM é significativamente inferior aos médicos no desempenho geral de todas as doenças (P <0,001),A lacuna de precisão do diagnóstico está entre 16% e 25% . Embora o modelo tenha um bom desempenho no diagnóstico de apendicite simples, ele tem um desempenho ruim no diagnóstico de outras patologias, como colecistite. Em particular, o modelo Meditron falha no diagnóstico de colecistite e frequentemente diagnostica pacientes com “cálculos biliares”.

O LLM médico profissional não supera significativamente outros modelos em desempenho geral , e quando o LLM precisar coletar todas as informações sozinho, seu desempenho será ainda mais degradado.

Figura | Precisão do diagnóstico desde que todas as informações sejam fornecidas. Os dados são baseados em um subconjunto do MIMIC-CDM-FI (n=80), a precisão média do diagnóstico é mostrada acima de cada barra e a linha vertical representa o desvio padrão. O desempenho médio do LLM foi significativamente pior (P < 0,001), especialmente na colecistite (P < 0,001) e na diverticulite (P < 0,001).

Figura | Precisão diagnóstica em cenários autônomos de tomada de decisão clínica. Em comparação com o cenário de fornecimento completo de informações, a precisão global do julgamento do modelo caiu significativamente. O LLM teve melhor desempenho no diagnóstico de apendicite, mas teve pior desempenho em três patologias: colecistite, diverticulite e pancreatite.

2. A tomada de decisão clínica do LLM é precipitada e insegura

A equipe de pesquisa descobriu queO LLM tem um desempenho ruim no seguimento das diretrizes diagnósticas e facilmente perde informações importantes do paciente. . Há também uma falta de consistência na solicitação dos exames laboratoriais necessários aos pacientes. O LLM também apresenta deficiências significativas na interpretação de resultados laboratoriais. Isso sugere que estão fazendo diagnósticos precipitados, sem compreender totalmente o caso do paciente, representando um sério risco à saúde do paciente.

Figura | Avaliação dos métodos de tratamento recomendados pelo LLM. O regime de tratamento desejado foi determinado com base nas diretrizes clínicas e nos tratamentos efetivamente recebidos pelos pacientes no conjunto de dados. Dos 808 pacientes, o Llama 2 Chat diagnosticou corretamente 603 pessoas. Desses 603 pacientes, o Llama 2 Chat recomendou corretamente a apendicectomia em 97,5% das vezes.

3. O LLM ainda requer extensa supervisão clínica por médicos

além disso,Todos os LLMs atuais têm um desempenho ruim no seguimento de orientações médicas básicas , ocorre um erro a cada 2 a 4 casos e uma orientação inexistente é inventada a cada 2 a 5 casos.

Figura | Desempenho do LLM sob diferentes quantidades de dados. O estudo comparou o desempenho de cada modelo usando todas as informações de diagnóstico versus usando apenas um único exame de diagnóstico e histórico da doença atual. Para quase todas as doenças, no conjunto de dados MIMIC-CDM-FI, o fornecimento de todas as informações não levou a um desempenho ideal. Isto sugere que o LLM é incapaz de se concentrar em factos importantes e o desempenho diminui quando é fornecida demasiada informação.

O estudo mostrou ainda que a ordem das informações que proporciona o melhor desempenho para cada modelo é diferente para cada patologia, o que sem dúvida aumenta ainda mais a dificuldade de posterior otimização do modelo. A tarefa não pode ser realizada de forma confiável sem extensa supervisão médica e avaliação prévia. No geral, eles apresentam deficiências detalhadas no cumprimento das instruções, na ordem em que as informações são processadas e no processamento de informações relevantes e, portanto, requerem supervisão clínica significativa para garantir que funcionam corretamente.

Embora o estudo tenha encontrado vários problemas com o diagnóstico clínico do LLM, o LLM ainda é uma grande promessa na medicina e é provavelmente mais adequado para o diagnóstico com base no histórico médico e nos resultados de exames. A equipe de pesquisa acredita queEste trabalho de pesquisa tem espaço para expansão adicional nos dois aspectos seguintes: ：

Validação e teste do modelo: Mais pesquisas devem se concentrar em validação e testes mais abrangentes do LLM para garantir sua eficácia em ambientes clínicos reais.
Colaboração multidisciplinar: Recomenda-se que os especialistas em IA trabalhem em estreita colaboração com os médicos para desenvolver e otimizar em conjunto o LLM adequado à prática clínica e resolver problemas em aplicações práticas.

Como a IA está atrapalhando a saúde?

Não apenas a pesquisa mencionada acima, mas também uma equipe do National Institutes of Health (NIH) e seus colaboradores também encontraram problemas semelhantes – ao responder a 207 questões de desafio de imagem,Embora o GPT-4V tenha uma pontuação elevada na seleção do diagnóstico correto, muitas vezes comete erros ao descrever imagens médicas e explicar as razões por trás do diagnóstico. 。

Embora a IA seja atualmente muito inferior aos médicos profissionais humanos, sua pesquisa e aplicação na indústria médica sempre foi um importante "campo de batalha" para a competição de empresas de tecnologia nacionais e estrangeiras e universidades de pesquisa científica.

Por exemplo, o Google publicaModelo grande de IA médica Med-PaLM2 , possui poderosos recursos de diagnóstico e tratamento e também é o primeiro grande modelo a atingir o nível de "especialista" no conjunto de testes MedQA.

Proposto por uma equipe de pesquisa da Universidade Tsinghua“Agente Hospitalar” , pode simular todo o processo de tratamento de doenças, e seu objetivo principal é permitir que o agente médico aprenda como tratar doenças em um ambiente simulado, e até mesmo acumular continuamente experiência de casos bem-sucedidos e fracassados para alcançar a autoevolução.

Harvard Medical School lidera o desenvolvimento de uma nova ferramenta para patologia humanaAssistente geral de IA de linguagem visual —— PathChat , que pode identificar corretamente doenças a partir de seções de biópsia em quase 90% dos casos, e seu desempenho é melhor do que os modelos gerais de IA e os modelos médicos profissionais atualmente no mercado, como o GPT-4V.

Figura | Instruções para ajustar o conjunto de dados e a construção do PathChat

Recentemente, o CEO da OpenAI, Sam Altman, participou na criação de uma nova empresa, Thrive AI Health, que visa utilizar a tecnologia de IA para ajudar as pessoas a melhorar os seus hábitos diários e reduzir a mortalidade por doenças crónicas.

Eles disseram,Tecnologia de IA hiperpersonalizada Pode melhorar eficazmente os hábitos de vida das pessoas, prevenindo e controlando assim as doenças crónicas, reduzindo o fardo económico médico e melhorando a saúde geral das pessoas.

Hoje, a aplicação da IA na indústria médica passou gradualmente da fase experimental inicial para a fase de aplicação prática, mas ainda pode haver um longo caminho a percorrer antes que possa ajudar os médicos a melhorar as suas capacidades, melhorar a tomada de decisões clínicas ou até mesmo substituí-lo diretamente.

notícias

A IA derrota completamente os médicos humanos! O estudo descobriu que a tomada de decisão clínica em grandes modelos é precipitada e insegura, sendo a menor taxa de precisão apenas 13

Introdução

minhas informações de contato