AI가 인간 의사를 완벽하게 압도한다! 연구 결과, 대형 모델의 임상 의사 결정은 성급하고 안전하지 않으며 정확도가 가장 낮습니다. 13

AI가 인간 의사를 완벽하게 압도한다! 이 연구에서는 대형 모델의 임상 의사 결정이 성급하고 안전하지 않으며 가장 낮은 정확도가 13에 불과한 것으로 나타났습니다.

2024-07-29

ChatGPT와 같은 대규모 모델로 인해 인간 의사가 해고됩니까?

이런 걱정은 근거 없는 것이 아니다. 결국 구글의 빅모델(Med-PaLM 2)은 USMLE를 가볍게 통과해 의료전문가 수준에 이르렀다.

그러나 새로운 연구에 따르면 다음과 같습니다.임상적으로는,인간 의사는 현재의 인공지능(AI) 모델을 완전히 물리칠 수 있고, 개인의 '실업'에 대해 너무 걱정할 필요가 없다.

최근 과학저널 네이처메디슨(Nature Medicine)에 '임상 의사결정에서 거대 언어 모델의 한계 평가 및 완화'라는 제목의 관련 연구 논문이 게재됐다.

연구에 따르면 가장 발전된 LLM(대형 언어 모델)조차도 모든 환자에 대해 정확한 진단을 내릴 수 없으며 인간 의사보다 훨씬 더 낮은 성능을 발휘합니다.

의사의 진단 정확도는 89%인 반면, LLM의 진단 정확도는 73%에 불과했습니다. 극단적인 경우(담낭염 진단)의 경우 LLM은 13%만 정확했습니다.

더욱 놀랍게도 사례에 대해 더 많은 정보를 알게 되면 LLM의 진단 정확도가 떨어지며 때로는 환자에게 심각한 건강 위험을 초래할 수 있는 테스트가 필요할 수도 있습니다.

응급 의사로서 LLM 요금은 어떻게 되나요?

LLM은 USMLE를 쉽게 통과할 수 있지만,의료 면허 시험 및 임상 사례 문제는 후보자의 일반적인 의학 지식만을 테스트하는 데 적합하며 일상적인 복잡한 임상 의사 결정 작업보다 훨씬 덜 어렵습니다. 。

임상 의사 결정은 환자 진단 및 치료에 대한 증거 기반 결정에 도달하기 위해 서로 다른 소스로부터 데이터를 수집 및 통합하고 사실에 대한 지속적인 평가를 요구하는 다단계 프로세스입니다.

임상 진단에서 LLM의 잠재력을 추가로 조사하기 위해 뮌헨 공과대학교 연구팀과 협력자들은 의료 정보 시장 집중 치료 데이터베이스(MIMIC-IV)를 기반으로 2,400명의 실제 환자 사례와 4가지 일반적인 복부 질환을 다루는 데이터베이스를 생성했습니다. 맹장염, 췌장염, 담낭염, 게실염),현실적인 임상 환경을 시뮬레이션하고 응급실부터 치료까지의 과정을 재현합니다. , 이를 통해 임상 의사 결정자로서의 적합성을 평가합니다.

그림 | 데이터 세트 소스 및 평가 프레임워크. 이 데이터 세트는 MIMIC-IV 데이터베이스의 실제 사례에서 파생되었으며 입원 중에 기록된 포괄적인 전자 건강 기록 데이터를 포함합니다. 평가 프레임워크는 실제 임상 환경을 반영하고 진단 정확성, 진단 및 치료 지침 준수, 지침 준수의 일관성, 실험실 결과 해석 능력, 지침 변경에 대한 대응 등 다양한 기준에 걸쳐 LLM에 대한 포괄적인 평가를 제공합니다. , 정보량 및 정보 순서의 변화에 대한 견고성. ICD, 국제 질병 분류, CT, 컴퓨터 단층촬영, 초음파, 자기공명 담췌관조영술;

연구팀은 일반 버전(예: Llama 2 Chat, Open Assistant, WizardLM) 및 의료 도메인 정렬 모델(예: Clinical Camel 및 Meditron)을 포함하여 Llama 2 및 그 파생 버전을 테스트했습니다.

MIMIC 데이터의 개인 정보 보호 문제 및 데이터 사용 계약으로 인해 해당 데이터는 OpenAI 또는 Google과 같은 외부 API에서 사용할 수 없으므로 ChatGPT, GPT-4 및 Med-PaLM은 테스트되지 않았습니다. 특히 Llama 2, Clinical Camel 및 Meditron은 의료 면허 시험 및 생물의학 질문 및 답변 테스트에서 ChatGPT 성능과 같거나 이를 능가했습니다.

테스트 대조군 서로 다른 응급 경험 기간(각각 2년, 3년, 4년, 29년)을 가진 두 국가 출신의 4명의 의사가 포함되었습니다. 결과는 LLM이 임상 진단에서 인간 의사보다 훨씬 더 나쁜 성과를 냈다는 것을 보여주었습니다.

1. LLM의 진단 성능은 임상의 진단 성능보다 현저히 낮습니다.

의사들의 결과에 따르면 현재의 LLM은 모든 질병의 전반적인 수행 능력에서 의사보다 현저히 열등한 것으로 나타났습니다(P < 0.001).진단 정확도 격차는 16%에서 25% 사이입니다. . 이 모델은 단순 충수염 진단에는 좋은 성능을 발휘하지만, 담낭염 등 다른 병리 진단에는 성능이 좋지 않다. 특히, 메디트론 모델은 담낭염 진단에 실패해 환자를 '담석'으로 진단하는 경우가 많다.

전문 의료 LLM은 전체 성능에서 다른 모델보다 크게 뛰어나지 않습니다. , LLM이 스스로 모든 정보를 수집해야 할 경우 성능은 더욱 저하됩니다.

그림 | 모든 정보가 제공되는 조건에서의 진단 정확도. 데이터는 MIMIC-CDM-FI(n=80)의 하위 집합을 기반으로 하며, 평균 진단 정확도는 각 막대 위에 표시되며 수직선은 표준 편차를 나타냅니다. LLM의 평균 성능은 특히 담낭염(P < 0.001)과 게실염(P < 0.001)에서 유의하게 나빴습니다(P < 0.001).

그림 | 자율적인 임상 의사결정 시나리오의 진단 정확도. 전체 정보 제공 시나리오에 비해 모델 판단의 전반적인 정확도가 크게 떨어졌습니다. LLM은 맹장염 진단에서 가장 좋은 성능을 보였지만 담낭염, 게실염 및 췌장염의 세 가지 병리에서는 성능이 좋지 않았습니다.

2. LLM의 임상 의사결정은 성급하고 안전하지 않습니다.

연구팀은 이를 발견했다.LLM은 진단 지침을 제대로 따르지 못하며 중요한 환자 정보를 쉽게 놓칩니다. . 환자에게 필요한 실험실 검사를 지시하는 데에도 일관성이 부족합니다. LLM은 또한 실험실 결과를 해석하는 데 있어서 심각한 단점을 가지고 있습니다. 이는 환자의 사례를 충분히 이해하지 못한 채 성급하게 진단을 내려 환자의 건강에 심각한 위험을 초래하고 있음을 시사한다.

그림 | LLM 권장 치료 방법 평가. 원하는 치료 요법은 임상 지침과 데이터 세트에서 환자가 실제로 받은 치료를 기반으로 결정되었습니다. Llama 2 Chat은 808명의 환자 중 603명을 정확하게 진단했습니다. 603명의 환자 중 Llama 2 Chat에서는 97.5%의 확률로 충수절제술을 정확하게 권장했습니다.

3. LLM은 여전히 의사의 광범위한 임상 감독이 필요합니다.

게다가,현재의 모든 LLM은 기본 의료 지침을 제대로 따르지 않습니다. , 2~4건마다 오류가 발생하고, 2~5건마다 존재하지 않는 안내가 발명됩니다.

그림 | 다양한 데이터 양에 따른 LLM 성능. 이 연구에서는 모든 진단 정보를 사용한 각 모델의 성능과 단일 진단 검사 및 현재 질병 병력만 사용한 모델의 성능을 비교했습니다. 거의 모든 질병에 대해 MIMIC-CDM-FI 데이터 세트에서 모든 정보를 제공해도 최적의 성능으로 이어지지 않았습니다. 이는 LLM이 핵심 사실에 집중할 수 없고 너무 많은 정보가 제공되면 성과가 저하된다는 것을 의미합니다.

또한 이 연구는 각 모델에 대해 최상의 성능을 제공하는 정보의 순서가 각 병리학에 따라 다르며, 이는 의심할 여지 없이 모델의 후속 최적화의 어려움을 더욱 증가시킨다는 것을 보여주었습니다. 광범위한 의사의 감독과 사전 평가 없이는 작업을 안정적으로 수행할 수 없습니다. 전반적으로 지침 준수, 정보 처리 순서 및 관련 정보 처리에 세부적인 결함이 있으므로 올바르게 기능하는지 확인하려면 상당한 임상 감독이 필요합니다.

연구를 통해 LLM의 임상 진단에 있어 다양한 문제점이 발견되었지만 LLM은 여전히 의학 분야에서 큰 가능성을 갖고 있으며 병력 및 검사 결과를 기반으로 진단하는 데 더 적합할 가능성이 높습니다. 연구팀은 그렇게 믿고 있다.본 연구 작업은 다음 두 가지 측면에서 더욱 확장될 여지가 있습니다. ：

모델 검증 및 테스트: 추가 연구는 실제 임상 환경에서 LLM의 효율성을 보장하기 위해 LLM의 보다 포괄적인 검증 및 테스트에 중점을 두어야 합니다.
다학제간 협업: AI 전문가가 임상의와 긴밀히 협력하여 임상 실습에 적합한 LLM을 공동으로 개발 및 최적화하고 실제 적용 시 문제를 해결하는 것이 좋습니다.

AI가 의료를 어떻게 혼란에 빠뜨리고 있나요?

위에서 언급한 연구뿐만 아니라 국립보건원(NIH) 팀과 협력자들도 207개의 이미지 챌린지 질문에 답할 때 비슷한 문제를 발견했습니다.GPT-4V는 올바른 진단을 선택하는 데 있어 높은 점수를 주지만, 의료 영상을 기술하고 진단 이유를 설명하는 데 있어 실수를 저지르는 경우가 많습니다. 。

AI는 현재 인간 전문 의사보다 훨씬 열등하지만, 의료 산업에서의 AI 연구 및 적용은 항상 국내외 기술 기업과 과학 연구 대학이 경쟁하는 중요한 "전장"이었습니다.

예를 들어 Google은 다음을 게시합니다.의료용 AI 대형모델 Med-PaLM2 는 강력한 진단 및 치료 기능을 갖추고 있으며 MedQA 테스트 세트에서 "전문가" 수준에 도달한 최초의 대형 모델이기도 합니다.

칭화대 연구팀이 제안“에이전트 병원” 는 질병을 치료하는 전 과정을 시뮬레이션할 수 있으며, 의사 에이전트가 시뮬레이션 환경에서 질병을 치료하는 방법을 학습하고 성공 사례와 실패 사례의 경험을 지속적으로 축적하여 자기 진화를 달성하는 것이 핵심 목표입니다.

하버드 의과대학, 인간 병리학을 위한 새로운 도구 개발 주도시각 언어 일반 AI 보조자——PathChat 는 생체검사 부분에서 약 90%의 경우 정확하게 질병을 식별할 수 있으며, GPT-4V 등 현재 시판 중인 일반 AI 모델이나 전문 의료 모델보다 성능이 뛰어나다.

그림 | 데이터 세트 및 PathChat 구성을 미세 조정하기 위한 지침

최근 OpenAI CEO 샘 알트만(Sam Altman)은 AI 기술을 활용해 사람들의 일상 습관을 개선하고 만성질환으로 인한 사망률을 줄이는 것을 목표로 하는 새로운 회사인 Thrive AI Health 설립에 참여했습니다.

그들은 말했다,초개인화 AI 기술 이는 사람들의 생활 습관을 효과적으로 개선하여 만성 질환을 예방 및 관리하고 의료 경제적 부담을 줄이며 사람들의 전반적인 건강을 향상시킬 수 있습니다.

현재 의료산업에서의 AI 적용은 초기 실험 단계에서 실제 적용 단계로 점차 전환되고 있지만, 임상의의 역량 강화, 임상 의사결정 개선, 의사 결정 개선에 도움이 되기까지는 아직 갈 길이 멀다. 직접 교체해도 마찬가지입니다.

소식

AI가 인간 의사를 완벽하게 압도한다! 이 연구에서는 대형 모델의 임상 의사 결정이 성급하고 안전하지 않으며 가장 낮은 정확도가 13에 불과한 것으로 나타났습니다.

소개

내 연락처 정보