Nachricht

KI besiegt menschliche Ärzte völlig! Die Studie ergab, dass die klinische Entscheidungsfindung in großen Modellen voreilig und unsicher ist, wobei die niedrigste Genauigkeitsrate bei nur 13 liegt

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Werden menschliche Ärzte aufgrund großer Modelle wie ChatGPT entlassen?

Diese Sorge ist nicht unbegründet. Immerhin hat Googles großes Modell (Med-PaLM 2) die USMLE problemlos bestanden und das Niveau eines medizinischen Experten erreicht.

Eine neue Studie zeigt jedoch:In klinischer Hinsicht gilt:Menschliche Ärzte können das aktuelle Modell der künstlichen Intelligenz (KI) vollständig besiegen, und es besteht kein Grund, sich zu viele Sorgen über persönliche „Arbeitslosigkeit“ zu machen.

Eine entsprechende Forschungsarbeit mit dem Titel „Evaluierung und Abschwächung der Einschränkungen großer Sprachmodelle bei der klinischen Entscheidungsfindung“ wurde kürzlich in der Fachzeitschrift Nature Medicine veröffentlicht.


Die Studie ergab, dass selbst die fortschrittlichsten Large-Language-Modelle (LLM) nicht für alle Patienten genaue Diagnosen stellen können und deutlich schlechter abschneiden als menschliche Ärzte –

Die Diagnosegenauigkeit der Ärzte lag bei 89 %, während die Diagnosegenauigkeit des LLM nur 73 % betrug. In einem Extremfall (Diagnose einer Cholezystitis) war die LLM nur in 13 % der Fälle richtig.

Noch überraschender ist, dass die diagnostische Genauigkeit von LLM abnimmt, je mehr Informationen über den Fall vorliegen, was manchmal sogar Tests erfordert, die für den Patienten ernsthafte Gesundheitsrisiken darstellen können.

Wie schlägt sich ein LLM als Notarzt?

Obwohl der LLM den USMLE problemlos bestehen kann,Die ärztliche Approbationsprüfung und die klinischen Fallprüfungen eignen sich lediglich zur Prüfung des allgemeinen medizinischen Wissens der Kandidaten und sind weitaus weniger schwierig als tägliche komplexe klinische Entscheidungsaufgaben.

Die klinische Entscheidungsfindung ist ein mehrstufiger Prozess, der die Sammlung und Integration von Daten aus unterschiedlichen Quellen und die fortlaufende Bewertung von Fakten erfordert, um evidenzbasierte Entscheidungen über die Diagnose und Behandlung von Patienten zu treffen.

Um das Potenzial von LLM in der klinischen Diagnose weiter zu untersuchen, erstellten ein Forschungsteam der Technischen Universität München und seine Mitarbeiter eine Datenbank mit 2400 echten Patientenfällen und 4 häufigen Baucherkrankungen auf der Grundlage der Medical Information Market Intensive Care Database (MIMIC-IV). . Blinddarmentzündung, Pankreatitis, Cholezystitis und Divertikulitis)Simulieren Sie eine realistische klinische Umgebung und reproduzieren Sie den Prozess von der Notaufnahme bis zur Behandlung und beurteilt so seine Eignung als klinischer Entscheidungsträger.


Abbildung |. Datensatzquelle und Bewertungsrahmen. Dieser Datensatz stammt aus realen Fällen in der MIMIC-IV-Datenbank und enthält umfassende elektronische Gesundheitsdaten, die während des Krankenhausaufenthalts aufgezeichnet wurden. Der Bewertungsrahmen spiegelt ein reales klinisches Umfeld wider und bietet eine umfassende Bewertung von LLMs anhand mehrerer Kriterien, einschließlich diagnostischer Genauigkeit, Einhaltung von Diagnose- und Behandlungsrichtlinien, Konsistenz bei der Befolgung von Anweisungen, Fähigkeit zur Interpretation von Laborergebnissen und Reaktion auf Änderungen in Anweisungen. , Robustheit gegenüber Änderungen des Informationsvolumens und der Informationsreihenfolge. ICD, Internationale Klassifikation der Krankheiten; CT, Computertomographie, Ultraschall, Magnetresonanz-Cholangiopankreatographie.

Das Forschungsteam testete Llama 2 und seine Derivate, einschließlich allgemeiner Versionen (wie Llama 2 Chat, Open Assistant, WizardLM) und auf medizinische Domänen ausgerichtete Modelle (wie Clinical Camel und Meditron).

Aufgrund von Datenschutzproblemen und Datennutzungsvereinbarungen von MIMIC-Daten können die Daten nicht für externe APIs wie OpenAI oder Google verwendet werden, daher wurden ChatGPT, GPT-4 und Med-PaLM nicht getestet. Insbesondere haben Llama 2, Clinical Camel und Meditron die Leistung von ChatGPT bei medizinischen Approbationsprüfungen und biomedizinischen Frage- und Antworttests erreicht oder sogar übertroffen.

Testkontrollgruppe Vier Ärzte aus zwei Ländern mit unterschiedlicher Notfallerfahrung (2, 3, 4 bzw. 29 Jahre) wurden einbezogen. Die Ergebnisse zeigten, dass LLM in der klinischen Diagnose weitaus schlechtere Leistungen erbrachten als menschliche Ärzte.

1. Die diagnostische Leistung des LLM ist deutlich geringer als die des klinischen

Die Ergebnisse der Ärzte zeigen, dass der aktuelle LLM den Ärzten in der Gesamtleistung aller Krankheiten deutlich unterlegen ist (P < 0,001).Die diagnostische Genauigkeitslücke liegt zwischen 16 % und 25 %. . Obwohl das Modell bei der Diagnose einer einfachen Blinddarmentzündung gut abschneidet, schneidet es bei der Diagnose anderer Pathologien wie Cholezystitis schlecht ab. Insbesondere versagt das Meditron-Modell bei der Diagnose von Cholezystitis und diagnostiziert häufig „Gallensteine“.

Professionelles medizinisches LLM übertrifft andere Modelle in der Gesamtleistung nicht wesentlich Wenn LLM alle Informationen selbst sammeln muss, verschlechtert sich seine Leistung weiter.


Abbildung |. Diagnosegenauigkeit unter der Voraussetzung, dass alle Informationen bereitgestellt werden. Die Daten basieren auf einer Teilmenge von MIMIC-CDM-FI (n=80), die durchschnittliche Diagnosegenauigkeit wird über jedem Balken angezeigt und die vertikale Linie stellt die Standardabweichung dar. Die mittlere Leistung der LLM war signifikant schlechter (P < 0,001), insbesondere bei Cholezystitis (P < 0,001) und Divertikulitis (P < 0,001).


Abbildung |. Diagnosegenauigkeit in autonomen klinischen Entscheidungsszenarien. Im Vergleich zum Szenario der vollständigen Informationsbereitstellung ist die Gesamtgenauigkeit der Modellbeurteilung erheblich gesunken. LLM schnitt bei der Diagnose einer Blinddarmentzündung am besten ab, schnitt jedoch bei drei Pathologien schlecht ab: Cholezystitis, Divertikulitis und Pankreatitis.

2. Die klinische Entscheidungsfindung von LLM ist voreilig und unsicher

Das hat das Forschungsteam herausgefundenLLM schneidet bei der Befolgung diagnostischer Richtlinien schlecht ab und übersieht leicht wichtige Patienteninformationen. . Auch bei der Anordnung notwendiger Laboruntersuchungen für Patienten mangelt es an Konsequenz. LLM weist auch erhebliche Mängel bei der Interpretation von Laborergebnissen auf. Dies deutet darauf hin, dass sie voreilige Diagnosen stellen, ohne den Fall des Patienten vollständig zu verstehen, was ein ernstes Risiko für die Gesundheit des Patienten darstellt.


Abbildung |. Bewertung der von LLM empfohlenen Behandlungsmethoden. Das gewünschte Behandlungsschema wurde auf der Grundlage klinischer Leitlinien und der tatsächlich von den Patienten im Datensatz erhaltenen Behandlungen festgelegt. Von 808 Patienten diagnostizierte Llama 2 Chat 603 Personen korrekt. Von diesen 603 Patienten empfahl Llama 2 Chat in 97,5 % der Fälle korrekt eine Appendektomie.

3. LLM erfordert weiterhin eine umfassende klinische Überwachung durch Ärzte

Zusätzlich,Alle aktuellen LLMs schneiden bei der Befolgung grundlegender medizinischer Leitlinien schlecht ab In allen 2–4 Fällen tritt ein Fehler auf und in allen 2–5 Fällen wird eine nicht vorhandene Anleitung erfunden.


Abbildung |. LLM-Leistung bei unterschiedlichen Datenmengen. Die Studie verglich die Leistung jedes Modells unter Verwendung aller diagnostischen Informationen mit der Verwendung nur einer einzigen diagnostischen Untersuchung und der Anamnese der aktuellen Krankheit. Bei fast allen Krankheiten im MIMIC-CDM-FI-Datensatz führte die Bereitstellung aller Informationen nicht zu einer optimalen Leistung. Dies deutet darauf hin, dass LLM sich nicht auf die wichtigsten Fakten konzentrieren kann und die Leistung sinkt, wenn zu viele Informationen bereitgestellt werden.

Die Studie zeigte auch, dass die Reihenfolge der Informationen, die für jedes Modell die beste Leistung liefern, für jede Pathologie unterschiedlich ist, was zweifellos die Schwierigkeit einer späteren Optimierung des Modells weiter erhöht. Ohne umfassende ärztliche Überwachung und vorherige Beurteilung kann die Aufgabe nicht zuverlässig durchgeführt werden. Insgesamt weisen sie detaillierte Mängel bei der Befolgung von Anweisungen, der Reihenfolge der Informationsverarbeitung und der Verarbeitung relevanter Informationen auf und erfordern daher eine umfassende klinische Überwachung, um sicherzustellen, dass sie ordnungsgemäß funktionieren.

Obwohl in der Studie verschiedene Probleme bei der klinischen Diagnose von LLM festgestellt wurden, ist LLM in der Medizin immer noch vielversprechend und eignet sich wahrscheinlich besser für die Diagnose auf der Grundlage von Krankengeschichte und Testergebnissen. Das glaubt das ForschungsteamDiese Forschungsarbeit kann in den folgenden zwei Aspekten weiter ausgebaut werden:

  • Modellvalidierung und -tests: Weitere Forschung sollte sich auf eine umfassendere Validierung und Testung des LLM konzentrieren, um seine Wirksamkeit in realen klinischen Umgebungen sicherzustellen.

  • Multidisziplinäre Zusammenarbeit: Es wird empfohlen, dass KI-Experten eng mit Klinikern zusammenarbeiten, um gemeinsam LLM für die klinische Praxis zu entwickeln und zu optimieren und Probleme in praktischen Anwendungen zu lösen.

Wie stört KI das Gesundheitswesen?

Nicht nur die oben genannte Forschung, sondern auch ein Team der National Institutes of Health (NIH) und ihre Mitarbeiter fanden ähnliche Probleme – bei der Beantwortung von 207 Bild-Challenge-Fragen,Während GPT-4V bei der Auswahl der richtigen Diagnose gute Ergebnisse erzielt, macht es häufig Fehler bei der Beschreibung medizinischer Bilder und der Erklärung der Gründe für die Diagnose.

Obwohl KI derzeit menschlichen professionellen Ärzten weit unterlegen ist, war ihre Forschung und Anwendung in der medizinischen Industrie schon immer ein wichtiges „Schlachtfeld“ für in- und ausländische Technologieunternehmen und wissenschaftliche Forschungsuniversitäten im Wettbewerb.

Beispielsweise veröffentlicht GoogleMedizinisches KI-Großmodell Med-PaLM2 , verfügt über leistungsstarke Diagnose- und Behandlungsmöglichkeiten und ist außerdem das erste große Modell, das im MedQA-Testset das „Experten“-Niveau erreicht.


Vorgeschlagen von einem Forschungsteam der Tsinghua-Universität„Agentenkrankenhaus“ , kann den gesamten Prozess der Behandlung von Krankheiten simulieren. Sein Hauptziel besteht darin, dem Arzt zu ermöglichen, in einer simulierten Umgebung zu lernen, wie man Krankheiten behandelt, und sogar kontinuierlich Erfahrungen aus erfolgreichen und fehlgeschlagenen Fällen zu sammeln, um eine Selbstentwicklung zu erreichen.


Die Harvard Medical School leitet die Entwicklung eines neuen Instruments für die HumanpathologieAllgemeiner KI-Assistent für visuelle Sprache – PathChat , das Krankheiten anhand von Biopsieschnitten in fast 90 % der Fälle korrekt identifizieren kann, und seine Leistung ist besser als allgemeine KI-Modelle und professionelle medizinische Modelle, die derzeit auf dem Markt sind, wie etwa GPT-4V.


Abbildung |. Anweisungen zur Feinabstimmung des Datensatzes und der PathChat-Konstruktion

Kürzlich beteiligte sich OpenAI-CEO Sam Altman an der Gründung eines neuen Unternehmens, Thrive AI Health, dessen Ziel es ist, mithilfe von KI-Technologie Menschen dabei zu helfen, ihre täglichen Gewohnheiten zu verbessern und die Sterblichkeit aufgrund chronischer Krankheiten zu senken.

Sie sagten,Hyperpersonalisierte KI-Technologie Es kann die Lebensgewohnheiten der Menschen effektiv verbessern und dadurch chronische Krankheiten verhindern und behandeln, die medizinische wirtschaftliche Belastung verringern und die allgemeine Gesundheit der Menschen verbessern.

Heutzutage ist die Anwendung von KI in der medizinischen Industrie schrittweise von der anfänglichen experimentellen Phase zur praktischen Anwendungsphase übergegangen, aber es ist möglicherweise noch ein langer Weg, bis sie Klinikern dabei helfen kann, ihre Fähigkeiten zu verbessern, die klinische Entscheidungsfindung zu verbessern usw sogar direkt ersetzen.