Το AI νικά εντελώς τους ανθρώπους γιατρούς! Η μελέτη διαπίστωσε ότι η λήψη κλινικών αποφάσεων σε μεγάλα μοντέλα είναι βιαστική και μη ασφαλής, με το χαμηλότερο ποσοστό ακρίβειας να είναι μόνο 13

2024-07-29

Θα απολυθούν άνθρωποι γιατροί λόγω μεγάλων μοντέλων όπως το ChatGPT;

Αυτή η ανησυχία δεν είναι αβάσιμη. Άλλωστε, το μεγάλο μοντέλο της Google (Med-PaLM 2) πέρασε εύκολα το USMLE και έφτασε στο επίπεδο του ειδικού ιατρού.

Ωστόσο, μια νέα μελέτη δείχνει:Από κλινική άποψη,Οι άνθρωποι γιατροί μπορούν να νικήσουν εντελώς το τρέχον μοντέλο τεχνητής νοημοσύνης (AI) και δεν υπάρχει λόγος να ανησυχείτε πάρα πολύ για την προσωπική «ανεργία».

Μια σχετική ερευνητική εργασία με τίτλο "Αξιολόγηση και μετριασμός των περιορισμών των μεγάλων γλωσσικών μοντέλων στην κλινική λήψη αποφάσεων" δημοσιεύθηκε πρόσφατα στο επιστημονικό περιοδικό Nature Medicine.

Η μελέτη διαπίστωσε ότι ακόμη και τα πιο προηγμένα μοντέλα μεγάλων γλωσσών (LLM) δεν μπορούν να κάνουν ακριβείς διαγνώσεις για όλους τους ασθενείς και να έχουν πολύ χειρότερη απόδοση από τους ανθρώπους γιατρούς -

Η ακρίβεια διάγνωσης των γιατρών ήταν 89%, ενώ η ακρίβεια διάγνωσης του LLM ήταν μόνο 73%. Σε μια ακραία περίπτωση (διάγνωση χολοκυστίτιδας), το LLM ήταν σωστό μόνο στο 13% των περιπτώσεων.

Ακόμη πιο εκπληκτικό είναι ότι η διαγνωστική ακρίβεια του LLM μειώνεται καθώς μαθαίνονται περισσότερες πληροφορίες για την περίπτωση, μερικές φορές απαιτώντας ακόμη και εξετάσεις που μπορεί να θέτουν σοβαρούς κινδύνους για την υγεία του ασθενή.

Πώς τα πάει ένα LLM ως γιατρός έκτακτης ανάγκης;

Αν και το LLM μπορεί εύκολα να περάσει το USMLE,Η εξέταση ιατρικής αδειοδότησης και οι προκλήσεις κλινικών περιπτώσεων είναι κατάλληλες μόνο για τον έλεγχο των γενικών ιατρικών γνώσεων των υποψηφίων και είναι πολύ λιγότερο δύσκολες από τις καθημερινές πολύπλοκες εργασίες λήψης κλινικών αποφάσεων. 。

Η λήψη κλινικών αποφάσεων είναι μια διαδικασία πολλαπλών σταδίων που απαιτεί τη συλλογή και την ενσωμάτωση δεδομένων από διαφορετικές πηγές και τη συνεχή αξιολόγηση των γεγονότων για να καταλήξουμε σε τεκμηριωμένες αποφάσεις σχετικά με τη διάγνωση και τη θεραπεία ασθενών.

Για να διερευνήσει περαιτέρω τις δυνατότητες του LLM στην κλινική διάγνωση, μια ερευνητική ομάδα από το Τεχνικό Πανεπιστήμιο του Μονάχου και οι συνεργάτες τους δημιούργησαν μια βάση δεδομένων που καλύπτει 2400 πραγματικές περιπτώσεις ασθενών και 4 κοινές κοιλιακές παθήσεις με βάση τη Βάση Δεδομένων Εντατικής Θεραπείας Ιατρικών Πληροφοριών (MIMIC-IV). σκωληκοειδίτιδα, παγκρεατίτιδα, χολοκυστίτιδα και εκκολπωματίτιδα),Προσομοιώστε ένα ρεαλιστικό κλινικό περιβάλλον και αναπαραγάγετε τη διαδικασία από το δωμάτιο έκτακτης ανάγκης έως τη θεραπεία , αξιολογώντας έτσι την καταλληλότητά του ως φορέα λήψης κλινικών αποφάσεων.

Σχήμα | Πηγή συνόλου δεδομένων και πλαίσιο αξιολόγησης. Αυτό το σύνολο δεδομένων προέρχεται από πραγματικές περιπτώσεις στη βάση δεδομένων MIMIC-IV και περιέχει ολοκληρωμένα δεδομένα ηλεκτρονικού αρχείου υγείας που καταγράφηκαν κατά τη διάρκεια της νοσηλείας. Το πλαίσιο αξιολόγησης αντικατοπτρίζει ένα πραγματικό κλινικό περιβάλλον και παρέχει μια ολοκληρωμένη αξιολόγηση των LLMs σε πολλαπλά κριτήρια, συμπεριλαμβανομένης της διαγνωστικής ακρίβειας, της συμμόρφωσης με τις κατευθυντήριες γραμμές διάγνωσης και θεραπείας, συνέπεια στις ακόλουθες οδηγίες, ικανότητα ερμηνείας εργαστηριακών αποτελεσμάτων και ανταπόκριση σε αλλαγές στις οδηγίες. , ανθεκτικότητα στις αλλαγές στον όγκο και τη σειρά πληροφοριών. ICD, Διεθνής Ταξινόμηση Νοσημάτων, αξονική τομογραφία ΗΠΑ, υπερηχογράφημα, χολαγγειοπαγκρεατογραφία.

Η ερευνητική ομάδα εξέτασε το Llama 2 και τα παράγωγά του, συμπεριλαμβανομένων γενικών εκδόσεων (όπως Llama 2 Chat, Open Assistant, WizardLM) και μοντέλων ευθυγραμμισμένων με ιατρικούς τομείς (όπως το Clinical Camel και το Meditron).

Λόγω ζητημάτων απορρήτου και συμφωνιών χρήσης δεδομένων των δεδομένων MIMIC, τα δεδομένα δεν μπορούν να χρησιμοποιηθούν για εξωτερικά API όπως το OpenAI ή η Google, επομένως τα ChatGPT, GPT-4 και Med-PaLM δεν δοκιμάστηκαν. Συγκεκριμένα, τα Llama 2, Clinical Camel και Meditron έχουν ταιριάξει ή υπερβεί την απόδοση του ChatGPT στις εξετάσεις ιατρικής αδειοδότησης και στα βιοϊατρικά τεστ ερωτήσεων και απαντήσεων.

ομάδα ελέγχου δοκιμής Συμμετείχαν τέσσερις γιατροί από δύο χώρες με διαφορετικά έτη εμπειρίας έκτακτης ανάγκης (2, 3, 4 και 29 ετών, αντίστοιχα). Τα αποτελέσματα έδειξαν ότι το LLM απέδωσε πολύ χειρότερα από τους ανθρώπους γιατρούς στην κλινική διάγνωση.

1. Η διαγνωστική απόδοση του LLM είναι σημαντικά χαμηλότερη από αυτή της κλινικής

Τα αποτελέσματα των γιατρών δείχνουν ότι το τρέχον LLM είναι σημαντικά κατώτερο από τους γιατρούς στη συνολική απόδοση όλων των ασθενειών (P <0,001),Το χάσμα διαγνωστικής ακρίβειας είναι μεταξύ 16% και 25% . Αν και το μοντέλο έχει καλές επιδόσεις στη διάγνωση της απλής σκωληκοειδίτιδας, έχει κακή απόδοση στη διάγνωση άλλων παθολογιών όπως η χολοκυστίτιδα.

Το επαγγελματικό ιατρικό LLM δεν ξεπερνά σημαντικά τα άλλα μοντέλα σε συνολική απόδοση , και όταν το LLM χρειάζεται να συλλέξει όλες τις πληροφορίες από μόνο του, η απόδοσή του θα υποβαθμιστεί περαιτέρω.

Σχήμα |. Διαγνωστική ακρίβεια υπό την προϋπόθεση ότι παρέχονται όλες οι πληροφορίες. Τα δεδομένα βασίζονται σε ένα υποσύνολο του MIMIC-CDM-FI (n=80), η μέση διαγνωστική ακρίβεια εμφανίζεται πάνω από κάθε γραμμή και η κατακόρυφη γραμμή αντιπροσωπεύει την τυπική απόκλιση. Η μέση απόδοση του LLM ήταν σημαντικά χειρότερη (P < 0,001), ιδιαίτερα στη χολοκυστίτιδα (P < 0,001) και στην εκκολπωματίτιδα (P < 0,001).

Σχήμα |. Διαγνωστική ακρίβεια σε αυτόνομα κλινικά σενάρια λήψης αποφάσεων. Σε σύγκριση με το σενάριο παροχής πλήρους πληροφοριών, η συνολική ακρίβεια της κρίσης του μοντέλου έχει μειωθεί σημαντικά. Το LLM είχε καλύτερες επιδόσεις στη διάγνωση της σκωληκοειδίτιδας, αλλά δεν είχε καλή απόδοση σε τρεις παθολογίες: χολοκυστίτιδα, εκκολπωματίτιδα και παγκρεατίτιδα.

2. Η λήψη κλινικών αποφάσεων του LLM είναι βιαστική και ανασφαλής

Η ερευνητική ομάδα διαπίστωσε ότιΤο LLM έχει κακή απόδοση όσον αφορά τις διαγνωστικές οδηγίες και χάνει εύκολα σημαντικές πληροφορίες για τον ασθενή. . Υπάρχει επίσης έλλειψη συνέπειας στην παραγγελία των απαραίτητων εργαστηριακών εξετάσεων για τους ασθενείς. Το LLM έχει επίσης σημαντικές ελλείψεις στην ερμηνεία των εργαστηριακών αποτελεσμάτων. Αυτό υποδηλώνει ότι κάνουν βιαστικές διαγνώσεις χωρίς να κατανοούν πλήρως την περίπτωση του ασθενούς, θέτοντας σε σοβαρό κίνδυνο την υγεία των ασθενών.

Σχήμα |. Αξιολόγηση των συνιστώμενων μεθόδων θεραπείας LLM. Το επιθυμητό θεραπευτικό σχήμα καθορίστηκε με βάση τις κλινικές οδηγίες και τις θεραπείες που έλαβαν πράγματι οι ασθενείς στο σύνολο δεδομένων. Από τους 808 ασθενείς, το Llama 2 Chat διέγνωσε σωστά 603 άτομα. Από αυτούς τους 603 ασθενείς, το Llama 2 Chat συνέστησε σωστά την σκωληκοειδεκτομή στο 97,5% των περιπτώσεων.

3. Το LLM εξακολουθεί να απαιτεί εκτεταμένη κλινική επίβλεψη από γιατρούς

επιπλέον,Όλα τα τρέχοντα LLM έχουν κακή απόδοση όσον αφορά την τήρηση των βασικών ιατρικών οδηγιών , εμφανίζεται ένα σφάλμα σε κάθε 2-4 περιπτώσεις και επινοείται ανύπαρκτη καθοδήγηση σε κάθε 2-5 περιπτώσεις.

Σχήμα |. Απόδοση LLM κάτω από διαφορετικά ποσά δεδομένων. Η μελέτη συνέκρινε την απόδοση κάθε μοντέλου χρησιμοποιώντας όλες τις διαγνωστικές πληροφορίες έναντι της χρήσης μόνο μιας διαγνωστικής εξέτασης και ιστορικού της παρούσας ασθένειας. Για σχεδόν όλες τις ασθένειες, στο σύνολο δεδομένων MIMIC-CDM-FI, η παροχή όλων των πληροφοριών δεν οδήγησε σε βέλτιστη απόδοση. Αυτό υποδηλώνει ότι το LLM δεν μπορεί να επικεντρωθεί σε βασικά γεγονότα και η απόδοση υποβαθμίζεται όταν παρέχονται πάρα πολλές πληροφορίες.

Η μελέτη έδειξε επίσης ότι η σειρά των πληροφοριών που παρέχει την καλύτερη απόδοση για κάθε μοντέλο είναι διαφορετική για κάθε παθολογία, γεγονός που αναμφίβολα αυξάνει περαιτέρω τη δυσκολία της επακόλουθης βελτιστοποίησης του μοντέλου. Η εργασία δεν μπορεί να εκτελεστεί αξιόπιστα χωρίς εκτενή επίβλεψη γιατρού και προηγούμενη αξιολόγηση. Συνολικά, έχουν λεπτομερείς ελλείψεις στις ακόλουθες οδηγίες, στη σειρά επεξεργασίας των πληροφοριών και στην επεξεργασία των σχετικών πληροφοριών, και ως εκ τούτου απαιτούν σημαντική κλινική επίβλεψη για να διασφαλιστεί ότι λειτουργούν σωστά.

Αν και η μελέτη βρήκε διάφορα προβλήματα με την κλινική διάγνωση της LLM, η LLM εξακολουθεί να υπόσχεται πολλά στην ιατρική και είναι πιθανό να είναι πιο κατάλληλη για διάγνωση με βάση το ιατρικό ιστορικό και τα αποτελέσματα των εξετάσεων. Η ερευνητική ομάδα πιστεύει ότιΑυτή η ερευνητική εργασία έχει περιθώρια περαιτέρω επέκτασης στις ακόλουθες δύο πτυχές: ：

Επικύρωση και δοκιμή μοντέλου: Η περαιτέρω έρευνα θα πρέπει να επικεντρωθεί σε πιο ολοκληρωμένη επικύρωση και δοκιμή του LLM για να διασφαλιστεί η αποτελεσματικότητά του σε πραγματικές κλινικές ρυθμίσεις.
Πολυεπιστημονική συνεργασία: Συνιστάται οι ειδικοί της τεχνητής νοημοσύνης να συνεργάζονται στενά με κλινικούς γιατρούς για να αναπτύξουν από κοινού και να βελτιστοποιήσουν το LLM κατάλληλο για κλινική πρακτική και την επίλυση προβλημάτων σε πρακτικές εφαρμογές.

Πώς η τεχνητή νοημοσύνη διαταράσσει την υγειονομική περίθαλψη;

Όχι μόνο η προαναφερθείσα έρευνα, αλλά και μια ομάδα από τα Εθνικά Ινστιτούτα Υγείας (NIH) και τους συνεργάτες τους βρήκαν επίσης παρόμοια προβλήματα - όταν απαντούσαν σε 207 ερωτήσεις πρόκλησης εικόνας,Ενώ το GPT-4V έχει υψηλή βαθμολογία στην επιλογή της σωστής διάγνωσης, συχνά κάνει λάθη στην περιγραφή των ιατρικών εικόνων και στην εξήγηση των λόγων πίσω από τη διάγνωση. 。

Αν και η τεχνητή νοημοσύνη είναι επί του παρόντος πολύ κατώτερη από τους επαγγελματίες γιατρούς, η έρευνα και η εφαρμογή της στην ιατρική βιομηχανία ήταν πάντα ένα σημαντικό «πεδίο μάχης» για τον ανταγωνισμό εγχώριων και ξένων εταιρειών τεχνολογίας και πανεπιστημίων επιστημονικής έρευνας.

Για παράδειγμα, η Google δημοσιεύειΙατρικό AI μεγάλο μοντέλο Med-PaLM2 , έχει ισχυρές διαγνωστικές και θεραπευτικές δυνατότητες και είναι επίσης το πρώτο μεγάλο μοντέλο που φτάνει στο επίπεδο «ειδικών» στο σετ δοκιμών MedQA.

Προτάθηκε από μια ερευνητική ομάδα από το Πανεπιστήμιο Tsinghua“Agent Hospital” , μπορεί να προσομοιώσει ολόκληρη τη διαδικασία θεραπείας ασθενειών και ο βασικός του στόχος είναι να αφήσει τον γιατρό να μάθει πώς να θεραπεύει ασθένειες σε ένα προσομοιωμένο περιβάλλον και ακόμη και να συσσωρεύει συνεχώς εμπειρία από επιτυχημένες και αποτυχημένες περιπτώσεις για να επιτύχει την αυτοεξέλιξη.

Η Ιατρική Σχολή του Χάρβαρντ ηγείται της ανάπτυξης ενός νέου εργαλείου για την ανθρώπινη παθολογίαΒοηθός γενικής τεχνητής νοημοσύνης οπτικής γλώσσας——PathChat , το οποίο μπορεί να αναγνωρίσει σωστά τις ασθένειες από τα τμήματα βιοψίας σχεδόν στο 90% των περιπτώσεων και η απόδοσή του είναι καλύτερη από τα μοντέλα γενικής τεχνητής νοημοσύνης και τα επαγγελματικά ιατρικά μοντέλα που κυκλοφορούν αυτή τη στιγμή στην αγορά, όπως το GPT-4V.

Σχήμα |. Οδηγίες για τη λεπτομερή ρύθμιση του συνόλου δεδομένων και της κατασκευής του PathChat

Πρόσφατα, ο Διευθύνων Σύμβουλος του OpenAI Sam Altman συμμετείχε στην ίδρυση μιας νέας εταιρείας, της Thrive AI Health, η οποία στοχεύει να χρησιμοποιήσει την τεχνολογία AI για να βοηθήσει τους ανθρώπους να βελτιώσουν τις καθημερινές τους συνήθειες και να μειώσουν τη θνησιμότητα από χρόνιες ασθένειες.

Αυτοι ειπαν,Υπερ-εξατομικευμένη τεχνολογία AI Μπορεί να βελτιώσει αποτελεσματικά τις συνήθειες διαβίωσης των ανθρώπων, προλαμβάνοντας και αντιμετωπίζοντας χρόνιες ασθένειες, μειώνοντας την ιατρική οικονομική επιβάρυνση και βελτιώνοντας τη συνολική υγεία των ανθρώπων.

Σήμερα, η εφαρμογή της τεχνητής νοημοσύνης στον ιατρικό κλάδο έχει σταδιακά μεταβεί από το αρχικό πειραματικό στάδιο στο στάδιο της πρακτικής εφαρμογής, αλλά μπορεί να υπάρχει ακόμη πολύς δρόμος για να μπορέσει να βοηθήσει τους κλινικούς γιατρούς να βελτιώσουν τις δυνατότητές τους, να βελτιώσουν τη λήψη κλινικών αποφάσεων ή έστω και απευθείας αντικαταστήστε το.

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου