AI kukistaa täysin ihmislääkärit! Tutkimuksessa havaittiin, että kliininen päätöksenteko suurissa malleissa on hätäistä ja vaarallista, ja alhaisin tarkkuusaste on vain 13

AI kukistaa täysin ihmislääkärit! Tutkimuksessa todettiin, että kliininen päätöksenteko suurissa malleissa on hätäistä ja vaarallista, ja pienin tarkkuus on vain 13

2024-07-29

Irtisanotaanko lääkäreitä suurten mallien, kuten ChatGPT:n, takia?

Tämä huoli ei ole aiheeton. Loppujen lopuksi Googlen iso malli (Med-PaLM 2) on helposti läpäissyt USMLE:n ja saavuttanut lääketieteen asiantuntijan tason.

Uusi tutkimus kuitenkin osoittaa:Kliinisin termeinIhmislääkärit voivat kukistaa täysin nykyisen tekoälyn (AI) mallin, eikä sinun tarvitse huolehtia liikaa henkilökohtaisesta "työttömyydestä".

Asiaan liittyvä tutkimusartikkeli "Evaluation and mitigation of the limitations of large language models in kliinisen päätöksenteon" julkaistiin äskettäin tieteellisessä Nature Medicine -lehdessä.

Tutkimuksessa havaittiin, että edes edistyneimmät suuret kielimallit (LLM) eivät pysty tekemään tarkkoja diagnooseja kaikille potilaille ja suoriutuvat huomattavasti huonommin kuin ihmislääkärit.

Lääkäreiden diagnoosin tarkkuus oli 89 %, kun taas LLM:n diagnoosin tarkkuus oli vain 73 %. Yhdessä ääritapauksessa (kolekystiittidiagnoosi) LLM oli oikein vain 13 % ajasta.

Vielä yllättävämpää on, että LLM:n diagnostinen tarkkuus heikkenee, kun tapauksesta saadaan enemmän tietoa, mikä joskus jopa vaatii testejä, jotka voivat aiheuttaa vakavia terveysriskejä potilaalle.

Miten LLM pärjää ensihoitajana?

Vaikka LLM voi helposti läpäistä USMLE:n,Lääkärin lupatutkimus ja kliiniset tapaushaasteet soveltuvat vain hakijoiden yleisen lääketieteellisen tiedon testaamiseen ja ovat paljon helpompia kuin päivittäiset monimutkaiset kliiniset päätöksentekotehtävät. 。

Kliininen päätöksenteko on monivaiheinen prosessi, joka edellyttää tietojen keräämistä ja yhdistämistä eri lähteistä sekä jatkuvaa tosiasioiden arviointia, jotta voidaan tehdä näyttöön perustuvia päätöksiä potilaan diagnoosista ja hoidosta.

Tutkiakseen edelleen LLM:n mahdollisuuksia kliinisessä diagnoosissa Münchenin teknillisen yliopiston tutkimusryhmä ja heidän yhteistyökumppaninsa tuottivat tietokannan, joka kattaa 2 400 todellista potilasta ja 4 yleistä vatsan sairautta, joka perustuu Medical Information Market Intensive Care Database (MIMIC-IV) -tietokantaan. umpilisäkkeen tulehdus, haimatulehdus, kolekystiitti ja divertikuliitti),Simuloi realistista kliinistä ympäristöä ja toista prosessi ensiapuun hoitoon arvioiden siten sen soveltuvuutta kliiniseksi päätöksentekijäksi.

Kuva |. Tietojen lähde ja arviointikehys. Tämä tietojoukko on johdettu todellisista tapauksista MIMIC-IV-tietokannassa ja sisältää kattavat sähköiset terveystiedot, jotka on tallennettu sairaalahoidon aikana. Arviointikehys heijastaa todellista kliinistä ympäristöä ja tarjoaa kattavan arvion LLM:istä useilla kriteereillä, mukaan lukien diagnostinen tarkkuus, diagnostisten ja hoitosuositusten noudattaminen, ohjeiden noudattamisen johdonmukaisuus, kyky tulkita laboratoriotuloksia ja reagointi ohjeiden muutoksiin. , kestävyys tietomäärän ja tiedon järjestyksen muutoksiin. ICD, kansainvälinen sairauksien luokittelu, tietokonetomografia, ultraääni, kolangiopankreatografia;

Tutkimusryhmä testasi Llama 2:ta ja sen johdannaisia, mukaan lukien yleiset versiot (kuten Llama 2 Chat, Open Assistant, WizardLM) ja lääketieteen toimialuekohtaiset mallit (kuten Clinical Camel ja Meditron).

Tietosuojaongelmista ja MIMIC-datan datankäyttösopimuksista johtuen tietoja ei voi käyttää ulkoisille API:ille, kuten OpenAI tai Google, joten ChatGPT:tä, GPT-4:ää ja Med-PaLM:ää ei testattu. Erityisesti Llama 2, Clinical Camel ja Meditron ovat saavuttaneet tai ylittäneet ChatGPT:n suorituskyvyn lääketieteellisissä lupakokeissa ja biolääketieteellisissä kysymys- ja vastaustesteissä.

testaa kontrolliryhmää Mukana oli neljä lääkäriä kahdesta maasta, joilla oli eri vuoden ensiapukokemus (2, 3, 4 ja 29 vuotta). Tulokset osoittivat, että LLM suoriutui kliinisessä diagnoosissa paljon huonommin kuin ihmislääkärit.

1. LLM:n diagnostinen suorituskyky on merkittävästi alhaisempi kuin kliinisen

Lääkäreiden tulokset osoittavat, että nykyinen LLM on merkittävästi huonompi kuin lääkäreiden kokonaissuorituskyky kaikissa sairauksissa (P < 0,001),Diagnostiikan tarkkuusero on 16 % ja 25 % välillä . Vaikka malli toimii hyvin yksinkertaisen umpilisäkkeen tulehduksen diagnosoinnissa, se toimii huonosti muiden sairauksien, kuten kolekystiitin, diagnosoinnissa. Erityisesti Meditron-malli epäonnistuu kolekystiitin diagnosoinnissa ja diagnosoi usein "sappikivet".

Ammattimainen lääketieteellinen LLM ei ylitä merkittävästi muita malleja yleisessä suorituskyvyssä , ja kun LLM:n on kerättävä kaikki tiedot itse, sen suorituskyky heikkenee entisestään.

Kuva | Diagnostinen tarkkuus edellyttäen, että kaikki tiedot on annettu. Tiedot perustuvat MIMIC-CDM-FI:n osajoukkoon (n=80), keskimääräinen diagnostinen tarkkuus näkyy jokaisen palkin yläpuolella ja pystyviiva edustaa keskihajontaa. LLM:n keskimääräinen suorituskyky oli merkittävästi huonompi (P < 0,001), erityisesti kolekystiitissä (P < 0,001) ja divertikuliitissa (P < 0,001).

Kuva |. Diagnostinen tarkkuus autonomisissa kliinisissä päätöksentekoskenaarioissa. Verrattuna täystietoskenaarioon mallin arvioinnin kokonaistarkkuus on laskenut merkittävästi. LLM suoriutui parhaiten umpilisäkkeentulehduksen diagnosoinnissa, mutta huonosti kolmessa patologiassa: kolekystiitti, divertikuliitti ja haimatulehdus.

2. LLM:n kliininen päätöksenteko on hätäistä ja turvatonta

Tutkimusryhmä havaitsi senLLM noudattaa huonosti diagnostisia ohjeita ja jättää helposti huomaamatta tärkeitä potilastietoja. . Myös tarvittavien laboratoriotutkimusten tilaaminen potilaille on epäjohdonmukaista. LLM:llä on myös merkittäviä puutteita laboratoriotulosten tulkinnassa. Tämä viittaa siihen, että he tekevät hätäisiä diagnooseja ymmärtämättä täysin potilaan tapausta, mikä aiheuttaa vakavan riskin potilaan terveydelle.

Kuva |. LLM:n suosittelemien hoitomenetelmien arviointi. Haluttu hoito-ohjelma määritettiin kliinisten ohjeiden ja potilaiden tosiasiallisesti saamien hoitojen perusteella aineistossa. 808 potilaasta Llama 2 Chat diagnosoi oikein 603 ihmistä. Näistä 603 potilaasta Llama 2 Chat suositteli oikein umpilisäkkeen poistoa 97,5 % ajasta.

3. LLM vaatii edelleen laajaa kliinistä valvontaa lääkäreiltä

lisäksi,Kaikki nykyiset LLM:t pärjäävät huonosti noudattaessaan lääketieteellisiä perusohjeita , virhe tapahtuu joka 2-4 tapaus ja olematon opastus keksitään joka 2-5 tapaus.

Kuva |. LLM:n suorituskyky eri tietomäärillä. Tutkimuksessa verrattiin kunkin mallin suorituskykyä käyttämällä kaikkia diagnostisia tietoja ja käyttämällä vain yhtä diagnostista tutkimusta ja nykyisen sairauden historiaa. Lähes kaikkien sairauksien osalta MIMIC-CDM-FI-tietojoukossa kaikkien tietojen antaminen ei johtanut optimaaliseen suorituskykyyn. Tämä viittaa siihen, että LLM ei pysty keskittymään keskeisiin tosiasioihin ja suorituskyky heikkenee, kun tarjotaan liikaa tietoa.

Tutkimus osoitti myös, että kunkin mallin parhaan suorituskyvyn tarjoavien tietojen järjestys on erilainen kunkin patologian osalta, mikä epäilemättä lisää mallin myöhemmän optimoinnin vaikeutta. Tehtävää ei voida suorittaa luotettavasti ilman laajaa lääkärin valvontaa ja ennakkoarviointia. Kaiken kaikkiaan heillä on yksityiskohtaisia puutteita ohjeiden noudattamisessa, tietojen käsittelyjärjestyksessä ja olennaisten tietojen käsittelyssä, ja siksi ne vaativat merkittävää kliinistä valvontaa varmistaakseen, että ne toimivat oikein.

Vaikka tutkimuksessa löydettiin erilaisia ongelmia LLM:n kliinisen diagnoosin kanssa, LLM:llä on edelleen suuri lupaus lääketieteessä ja se soveltuu todennäköisesti paremmin diagnosointiin sairaushistorian ja testitulosten perusteella. Tutkimusryhmä uskoo näinTässä tutkimustyössä on tilaa edelleen laajentaa seuraavien kahden näkökohdan osalta: ：

Mallin validointi ja testaus: Jatkotutkimuksessa tulisi keskittyä LLM:n kattavampaan validointiin ja testaukseen sen tehokkuuden varmistamiseksi todellisissa kliinisissä olosuhteissa.
Monitieteinen yhteistyö: On suositeltavaa, että tekoälyasiantuntijat työskentelevät tiiviissä lääkäreiden kanssa kehittääkseen ja optimoidakseen yhdessä kliiniseen käytäntöön sopivaa LLM:ää ja ratkaistakseen ongelmia käytännön sovelluksissa.

Miten tekoäly häiritsee terveydenhuoltoa?

Edellä mainitun tutkimuksen lisäksi myös National Institutes of Healthin (NIH) ja heidän yhteistyökumppaneidensa ryhmä löysi samanlaisia ongelmia - vastatessaan 207 kuvahaastekysymykseen,Vaikka GPT-4V saa korkeat pisteet oikean diagnoosin valinnassa, se tekee usein virheitä kuvaillessaan lääketieteellisiä kuvia ja selittäessään diagnoosin syitä. 。

Vaikka tekoäly on tällä hetkellä paljon huonompi kuin ammattilääkärit, sen tutkimus ja soveltaminen lääketeollisuudessa on aina ollut tärkeä "taistelukenttä" kotimaisille ja ulkomaisille teknologiayrityksille ja tieteellisille tutkimusyliopistoille.

Esimerkiksi Google julkaiseeMedical AI iso malli Med-PaLM2 , jolla on tehokkaat diagnostiikka- ja hoitoominaisuudet, ja se on myös ensimmäinen suuri malli, joka on saavuttanut "asiantuntija"-tason MedQA-testisarjassa.

Tsinghuan yliopiston tutkimusryhmän ehdottama"Agentti sairaala" , voi simuloida koko sairauksien hoitoprosessia, ja sen ydintavoitteena on antaa lääkäriagentille oppia hoitamaan sairauksia simuloidussa ympäristössä ja jopa jatkuvasti keräämään kokemuksia onnistuneista ja epäonnistuneista tapauksista itsekehityksen saavuttamiseksi.

Harvard Medical School johtaa uuden työkalun kehittämistä ihmisen patologiaanVisuaalisen kielen yleinen AI-avustaja——PathChat , joka pystyy tunnistamaan sairaudet oikein biopsian osioista lähes 90 %:ssa tapauksista, ja sen suorituskyky on parempi kuin tällä hetkellä markkinoilla olevat yleiset tekoälymallit ja ammattimaiset lääketieteelliset mallit, kuten GPT-4V.

Kuva |. Ohjeet tietojoukon ja PathChat-rakenteen hienosäätöön

Äskettäin OpenAI:n toimitusjohtaja Sam Altman osallistui uuden yrityksen, Thrive AI Healthin, perustamiseen, jonka tavoitteena on tekoälyteknologian avulla auttaa ihmisiä parantamaan päivittäisiä tottumuksiaan ja vähentämään kuolleisuutta kroonisiin sairauksiin.

He sanoivat,Hyperpersonoitu AI-tekniikka Se voi tehokkaasti parantaa ihmisten elintottumuksia ja siten ehkäistä ja hallita kroonisia sairauksia, vähentää lääketieteellistä taloudellista taakkaa ja parantaa ihmisten yleistä terveyttä.

Nykyään tekoälyn soveltaminen lääketeollisuudessa on vähitellen siirtynyt alkuperäisestä kokeellisesta vaiheesta käytännön soveltamisvaiheeseen, mutta voi olla vielä pitkä matka ennen kuin se voi auttaa kliinikoita parantamaan kykyjään, parantamaan kliinistä päätöksentekoa tai jopa korvata sen suoraan.

uutiset

AI kukistaa täysin ihmislääkärit! Tutkimuksessa todettiin, että kliininen päätöksenteko suurissa malleissa on hätäistä ja vaarallista, ja pienin tarkkuus on vain 13

Johdanto

yhteystietoni