uutiset

o1 voittaa gpt-4:n lääketieteen alalla, ja sen suorituskyky nousee pilviin! kiinan joukkue julkaisi artikkelin: olemme tulossa lähemmäksi tekoälylääkäreitä.

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina



  uusi viisausraportti

toimittaja: lrs
[johdatus uuteen viisauteen]openai:n o1-malli on osoittanut huomattavaa suorituskykyä yleisissä kielitehtävissä. viimeisin arvio osoittaa o1-mallin suorituskyvyn lääketieteen alalla keskittyen ymmärtämiseen, päättelyyn ja monikielisyyteen. tulokset ylittivät huomattavasti aiemmat mallit.


kun iso kielimalli julkaistiin, se murtautui onnistuneesti läpi tehtävällään, toimialueen monipuolisuudella ja sujuvalla tekstintuotantokyvyllä. teknologiaa voitiin kuitenkin soveltaa vain joihinkin suhteellisen yksinkertaisiin tehtäviin.


nopeiden teknologioiden, kuten ajatteluketjun, ja erityisesti äskettäin julkaistun openai:n o1-mallin, ilmaantumisen myötä se on ensimmäinen, joka ottaa käyttöön vahvistavan oppimisstrategian sisäisen ajatteluketjuteknologian, joka parantaa suurten mallien kykyä ratkaista monimutkaisia ​​ongelmia ja päättelyä. kokonaan uusi taso.


vaikka o1-malli on osoittanut yllättävän vahvoja kykyjä erilaisissa yleisissä kielitehtävissä, sen suorituskykyä ammattialoilla, kuten lääketieteessä, ei vielä tunneta.


kiinalainen tiimi kalifornian yliopistosta, santa cruzista, edinburghin yliopistosta ja national institutes of health -instituuteista julkaisi yhdessä raportin, joka suorittaa kattavan tutkimuksen o1:stä erilaisissa lääketieteellisissä skenaarioissa ja tutkii mallin suorituskykyä ymmärtämisessä ja päättelyssä. ) ja monikielisyysominaisuudet.



arviointi kattaa kuusi tehtävää, joissa käytetään 37 lääketieteellisen tietojoukon tietoja, mukaan lukien kaksi vaikeaa kysymys-vastaustehtävää, jotka perustuvat new england journal of medicine (nejm) -julkaisuun ja the lancet professional medical testiin.


verrattuna tavallisiin lääketieteellisiin kysymyksiin vastaamisen vertailuarvoihin, kuten medqa, nämä tietojoukot ovat kliinisesti merkityksellisempiä ja niitä voidaan käyttää tehokkaammin todellisissa kliinisissä skenaarioissa.


o1-mallin analyysi osoittaa, että llm:ien päättelykyvyn parantaminen edistää paremmin mallin ymmärtämistä erilaisista lääketieteellisistä ohjeista ja voi myös parantaa mallin kykyä päätellä monimutkaisissa kliinisissä skenaarioissa.


on syytä huomata, että o1-mallin tarkkuus 19 tietojoukossa ja kahdessa monimutkaisessa kysymys- ja vastausskenaariossa ylitti edellisen gpt-4:n keskimäärin 6,2 % ja 6,6 %.


samaan aikaan tutkijat löysivät useita puutteita mallin ominaisuuksista ja olemassa olevista arviointiprotokollista, mukaan lukien hallusinaatiot, epäjohdonmukaiset monikieliset ominaisuudet ja epäjohdonmukaiset arviointimitat.


kattava arvio suurten mallien lääketieteellisistä valmiuksista


mallin päättelykyvyn parantamisen kannalta ajatusketjun (cot) kehotteet ovat yleisesti käytetty kehotusstrategia, joka hyödyntää mallin sisäisiä päättelykuvioita parantaakseen kykyä ratkaista monimutkaisia ​​tehtäviä.


o1-malli menee askeleen pidemmälle sisällyttämällä cot-prosessin mallikoulutukseen, integroimalla vahvistusoppimisen ja osoittamalla vahvaa päättelykykyä, mutta o1-mallia ei ole vielä arvioitu ammattialojen tiedoilla, ja sen suorituskyky tietyissä tehtävissä on edelleen tuntematon.



nykyiset llm-vertailut lääketieteen alalla arvioivat yleensä vain mallin erityisiä kykyjä, kuten tietoa ja päättelyä, turvallisuutta ja monikielisyyttä. testit ovat suhteellisen erillään toisistaan, eivätkä ne pysty arvioimaan kattavasti edistyneitä malleja, kuten o1.



kattavan arvioinnin varmistamiseksi tutkijat keräsivät erilaisia ​​​​lääketieteellisiä tehtäviä ja tietokokonaisuuksia, jotka kattavat yllä mainitut näkökohdat, ja tutkivat prosessissa kolmea kannustavaa strategiaa, mukaan lukien:


1. suorat kehotteet ohjaamaan suuria kielimalleja ratkaisemaan ongelmia suoraan

2. ajatusketju, joka edellyttää mallin ajattelevan askel askeleelta ennen lopullisen vastauksen muodostamista.

3. muutaman otoksen vihjeet tarjoavat mallille useita esimerkkejä, joiden avulla voit oppia syötteen ja tuotoksen yhdistämisen lennossa.


lopuksi mittaa luotujen vastausten ja todellisten vastausten välinen ero sopivalla mittarilla.



keskittyminen ja tehtävät


tutkijat käyttivät 35 olemassa olevaa tietojoukkoa ja loivat 2 ylimääräistä tietojoukkoa, joiden arviointi oli vaikeampaa, ja sitten luokitellaan kaikki 37 tietojoukkoa kolmeen näkökohtaan ja 6 tehtävään selkeämmän arvioinnin ja analytiikan saavuttamiseksi ymmärtääkseen, kuinka malli toimii tietyllä alueella.


ymmärtäminenviittaa mallin kykyyn käyttää sisäistä lääketieteellistä tietoaan lääketieteellisten käsitteiden ymmärtämiseen.


esimerkiksi käsitteiden tunnistustehtävissä mallien täytyy poimia tai kehittää lääketieteellisiä käsitteitä artikkeleista tai diagnostisista raporteista tekstin yhteenvedossa, mallien on ymmärrettävä monimutkaisissa teksteissä olevat käsitteet luodakseen tiiviitä tiivistelmiä.


perusteluttestaa mallin kykyä ajatella loogisesti useiden vaiheiden kautta johtopäätösten tekemiseksi.


kysymys- ja vastaustehtävissä mallin tulee noudattaa nopeita ohjeita päätellä kysymyksessä annettujen lääketieteellisten tietojen perusteella ja valita oikea vastaus useista vaihtoehdoista.


yleisten kysymys- ja vastausaineistojen lisäksi tutkijat keräsivät myös todellisia kliinisiä kysymyksiä the lancetista, the new england journal of medicine (nejm) ja medbulletsista arvioidakseen paremmin llm:ien kliinistä hyötyä.


kliinisissä suositustehtävissä mallien tulee tarjota hoitosuosituksia tai diagnostisia päätöksiä potilastietoihin perustuen. tekoälysairaala- ja agentclinic-tietojoukoissa mallin on toimittava lääketieteellisenä agenttina medcalc-bench-tietojoukossa, mallin on suoritettava matemaattinen päättely ja laskettava vastaukset.


monikielisyys, ohjeiden syöttämisen ja vastausten tulostuksen kielet ovat erilaisia.


xmedbench-tietojoukko edellyttää, että llm:t vastaavat lääketieteellisiin kysymyksiin kuudella kielellä, mukaan lukien kiina, arabia, hindi, espanja, kiina ja englanti ai ​​sairaalan tietojoukossa, mallin on käytettävä kiinaa kysymyksissä ja vastauksissa.


arviointiindikaattorit


tarkkuus, suora mitta mallin luomien vastausten prosenttiosuudesta, jotka vastaavat täsmälleen oikeaa vastausta.


käytetään pääasiassa silloin, kun oikea vastaus on sana tai lause, mukaan lukien monivalintakysymysten tietojoukot, medcalcbench-tietojoukot sekä kliiniset neuvot ja käsitteen tunnistustietojoukot.


f1-pistemäärää, tarkkuuden ja muistamisen harmonista keskiarvoa, käytetään tietosarjoissa, joissa mallin on valittava useita oikeita vastauksia.


bleu ja rouge, luonnollisen kielen prosessointimetriikka, joka mittaa luotujen vastausten ja todellisten vastausten samankaltaisuutta käyttämällä bleu-1:tä ja rouge-1:tä kaikkiin arvioinnin vapaamuotoisiin luontitehtäviin.


alignscore, metriikka, joka mittaa luotujen tekstifaktien johdonmukaisuutta, käyttää alignscorea kaikkiin määrittelemättömiin muotojen luontitehtäviin mallin illuusion asteen arvioimiseksi.


mauve, mittari, joka mittaa eron luodun tekstin ja ihmisen kirjoittaman tekstin välillä, käytetään kaikissa määrittelemättömissä muotojen luontitehtävissä. mittarin arvo vaihtelee välillä 0–100, ja korkeammat arvot osoittavat mallin korkeampaa laatua. ulostulo.


kokeelliset tulokset


nopea strategia


käytä tietokysymyksiin ja vastaustehtäviin, agenttitehtäviin, lääketieteellisiin laskentatehtäviin ja monikielisiin tehtäviin suoria nopeaa arviointimenetelmiä;


muissa meds-benchin tehtävissä noudatetaan kolmen näytteen kehotusstrategiaa benchmark-asetuksessa.



openai:n lausunnon mukaan yleiset kehotustekniikat, kuten chain of thoughts (cot) ja esimerkit kontekstissa, eivät ole kovin hyödyllisiä o1:n suorituskyvyn parantamisessa, koska mallissa on jo sisäänrakennettu implisiittinen cot.


tämän väitteen testaamiseksi edelleen tutkijat lisäsivät useiden edistyneiden vihjeiden vaikutukset arviointiin, mukaan lukien cot, self consistency ja reflex.


gpt-3.5-, gpt-4- ja o1-mallien arvioinnin lisäksi tutkijat valitsivat kaksi avoimen lähdekoodin mallia: toinen on suuri kielimalli meditron-70b, joka on koulutettu lääkärikeskuksen tiedoilla, sekä uusin ja tehokkain avoimen lähdekoodin malli. malli suuri kielimalli llama3-8b


päätulokset


o1:n kliinisen ymmärryksen kykyjä on parannettu


kun o1-malli julkaistiin, openai painotti pääasiassa sitämerkittäviä parannuksia tiedossa ja päättelykyvyssä, kuten matemaattinen ongelmanratkaisu ja koodin generointi, voidaan havaita myös koetuloksista, ja tämä kyky voidaan siirtää myös erityiseen kliinisen tiedon ymmärtämiseen.



voidaan nähdä, että o1 ylittää muut mallit useimpien kliinisten tehtävien ymmärtämisessä. esimerkiksi o1 ylittää gpt-4:n ja gpt-3.5:n keskimäärin 7,6 %:lla ja gpt-3.5:llä käyttämällä f1:tä mittarina. korkeampi, keskimäärin 24,5 % parannus yleisesti käytettyyn bc4chem-tietoaineistoon.



yhteenvetotehtävässä o1 paransi rouge-1-pisteitä 2,4 % ja 3,7 % verrattuna gpt-4:ään ja gpt-3.5:een, mikä osoitti sen paremman kyvyn todellisen kliinisen ymmärryksen suhteen. tulokset vahvistivat myös suurten kielimallien roolin yleisten luonnollisen kielen prosessointiominaisuuksien edistyminen voi tehokkaasti muuttaa mallin ymmärtämisen lääketieteen alalla.


o1-mallin tehokas päättelykyky kliinisissä diagnoosiskenaarioissa


päättelyyn liittyvissä tehtävissä o1-malli on osoittanut etunsa myös todellisissa diagnostisissa tilanteissa.


äskettäin rakennetuissa ja haastavissa kysymysvastaustehtävissä nejmqa ja lancetqa o1:n keskimääräinen tarkkuus vastaavissa aineistoissa on parantunut 8,9 % ja 27,1 % verrattuna gpt-4:ään (79,6 %) ja gpt-3,5:een (61,5 %).


toinen merkittävä parannus o1:n matemaattisiin päättelykykyihin on se, että se parantaa medcalc-benchin lähtötasoa 34,9 %:iin, mikä on merkittävästi 9,4 % korkeampi kuin gpt-4.


monimutkaisemmissa päättelyskenaarioissa, joihin sisältyy useita keskustelu- ja ympäristösimulaatiokierroksia, o1 ylittää gpt-4:n ja gpt-3.5:n agentclinic-vertailussa saaden vähintään 15,5 % ja 10 % medqa:n ja nejm:n osajoukoissa. tarkkuusprosentti parani , pisteillä 45,5 % ja 20,0 %.


suuremman tarkkuuden lisäksi o1:n vastaukset ovat myös ytimekkäämpiä ja suorempia, kun taas gpt-4 tuottaa hallusinaatioita väärien vastausten viereen.



tutkijat uskovat, että o1:n tiedon ja päättelyn parannukset johtuvat pääasiassa parannetun datan ja taustalla olevien tekniikoiden (kuten cot-tietojen ja vahvistusoppimistekniikoiden) käytöstä koulutusprosessin aikana.


yllä olevien optimististen tulosten perusteella tutkijat totesivat lehdessä innoissaan: o1-mallin myötä olemme yhä lähempänä täysin automaattista tekoälylääkäriä.


viitteet: