Tsinghuan yliopisto ottaa johtoaseman multimodaalisen arvioinnin julkaisemisessa MultiTrust: Kuinka luotettava on GPT-4?

2024-07-24

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän työn aloitti perusteoria-innovaatioryhmä, jota johti professori Zhu Jun Tsinghuan yliopistosta. Tiimi on pitkään keskittynyt tekoälyn kehityksen ajankohtaisiin pullonkaulakysymyksiin, tutkinut alkuperäisiä tekoälyteorioita ja avainteknologioita sekä on kansainvälisesti johtavalla tasolla kilpailevien turvallisuusteorioiden ja älykkäiden algoritmien menetelmien tutkimuksessa. Se on myös tehnyt perusteellista tutkimusta syvän oppimisen vastustuskyvystä ja tehokkuudesta Yleisiä peruskysymyksiä, kuten tiedon käytön tehokkuutta. Asiaankuuluva työ voitti Wu Wenjun Artificial Intelligence Natural Science Award -palkinnon, julkaisi yli 100 CCF-luokan A paperia, kehitti avoimen lähdekoodin ARES-vastahyökkäys- ja puolustusalgoritmialustan (https://github.com/thu-ml/ares) , ja toteutti joitain patentoituja tuotteita. Muuta oppiminen ja tutkimus käytännön sovelluksiksi.

GPT-4o:n edustamat multimodaaliset suuret kielimallit (MLLM) ovat herättäneet paljon huomiota niiden erinomaisen suorituskyvyn ansiosta useissa modaaleissa, kuten kielessä ja kuvissa. Niistä ei ole tullut vain käyttäjien oikean käden avustajia päivittäisessä työssä, vaan ne ovat myös vähitellen tunkeutuneet tärkeimpiin sovellusalueisiin, kuten autonomiseen ajoon ja lääketieteelliseen diagnoosiin, mikä käynnistää teknologisen vallankumouksen.

Ovatko multimodaaliset suuret mallit kuitenkin turvallisia ja luotettavia?

Kuva 1 Esimerkki kilpailevasta GPT-4o-hyökkäyksestä

Kuten kuvasta 1 näkyy, GPT-4o tunnisti Singaporessa sijaitsevan Merlion-patsaan väärin Eiffel-torniksi Pariisissa tai Big Beniksi Lontoossa muokkaamalla kuvan pikseleitä vastustavilla hyökkäyksillä. Tällaisten virhekohteiden sisältöä voidaan mukauttaa mielensä mukaan, jopa mallisovelluksen turvallisten rajojen ulkopuolella.

Kuva 2 Claude3 jailbreak esimerkki

Jailbreak-hyökkäysskenaariossa, vaikka Claude onnistui hylkäämään haitallisen pyynnön tekstimuodossa, kun käyttäjä syöttää ylimääräisen yksivärisen kuvan, joka ei liity asiaan, malli tuottaa vääriä uutisia käyttäjän pyynnöstä. Tämä tarkoittaa, että suurissa multimodaalisissa malleissa on enemmän riskejä ja haasteita kuin suurissa kielimalleissa.

Näiden kahden esimerkin lisäksi multimodaalisiin suuriin malleihin liittyy myös erilaisia turvallisuusuhkia tai sosiaalisia riskejä, kuten illuusioita, harhoja ja tietosuojavuotoja, jotka vaikuttavat vakavasti niiden luotettavuuteen ja uskottavuuteen käytännön sovelluksissa. Syntyvätkö nämä haavoittuvuusongelmat sattumalta vai ovatko ne yleisiä? Mitä eroja erilaisten multimodaalisten suurten mallien uskottavuudessa on, ja mistä ne tulevat?

Äskettäin Tsinghuan yliopiston, Beihangin yliopiston, Shanghai Jiao Tong -yliopiston ja Ruilai Intelligencen tutkijat kirjoittivat yhdessä satasivuisen artikkelin ja julkaisivat kattavan MultiTrust-nimisen benchmarkin, joka ensimmäistä kertaa arvioi kattavasti useiden erilaisten valtavirran multimodaalisten suurten mallien luotettavuuden. ulottuvuuksia ja näkökulmia, jotka osoittavat useita mahdollisia turvallisuusriskejä ja inspiroivat seuraavaa multimodaalisten suurten mallien kehittämistä.

Paperin otsikko: Multimodaalisten suurten kielimallien luotettavuuden vertailu: kattava tutkimus

Paperilinkki: https://arxiv.org/pdf/2406.07057

Hankkeen kotisivu: https://multi-trust.github.io/

Koodivarasto: https://github.com/thu-ml/MMTrustEval

MultiTrust Benchmark Framework

Nykyisestä laajasta mallin arviointityöstä MultiTrust poimi viisi uskottavuuden arviointiulottuvuutta - totuudenmukaisuus, turvallisuus, vankkaus, oikeudenmukaisuus ja yksityisyyden suoja) ja suorittaa toissijaisen luokituksen ja rakentaa tehtäviä, indikaattoreita ja tietojoukkoja kohdennetulla tavalla. kattava arviointi.

Kuva 4MultiTrust-kehyskaavio

MultiTrust keskittyy 10 luotettavaan arvioinnin alaulottuvuuteen, ja se on rakentanut 32 erilaista tehtäväskenaariota, jotka kattavat syrjinnän ja sukupolven tehtävät, jotka kattavat puhtaat tekstitehtävät ja multimodaaliset tehtävät. Tehtäviä vastaavia tietokokonaisuuksia ei pelkästään muunneta ja soviteta julkisten teksti- tai kuvaaineistojen perusteella, vaan myös monimutkaisempaa ja haastavampaa dataa konstruoidaan manuaalisen keräämisen tai algoritmisynteesin avulla.

Kuva 5 MultiTrust-tehtäväluettelo

Toisin kuin suurten kielimallien (LLM) uskottava arviointi, MLLM:n multimodaaliset ominaisuudet tuovat monipuolisempia ja monimutkaisempia riskiskenaarioita ja mahdollisuuksia. Systemaattisen arvioinnin tehostamiseksi MultiTrust-benchmark ei ainoastaan lähde liikkeelle perinteisestä käyttäytymisarvioinnin ulottuvuudesta, vaan se esittelee myös innovatiivisesti kaksi arviointinäkökulmaa, multimodaalisen riskin ja crossmodaalisen vaikutuksen, kattaen kattavasti uusien menettelytapojen tuomat uudet kysymykset. . Uusi haaste.

Kuva 6 Multimodaalisten riskien ja liikennemuotojen välisten vaikutusten riskikaavio

Erityisesti multimodaalisilla riskeillä tarkoitetaan multimodaalisissa skenaarioissa syntyviä uusia riskejä, kuten mahdollisia virheellisiä vastauksia, kun mallit käsittelevät visuaalista harhaanjohtavaa tietoa, sekä virhearviointeja multimodaalisessa päättelyssä, johon liittyy turvallisuuskysymyksiä. Vaikka malli pystyy tunnistamaan kuvassa olevan alkoholin oikein, jotkin mallit eivät ole tietoisia mahdollisesta jakamisesta kefalosporiinilääkkeiden kanssa.

Kuva 7 Malli tekee virhearviointeja tietoturvakysymyksiin liittyvissä perusteluissa

Modaalien välinen vaikutus viittaa uusien modaliteetin lisäyksen vaikutukseen alkuperäisen modaliteetin uskottavuuteen Esimerkiksi epäolennaisten kuvien syöttäminen voi muuttaa suuren kielimallin runkoverkon uskottavaa käyttäytymistä pelkissä tekstikohtauksissa, mikä johtaa enemmän. ennakoimattomuus. Suuren kielimallin uskottavuuden arvioinnissa yleisesti käytetyissä jailbreak-hyökkäyksissä ja kontekstuaalisissa yksityisyysvuototehtävissä, jos malliin tarjotaan kuva, jolla ei ole mitään tekemistä tekstin kanssa, alkuperäinen suojauskäyttäytyminen voi tuhoutua (kuva 2).

Tulosanalyysi ja keskeiset johtopäätökset

Kuva 8 Reaaliaikainen päivitetty uskottavuusluettelo (osa)

Tutkijat ylläpitävät säännöllisesti päivitettävää monimuotoisten mallien uskottavuusluetteloa ja ovat lisänneet uusimmat mallit, kuten GPT-4o ja Claude3.5. Kaiken kaikkiaan suljetun lähdekoodin kaupalliset mallit ovat luotettavampia kuin tavanomaiset avoimen lähdekoodin mallit. Niistä OpenAI:n GPT-4 ja Anthropicin Claude sijoittuivat luotettavuudessa korkeimmalle, kun taas tietoturvakohdistusta lisännyt Microsoft Phi-3 sijoittui korkeimmalle avoimen lähdekoodin malleista, mutta suljetun lähdekoodin malliin verrattuna on edelleen tietty ero.

Kaupalliset mallit, kuten GPT-4, Claude ja Gemini, ovat ottaneet käyttöön monia turvallisuutta ja luotettavuutta vahvistavia teknologioita, mutta silti on olemassa joitain turvallisuus- ja luotettavuusriskejä. Ne ovat esimerkiksi edelleen haavoittuvaisia vastakkaisille hyökkäyksille, multimodaalisille karkotushyökkäyksille jne., mikä häiritsee suuresti käyttökokemusta ja luottamusta.

Kuva 9 Gemini tuottaa riskialtista sisältöä multimodaalisten jailbreak-hyökkäysten aikana

Vaikka monien avoimen lähdekoodin mallien pisteet yleisillä yleislistoilla ovat GPT-4:n pisteet vastaavat tai jopa parempia, luottamustason testeissä näissä malleissa on edelleen heikkouksia ja haavoittuvuuksia eri näkökulmista. Esimerkiksi yleisten ominaisuuksien (kuten OCR) painottaminen harjoitusvaiheessa tekee jailbreaked tekstin ja arkaluontoisten tietojen upottamisesta kuvasyöttöön uhkaavamman riskinlähteen.

Monimuotoisten vaikutusten kokeellisten tulosten perusteella kirjoittajat havaitsivat, että multimodaalinen koulutus ja päättely heikentävät suurten kielimallien turvallista kohdistusmekanismia. Monet multimodaaliset suuret mallit käyttävät kohdistettuja suuria kielimalleja runkoverkkona ja hienosäätävät multimodaalisen koulutusprosessin aikana. Tulokset osoittavat, että näissä malleissa on edelleen suuria tietoturva-aukkoja ja uskottavia riskejä. Samaan aikaan useissa puhtaan tekstin luotettavuuden arviointitehtävissä kuvien esittely päättelyn aikana vaikuttaa ja häiritsee mallin luotettavaa käyttäytymistä.

Kuva 10 Kuvien käyttöönoton jälkeen malli on taipuvaisempia vuotamaan yksityistä sisältöä tekstiin

Kokeelliset tulokset osoittavat, että multimodaalisten suurten mallien uskottavuuden ja niiden yleisten ominaisuuksien välillä on tietty korrelaatio, mutta mallien suorituskyvyssä on silti eroja eri uskottavuuden arvioinnin ulottuvuuksissa. Tällä hetkellä yleiset multimodaaliset suuret malliin liittyvät algoritmit, kuten GPT-4V:n avulla generoidut hienosäätötietojoukot, hallusinaatioiden RLHF jne., eivät riitä lisäämään mallin uskottavuutta täysin. Nykyiset johtopäätökset osoittavat myös, että multimodaalisilla suurilla malleilla on ainutlaatuisia haasteita, jotka eroavat suurista kielimalleista, ja innovatiivisia ja tehokkaita algoritmeja tarvitaan edelleen parantamiseen.

Katso artikkelista yksityiskohtaiset tulokset ja analyysit.

tulevaisuuden suunta

Tulokset osoittavat, että suurten multimodaalisten mallien uskottavuuden parantaminen vaatii tutkijoilta erityistä huomiota. Hyödyntämällä suuria kielimallien kohdistusratkaisuja, monipuolisia koulutustietoja ja skenaarioita sekä paradigmoja, kuten Retrieval Enhanced Generation (RAG) ja Constitutional AI (Constitutional AI), voivat parantaa jossain määrin. Mutta multimodaalisten suurten mallien uskottavuuden parantaminen ylittää tämän. Modaliteettien välinen linjaus ja visuaalisten kooderien kestävyys ovat myös tärkeitä vaikuttavia tekijöitä. Lisäksi mallien suorituskyvyn parantaminen käytännön sovelluksissa jatkuvan arvioinnin ja optimoinnin avulla dynaamisissa ympäristöissä on myös tärkeä suunta tulevaisuudessa.

MultiTrust-benchmarkin julkaisun myötä tutkimusryhmä julkaisi myös multimodaalisen suuren mallin luotettavuuden arviointityökalusarjan MMTrustEval Sen mallien integrointi- ja arviointimodulaarisuusominaisuudet tarjoavat tärkeän työkalun multimodaalisten suurten mallien uskottavuustutkimukseen. Tämän työn ja työkalupakin perusteella tiimi järjesti multimodaalisen suuren mallin tietoturvaan liittyvän tieto- ja algoritmikilpailun [1,2] edistääkseen luotettavaa tutkimusta suurista malleista. Tulevaisuudessa teknologian jatkuvan kehittymisen myötä multimodaaliset suuret mallit näyttävät potentiaalinsa useammilla aloilla, mutta niiden uskottavuus vaatii edelleen jatkuvaa huomiota ja syvällistä tutkimusta.

[1] CCDM2024 Multimodaalinen Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] Kolmas Pazhou-algoritmikilpailu – Multimodaalinen suuren mallin algoritmin turvallisuuden vahvistustekniikka https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

uutiset

Tsinghuan yliopisto ottaa johtoaseman multimodaalisen arvioinnin julkaisemisessa MultiTrust: Kuinka luotettava on GPT-4?

Johdanto

yhteystietoni