OpenAI Weng Li ehdotti laajaa mallia "ulkoisesta hallusinaatiosta": kymmenen tuhatta sanaa yksityiskohtaista selitystä syistä, miksi vastustusmenetelmät aiheuttavat hallusinaatioita...

OpenAI Weng Li ehdotti laajaa mallia "ulkoisesta hallusinaatiosta": kymmenentuhatta sanaa yksityiskohtaista selitystä syistä, miksi vastustusmenetelmät aiheuttavat hallusinaatioita...

2024-07-15

Länsituuli tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Suurten mallien illuusio on myös jaettu sisäiseen ja ulkoiseen...

OpenAI kiinalainen tiedemies Weng Li uusin blogi ehdottaaLLM ulkoinen hallusinaatio(ulkoinen hallusinaatio).

Weng Li, joka eroaa viitemallin tuottamasta sisällöstä, joka on ristiriidassa todellisuuden kanssa, on kuvitteellinen, epäjohdonmukainen tai merkityksetön, määritteli LLM:n "illuusio"-ongelmaksiMallin tulosteen sisältö on kuvitteellista eikä perustu tarjottuun kontekstiin tai maailmantietoon。

Tästä seuraa kahdenlaisia hallusinaatioita:

Kontekstin hallusinaatiot: malliTulosteen tulee olla yhteneväinen kontekstin lähdesisällön kanssa(Kun kontekstissa esiintyy hallusinaatioita, tulos on ristiriidassa lähdesisällön kanssa).
Ulkoinen illuusio: Mallin tulosteen tulee perustua valmiiksi koulutettuun tietojoukkoon. Harjoittelua edeltävän tietojoukon koon vuoksi jokaisen luodun ristiriidan hakeminen ja tunnistaminen on kuitenkin kustannuksiltaan estävää.Jos ajattelemme koulutusta edeltävää tietojoukkoamaailman tietämys , yrittää sitten pohjimmiltaan varmistaa, että mallin tulos on tosiasia ja että se voidaan varmistaa ulkomaailman tiedolla. Yhtä tärkeää on,Kun malli ei tiedä tosiasiaa, sen tulee nimenomaisesti ilmoittaa, ettei se tiedä

Aiemmin Weng Li ehdotti myös agenttikaavaa: Agentti = suuri malli + muisti + aktiivinen suunnittelu + työkalujen käyttö, jota jotkut nettimiehet kutsuivat "parhaaksi artikkeliksi agentista, jonka olen koskaan nähnyt".

Tämä isojen mallien illuusiota käsittelevä blogi on myös "raskasta työtä". Artikkeli on erittäin pitkä, yhteensä 24 viittausta:

Weng Li keskittyi ulkoisiin hallusinaatioihin ja keskusteli kolmesta kysymyksestä: Mikä on hallusinaatioiden syy? Hallusinaatioiden havaitseminen, keinot vastustaa hallusinaatioita.

Qubits on koonnut ja järjestänyt alkuperäisen tekstin muuttamatta alkuperäistä merkitystä.

Qubits on käännetty ja painettu uudelleen alkuperäisen kirjoittajan luvalla.

Alkuperäinen teksti löytyy täältä:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

Mikä aiheuttaa hallusinaatioita?

Koska tavallinen käyttöön otettava LLM on esikoulutettava ja hienosäädettävä linjausta ja parantamista varten, syyanalyysi alkaa näistä kahdesta vaiheesta.

Koulutusta edeltävä dataongelma

Koulutusta edeltävä tietojoukko on suunniteltu edustamaan kaikkea saatavilla olevaa maailmantietoa kirjallisessa muodossa ja on siksi valtava.

Tietojen kaapiminen julkisesta Internetistä on yleisin vaihtoehto, mutta tämä voi johtaa vanhentuneisiin, puuttuviin tai virheellisiin tietoihin. Koska malli saattaa muistaa nämä tiedot väärin yksinkertaisesti maksimoimalla log-todennäköisyyden, malli voi tehdä virheitä.

Hienosäätää uutta tietoa

Esikoulutetun LLM:n hienosäätö valvotun hienosäädön (SFT) ja vahvistusoppimisen avulla ihmispalautteen avulla (RLHF) on yleinen tekniikka mallin tiettyjen ominaisuuksien (kuten ohjeiden seuranta) parantamiseksi. Hienosäätövaihe tuo väistämättä uutta tietoa.

Vaikka hienosäätö kuluttaa yleensä vähemmän laskentaresursseja,On kyseenalaista, voidaanko uutta tietoa luotettavasti oppia hienosäätämällä mallia pienessä mittakaavassa.。

Tämän vuoden tutkimuksessa Gekhman ym. keskustelivat siitä, edistääkö LLM:n hienosäätö uudella tiedolla hallusinaatioiden esiintymistä.

He havaitsivat, että LLM oppii hitaammin hienosäädetyistä esimerkeistä, joissa on uutta tietoa, kuin esimerkeistä, jotka ovat johdonmukaisia mallin olemassa olevan tiedon kanssa, kun nämä esimerkit ja uutta tietoa on opittu, mallin taipumus hallusinaatioihin kasvaa.

Tarkemmin sanottuna suljettu kysymys- ja vastaustietojoukko (eli EntityQuestions) = (,), Correct(,;,) määritellään arvioksi todennäköisyydestä, että malli M luo oikean vastauksen tarkasti, kun käytetään satunnaisia esimerkkejä ja tiettyä dekoodausta. lämpötila kysyy, oikea vastaus kysymykseen on.

He jakoivat esimerkit 4 luokkaan Correct(,;,) eri ehtojen perusteella: Tunnettu ryhmä (mukaan lukien kolme alaryhmää: HighlyKnown, MaybeKnown, WeakKnown) ja Tuntematon ryhmä.

Mielenkiintoisia havaintoja kokeista, joissa dev-joukon tarkkuus on otettu illuusion symboliseksi indikaattoriksi:

Tuntematon sovitusnopeus on huomattavasti hitaampi kuin Tunnettu;
Paras suorituskyky saavutetaan, kun LLM sopii useimpiin Tunnettuihin koulutusesimerkkeihin, mutta vain muutamaan tuntemattomaan esimerkkiin;
Kun useimmat Tuntemattomat esimerkit opitaan, malli alkaa hallusinoida

Nämä Gekhmanin et al. tulokset osoittavat riskit, joita aiheutuu valvotun hienosäädön käyttämisestä LLM-tiedon päivittämiseen.

Hallusinaatioiden havaitseminen

Hae tehostettu arviointi

Mallin hallusinaatioilmiön kvantifioimiseksi Lee et al esittelivät uuden vertailutietojoukon vuonna 2022FactualityPrompt, tämä tietojoukko sisältää tosiasioihin perustuvia ja ei-tosiasiallisia vihjeitä käyttäen Wikipedian asiakirjoja tai lauseita faktatietopohjana.

Wikipedia-dokumentit ovat FEVER-tietojoukosta tunnettua todellista tietoa, kun taas lauseet valitaan tf-idf:n tai samankaltaisuuden avulla lauseiden upotusten perusteella.

Kaksi mittaria hallusinaatioiden arvioimiseksi otettiin huomioon mallin jatkon ja parillisen Wikipedia-tekstin perusteella:hallusinaatioiksi nimettyjä kokonaisuuksia(NE)Virheprosentti、Implikaatiosuhde(Kohdesuhteet).

Korkeammat NE-virhesuhteet ja pienemmät seuraussuhteet osoittavat suurempaa tosiasiallisuutta. Molempien mittareiden havaittiin korreloivan ihmisten merkintöjen kanssa, ja suuremmat mallit toimivat paremmin tällä vertailuarvolla.

Lisäksi Min et al 2023 ehdottivatFActScore , hajottaa pitkän artikkelin sukupolven useiksi ydintosiasioiksi ja tarkista jokainen tosiasia yksitellen tietokantoihin, kuten Wikipediaan. Kunkin mallin luoman tietolähteen tukemien lauseiden suhde (tarkkuus) voidaan sitten mitata, jolloin FActScore on mallin luoma keskimääräinen tarkkuus vihjejoukon yli.

Tässä artikkelissa testattiin erilaisia tosiasioiden varmistusmenetelmiä elämäkerran luontitehtävässä ja havaittiin seHaun käyttö tarjoaa paremman johdonmukaisuuden kuin yhteydetön LLM . Haun tehostamismenetelmissä parhaan estimaattorin valinta riippuu mallista.

Kontekstiton LLM: käytä suoraan "True vai False?" kysyäksesi LLM:tä ilman lisäkontekstia
Retrieval → LLM: Kehotetaan asianmukaisia kohtia, jotka on haettu tietolähteistä kontekstina
Ei-parametrinen todennäköisyys (NP): Laske tunnisteiden keskimääräinen todennäköisyys atomifaktioissa peitetyn LM:n avulla ja käytä sitä ennusteiden tekemiseen
Haku→LLM+NP: Kahden menetelmän integrointi

Mielenkiintoisia havaintoja mallin hallusinatorisesta käyttäytymisestä:

Harvinaisilla kokonaisuuksilla on korkeampi virheprosentti elämäkerran luontitehtävissä
Myöhemmin luodussa sisällössä mainituilla faktoilla on myös korkeampi virheprosentti
Haun käyttäminen mallin luomisen perustana voi merkittävästi auttaa vähentämään hallusinaatioilmiöitä

Wei ym. ehdottivat vuonna 2024 myös menetelmää LLM:n pitkäaikaisen tosiasiallisuuden arvioimiseksiTURVALLINEN(Search-Augmented Faktuality Evaluator).

FActScoreen verrattuna suurin ero on se, että SAFE käyttää kielimallia agenttina.Tee iteratiivisesti Google-hakukyselyitä monivaiheisen prosessin kautta, ja syy siihen, tukevatko hakutulokset tätä tosiasiaa vai eivät.

Jokaisessa vaiheessa agentti luo hakukyselyn tarkistettavien tosiasioiden ja aiemmin saatujen hakutulosten perusteella. Useiden vaiheiden jälkeen malli tekee päättelyn määrittääkseen, tukevatko hakutulokset tosiasiaa.

Kokeiden mukaanVaikka SAFE-menetelmä maksaa 20 kertaa vähemmän kuin ihmisen annotaatio, se toimii paremmin kuin ihmisen merkintä: Yhteisymmärrys ihmisten kanssa oli 72 % ja erimielisyyksiin kuuluneiden ihmisten päihtyneiden osuus oli 76 %.

SAFE-arviointiindeksi on F1@K. Pitkissä tosiasiallisissa mallivastauksissa tulisi ihanteellisesti saavuttaa sekä tarkkuus että muistaminen, koska vastauksen tulee samanaikaisesti täyttää:

tosiasiallinen: Mitattu tarkkuudella, joka on tuettujen tosiasioiden prosenttiosuus koko vastauksesta.
pitkä : Mitattu palauttamalla, mikä on annettujen tosiseikkojen prosenttiosuus kaikista asiaankuuluvista faktoista, joiden pitäisi näkyä vastauksessa. Siksi tuettujen tosiasioiden enimmäismäärä otetaan huomioon.

Mallin vastauksen perusteella metriikka F1@K määritellään seuraavasti:

Lisäksi Chern ym. 2023 ehdottivat standardien mukaista faktantarkistustyönkulkuaFacTool . Se on suunniteltu havaitsemaan tosiasioihin liittyvät virheet erilaisissa tehtävissä, mukaan lukien tietoon perustuva kysymyksiin vastaaminen, koodin luominen, matemaattinen ongelmanratkaisu ja tieteellisen kirjallisuuden katsaus. Vaiheet sisältävät:

Vaatimuksen purkaminen: Pura kaikki todennettavissa olevat vaatimukset kysymällä LLM:tä.
Kyselyn luominen: Muunna jokainen lause kyselysarjaksi, joka soveltuu ulkoisille työkaluille, kuten hakukonekyselyille, yksikkötestitapauksille, koodinpätkille ja paperin otsikoille.
Työkalukysely ja todisteiden kerääminen: Tee kyselyjä ulkoisista työkaluista, kuten hakukoneista, kooditulkijoista ja Google Scholarista, ja hanki palautettuja tuloksia.
Johdonmukaisuuden varmistus: Jokaiselle väitteelle on määritetty binaarinen faktatunniste ulkoisten työkalujen tarjoaman todisteen tuen perusteella.

Näytteenottopohjainen tunnistus

Manakul ym. 2023 ehdottivat johdonmukaisuuden tarkistusta, joka perustuu useisiin näytteisiin black-box LLM:stä.SelfCheckGPT, tunnistaa asiavirheet.

Ottaen huomioon, että harmaan laatikon faktantarkistusmittaukset vaativat pääsyn LLM:n token-tason logprobiin, SelfCheckGPTKäytä vain näytteitä, jotka eivät ole riippuvaisia ulkoisista tietokantoista, joten mustan laatikon käyttö riittää, ulkoista tietopohjaa ei tarvita.

Tämä menetelmä käyttää erilaisia mittareita mittaamaan johdonmukaisuutta mallivastauksen ja muiden satunnaisten mallinäytteiden välillä, mukaan lukien BERTScore, NLI, kehotteet (kysy/ei) jne. Vihjeitä käyttävä SelfCheckGPT näyttää toimivan parhaiten suoritettaessa GPT-3:n luomien WikiBio-kohtien kokeellisia tarkastuksia.

Tuntemattoman tiedon kalibrointi

Mallin pyytäminen antamaan vastauksia vastaamattomiin tai tuntemattomiin kysymyksiin voi aiheuttaa hallusinaatioita.TotuudenmukainenQA(Lin et al., 2021) jaItsetietoinen(Yin et al., 2023) ovat kaksi benchmarkia, jotka mittaavat mallin kykyä tuottaa realistisia vastauksia tällaisissa tilanteissa. Ensimmäinen on kontradiktorisesti rakennettu korostamaan inhimillisiä virheitä ja jälkimmäinen sisältää vastaamattomia kysymyksiä.

Kun kohtaat nämä ongelmat,Mallin tulee kieltäytyä vastaamasta tai antamasta asiaankuuluvia tietoja。

TruthfulQA:ssa testikysymykset on suunniteltu vastakkaisesti yleisten inhimillisten väärinkäsitysten tai virheiden perusteella. Vertailuarvo sisältää 817 kysymystä, jotka kattavat 38 aihetta, mukaan lukien terveys, laki, talous ja politiikka.

Testattaessa paras LLM saavutti 58 prosentin tarkkuuden, kun taas ihmiset pystyivät saavuttamaan 94 prosentin tarkkuuden. Tutkimusryhmä havaitsi senYleisen väärinkäsityksen vuoksi suuremmat mallit ovat vähemmän realistisia, mutta tämä trendi ei heijastu muihin standardeihin(ei vastakkainasettelua)tosiasiallinen perusta。

Tässä on esimerkki GPT-3:n väärästä vastauksesta TruthfulQA:ssa:

Yin ym. 2023ItsetietoinenKäsite , viittaa siihen, tietävätkö kielimallit sen, mitä he tietävät vai eivät tiedä.

SelfAware sisältää 1032 vastaamatonta kysymystä ja 2337 vastattavaa kysymystä viidessä kategoriassa. Vastaamattomat kysymykset ovat peräisin online-foorumeilta, joissa on ihmisten huomautuksia, ja vastaukset kysymykset ovat peräisin SQuADista, HotpotQA:sta ja TriviaQA:sta.

Kysymys voi olla vastaamaton useista syistä, kuten tieteellisen konsensuksen puuttumisesta, tulevaisuuden mielikuvituksesta, täydellisestä subjektiivisuudesta, filosofisista syistä, jotka voivat tuottaa useita vastauksia jne.

Tutkimus käsittelee vastattavien ja vastaamattomien kysymysten erottamista binäärisenä luokitustehtävänä ja käyttää F1-pisteitä tai tarkkuutta mallin suorituskyvyn arvioimiseen. Kokeet osoittavat, että suuremmat mallit toimivat paremmin tässä tehtävässä.

Toinen tapa arvioida kuinka hyvin malli ymmärtää tuntematonta tietoa on mitata mallin tulosteen epävarmuutta. Kun ongelma on tunnetun ja tuntemattoman välissä, mallin tulee osoittaa oikeaa luottamustasoa.

Kadavath et al.:n vuoden 2022 kokeilu osoitti, että useissa moniulotteisissa vastausvaihtoehdoissa näkyvillä kirjaimilla,Aiheen valintamuodoissa (MMLU, TruthfulQA, QuALITY, LogiQA), LLM pystyy hyvin arvioimaan todennäköisyyttä, että vastaus on oikea, mikä tarkoittaa, että ennustettu todennäköisyys on yhdenmukainen sen kanssa, kuinka usein vastaus on tosi.

RLHF-hienosäätö johtaa huonompaan mallin kalibrointiin, mutta korkeammat näytteenottolämpötilat johtavat parempiin kalibrointituloksiin.

Lin ym. ehdottivat vuonna 2022KalibroituMath Mission Kit. CalibrateMath on joukko ohjelmallisesti luotuja matemaattisia ongelmia, joiden vaikeustasot vaihtelevat ja jotka testaavat mallin tulosteen todennäköisyyksien kalibrointia.

Jokaiselle kysymykselle mallin on annettava numeerinen vastaus ja sen luottamus siihen. Tarkastellaan kolmenlaisia todennäköisyyksiä:

Kirjaimellinen luku tai sana (kuten "matalin", "matala", "keskikokoinen", "korkea", "korkein"), kuten "Luottamus: 60 % / Keskitaso".
Vastaustunnuksen normalisoitu logaritmistodennäköisyys. Huomaa, että tätä parametria ei käytetty hienosäätökokeissa.
Logprob epäsuoralle "True/False" lipulle alkuperäisen vastauksen jälkeen. Kokeet keskittyvät yleistyksen kalibroimiseen tehtävän vaikeusasteen tai sisällön jakelumuutoksissa. Jokainen hienosäätödatapiste on kysymys, mallin vastaus (joka voi olla väärä) ja kalibroinnin luotettavuus. Molemmissa tapauksissa tekstitodennäköisyydet yleistyivät hyvin, ja kaikki asetukset toimivat hyvin kerto- ja jakolaskutehtävissä. Mallin ennusteen luotettavuuden kannalta muutama laukaus on heikompi kuin hienosäädetyt mallit. On hyödyllistä sisällyttää lisää esimerkkejä, 50-shot on melkein yhtä hyvä kuin hienosäädetty versio.

epäsuora kysely

Agrawal ym. (2023) tutkivat erityisesti tapauksia hallusinoitujen viittausten esiintymisestä LLM-sukupolvessa, mukaan lukien kuvitteelliset kirjojen, artikkelien ja paperien otsikot. He käyttivät kahta johdonmukaisuuteen perustuvaa menetelmää hallusinaatioiden havaitsemiseen, nimittäin suoraa kyselyä ja epäsuoraa kyselyä. Molemmat menetelmät suorittavat tarkistuksen useita kertoja, kun T > 0, ja varmistavat johdonmukaisuuden.

Suorat kyselyt vaativat mallin määrittämään, onko luotu viitemateriaali olemassa, kun taas epäsuorat kyselyt vaativat aputietoja, kuten esim.Kuka on viitteen kirjoittaja?。

Oletuksena on, että hallusinoidun viittauksen johdonmukaisuus luoda sama tekijä useita kertoja on pienempi kuin todennäköisyys, että useat vastaukset suoraan kyselyyn paljastavat viitteen olemassaolon.

Kokeet osoittavat senEpäsuorat kyselymenetelmät toimivat paremmin, suuremmat mallit ovat tehokkaampia ja hallusinaatioita on vähemmän。

Tapoja torjua hallusinaatioita

Seuraavaksi tarkastellaan menetelmiä LLM-vastausten aitouden parantamiseksi, mukaan lukien haku ulkoisista tietokannoista, erityiset näytteenottomenetelmät ja kohdistuksen hienosäätö. Joitakin tulkintamenetelmiä hallusinaatioiden vähentämiseksi neuronien muokkaamisen avulla ei käsitellä tässä.

RAG → Muokkaus ja nimeäminen

RAG (Retrieval Augmented Generation) on hyvin yleinen tapa tarjota perustietoja hakemalla asiaankuuluvia asiakirjoja ja sitten luomalla ne käyttämällä muita asiaankuuluvia asiakirjoja kontekstina.

RARR(Retrofit Attribution using Research and Revision) on Gaon et al. vuonna 2022 ehdottama kehys, jonka avulla LLM voi tukea ulkopuolisten todisteiden osoittamista takautuvasti toimituksellisen vaikuttavuuden avulla.

Mallin luoman tekstin perusteella RARR käsittelee sen kahdessa vaiheessa ja tulostaa tarkistetun tekstin ja attribuutioraportin:

1. Tutkimusvaihe: Etsi asiaankuuluvat asiakirjat todisteiksi.

Kyselyn luontimallia käytetään ensin (muutaman laukauksen vihjeiden avulla, →1,…, ) muodostamaan joukko hakukyselyitä 1,… kunkin lauseen eri näkökohtien vahvistamiseksi.
Google-haun suorittaminen, jokainen kysely = 5 tulosta.
Valmiiksi koulutettua kyselyn ja asiakirjan relevanssimallia käytetään osuvuuspisteiden määrittämiseen, ja vain yksi osuvin = 1 asiakirja 1,… säilytetään kullekin kyselylle.

2. Revisiovaihe: Muokkaa tulostetta korjaamaan sisältöä, jota todisteet eivät tue, säilyttäen samalla mahdollisimman paljon alkuperäistä sisältöä.Alusta tarkistettu teksti =.

(,) mukaan protokollamalli (muutaman laukauksen vihjeillä + CoT, (,,) → 0,1) tarkistaa, ovatko todisteet ristiriidassa nykyisen tarkistetun tekstin kanssa.

Vain kun epäjohdonmukaisuus havaitaan, muokkausmalli (muutaman vihjeen + CoT, (,,)→ uusi ) avulla tulostaa uuden version, joka on suunniteltu muuttumaan mahdollisimman vähän samaan aikaan todisteiden kanssa.

Attribuutioraporttiin päätyy vain rajallinen määrä =5 todistetta.

Sekä attribuutio että säilyttäminen ovat tärkeitä tarkistettua tekstiä arvioitaessa.

Attribuutio käyttää AIS-pisteitä (Attributed to Identified Source) sen mittaamiseen, kuinka suuri osa sisällöstä voidaan antaa ansioksi. Ihmisten huomautuksia voidaan kerätä tai NLI-malleja voidaan käyttää arvioimaan automaattista AIS-pisteytystä.

Säilytys viittaa alkuperäisen tekstin säilytysasteeseen, mitattuna Previntent × PrevLev, jossa Previntent vaatii manuaalisen huomautuksen ja PrevLev perustuu merkkitason Levenshtein-muokkausetäisyyteen. Verrattuna kahteen lähtötasoon, RARR johtaa tasapainoisempiin tuloksiin, erityisesti säilytysmittareiden suhteen.

Samanlainen kuin RARR, joka käyttää haku+muokkausta, ehdottaneet Mishra et al 2024FAVA (Factuality Verification with Augmented Knowledge) hakee myös asiaankuuluvat asiakirjat ja muokkaa sitten mallin tulostetta kuviteltujen virheiden välttämiseksi. FAVA-malli koostuu noutajasta ja editorista.

Saat kehotteen ja mallin, nouda tärkeimmät asiakirjat:

Editori tuottaa parannetun tulosteen:

RARR ei vaadi koulutusta, mutta editorimallin muokkaus FAVAssa vaatii hienosäätöä. Luokittelemalla erityyppisiä hallusinaatiovirheitä tarkemmin, on mahdollista tuottaa synteettistä harjoitusdataa muokatuille malleille lisäämällä satunnaisia virheitä mallin sukupolveen.

Jokainen esimerkki on tripletti (,,∗), jossa alkuperäinen Wikipedia-kohta on kultaisena kontekstina, on LM-tulostus virheineen ja ∗ on tulos virhetunnisteineen ja oikeine muokkauksin.

He et al. ehdotti vuonna 2022RR(Rethinking with retrieval) -lähestymistapa perustuu myös asiaankuuluvan ulkoisen tiedon hakemiseen, mutta siihen ei liity lisämuokkausta.

Hakukyselyn luontimallin käyttämisen sijaan RR:n haku perustuu hajautettuihin CoT-vihjeisiin.

Kun syöttövihje on annettu, RR käyttää CoT-vihjeitä luodakseen useita päättelypolkuja 1,… lämpötilassa > 0, jossa jokainen päättelypolku sisältää selityksen (eli päättelyosan), jota seuraa ennuste (eli mallin todellinen tulos). . Hae ulkopuolista tietoa 1,… jokaisen selityksen tueksi. Sitten valitaan todenmukaisin vastaus haettuun tietoon sopivan asteen perusteella 1,…,.

tiedon haku: RR:n kokeissa käytetään harvaa BM25-hakua Wikipedia-haussa, mitä seuraa uudelleensijoittaminen upottamalla kosinin samankaltaisuus valmiiksi koulutetun MPNet-mallin avulla.
Uskollisuuspisteet : Kunkin päättelypolun tarkkuutta arvioidaan seuraamuspisteiden, ristiriitapisteiden ja MPNet-samankaltaisuuden yhdistelmällä. Sekä aiheuttamispisteet että ristiriitapisteet saadaan esikoulutetusta NLI-mallista.

Itsenäinen RAG(Asai et al., 2024) kouluttaa kielimallia päästä päähän niin, että se oppii reflektoimaan omaa tuotantoaan tulostamalla tehtävätuloksia ja ajoittaisia erityisiä reflektiomerkkejä.

Tutkimusryhmä loi valvotun tietojoukon mallien arvioimiseksi ja generoimiseksi GPT-4:n avulla ja tislaa sen sitten sisäiseen malliin vähentääkseen päättelykuluja.

Kun syöttökehote on annettu, luotu tulos koostuu useista osista (esim. segmentti on lause). Heijastusmerkkejä on neljää tyyppiä, yksi hakua varten ja kolme arviointia varten:

Retrieve: määrittää, suoritetaanko haku rinnakkain tulostearvojen saamiseksi: {kyllä, ei, jatka}.
IsRel: Määritä, onko kehote relevantti haetun asiakirjan kannalta: {relevant, irrelevant}.
IsSup: Määritä, onko tulosteksti tuettu: {täysin tuettu, osittain tuettu, ei tukea}.
IsUse: Määritä, onko tulosteksti hyödyllinen: {5, 4, 3, 2, 1}.

Self-RAG luo yhden segmentin kerrallaan. Annetun ja edellisen sukupolven < perusteella malli purkaa Retrieve-tunnuksen:

Jos Retrieve==no, luo suoraan;
Jos Retrieve==yes, malli hakee useita kappaleita rinnakkain ja käyttää IsRel-tunnusta tarkistaakseen, ovatko haetut asiakirjat relevantteja. Luo ja käytä muita luokitustunnuksia tarvittaessa pisteytyksen, sijoituksen ja parhaan tuloksen valitsemiseen useiden tulosten joukosta.

toimintaketju

Ilman ulkoista hakutietoa on mahdollista suunnitella aHyödynnä itse mallia validointia ja tarkistamista vartenprosessi hallusinaatioiden vähentämiseksi.

Dhuliawala ym. ehdottivat toimintaketjuihin perustuvaa suunnittelu- ja toteutusvarmennusmenetelmää vuonna 2023, nsVarmistusketju (Lahti). CoVe koostuu neljästä ydinvaiheesta:

perusvaste: Malli luo alustavan vastausluonnoksen, jota kutsutaan "perusviivaksi".
Suunnittelun vahvistus: Tämän raakasukupolven perusteella malli suunnittelee ei-mallipohjaisia varmistuskysymyksiä tosiasian tarkistamista varten. Tämä voidaan saavuttaa pienellä määrällä esimerkkikehotteita (vahvistuskysymyksiin).
Suorita vahvistus : Malli vastaa itsenäisesti näihin kysymyksiin. Asennusmuunnelmia on useita:

1) Unioni: Yhdistettynä vaiheeseen 2, jossa muutaman otoksen esimerkkirakenne on (vastaus, varmistuskysymys, varmistusvastaus, haittana on, että alkuperäinen vastaus on kontekstissa ja malli saattaa toistaa samanlaisia illuusioita).

2) Kaksivaiheinen lähestymistapa: Erottele varmennuksen suunnittelu- ja toteutusvaiheet, jos se ei vaikuta alkuperäiseen vastaukseen.

3) Jaottelu: Vastaa jokaiseen varmistuskysymykseen erikseen. Jos esimerkiksi pitkä perusrakenne johtaa useisiin vahvistuskysymyksiin, jokaiseen kysymykseen vastataan yksitellen.

4) Hajotus + versio: Lisää "ristitarkistus" -vaihe sen jälkeen, kun hajoamisvahvistus on suoritettu, jotta voit ehdollistaa ja havaita epäjohdonmukaisuudet perustuen perusvastauksiin ja vahvistuskysymyksiin ja -vastauksiin.

lopullinen tulos : Luo lopullinen, jalostettu tulos. Jos havaitaan epäjohdonmukaisuuksia, tulostusta muutetaan tässä vaiheessa.

CoV on suunniteltu tällä tavalla, koska pitkän varmennusketjun generointi voi johtaa toistuviin hallusinaatioihin, koska alkuperäinen hallusinaatioreaktio on edelleen kontekstissa ja sitä voidaan käsitellä uuden sukupolven prosessien aikana.Vastaamisen jokaiseen validointikysymykseen yksitellen havaittiin johtavan parempiin tuloksiin kuin pitkän lomakkeen luomisen。

Tässä on mielenkiintoisia havaintoja CoVe-kokeista:

Komentosäädöt ja CoT eivät vähentäneet hallusinaatioita.
Dekompositio ja kaksivaiheinen CoVe parantavat suorituskykyä, ja eksplisiittiset perustelut epäjohdonmukaisuuden havaitsemiseen auttavat myös ("decomposition+revision" -lähestymistapa).
Lyhytmuotoiset vahvistuskysymykset saivat tarkempia vastauksia kuin pitkät kysymykset.
Vapaamuotoinen LLM luo vahvistuskysymykset paremmin kuin heuristiset kysymykset (esim. vastasiko X kysymykseen?), ja avoimen sukupolven vaativat kysymykset ovat parempia kuin kyllä/ei-kysymykset.

Lisäksi Sun ym. ehdottivat vuonna 2023LAUSUAmenetelmä luottaa harjoituksiin välivaiheena mallin luomisen tosiasiallisen oikeellisuuden parantamiseksi ja hallusinaatioiden vähentämiseksi.

Motiivina on käyttää Transformerin muistia tiedonhakumallina. RECITE:n uudelleenkerronta- ja vastausjärjestelmässä LLM:ää pyydetään ensin kertomaan uudelleen asiaankuuluvat tiedot ja sitten se luo tulosteen.

Erityisesti muutaman otoksen kontekstuaalisia vihjeitä voidaan käyttää mallin opettamiseen parafrasoimaan ja sitten luomaan vastauksia parafraasin perusteella. Lisäksi se voidaan yhdistää itsestään johdonmukaisiin ensemble-menetelmiin, jotka käyttävät useita näytteitä, ja sitä voidaan laajentaa tukemaan monihyppyiseen kysymykseen vastaamista.

Luodut parafraasit ovat verrattavissa BM25-pohjaiseen hakumalliin, mutta molemmissa on aukkoja käytettäessä oikeita kohtia. Tutkimusryhmän tekemän virheanalyysin mukaan noin 7-10 % kysymyksistä lausuttiin oikein, mutta oikeaa vastausta ei saatu aikaan.

Näytteenottomenetelmä

Lee ym. 2022 havaitsivat, että ytimen näytteenotto (top-sampling) toimi huonommin kuin ahne näytteenotto FactorityPrompt-benchmarkissa, vaikka ytimen näytteenotto lisäsi satunnaisuutta, mikä saavutti paremman monimuotoisuuden ja vähemmän toistoa.

Siksi he ehdottivat hypoteesiin perustuvaa faktaytimen näytteenottoalgoritmia,Tämä hypoteesi väittää, että otannan sattumanvaraisuudella on suurempi vaikutus lauseen toisen puoliskon tosiasiallisuuteen kuin lauseen alkuun. . Faktan ydinnäytteenoton tarkoituksena on säätää dynaamisesti näytteiden todennäköisyyttä jokaisessa lauseessa. Lauseen :nnelle merkille on =max(,⋅−1), jolla estetään näytteenottoa putoamasta takaisin ahneeseen näytteenottoon, joka vahingoittaa sukupolven laatua ja monimuotoisuutta.

Li et al. ehdottivat vuonna 2023Päätelmä-aikainterventio(ITI), tutkii, ovatko tietyt huomiopäät merkityksellisempiä tosiasiallisuuden kannalta, tutkimalla lineaarisesti kunkin kerroksen aktivaatioita erottaakseen todelliset tulokset vääristä.

He havaitsivat, että monille huomiopäille ilmaisin ei toiminut paremmin kuin satunnainen valinta, kun taas jotkut osoittivat vahvaa suorituskykyä. Kun ITI on tunnistanut joukon niukkoja huomiopäitä suurella tarkkuudella aitouden lineaarisessa ilmaisussa, ITI säätää parhaiden valittujen huomiopäiden aktivointia "todelliseen" suuntaan päättelyn aikana.

Tosiasiallinen hienosäätö

Lee et al 2022 ehdottivat kaksi ideaa vahvistuskoulutukseen:

Esittelyssä TopicPrefix, jotta ymmärrät paremmin tosiasiat: lisää aihe (eli Wikipedia-dokumentin otsikko) ennen jokaista asiakirjan virkettä.
Ota harjoitustavoitteeksi lauseen loppuunsyötön menetys: päivitä harjoitushäviö keskittymään lauseen toiseen puoliskoon olettaen, että lauseen toinen puoli sisältää enemmän faktatietoa. Toteutus on hyvin yksinkertaista, päätä kääntöpiste ja lisää nollamaski kaikkiin tokeneihin ennen ensimmäistä merkkiä. Heidän kokeissaan optimaaliseksi kääntöpisteeksi valittiin 0,5x lauseen pituus.

Lin ym. ehdottivat vuonna 2024 SFT+RLHF-linjauskoulutuksen järjestämistä, joka keskittyy tosiasiallisuuteenLIEKKI。

SFT-vaihe (Factuality-aware SFT): Tavoitteena on tuottaa harjoitusdataa, joka on tosiasiallisempaa kuin itse malli (FActScorella mitattuna).
RLHF-vaihe (Factuality-aware DPO): Kaksi menetelmää testattiin huonosti ja menetelmä 2 toimi hyvin, luultavasti koska menetelmä 1 yritti tislata malliin uutta tietoa ilman riittävää koulutusta.

Kuten aiemmin mainittiin, on olemassa näyttöä siitä, että uuden tiedon hienosäätö voi aiheuttaa hallusinaatioita, ja RAG-valvonta sisältää tietoa, jota LLM ei tunne.

Tapa 1: Käytä RAG-datanäytteitä positiivisina näytteinä ja alkuperäistä mallin sukupolvea negatiivisina näytteinä RM-tietoina.

Tapa 2: Käytä FActScorea de facto palkintosignaalina.

Jotta vältetään tuntemattoman tiedon tislaus vahingossa malliin kohdistuskoulutuksen aikana, he ehdottavat mallin luomien vastausten käyttöä SFT/DPO-tietojoukon muodostamiseen.

Tian&Mitchell et al. ehdotti vuonna 2024Faktojen viritys Luottaa myös hienosäätäviin kielimalleihin parantaakseen tosiasiallisuutta. He kokeilivat eri menetelmiä arvioidakseen atomiväitteiden todenperäisyyttä kussakin mallinäytteessä ja suorittivat sitten DPO:n.

Tosiasiallinen korjausprosessi:

1. Mallin täydentämisen esimerkkiparit tietylle kehotejoukolle (esim. "Kirjoita biografia Yo-Yo Masta")

2. Merkitse sen aitous kahdella menetelmällä, jotka eivät vaadi manuaalista puuttumista:

Viitepohjainen: Tarkistaa, tukeeko malliväite ulkoisella tietopohjalla, kuten yllä olevassa hakuun perustuvassa hallusinaatioiden arviointiosassa. (a) poimi joukko atomimäärityksiä (b) etsi Wikipedia-viittauksia (c) käytä pientä, hienosäädettyä NLI-mallia tarkistaaksesi, tukeeko viiteteksti atomimäärityksiä;

Ei-viittauksiin perustuva: Käyttää mallin omaa luottamusta sen aitouden symbolina, kuten epäsuorat kyselymenetelmät. (a) muuntaa jokaisen väitteen vastaavaksi kysymykseksi/vaatii huolellisen uudelleenmuotoilun varmistaakseen, että kysymys on selkeä. (b) ota mallista useita kertoja vastataksesi kysymykseen merkit Merkkijono vastaavuus tai GPT:n pyytäminen määrittämään, ovatko kaksi vastausta semanttisesti vastaavia.

3. Rakenna harjoitustietojoukko luomalla useita näytteitä mallista ja määrittämällä asetukset aitouspisteiden perusteella. Käytä sitten DPO:ta tämän tietojoukon mallin hienosäätämiseen.

Attribuutin hienosäätö

Attribuuttien määrittäminen on hyvä tapa vähentää illuusioita luotaessa hakutuloksista riippuvaa mallitulostetta. On olemassa paljon työtä, jonka tarkoituksena on kouluttaa LLM:ää hyödyntämään haettua sisältöä paremmin ja osoittamaan korkealaatuisia määrityksiä.

Ehdotus: Nakano et al 2022WebGPT, yhdistää verkkohaun asiakirjojen hakua varten hienosäädettyihin GPT-malleihin, jotka on suunniteltu vastaamaan pitkiin kysymyksiin hallusinaatioiden vähentämiseksi ja faktojen tarkkuuden parantamiseksi.

Malli on vuorovaikutuksessa Internet-hakujen kanssa tekstipohjaisessa verkkoselaimessa ja oppii lainaamaan verkkosivuja vastatakseen kysymyksiin. Mallin selaamisen aikana se voi tehdä viittauksen otteeseen nykyisestä sivusta. Kun teet tämän, sivun otsikko, verkkotunnuksen nimi ja ote tallennetaan myöhempää käyttöä varten.WebGPT:n ydin on käyttää viitemateriaaleja auttamaan ihmisiä arvioimaan tosiasioiden oikeellisuutta。

Mallille tehtiin ensin valvottu hienosäätö käyttäytymiskloonausta varten ihmisten mielenosoituksissa käyttämällä web-selausympäristöä kysymyksiin vastaamiseen.

Vertailevaa dataa kerätään kahden mallin luoman vastauksen välillä samaan kysymykseen, kummallakin on oma viitejoukkonsa, jossa vastauksia arvioidaan niiden tosiasiallisen tarkkuuden, johdonmukaisuuden ja yleisen hyödyllisyyden perusteella. Palkintomalleja käytetään RL-koulutukseen ja parhaan hylkäämisen näytteenottoon. Sitä vastoin RL:llä on rajalliset vaikutukset, ja kun käytetään hylkäysnäytteenottoa, vaikutukset ovat vielä rajoitetumpia.

Menick ym. ehdottivat vuonna 2022GopherCite , on hyvin samanlainen kuin WebGPT siinä, että se käyttää hakukoneita tukimateriaalien luomiseen ja opetusmalleja viitemateriaalien tarjoamiseen. Molemmat suorittavat ohjattua ohjauksen hienosäätöä ja molemmat soveltavat RLHF-koulutusta.

Toisin kuin WebGPT, joka luottaa ihmisen demonstraatioihin käyttäytymiskloonauksessa, GopherCiteLuo esittely muutaman otoksen kehotteiden avulla, ja jokainen sukupolvi täytetään kontekstilla asiaankuuluvista asiakirjoista, ja sitten palkkiomallia käytetään arvioimaan, mitkä niistä ovat parhaat.

Toinen temppu huonolaatuisten vastausten välttämiseksi on määrittää malli hylkäämään vastaukset käyttämällä "en tiedä" -vastausta, joka määritetään globaalilla RM-kynnyksellä, jota kutsutaan valikoivaksi ennustukseksi.

RL:n empiiriset tulokset ovat samankaltaisia kuin WebGPT:n kanssa, eli RL tuo vain rajoitettua parannusta tai ei parannusta yhdistettynä hylkäysnäytteenottoon.

Kuka on Weng Li?

Weng Li on kiinalainen OpenAI:n tutkija ja yksi ChatGPT:n avustajista. Hän valmistui Pekingin yliopistosta.

Hän on vastuussa OpenAI:n tekoälysovellustutkimuksesta. Hän liittyi OpenAI:hen vuonna 2018 ja osallistuu pääasiassa esikoulutukseen, vahvistusoppimiseen ja -linjaukseen sekä malliturvaan GPT-4-projektissa.

OpenAI:n viime vuoden lopulla perustamassa turvallisuusneuvontatiimissä hän johtaa Safety Systems -tiimiä ratkaisemaan ongelmia, kuten vähentämään olemassa olevien mallien, kuten ChatGPT:n, väärinkäyttöä.

uutiset