2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
2000-luvulla syntyneen kiinalaisen työ julkaistiin naturessa, ja tämä suuri mallipaperi aiheutti kiivasta keskustelua.
yksinkertaisesti sanottuna paperi havaitsi, että isommista malleista, jotka noudattavat ohjeita tarkemmin, tulee myös vähemmän luotettavia ja joissakin tapauksissagpt-4 ei vastaa kysymyksiin yhtä luotettavasti kuin gpt-3。
aiempiin malleihin verrattuna uusimmat mallit, joissa on enemmän laskentatehoa ja inhimillistä palautetta, ovat itse asiassa huonontuneet vastausten luotettavuudessa.
heti kun johtopäätös julkaistiin, se houkutteli heti yli 200 000 nettiläistä katsomaan:
se herätti keskustelua myös reddit-foorumilla.
tämä muistuttaa ihmisiä siitä, että monet asiantuntija-/tohtoritason mallit eivät vieläkään tiedä yksinkertaista kysymystä "kumpi on suurempi, 9.9 vai 9.11".
tämän ilmiön osalta paperi mainitsi, että tämä heijastaa myösmallin suorituskyky ei vastaa ihmisten odotuksia vaikeudesta。
toisin sanoen "llm:t sekä menestyvät että (vaarallisemmin) epäonnistuvat paikoissa, joissa käyttäjät eivät odota."
ilja sutskever ennusti vuonna 2022:
ehkä tämä ero pienenee ajan myötä.
tämä lehti kuitenkin toteaa, että näin ei ole. ei vain gpt-, llama- ja bloom-sarjoja, vaan jopaopenaiuusio1-malli ja claude-3.5-sonnetmyös luotettavuus herättää huolta.
vielä tärkeämpää on, että paperi myös löysiluota inhimilliseen valvontaan virheiden korjaamiseksilähestymistapa ei myöskään toimi.
jotkut verkkokauppiaat uskovat, että vaikka suuremmat mallit voivat tuoda mukanaan luotettavuusongelmia, ne tarjoavat myös ennennäkemättömän toiminnallisuuden.
meidän on keskityttävä luovien arviointimenetelmien kehittämiseen ja avoimuuden lisäämiseen.
toiset uskovat, että tämä tutkimus korostaaaihienovaraisia haasteita edessä(tasapainottaa mallin laajennusta ja luotettavuutta)。
johtopäätöksen havainnollistamiseksi artikkelissa tarkastellaan kolmea keskeistä näkökohtaa, jotka vaikuttavat llm:ien luotettavuuteen ihmisen näkökulmasta:
1、epäjohdonmukainen vaikeus: epäonnistuvatko llm:t siellä, missä ihmiset odottavat heidän epäonnistuvan?
2、tehtävien välttäminen: vältävätkö llm:t vastaamasta kysymyksiin, jotka ylittävät heidän kykynsä?
3、herkkyys nopealle kielen ilmauksille: vaikuttaako ongelman vaikeus ongelman muotoilun tehokkuuteen?
vielä tärkeämpää on, että kirjoittajat analysoivat myös historiallisia suuntauksia ja sitä, kuinka nämä kolme näkökohtaa kehittyvät tehtävän vaikeudella.
laajenna ne yksitellen alla.
ensimmäisen kysymyksen osalta paperi keskittyy pääasiassaoikeuden evoluutio suhteessa vaikeuteen。
gpt:n ja llama:n kehityksestä päätellen vaikeuden kasvaessa kaikkien mallien oikeellisuus heikkenee merkittävästi.(yhdenmukaisesti ihmisten odotusten kanssa)
nämä mallit eivät kuitenkaan pysty ratkaisemaan monia hyvin yksinkertaisia tehtäviä.
tämä tarkoittaa, että käyttäjät eivät voi löytää llm:ien turvallista toimintatilaa ja käyttää sitä varmistaakseen, että mallin käyttöönottosuorituskyky on virheetön.
yllättäen uudet llm:t parantavat pääasiassa suorituskykyä vaikeissa tehtävissä ilman merkittäviä parannuksia yksinkertaisemmissa tehtävissä. esimerkiksi,gpt-4 verrattuna edeltäjäänsä gpt-3.5-turboon。
yllä oleva todistaa, että inhimillisten vaikeusvaatimusten ja mallin suorituskyvyn välillä on epäjohdonmukaisuus.ja tämä epäjohdonmukaisuus pahenee uudessa mallissa.
tämä tarkoittaa myös:
tällä hetkellä ei ole olemassa turvallisia toimintaedellytyksiä ihmisille, joiden avulla voitaisiin määrittää, voidaanko llm:iin luottaa.
tämä koskee erityisesti sovelluksia, jotka vaativat suurta luotettavuutta ja turvallisten toimintatilojen tunnistamista. tämä saa ihmiset pohtimaan, onko huippuluokan koneäly, jonka luomiseksi ihmiset työskentelevät kovasti, todella sitä, mitä yleisö odottaa.
toiseksi, mitä tulee kohtaan 2, asiakirjan havainnot(välttäminen viittaa yleensä siihen, että malli poikkeaa vastauksesta kysymykseen tai sanoo suoraan "en tiedä"):
verrattuna aikaisempiin llm-yrityksiin,uusimmat llm:t parantavat huomattavasti monia vääriä tai juhlallisia hölynpölyjä olevia vastauksiasen sijaan, että välttyisivät huolellisesti tehtäviä, jotka eivät ylitä heidän kykyjään.
tämä johtaa myös ironiseen ilmiöön: joissakin benchmarkissa uusien llm:ien virheprosentti paranee jopa nopeammin kuin tarkkuus (doge).
yleisesti ottaen mitä vaikeampi tehtävä ihmisille on, sitä todennäköisemmin he ovat epämääräisiä.
mutta llm:ien todellinen suorituskyky on täysin erilainenheidän välttämiskäyttäytymisensä ei liity merkittävästi vaikeuksiin.
tämä voi helposti johtaa siihen, että käyttäjät luottavat aluksi liikaa llm:ihin suorittaakseen tehtäviä, joissa he eivät ole hyviä, mutta jättävät heidät pettymään pitkällä aikavälillä.
tämän seurauksena ihmisten on myös tarkistettava mallin lähdön tarkkuus ja havaittava virheet.(jos haluat käyttää llm:itä olla laiska, saat suuren alennuksen)
lopuksi paperissa todettiin, että vaikka jotkut luotettavuusindikaattorit ovat parantuneet, malli on silti herkkä saman ongelman pienille muotoilumuutoksille.
anna kastanja, jos kysytään "voitko vastata...?" sijaan "vastaa seuraavaan kysymykseen..." johtaa vaihtelevaan tarkkuuteen.
analyysi löytyi:pelkästään olemassa olevaan skaalaus- ja muotoiluun luottaminen ei todennäköisesti ratkaise täysin indikaatioherkkyysongelmaa, koska uusimmat mallit eivät ole merkittävästi optimoituja edeltäjiinsä verrattuna.
ja vaikka valitsetkin parhaan esitysmuodon keskimääräisen suorituskyvyn kannalta, se voi olla pääosin tehokas vaikeiden tehtävien yhteydessä, mutta samalla tehoton vähävaikeisiin tehtäviin.(korkea virheprosentti)。
tämä osoittaa senihmiskunta on edelleen kehotusprojektin alainen。
vielä pelottavampaa on, että lehti löysi senihmisen valvonta ei voi lieventää mallin epäluotettavuutta。
työssä analysoidaan ihmistutkimuksiin perustuen, ovatko ihmisten käsitykset vaikeudesta yhdenmukaisia todellisen suorituskyvyn kanssa ja pystyvätkö ihmiset arvioimaan mallin tuotoksen tarkasti.
tulokset osoittavatkäyttöalueella, jota käyttäjät pitävät vaikeana, he pitävät usein väärää tulosta oikeana jopa yksinkertaisissa tehtävissä, ei ole turvallista toiminta-aluetta, jossa sekä pieni mallivirhe että pieni valvontavirhe.
yllä olevat epäluotettavuusongelmat esiintyvät useissa llm-sarjoissa, mukaan lukien gpt, llama ja bloom. seuraavat on lueteltu tutkimuksessa32 mallia。
nämä mallit ovat erilaisiaskaalaus(suurempi laskelma, mallin koko ja tiedot) jamuotoiluun(esimerkiksi ohjeet ft, rlhf).
yllä olevan lisäksi kirjoittajat huomasivat myöhemmin, että jotkin uusimmat ja vahvimmat mallit kärsivät myös tässä artikkelissa mainituista epäluotettavuusongelmista:
mukaan lukien openai:n o1-malli, antropicin claude-3.5-sonnet ja metan llama-3.1-405b。
siellä on myös esimerkkejä sisältävä asiakirja.(katso lisätietoja alkuperäisestä asiakirjasta):
lisäksi kirjoittaja käytti artikkelissa käytettyjä testivertailuja varmistaakseen, onko muilla malleilla luotettavuusongelmia.luotettavuuspenkkise on myös avoimen lähdekoodin.
tämä on tietojoukko, joka kattaa viisi aluetta, yksinkertaisen aritmeettisen ("lisäys"), sanaston uudelleenjärjestelyn ("sanatehtävät"), maantieteellisen tiedon ("sijainti"), perus- ja edistyneen tieteen ongelmat ("tiede") ja tietopohjaisen keskitetyn muunnos ("muunnos").
ensimmäinen lehtilexin zhou, on tällä hetkellä juuri valmistunut cambridgen yliopistosta cs:n maisteriksi (24-vuotias), ja hänen tutkimuskohteensa on laaja kielimallin arviointi.
sitä ennen hän suoritti kandidaatin tutkinnon tietotieteessä valencian ammattikorkeakoulusta, jota ohjasi professori jose hernandez-orallo.
hänen henkilökohtaiset kotisivunsa osoittavat, että hänellä on ollut monia työharjoittelukokemuksia. osallistui punaisen tiimin testaukseen sekä openai:ssa että metassa.(red teamingin konsultointi)
tämän paperin osalta hän keskittyi:
yleisen tekoälyn suunnittelu ja kehittäminen on tarpeenperustavanlaatuinen muutos, erityisesti korkean riskin aloilla, joissa ennustettava virhejakauma on ratkaisevan tärkeää. ennen kuin tämä saavutetaan,ihmisen valvontaan luottamisessa on vaara.
kun arvioit mallia,harkitse ihmisten havaittuja vaikeuksia ja arvioi mallin välttämiskäyttäytymistä, voi tarjota kattavamman kuvauksen mallin kyvyistä ja riskeistä sen sijaan, että keskittyisi vain vaikeiden tehtävien suoritukseen.
paperissa mainitaan myös erityisesti joitain mahdollisia syitä näihin epäluotettavuuteen sekä ratkaisuja:
skaalaus-upissa vertailuarvot ovat viime vuosina pyrkineet lisäämään vaikeampia esimerkkejä tai antamaan enemmän painoa niin sanotuille "autoritatiivisille" lähteille. siksi tutkijat ovat taipuvaisempia optimoimaan mallien suorituskykyä vaikeissa tehtävissä, mikä johtaa krooniseen vaikeusasteen johdonmukaisuuden heikkeneminen.
muotoilussa (kuten rlhf) palkatulla henkilöllä on tapana rankaista vastauksista, jotka kiertävät tehtävän, jolloin malli todennäköisemmin "puhuu hölynpölyä" vaikeiden ongelmien edessä, joita se ei voi ratkaista.
kuinka ratkaista nämä epäluotettavuudet, paperi uskoo, että inhimillisiä vaikeuksia koskevia odotuksia voidaan käyttää mallin kouluttamiseen tai hienosäätöön, tai tehtävän vaikeusastetta ja mallin luottamusta voidaan käyttää paremmin opettamaan mallia välttämään ongelmia, jotka ylittävät sen omat kyvyt jne.
mitä mieltä olet tästä?