Erikoistunut suurten mallien ongelmien ratkaisemiseen! Jia Jiayan tiimin uusi vertailukohta sallii mallin vain poimia virheitä eikä ratkaista problem

Erikoistunut suurten mallien ongelmien ratkaisemiseen!Jiajiaya-tiimin uusi vertailukohta mahdollistaa sen, että malli havaitsee vain virheet, ei ratkaise ongelmia

2024-07-18

Osallistunut MR-Ben-tiimi
Qubits |. Julkinen tili QbitAI

Suurissa mallitesteissä korkeiden pisteiden saavuttamisen ongelma, mutta todellisissa skenaarioissa huonon suorituskyvyn ongelma on ratkaistu.

Jiajiaya-tiimi teki yhteistyötä useiden tunnettujen yliopistojen kanssa ehdottaakseen uutta arviointimenetelmää, jonka avulla jotkut mallit voivat nousta välittömästi prototyypeiksi.

Nyt sinun ei tarvitse huolehtia siitä, että suuressa mallissa on liikaa "kysymyksiä" ja testisarja ei pysty heijastamaan todellista tasoa.

Tämä uusi arviointitietojoukko on nimeltään MR-Ben, ja se käyttää olemassa olevia kysymyksiä GSM8K:ssa, MMLU:ssa ja muissa tietosarjoissa.

Testin suuren mallin identiteetti on kuitenkin muuttunut "vastaavasta opiskelijasta" "merkitseväksi opettajaksi", ja tehtävänä onOsoita virheet olemassa olevissa ratkaisuvaiheissa。

Näin malli ei voi enää osua kysymyksiin lausumalla tai arvaamalla, eikä testikysymysten vuotamisesta tarvitse huolehtia.

MR-Benin avulla Jiajiaya-tiimi arvioi monia avoimen lähdekoodin ja suljetun lähdekoodin malleja, kuten GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B jne.

Tällä hetkellä kaikki tähän tietosarjaan sisältyvä koodi ja data ovat avoimen lähdekoodin.

Tutut testikysymykset, upouudet tehtävät

Tällä hetkellä suurten mallien testauksen pääsuunta on käyttää ihmisen standardoituja testejä - monivalintakysymyksiä ja täyttökysymyksiä suurten mallien arvioinnissa.

Tämän testausmenetelmän etuja ovat selkeät standardit, intuitiiviset indikaattorit ja kvantitatiiviset tulokset ovat luonnollisesti ajankohtaisia.

Kirjoittaja kuitenkin uskoo, että koska nykyiset suuret mallit käyttävät yleensä askel-askeleelta ajatteluketjumenetelmää lopullisen vastauksen luomiseen, tämä menetelmä ei ole "luotettava".

Esikoulutusmallissa on jo nähty biljoonia tokeneita esikoulutuksen aikana.On vaikea sanoa, onko arvioitava malli jo nähnyt vastaavat tiedot, jotta voit vastata kysymyksiin oikein "muistamalla kysymykset".

Ja koska arviointimenetelmä perustuu pääasiassa lopullisen vastauksen, mallin, tarkistamiseenEi myöskään tiedetä, valitaanko oikea vaihtoehto oikean ymmärryksen ja päättelyn perusteella.。

Vaikka akateeminen yhteisö jatkaa GSM8K:n ja MMLU:n kaltaisten tietokokonaisuuksien päivittämistä ja muuntamista, kuten MGSM-tietojoukon monikielisen version käyttöönottoa GSM8K:ssa ja vaikeampien MMLU-pohjaisten kysymysten esittämistä, se ei silti pääse eroon stereotypioista valitse tai täytä tyhjät kohdat.

Lisäksi nämä tietojoukot ovat kohdanneet vakaviakylläisyysongelma, suurten kielimallien arvot näissä indikaattoreissa ovat saavuttaneet huippunsa, ja ne ovat vähitellen menettäneet erottelunsa.

Tätä varten Jiajiaya-tiimi teki yhteistyötä monien tunnettujen yliopistojen, kuten MIT:n, Tsinghuan ja Cambridgen, kanssa ja teki yhteistyötä kotimaisten päämerkintäyritysten kanssa kommentoidakseen MR-Benin arviointitietosarjaa monimutkaisten ongelmien päättelyprosessia varten.

MR-Ben perustuu GSM8K:n, MMLU:n, LogiQA:n, MHPP:n ja muiden suurten mallien esikoulutuksen edellyttämiin testitietosarjoihin liittyviin kysymyksiin."Arvioinnin" paradigman muutos, luotu uusi tietojoukko on vaikeampi ja eriytetympi, ja se voi heijastaa aidommin mallin päättelykykyä!

Ei ole tarvetta etsiä kysymyksiä uudelleen tai muuttaa kysymyksiä mallin kestävyyden testaamiseksi. MR-Ben muuttaa mallin suoraan "vastauksesta" "merkkiin" ja arvioi olemassa olevan vastausprosessin tietojoukossa ole mallina opettaja testaamaan tietopisteiden hallintaansa!

Erityisesti Jiajiaya-tiimi järjesti markkinoiden yleiset arviointitietojoukot, kuten GSM8K, MMLU, LogiQA, MHPP ja muut tietojoukot, ja jakoi ne useisiin luokkiin, kuten matematiikka, fysiikka, kemia, biologia, koodi, logiikka, lääketiede, jne., ja myös erottivat eri vaikeustasot.

Kutakin luokkaa ja jokaista kerättyä kysymystä varten tiimi keräsi huolellisesti vastaavan vaiheittaisen ongelmanratkaisuprosessin, ja ammattimaiset maisteri- ja tohtorintutkinnon kirjoittajat kouluttivat ja kommentoivat sitä.

Annotointiprosessin aikana selvitetään yksityiskohtaisesti, onko ongelmanratkaisuprosessi oikein, virheen sijainti ja syy. voit tietää, kuinka hyvin malli hallitsee tietopisteet.

Arviointimenetelmästä MR-Benin ehdottama menetelmä edellyttää, että malli suorittaa yksityiskohtaisen analyysin ongelmanratkaisuprosessin kunkin vaiheen lähtökohdista, oletuksista ja logiikasta ja esikatselee päättelyprosessia sen määrittämiseksi, onko nykyinen vaihe. voi johtaa oikeaan vastaukseen.

Tämä "merkintä"-arviointimenetelmä on paljon vaikeampi kuin pelkkä kysymyksiin vastaaminen, mutta sillä voidaan tehokkaasti välttää virheellisesti korkeiden pisteiden ongelma, joka johtuu mallin kysymysten ulkoa muistamisesta. Oppilaan, joka osaa vain ulkoa kysymyksiä, on vaikea tulla päteväksi merkintäopettajaksi.

GPT4-Turbo toimii parhaiten

Jiajiaya-tiimi arvioi useita tunnettuja suuria malleja, ja joistakin malleista oli useita versioita mukana testissä.

Voidaan nähdä, että suljetun lähdekoodin malleista GPT4-Turbo suoriutuu parhaiten (vaikkakaan laskentavirheitä "luokittelussa" ei löytynyt. Useimmissa aineissa on demoja (k=1) ja ei demoja (k =0). ovat muita malleja edellä.

Zhipu-tiimin GLM-mallin suorituskyky on listan toisella sijalla, ohittaen Clauden uusimman 3,5-Sonetin.

Ero eri mallien välillä on kuitenkin suhteellisen suuri. Vahvin GPT4-Turbo saavutti alle 50 pisteen MR-Ben-tietojoukossa.

Lisäksi jotkut avoimen lähdekoodin mallit, joilla on vahva suorituskyky, ovat jo saavuttaneet joitain kaupallisia malleja.

Lisäksi MR-Ben-tiimi löysi työn aikana myös mielenkiintoisia ilmiöitä, kuten:

Vähän resursseja vaativissa skenaarioissa pienillä malleilla on myös monia kohokohtia MR-Ben-arvioinnissa Phi-3-mini erottui pienten mallien joukosta, jopa korkeampi tai sama kuin suuret mallit, joissa on kymmeniä miljardeja parametreja. sukupuolen hienosäädön tärkeys.
MR-Ben-kohtaus sisältää monimutkaisen loogisen analyysin ja vaiheittaisen johtopäätöksen. Liian pitkä konteksti muutaman kuvan tilassa hämmentää mallia ja aiheuttaa suorituskyvyn heikkenemistä.
MR-Ben arvioi monia sukupolvi-heijastus-regeneraatio-ablaatiokokeita tarkistaakseen erot eri kehotusstrategioiden välillä. Hän havaitsi, että sillä ei ollut vaikutusta matalan tason malleihin, ja vaikutus korkean tason malleihin, kuten GPT4-Turbo, ei ollut ilmeinen. . Päinvastoin, keskitason malleissa vaikutus on hieman parempi, koska väärät korjataan aina ja oikeat korjataan.
Kun MR-Benin arvioimat aiheet on karkeasti jaettu tietopohjaisiin, loogisiin, laskennallisiin ja algoritmisiin tyyppeihin, eri malleilla on omat etunsa ja haittansa eri päättelytyypeissä.

Jiajiaya-tiimi on ladannut yhden klikkauksen arviointimenetelmän githubiin. Yhdessä testissä käytettyjen merkkien määrä on noin 12 miljoonaa Kehittäjät voivat arvioida ja lähettää omilla malleillaan, ja MR-Ben-tiimi päivittää vastaavan tulostaulukon ajoissa. tavalla.

Paperiosoite:
https://arxiv.org/abs/2406.13975
Hankkeen kotisivut:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo:
https://github.com/dvlab-research/Mr-Ben

uutiset

Erikoistunut suurten mallien ongelmien ratkaisemiseen!Jiajiaya-tiimin uusi vertailukohta mahdollistaa sen, että malli havaitsee vain virheet, ei ratkaise ongelmia

Tutut testikysymykset, upouudet tehtävät

GPT4-Turbo toimii parhaiten

Johdanto

yhteystietoni