uutiset

Kiinan tiede- ja teknologiayliopisto teki yhteistyötä Huawei Noah Entropy Law -lain kanssa paljastaakseen suurten mallien suorituskyvyn ja tiedonpakkausnopeuden

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän työn viimeisteli IEEE-stipendiaatti Chen Enhong Kiinan tiede- ja teknologiayliopiston kansallisesta kognitiivisen älykkyyden avainlaboratoriosta ja Huawein Nooan arkin laboratoriosta. Professori Chen Enhongin tiimi on syvästi mukana tiedon louhinnan ja koneoppimisen aloilla, ja on julkaissut monia artikkeleita huippulehdissä ja konferensseissa. Google Scholarin artikkeleita on siteerattu yli 20 000 kertaa. Noah's Ark Laboratory on Huawein tekoälyn perustutkimusta harjoittava laboratorio. Se noudattaa teoreettisen tutkimuksen ja sovellusinnovoinnin yhtäläistä painoarvoa ja on sitoutunut edistämään teknologista innovaatiota ja kehitystä tekoälyn alalla.

Data on suurten kielimallien (LLM) menestyksen kulmakivi, mutta kaikki tiedot eivät hyödytä mallin oppimista. Intuitiivisesti korkealaatuisten näytteiden odotetaan tehostavan LLM-opetusta. Siksi olemassa olevat menetelmät keskittyvät yleensä laatuperusteiseen tiedon valintaan. Useimmat näistä menetelmistä kuitenkin arvioivat erilaisia ​​datanäytteitä itsenäisesti jättäen huomioimatta näytteiden väliset monimutkaiset kombinatoriset vaikutukset. Kuten kuvasta 1 näkyy, vaikka jokaisen näytteen laatu olisi täydellinen, niiden yhdistelmä voi silti olla epäoptimaalinen niiden keskinäisen informaation redundanssin tai epäjohdonmukaisuuden vuoksi. Vaikka laatuun perustuva osajoukko koostuu kaikista kolmesta laatunäytteestä, niiden koodaama tieto on itse asiassa tarpeetonta ja ristiriitaista. Sitä vastoin toinen tietoosajoukko, joka koostuu useista suhteellisen huonolaatuisimmista, mutta erilaisista näytteistä, voi välittää enemmän tietoa LLM-opetuksessa. Siksi laatuun perustuva tiedon valinta ei täysin täytä tavoitetta maksimoida LLM-tietämys.

Tämän artikkelin tarkoituksena on paljastaa luontainen suhde LLM:n suorituskyvyn ja tietojen valinnan välillä. LLM-tiedon pakkaamisen luonteesta inspiroimana löysimme entropialain, joka yhdistää LLM:n suorituskyvyn datan pakkausnopeuteen ja mallikoulutuksen aikaisempien vaiheiden menettämiseen, mikä heijastaa vastaavasti tietojoukon tiedon redundanssin astetta ja sen luontaista vaikutusta. Tietojen hallinnan aste. Teoreettisen johtamisen ja empiirisen arvioinnin avulla havaitsemme, että mallin suorituskyky on käänteisessä suhteessa harjoitustietojen pakkaussuhteeseen, mikä yleensä johtaa pienempään harjoitushäviöön. Entropialain havaintojen perusteella ehdotamme erittäin tehokasta ja yleistä tiedonvalintamenetelmää LLM:n koulutukseen nimeltä ZIP, jonka tavoitteena on priorisoida datan osajoukkoja, joilla on alhainen pakkaussuhde. ZIP valitsee ahneesti erilaista dataa useissa vaiheissa, jolloin lopulta saadaan dataosajoukko, jolla on hyvä monimuotoisuus.



Tiimi: Chen Enhongin tiimi Kiinan tiede- ja teknologiayliopiston National Key Laboratory of Cognitive Intelligence -laboratoriossa, Huawein Nooan arkin laboratoriossa

Paperilinkki: https://arxiv.org/pdf/2407.06645

Koodilinkki: https://github.com/USTC-StarTeam/ZIP



Kuvio 1

Entropian laki

Suoritamme teoreettisen analyysin tietojen pakkaamisen ja LLM:n suorituskyvyn välisestä suhteesta. Intuitiivisesti harjoitustietojen oikeellisuus ja monimuotoisuus vaikuttavat lopullisen mallin suorituskykyyn. Samaan aikaan LLM-suorituskyky voi olla epäoptimaalinen, jos tiedoissa on vakavia luontaisia ​​ristiriitoja tai jos mallilla on huono käsitys dataan koodatusta tiedosta. Näiden oletusten perusteella merkitsemme LLM:n suorituskykyä Z:na, johon odotetaan vaikuttavan:

Tietojen pakkaussuhde R: Intuitiivisesti tietojoukko, jolla on pienempi pakkaussuhde, osoittaa suurempaa informaatiotiheyttä.

Harjoitteluhäviö L: Ilmaisee, onko mallin vaikea muistaa tietoja. Samassa perusmallissa suuri harjoitushäviö johtuu yleensä kohinan tai epäjohdonmukaisen tiedon esiintymisestä tietojoukossa.

Tietojen johdonmukaisuus C: Tietojen johdonmukaisuus heijastuu seuraavan tokenin todennäköisyyden entropiana edellisessä tilanteessa. Korkeampi tietojen johdonmukaisuus johtaa yleensä pienempään harjoitushäviöön.

Keskimääräinen tiedon laatu Q: kuvastaa tietojen keskimääräistä otostason laatua, jota voidaan mitata useilla objektiivisilla ja subjektiivisilla näkökohdilla.



Entropialain perusteella ehdotamme kahta päätelmää:

Jos C:tä käsitellään vakiona, puristussuhde vaikuttaa suoraan harjoitushäviöön. Siksi mallin suorituskykyä ohjaa pakkaussuhde: jos tiedon pakkaussuhde R on suurempi, Z on yleensä huonompi, mikä varmistetaan kokeissamme.

Samalla pakkaussuhteella suurempi harjoitushäviö tarkoittaa alhaisempaa tietojen johdonmukaisuutta. Siksi mallin oppima tehokas tieto voi olla rajallisempaa. Tätä voidaan käyttää ennustamaan LLM:n suorituskykyä eri tiedoilla, joilla on samanlainen pakkaussuhde ja näytteen laatu. Näytämme tämän päättelyn soveltamisen käytännössä myöhemmin.

ZIP: erittäin kevyt tiedonvalintaalgoritmi

Entropialain ohjauksessa ehdotimme ZIP-tiedonvalintamenetelmää, joka valitsee datanäytteet datan pakkausnopeuden avulla. Tavoitteena on maksimoida tehokkaan tiedon määrä rajoitetulla koulutusdatabudjetilla. Tehokkuussyistä omaksumme iteratiivisen monivaiheisen ahneen paradigman saadaksemme tehokkaasti likimääräisiä ratkaisuja suhteellisen alhaisilla pakkausnopeuksilla. Jokaisessa iteraatiossa käytämme ensin globaalia valintavaihetta valitaksemme joukon ehdokasnäytteitä, joilla on alhainen pakkaussuhde, löytääksemme näytteitä, joilla on korkea informaatiotiheys. Käytämme sitten karkearakeista paikallista valintavaihetta valitaksemme joukon pienempiä näytteitä, joilla on alhaisin redundanssi valittujen näytteiden kanssa. Lopuksi käytämme hienojakoista paikallista valintavaihetta lisättävien näytteiden samankaltaisuuden minimoimiseksi. Yllä oleva prosessi jatkuu, kunnes saadaan riittävästi tietoa. Tarkka algoritmi on seuraava:



Kokeelliset tulokset

1. ZIP-valintaalgoritmin tehokkuus eri LLM:issä ja eri LLM-kohdistusvaiheissa

Vertailemalla erilaisia ​​SFT-datanvalintaalgoritmeja, ZIP-valintadatan perusteella koulutettu malli näyttää suorituskyvyltään etuja ja on myös ylivoimainen tehokkuudessa. Katso tarkemmat tulokset alla olevasta taulukosta:



ZIP:n malliriippumattomien ja sisällöstä epäherkkien ominaisuuksien ansiosta sitä voidaan soveltaa myös tiedon valintaan preferenssien kohdistusvaiheessa. ZIP:n valitsemilla tiedoilla on myös suuria etuja. Katso tarkemmat tulokset alla olevasta taulukosta:



2. Entropialain kokeellinen verifiointi

SFT-tietojen valintakokeen perusteella sovitamme useita suhdekäyriä mallin vaikutuksen, tietojen pakkausnopeuden ja mallin menettämisen perusteella harjoituksen edellisissä vaiheissa. Tulokset on esitetty kuvissa 2 ja 3, joista voidaan havaita kolmen tekijän välinen läheinen korrelaatio. Ensinnäkin alhainen pakkausnopeus tuo yleensä parempia mallituloksia. Tämä johtuu siitä, että LLM:n oppimisprosessi liittyy vahvasti tiedon pakkaamiseen, joten pienemmällä pakkausnopeudella oleva data merkitsee enemmän tietoa ja siten arvokkaampi kompressorille. Samanaikaisesti voidaan havaita, että pienempiin pakkaussuhteisiin liittyy yleensä suurempia koulutushäviöitä. Tämä johtuu siitä, että vaikeasti pakattava tieto sisältää enemmän tietoa, mikä asettaa LLM:lle suurempia haasteita omaksua sen sisältämä tieto.



Kuva 2 Mistral-7B



Kuva 3 Llama-3-8B

3. Entropialain käytännön soveltaminen

Tarjoamme entropialain sovelluksen, joka ohjaa LLM-koulutustietojen asteittaista päivitystä todellisissa skenaarioissa. Tässä tehtäväskenaariossa harjoitustietojen määrä pysyy suhteellisen vakaana, ja vain pieni osa tiedoista muuttuu.Tulokset on esitetty kuvassa 4, jossa



Se on 5 tietoversiota, jotka päivitetään asteittain Luottamuksellisuusvaatimusten vuoksi vain mallin vaikutusten suhteellinen suhde eri pakkaussuhteissa. Entropialain ennusteiden mukaan olettaen, että tiedon laatu ei heikkene merkittävästi jokaisen inkrementaalisen päivityksen jälkeen, voidaan odottaa mallin suorituskyvyn paranevan tiedon pakkausnopeuden pienentyessä.Tämä ennuste on yhdenmukainen kuvan dataversion kanssa

Tulokset ovat johdonmukaisia.Kuitenkin dataversio

Se osoittaa epätavallista lisääntymistä häviössä ja tietojen pakkauksessa, mikä viittaa mahdolliseen mallin suorituskyvyn heikkenemiseen harjoitustietojen heikentyneen johdonmukaisuuden vuoksi. Tämä ennuste vahvistettiin edelleen myöhemmässä mallin suorituskyvyn arvioinnissa. Siksi entropialakia voidaan käyttää ohjaavana periaatteena LLM-koulutuksessa ennustamaan mahdollista LLM-koulutuksen epäonnistumisen riskiä harjoittamatta mallia koko tietojoukolle konvergenssiin asti. Tämä on erityisen tärkeää, kun otetaan huomioon LLM-koulutuksen korkeat kustannukset.



Kuva 4