LLM-kohdistustiedot syntetisoidaan täysin automaattisesti! UW kiinalainen tohtoriopiskelija ehdottaa Harakka-menetelmää, Macbook Air voi ajaa it

LLM-kohdistustiedot syntetisoidaan täysin automaattisesti! UW kiinalainen tohtoriopiskelija ehdottaa Harakka-menetelmää, Macbook Air voi käyttää sitä

2024-07-26

Uusi viisausraportti

Toimittaja: Qiao Yang

[Johdatus uuteen viisauteen] Washingtonin yliopiston ja Allen AI:n tuoreessa artikkelissa ehdotetaan uutta ja mielenkiintoista lähestymistapaa datasynteesiin. He havaitsivat, että LLM:n autoregressiivisten ominaisuuksien täysi hyödyntäminen voi ohjata mallia luomaan automaattisesti korkealaatuisia käskyjen hienosäätötietoja.

Data on elintärkeää LLM-koulutuksessa, mutta keskitymme usein koulutus- ja arviointitietoihin, kun taas hienosäätötiedot jätetään huomiotta.

Esimerkiksi vaikka Llama-sarjan malleissa on avoimet painot (kuten Llama-3-Instruct), hienosäätötietojoukko on silti yksityinen.

Suuri osa LLM:n menestyksestä riippuu ohjeiden hienosäädöstä, prosessista, jonka avulla malli voi yleistää paremmin tehtäviin, joille se ei ole joutunut koulutuksen aikana.

Aivan kuten koulutuksen tehokkuus riippuu koulutuskorpuksen laadusta, myös opetuksen hienosäädön tehokkuus riippuu laadukkaiden opetustietoaineistojen saatavuudesta.

Laadukkaiden hienosäätö- ja kohdistustietojoukkojen rakentaminen ja laajentaminen on kuitenkin vaikeampaa verrattuna merkitsemättömiin itsevalvottuihin harjoituskorpuksiin, koska tarvitaan enemmän manuaalisia huomautuksia ja ennalta määritetyt vihjealueet.

Jopa yritykset, jotka ovat erikoistuneet toimittamaan dataa tekoälyteknologian jättiläisille, eivät pysty saavuttamaan automaattista merkintää nykyisessä vaiheessa, ja niiden on jopa palkattava korkeapalkkaisia ammattilaisia osallistumaan kohdistettujen tietokokonaisuuksien hienosäätöön ja rakentamiseen.

Alexandr Wang, Scale AI:n toimitusjohtaja, sanoi kerran,

Äskettäin Washingtonin yliopiston ja tutkimuslaitoksen Allen AI:n yhdessä julkaisemassa artikkelissa keskitytään laadukkaan hienosäätödatan syntetisoimiseen kohdistetulla LLM:llä.

Paperiosoite: https://arxiv.org/abs/2406.08464

Paperissa ehdotettu menetelmä toteuttaa koko prosessin automatisoinnin eikä vaadi siemenongelmia. Vielä hämmästyttävämpää on, että koodi ei voi toimia vain paikallisesti, vaan se käyttää myös LLM:ää luomaan automaattisesti erittäin luotettavaa ja korkealaatuista dataa.

Kun he käyttivät Llama-3-8B:n perusmallia luomaansa SFT-tietojoukon hienosäätämiseen, he saivat mallin, jonka suorituskyky oli vahvempi kuin virallisella hienosäädetyllä versiolla Llama-3-Instruct.

Lehden välitti ja kannatti Sebastian Raschka, tekoälypiirin suuri hahmo.

Aluksi hän ei uskonut, että tämä menetelmä todella voisi toimia paikallisesti MacBook Airissa, mutta kokeiltuaan sitä itse hän oli iloisesti yllättynyt huomatessaan, että se todella onnistui.

Raschka on kirjoittanut useita teknisiä bestseller-kirjoja, kuten "Building Large Language Models from Scratch", "Python Machine Learning" jne. Hän toimii tällä hetkellä tutkimusinsinöörinä Lightning AI:ssa.

Paperin ensimmäinen kirjoittaja Zhangchen Xu on toisen vuoden tohtoriopiskelija Washingtonin yliopiston verkkoturvalaboratoriossa, ja hän opiskelee professori Radha Poovendranin johdolla. Hänen tutkimusalueensa ovat koneoppimisen turvallisuus, yksityisyys ja oikeudenmukaisuus keskittyen siihen, kuinka luoda luotettava LLM.

Tarkastellaanpa siis tarkemmin, kuinka tämä tehokas datan synteesimenetelmä toteutetaan.

Menetelmän yleiskatsaus

Tyypillinen LLM-syöte koostuu yleensä kolmesta osasta:

- esikyselymalli

- Kyselyn sisältö (kysely)

- Jälkikyselyn malli

Mallin kehittäjä on yleensä määrittänyt kaksi malleista etukäteen varmistaakseen, että mallia kehotetaan oikein.

Esimerkiksi Llama-2-chatin syöttömuoto on:

[INST] Hei! [/INST]

Aiemmissa tutkimuksissa hienosäätöaineistojen rakentamiseen on yleensä kaksi tapaa. Yksi on antaa ihmisten tehdä se manuaalisesti, mikä tietysti vie aikaa ja resursseja. Toinen on aloittaa pienellä määrällä manuaalisesti merkittyjä siemenohjeita ja soittaa LLM:lle kehotteiden kautta syntetisoidaksesi lisää ohjeita.

Vaikka toinen menetelmä säästää työvoimaa, se testaa hyvin nopean suunnittelun ja alkuvaiheen siemenongelmien valinnan. Toisin sanoen hallittavaa laajamittaista laajentumista on vaikea saavuttaa.

Tappavampi ongelma on, että syntetisoidut ohjeet ovat usein hyvin lähellä siemenkäskyjä, mikä vaikuttaa vakavasti suurten tietokokonaisuuksien monimuotoisuuteen. Laadukkaiden ja monipuolisten ohjeaineistojen luominen skaalautuvalla tavalla on edelleen haasteellinen ongelma LLM-alalla.

Kirjoittaja teki kuitenkin varhaisissa kokeissa mielenkiintoisen löydön: LLM:n autoregressiivisten ominaisuuksien vuoksi, kun vain esikyselymalli on syötetty, malli syntetisoi kyselyn automaattisesti, ja sisällön näkökulmasta se näyttää olevan hyvää laatua ja monipuolisuutta. Tämä osoittaa, että se voi tehokkaasti hyödyntää kohdistusprosessin aikana opittuja ominaisuuksia.

Tämän innoittamana kirjoittaja ehdotti seuraavaa ideaa käskytietojoukon rakentamiseksi: käytä esikyselymallia kehotteena, syötä se kohdistettuun LLM:ään ja generoi käskydata automaattisesti.

Kuten alla olevasta kuvasta näkyy, jokainen käskydata-ilmentymä sisältää yhden tai useamman käsky-vastaus-parin, ja käskyn tarjoajan ja seuraajan roolit on määritelty.

Kuvassa 1 on kuvattu koko datan automaattisesti generoima liukuhihna, joka on karkeasti jaettu kahteen vaiheeseen.

Ensimmäinen on ohjeiden luominen. MAGPIE-menetelmä rakentaa kyselyn sisällön LLM:n ennalta määritetyn ohjemallin muotoon, mutta se sisältää vain käskyn tarjoajan (kuten käyttäjän) eikä erityistä ohjesisältöä.

Käyttämällä tätä LLM-syötteenä malli luo ohjeita autoregressiivisellä tavalla. Tämä prosessi varmistaa luotujen ohjeiden monimuotoisuuden, koska erityisiä vihjesuunnittelutaitoja ei tarvita eikä kylvökysymyksiä käytetä.

Toisessa vaiheessa MAGPIE syöttää aiemmin luodut ohjeet LLM:lle vastauksen sisällön saamiseksi.

Iteroimalla toistuvasti yllä olevia kahta vaihetta, voidaan saada useita kierroksia ohjedataa. Jos haluat luoda tietoja tietylle kentälle, voit tehdä sen lisäämällä vastaavat kehotteet.

Saatuaan alkuperäiset sukupolven tulokset tekijä suodatti ne myös tekstin pituuden, tehtäväluokan, syötteen laadun, syöttövaikeuden ja muiden indikaattoreiden perusteella.

Paperi käyttää kahta mallia, Llama-3-8B-Instruct ja Llama-3-70B-Instruct, vastaavasti kahden tietojoukon MAGPIE-Air ja MAGPIE-Pro rakentamiseen, ja antaa esimerkkejä generoiduista ohjeista liitteessä:

Kuten näette, tekstin laatu on todella hyvä, ja se on täysin verrattavissa ihmisten kirjoittamiin ohjeisiin.

Tällaisen laajamittaisen datan laadun arvioimiseksi emme kuitenkaan voi luottaa pelkästään subjektiivisiin tunteisiin, joten kirjoittaja suoritti kvantitatiivisen analyysin generoidusta ohjedatajoukosta MAGPIE-Pro.

Tietojoukon analyysi

Kattavuus

Opetustekstien monimuotoisuuden huomioon ottamiseksi tehokas mittari on tekstin upotusten kattavuus semanttisessa tilassa.

Kirjoittaja otti satunnaisesti ohjetekstin MAGPIE-Prosta, koodasi sen upotusvektoreihin ja projisoi sen kaksiulotteiseen tilaan t-SNE-menetelmällä Vertailuun käytettiin kolmea perustietojoukkoa, mukaan lukien Alpaca, Evol Instruct ja UltraChat.

Jokainen t-SNE-projektiopiste alla olevassa kuvassa edustaa 10 000 satunnaisesti valittua käskyä. Voidaan nähdä, että MAGPIE-Pron projektio kattaa periaatteessa kolmen muun tietojoukon, mikä osoittaa, että se tarjoaa laajemman ja monipuolisemman aiheen.

Komentomääritteet

Artikkelissa käytetään Llama-3-8B-Instruct-mallia arvioimaan MAGPIE-käskydatan erilaisia attribuutteja, kuten tehtäväluokka, laatu, vaikeusaste, samankaltaisuus ja käskyn vasteen laatu.

Ohjeiden luomisen tehtäväluokat ovat pääasiassa tiedonhaku, josta yli puolet on, ja niihin kuuluvat myös luova kirjoittaminen, neuvojen etsiminen, suunnittelu, matematiikka, päättely, aivoriihi ja editointi jne., jotka ovat periaatteessa yhdenmukaisia ihmiskäyttäjien valtavirran tarpeiden kanssa. .

Ohjeiden laatu ja vaikeus arvioidaan myös automaattisesti Llama-3-8B-Instruct-mallilla.

Voidaan nähdä, että molemmissa tietosarjoissa useimmat tapaukset arvioidaan keskimääräisiksi ja sitä korkeammiksi, ja MAGPIE-Pron yleinen laatu on parempi kuin MAGPIE-Air.

Tietojoukon ohjeiden vaikeusjakauma on periaatteessa samanlainen, yli 60 % keskittyy "helppo"-tasolle, ja Pro-tietojoukko on hieman haastavampi kuin Air.

Laskemalla käskyjen samankaltaisuus voidaan hajauttamisen astetta arvioida toisesta näkökulmasta. Paperi käyttää FAISS:ia etsimään kunkin tekstin upotuksen lähimmät naapurit ja laskemaan niiden välisen etäisyyden samankaltaisuuden asteen mittaamiseksi.

Vastauksen laadun kannalta palkkion arviointimallina käytetään FsfairX-LLaMA3-RM-v0.1 ja vertailun perusmallina URIAL. Positiivinen palkkioero osoittaa korkeampaa laatua, mikä on hyödyllistä ohjeiden hienosäätöprosessissa.

Kuten kuvasta 5b voidaan nähdä, MAGPIE:n datajakauma on kokonaisuudessaan siirtynyt oikealle ja sen huippuarvo on pienempi kuin perusmallilla, mikä osoittaa, että yleinen vasteen laatu on parempi.

turvallisuutta

Lisäksi komentosuojauksen kannalta kirjoittaja käytti Llama-guard-2:ta automaattiseen arviointiin ja havaitsi, että suurin osa MAGPIE-tietojoukosta on turvallista, mutta sisältää silti alle 1 % haitallisia komentoja tai vastaustuloksia.

Tuloksen arviointi

Yksi tämän tutkimuksen suurimmista kohokohdista on sen tehokkaat käyttökustannukset ja täysin automatisoitu putkisto ilman manuaalisia toimenpiteitä.

3M MAGPIE-Air -tietosarjaa luotaessa käytettiin neljää A100 GPU:ta komentojen/vastausten luomiseen 1,55 tunnissa/50 tunnissa. 1M MAGPIE-Pro-tietojoukon luominen kestää vastaavasti 3,5 tuntia/150 tuntia.

Pilvipalvelimella käytettäessä kustannukset ovat myös erittäin huomattavat. Se maksaa 0,12 dollaria tai 1,10 dollaria per 1 000 luotua esiintymää Air- tai Pro-tietojoukosta riippuen.

Jotta MAGPIE-menetelmän edut aidosti heijastelevat, paperi itse asiassa soveltaa tietojoukkoa perusmallin hienosäätöön ja vertaa sitä virallisesti julkaistuun hienosäädettyyn versioon.

Kirjoittaja valitsi perusasetuksiksi kuusi edistyneintä avoimen lähdekoodin ohjeiden hienosäätötietojoukkoa, kuten ShareGPT ja Evol Instruct. Niistä ShareGPT ja WildChat ovat ihmisten kirjoittamia, ja Evol Instruct ja UltraChat ovat synteettisiä tietojoukkoja.

Hienosäädetyistä perusmalleista ovat Llama-3 ja Qwen-1.5, ja kaksi laajalti käytettyä indikaattoria, AlpacaEval ja Arena-Hard, valitaan suorituskyvyn arvioimiseksi.

Kahden taulukon yksityiskohtaisesta tietojen vertailusta voidaan todeta, että riippumatta siitä, mitä perusmallia käytetään, MAGPIE-menetelmällä luotu tietojoukko on laadukkaampi, parempi kuin kaikki perustietojoukot ja parempi kuin virallinen data. asetettu useimmissa indikaattoreissa Julkaistu hienosäädetty malli.

Kun LLM:n skaalauslaki vähitellen koskettaa dataseinää, tämän artikkelin menetelmä avaa uuden toivon oven synteettiselle datalle. Ehkäpä huolellisesti suunniteltuja algoritmeja ja tekniikoita käyttämällä LLM-synteettinen data voi vähitellen tulla julkisten tietojoukkojen "kantaluusta".

Viitteet:

https://arxiv.org/abs/2406.08464

uutiset

LLM-kohdistustiedot syntetisoidaan täysin automaattisesti! UW kiinalainen tohtoriopiskelija ehdottaa Harakka-menetelmää, Macbook Air voi käyttää sitä

Johdanto

yhteystietoni