Paljastettu! 47-sivuinen asiakirja, joka purkaa Applen älykkyyden arkkitehtuurista, tiedoista koulutukseen ja optimointiin.

Paljastettu! 47-sivuinen asiakirja, joka hajottaa Applen älykkyyden arkkitehtuurista ja tiedoista koulutukseen ja optimointiin

2024-07-31

Koneen sydänraportti

Machine Heart -toimitusosasto

Vuoden 2024 Worldwide Developers Conferencessa Apple lanseerasi Apple Intelligencen, uuden henkilökohtaisen älykkään järjestelmän, joka voi tarjota käytännöllisiä älykkäitä palveluita iPhonelle, iPadille ja Macille, ja joka on integroitu syvästi iOS 18:aan, iPadOS 18:aan ja macOS Sequoiaan.

Cook sanoi kerran, että Apple Intelligence on uusi luku Applen innovaatioissa ja muuttaa käyttäjien tapaa käyttää tuotteita. Hän korosti, että Applen ainutlaatuinen lähestymistapa yhdistää generatiivisen tekoälyn ja käyttäjien henkilötiedot tarjotakseen todella hyödyllisiä älykkäitä palveluita. Lisäksi Apple Intelligence tarjoaa täysin yksityisen ja turvallisen pääsyn tietoihin, mikä auttaa käyttäjiä saavuttamaan heille tärkeimmän. Tämä on Applelle ainutlaatuinen tekoälykokemus.

Nyt on kulunut yli kuukausi Apple Intelligencen virallisesta julkistamisesta. Tämä tekniikka on vihdoin otettu käyttöön älylaitteissa, ja siihen liittyvät tekniset asiakirjat on vihdoin julkaistu.

Viimeisen päivän aikana iPhone 15 Pron tai iPhone 15 Pro Maxin omistavat käyttäjät voivat ladata iOS 18.1 -kehitysbetaversion ja kokea Apple Intelligencen toiminnot.

Tämän 47-sivuisen teknisen raportin julkaisemisen myötä voimme saada syvemmän ymmärryksen Apple Intelligencen takana olevasta salaisesta aseesta.

Raportin osoite: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Raportissa kuvataan kaksi mallia -AFM-laitteessaAFM tarkoittaa Apple Foundation Model -mallia, joka on noin 3 miljardin parametrin kielimalli sekä suurempi palvelinpohjainen kielimalli.AFM-palvelin, osaa suorittaa erikoistehtävät tehokkaasti, tarkasti ja vastuullisesti (Kuva 1).

Nämä kaksi perusmallia ovat osa Applen suurempaa generatiivisten mallien perhettä.

Rakenne ja koulutus

AFM-perusmalli on tiheä dekooderimalli, joka on rakennettu Transformer-arkkitehtuuriin ja käyttää seuraavaa rakennetta:

Jaetut tulo/lähtö upotusmatriisit vähentävät parametrien muistin käyttöä.

Käytä RMSNormia esinormalisointiin harjoituksen vakauden parantamiseksi.

Kyselyn/näppäimen normalisointi harjoituksen vakauden parantamiseksi.

Grouped Query Attention (GQA), jossa on 8 avainarvootsikkoa KV-välimuistin jalanjäljen pienentämiseksi.

SwiGLU aktivoitu tehokkuuden lisäämiseksi.

RoPE-asennon upottaminen, perustaajuus (perustaajuus) on asetettu 500k:ksi pitkän kontekstin tukemiseksi.

AFM:n esikoulutusprosessilla on keskeinen rooli korkean suorituskyvyn kielimallien kehittämisessä tukemaan useita Apple Intelligence -ominaisuuksia. Tutkimusryhmä keskittyy tehokkuuteen ja tiedon laatuun laadukkaan ja kokonaisvaltaisen käyttäjäkokemuksen saavuttamiseksi.

Jälkikoulutuksen osalta tutkimusryhmä havaitsi, että yleisen jälkikoulutuksen parantaminen voi parantaa kaikkien Apple Intelligencen toimintojen suorituskykyä, koska mallilla on vahvempi kyky seurata ohjeita, perustella ja kirjoittaa.

Jotta varmistetaan, että nämä mallin toiminnot ovat yhdenmukaisia Applen sitoutumisen suojelemiseen käyttäjien yksityisyyden ja Applen vastuullisen tekoälyn periaatteiden kanssa, koulutuksen jälkeiseen työhön sisältyy sarja tietojen keräämistä ja luomista, ohjeiden säätöä ja kohdistusinnovaatioita. Harjoittelun jälkeinen prosessi koostuu kahdesta vaiheesta: valvotusta hienosäätöstä (SFT) ja vahvistusoppimisesta ihmispalautteen perusteella (RLHF). Tutkimusryhmä ehdotti kahta uutta koulutuksen jälkeistä algoritmia: (1) hylkäysnäytteenoton hienosäätöalgoritmia opettajakomitean (iTeC) kanssa ja (2) RLHF-algoritmia oppimistiteraatioiden vahvistamiseksi peililaskeutumispolitiikan optimoinnilla (peililaskeutumispolitiikan optimointi). ) ja MDLOO-etuarvio, joka parantaa merkittävästi mallin laatua.

Apple Intelligence -ominaisuudet

Perusmalli on suunniteltu erityisesti Apple Intelligencelle, henkilökohtaiselle älyjärjestelmälle, joka tukee iPhonea, iPadia ja Macia.

Apple havaitsi, että he pystyivät parantamaan pienten mallien suorituskykyä luokkansa parhaalle tasolle hienosäätämällä niitä tiettyjä tehtäviä varten. Lisäksi he kehittivät ajonaikaisesti vaihdettaviin sovittimiin perustuvan arkkitehtuurin, joka mahdollistaa yhden perusmallin erikoistumisen kymmenissä tällaisissa tehtävissä. Kuvassa 2 on korkeatasoinen yleiskatsaus.

sovittimen arkkitehtuuri

Apple käyttää LoRA-sovittimia mallien hienosäätämiseen tiettyjä tehtäviä varten. Jokaista tehtävää varten tutkijat säätävät kaikki lineaariset projektiomatriisit AFM-itsehuomiokerroksessa ja täysin yhdistetyt kerrokset pistekohtaisessa myötäkytkentäverkossa. Yksinkertaisesti hienosäätämällä sovitinta esiopetetun perusmallin alkuperäiset parametrit pysyvät muuttumattomina, mikä mahdollistaa mallin yleisen tuntemuksen säilyttämisen ja sovittimen räätälöinnin tukemaan tiettyjä tehtäviä.

Määritä määrä

Kvantisointitekniikoita on harkittava, jotta AFM voidaan sisällyttää reunalaitteisiin, joilla on rajoitettu muistibudjetti ja vähentää päättelykustannuksia. Aiemmat tutkimukset havaitsivat, että 4-bittiset kvantisoidut mallit kärsivät hyvin vähän tappiota verrattuna raakaan 32/16-bittiseen liukulukuun.

Saavuttaakseen parhaan tasapainon mallikapasiteetin ja päättelysuorituskyvyn välillä Apple kehitti huippuluokan kvantisointimenetelmät ja kehyksen, joka hyödyntää tarkkuutta palauttavia sovittimia. Tämä mahdollistaa sen, että malli saavuttaa lähes häviöttömän kvantisoinnin, kun kunkin painon keskimääräinen paino on alle 4 bittiä, ja tarjoaa joustavan kvantisointimenetelmän valinnan.

menetelmä

Jälkiharjoittelun jälkeen malli pakataan ja kvantisoidaan, jotta saadaan keskimäärin alle 4 bitin painot. Kvantitatiiviset mallit osoittavat tyypillisesti kohtalaista laadun heikkenemistä. Siksi Apple ei käytä kvantisoitua mallia suoraan ominaisuuksien kehittämiseen, vaan liittää joukon parametritehokkaita LoRA-sovittimia laadun palauttamiseksi.

On syytä huomata, että harjoitustarkkuus-palautussovitin on esimerkkitehokas ja sitä voidaan pitää harjoituksen perusmallin miniversiona. Sovittimen esikoulutusvaiheessa tarvitaan vain noin 10 miljardia merkkiä (noin 0,15 % perusmallin harjoittelusta) kvantisoidun mallin kyvyn palauttamiseksi täysin.

Koska sovellussovittimet hienosäädetään näistä tarkkuuden palautussovittimista, niistä ei aiheudu ylimääräisiä muistinkäyttö- tai päättelykuluja. Mitä tulee sovittimen koosta, Apple on havainnut, että sovittimen sijoitus 16 tarjoaa parhaan kompromissin mallin kapasiteetin ja päättelyn suorituskyvyn välillä.

Joustavuuden vuoksi Apple tarjoaa kuitenkin joukon tarkkuuden palautussovittimia, joiden luokitukset ovat {8, 16, 32} sovellustiimille, joista valita.

sekoitettu tarkkuuskvantisointi

Jäännösliitännät ovat olemassa jokaiselle muuntajalohkolle ja jokaiselle kerrokselle AFM:ssä. Siksi on epätodennäköistä, että kaikki kerrokset ovat yhtä tärkeitä. Tämän intuition mukaisesti Apple vähensi muistin käyttöä edelleen työntämällä tiettyjä kerroksia käyttämään 2-bittistä kvantisointia (oletus on 4-bittinen). Keskimäärin AFM-on-device voi pakata vain noin 3,5 bittiin painoa kohden (bpw) ilman merkittävää laadun heikkenemistä.

Arvioida

Tutkimusryhmä käyttää yleisiä avoimen lähdekoodin arviointityökaluja ja benchmarkeja arvioidakseen AFM:n esikoulutettua mallia. Taulukko 2 näyttää AFM-on-device ja AFM-palvelimen tulokset HELM MMLU v1.5.0:ssa.

Nämä vertailuarvot osoittavat, että AFM:n esiopetetulla mallilla on vahvat kieli- ja päättelyominaisuudet, mikä tarjoaa vankan perustan koulutuksen jälkeiselle toiminnalle ja ominaisuuksien hienosäädölle.

AFM:n vertailutulokset avoimen lähdekoodin malleilla (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) ja kaupallisilla malleilla (GPT3.5 ja GPT-4) on esitetty alla olevassa kuvassa 3. Ihmisarvioijat suosivat AFM-malleja muihin malleihin verrattuna. Erityisesti verrattuna Phi-3-miniin, AFM-on-device saavutti 47,7 prosentin voittoprosentin 25 prosenttia pienemmästä mallikoosta huolimatta, mikä on jopa parempi kuin avoimen lähdekoodin vahvat peruslinjat Gemma-7B ja Mistral-7B.

Mittaakseen mallin kykyä tuottaa vastauksia, jotka noudattavat kehotteiden ohjeita, tutkimusryhmä arvioi AFM-on-device ja AFM-server IFEval-vertailulla. Tulokset on esitetty alla olevassa kuvassa 4.

Kuten kuvasta 5 näkyy, AFM-palvelin saavuttaa parhaan kokonaistarkkuuden, parempi kuin Gemini-1.5-Pro-Preview-0514 ja GPT-4.

Apple vertasi AFM:ää joihinkin parhaisiin malleihin sekä pienempiin avoimen lähdekoodin malleihin. Kuten kuvasta 6 näkyy, AFM-on-device voi saavuttaa vastaavan tai paremman suorituskyvyn verrattuna Gemma-7B:hen ja Mistral-7B:hen. AFM-palvelimen suorituskyky on huomattavasti parempi kuin DBRX-Instruct ja GPT3.5, ja se on verrattavissa GPT4:ään.

Kuvassa 7 verrataan jälkikoulutetun AFM:n suorituskykyä matemaattisilla vertailuarvoilla. Havaittiin, että AFM-on-device toimi merkittävästi paremmin kuin Mistral-7B ja Gemma-7B, vaikka se oli alle puolet niiden koosta.

Alla olevassa kuvassa ihmisen arvioijat arvioivat AFM-on-device-sovittimien, Phi-3-mini, Llama-3-8B ja Gemma-7B laatua yhteenvetotehtävässä. Kuva 8 osoittaa, että AFM-on-device-adapter on yleensä muita malleja parempi.

Vastuullinen tekoäly

Apple Intelligence on kehitetty ja suunniteltu käyttäjien yksityisyyttä ajatellen.

Kuvassa 9 on yhteenveto ihmisten arvioijien antamista rikkomuksista eri malleissa, joista alempi on parempi. Sekä AFM-on-device että AFM-palvelin ovat kestäviä kilpailevien kehotteiden suhteen, ja rikkomukset ovat huomattavasti alhaisemmat kuin avoimen lähdekoodin ja kaupalliset mallit.

Kuva 10 osoittaa, että AFM-malli on ihmisten arvioijien suosiossa muihin malleihin verrattuna.

uutiset

Paljastettu! 47-sivuinen asiakirja, joka hajottaa Applen älykkyyden arkkitehtuurista ja tiedoista koulutukseen ja optimointiin

Johdanto

yhteystietoni