Miten Apple Intelligence on kehitetty?Täydellisin tulkinta on tässä

2024-07-31

Kirjoittaja |. Ma Xuewei

Siri on vihdoin muuttunut "AI Siriksi", ja paljon odotettu Apple Intelligence on täällä.

Apple Intelligence iOS 18:lle, iPadOS 18:lle ja macOS Sequoialle lanseerattuaan Apple julkaisi myös teknisen raportin omasta suuresta mallistaan, jossa kerrottiin lukuisista teknisistä yksityiskohdista, jotka herättivät suurta huomiota teollisuudessa.

Raporttien mukaan Apple Intelligence sisältää useita korkean suorituskyvyn generatiivisia malleja, jotka ovat nopeita, tehokkaita, suunniteltu käyttäjien päivittäisiin tehtäviin ja jotka voivat mukautua välittömästi käyttäjien tämänhetkisiin toimintoihin. Apple Intelligenceen sisäänrakennetut perusmallit on jo optimoitu käyttökokemuksiin, kuten tekstin kirjoittamiseen ja hiomiseen, ilmoitusten priorisointiin ja yhteenvetoon, mielenkiintoisten kuvien luomiseen perheen ja ystävien kanssa käytäviä keskusteluja varten sekä sovelluksen sisäisten toimien tehostamiseksi sovellusten välistä vuorovaikutusta varten.

Teknisessä raportissa Apple-tiimi kuvaili kaksi mallia - kielimalli AFM (Apple Foundation Model), jossa on noin 3 miljardia parametria, ja suurempi, palvelinpohjainen AFM-palvelinkielimalli - rakennettiin ja mukautettiin toimimaan ammattimaiset tehtävät tehokkaasti ja tarkasti.

Kuva |. AFM-mallin yleiskatsaus

Nämä kaksi perusmallia ovat osa suurempaa generatiivisten mallien perhettä, jonka Apple on luonut tukemaan käyttäjiä ja kehittäjiä, ja se sisältää ohjelmointimallin, joka perustuu AFM-kielimalliin älykkyyden rakentamiseen Xcodessa, ja diffuusiomallin, joka auttaa käyttäjiä ilmaisemaan itseään visuaalisesti. kuten viestisovelluksissa.

Miten AFM toimii?

AFM:lle tehtiin tiukka arviointi kehitysprosessin aikana, ja arviointitulokset osoittivat, että malli suoriutui hyvin esikoulutuksessa, harjoituksen jälkeen ja erityistehtävissä ja oli Applen perusarvojen ja vastuullisen tekoälyn periaatteiden mukainen.

1. Koulutusta edeltävä arviointi

Apple-tiimi käytti julkisia arviointiperusteita, kuten HELM MMLU, HELMLite ja OpenLLM, arvioidakseen AFM-mallin kielen ymmärtämistä ja päättelykykyä. Tulokset osoittavat, että AFM-malli saavutti erinomaisia tuloksia useilla arviointiindikaattoreilla, osoitti vahvaa kielen ymmärtämistä ja päättelykykyä ja loi pohjan myöhemmille koulutuksen jälkeisille ja erityistehtäville.

2. Harjoittelun jälkeinen arviointi

Apple-tiimi yhdisti ihmisen arvioinnin ja automaattisen arvioinnin vertailuarvot arvioidakseen AFM-mallin yleisiä ja erityisiä ominaisuuksia, kuten ohjeiden seuraamista, työkalujen käyttöä ja kirjoittamista.Arvioinnin tulokset ovat seuraavat:

Ihmisten arviointi:AFM-malli on verrattavissa tai parempi kuin muut avoimen lähdekoodin ja kaupalliset mallit useissa tehtävissä, mikä osoittaa, että malli ymmärtää ja noudattaa monimutkaisia ohjeita ja tuottaa laadukasta tekstiä.

Kuva | Vertaamalla AFM-mallia muihin avoimen lähdekoodin malleihin ja kaupallisiin malleihin, ihmiset arvioivat mieluummin AFM-mallia.

Tutkimusryhmä arvioi MAIA:n hermosolujen kuvausparadigman perusteella. Tutkimus osoitti, että MAIA saavutti erinomaiset kuvausvaikutukset sekä todellisissa malleissa että synteettisten neuronien tietosarjoissa, joiden ennustusominaisuudet ovat paremmat kuin perusmenetelmät ja verrattavissa ihmisten asiantuntijoihin.

Ohjeiden noudattamisen arviointi:AFM-malli saavutti erinomaisia tuloksia vertailuissa, kuten IFEval ja AlpacaEval 2.0 LC, mikä osoittaa, että malli pystyy ymmärtämään ja noudattamaan ohjeita tehokkaasti.

Kuva |. AFM-mallin ja siihen liittyvien mallien käskyjen noudattamiskyvyn vertailu, mitattuna IFEval:lla. Mitä suurempi arvo, sitä parempi kyky.

Työkalun käytön arviointi:AFM-malli saavutti parhaan kokonaistarkkuuden Berkeley Function Calling Leaderboard -vertailussa, mikä osoittaa, että malli voi käyttää työkalua tehokkaasti.

Kuva |. AFM-palvelin saavuttaa parhaan kokonaistarkkuuden, parempi kuin Gemini-1.5-Pro-Preview-0514 ja GPT-4.

Kirjoitusarviointi:AFM-malli suoriutui hyvin sisäisessä yhteenvedossa ja vertailuarvojen kirjoittamisessa, mikä osoittaa mallin kyvyn tuottaa sujuvaa ja laadukasta tekstiä.

Kuva |. AFM verrattuna joihinkin näkyvimpiin malleihin sekä pienemmän mittakaavan avoimen lähdekoodin malleihin. Verrattuna Gemma-7B:hen ja Mistral-7B:hen, AFM-on-device voi saavuttaa vastaavan tai paremman suorituskyvyn. AFM-palvelin ylittää huomattavasti dbrx-direktiivin ja on verrattavissa GPT-3.5:een ja GPT-4:ään.

Matemaattinen arvio:AFM-malli on saavuttanut erinomaisia tuloksia vertailuissa, kuten GSM8K ja MATH, mikä osoittaa, että malli pystyy ratkaisemaan tehokkaasti matemaattisia ongelmia.

Kuva | Tutkimusryhmä vertasi AFM:n suorituskykyä matemaattisissa vertailuissa harjoituksen jälkeen, mukaan lukien GSM8K ja matematiikka. AFM-on-device suorituskyky on huomattavasti parempi kuin Mistral-7B ja Gemma-7B.

Lisäksi tutkimusryhmä teki mallille tehtäväkohtaisia arviointeja ja turvallisuusarviointeja. He käyttivät ihmisen arviointia ja tehtäväkohtaisia arvioinnin vertailuarvoja arvioidakseen AFM-mallin suorituskykyä tietyissä tehtävissä, kuten sähköpostin yhteenvedossa, viestien yhteenvedossa ja ilmoitusten yhteenvedossa. Arviointitulosten mukaan AFM-mallin suorituskyky sähköpostiyhteenvedossa, viestiyhteenvedossa ja ilmoitusyhteenvedossa on muita malleja parempi monilta osin, kuten tarkkuuden, täydellisyyden ja luettavuuden osalta.

Turvallisuuden kannalta tutkimusryhmä käytti kilpailevia tietojoukkoja ja ihmisen arviointia arvioidakseen AFM-mallin vastustuskykyä haitallista sisältöä ja arkaluonteisia aiheita vastaan. Arviointitulokset osoittavat, että AFM-malli kestää hyvin kilpailevaa dataa ja arkaluonteisia aiheita ja välttää jossain määrin haitallisia tai sopimattomia vastauksia.

Miten AFM:ää "harjoitetaan"?

Arkkitehtuuri

Kuten useimmat valtavirran mallit, AFM-malli perustuu Muuntaja arkkitehtuuri, mutta käyttää myös tiettyjä suunnitteluvaihtoehtoja tehokkuuden ja suorituskyvyn parantamiseksi.Pääkomponentit ovat seuraavat:

Muuntajamoduuli: AFM käyttää vakiomuuntajamoduulia, joka sisältää monipään huomiomekanismin ja eteenpäinkytkentämekanisminNeuraaliverkot。
Jaettu tulo/lähtö upotusmatriisi: Tämä malli vähentää malliparametrien määrää ja parantaa muistin tehokkuutta.
Prenormalisointi ja RMSNorm: Nämä tekniikat parantavat harjoituksen vakautta ja auttavat mallia oppimaan monimutkaisempia malleja.
Kyselyn/näppäimen normalisointi: Tämä tekniikka parantaa edelleen harjoituksen vakautta.
Grouped Query Attention (GQA): GQA-mekanismi vähentää muistin käyttöä ja parantaa laskennan tehokkuutta.
SwiGLU-aktivointitoiminto: Tämä aktivointitoiminto parantaa mallin tehokkuutta.
RoPE-asennon upotus: RoPE-mekanismi tukee pitkän tekstin koodausta ja parantaa mallin kykyä esittää kontekstia.

Kuvassa | AFM-on-device on 3072 parametria ja se soveltuu laitteen päättelyyn. Se käyttää 26 Transformer-tasoa, joista jokainen sisältää 128 otsikkoa, 8 kysely-/avainotsikkoa ja 24 kyselyotsikkoa.

esikoulutus

AFM-mallin esikoulutusprosessi on suunniteltu kouluttamaan tehokkaita kielimalleja tukemaan Apple Intelligence -järjestelmän eri toimintoja. AFM-malleja koulutetaan Cloud TPU -klustereissa käyttämällä AXLearn-kehystä, joka tukee laajamittaisten mallien ja sekvenssipituuksien koulutusta ja tarjoaa tehokkaan koulutuksen ja päättelyn suorituskyvyn.

AFM:n esikoulutustietojoukko koostuu useista korkealaatuisista tiedoista, mukaan lukien:

Verkkosisältö: Applebotilla indeksoitu ja suodatettu julkisesti saatavilla oleva tieto.
Lisensoidut tietojoukot: korkealaatuiset tietojoukot, jotka on saatu julkaisijoilta, jotka tarjoavat monipuolista pitkää tekstidataa.
Koodi: GitHubista saatu avoimen lähdekoodin data, joka kattaa useita ohjelmointikieliä.
Matematiikka: Verkkodata, joka sisältää matemaattista sisältöä, kuten matemaattisia kysymyksiä, keskustelupalstoja, blogeja, opetusohjelmia ja seminaareja.
Julkinen tietojoukko: Julkisesti saatavilla oleva tietojoukko, joka on arvioitu ja seulottu.

AFM-esikoulutus on jaettu kolmeen vaiheeseen:

Ydinvaihe: Käytä suurinta tietojoukkoa koulutukseen Päätavoitteena on oppia peruskielitaidot ja -mallit.
Jatkuva vaihe: Ydinvaiheen perusteella lisätään koodia ja matemaattista dataa, ja verkkosivutietojen painoa pienennetään mallin tietoalueen laajentamiseksi entisestään.
Kontekstin laajennusvaihe: Jatkuvan vaiheen perusteella pidempiä sekvenssipituuksia ja synteettistä pitkää tekstidataa käytetään parantamaan mallin prosessointikykyä pitkien tekstien kohdalla.

koulutuksen jälkeen

AFM hankkii vahvat kielen ymmärtämisen valmiudet esikoulutusvaiheessa, mutta sen soveltaminen tiettyihin tehtäviin, kuten sähköpostin yhteenvetoon, viestien yhteenvetoon ja ilmoitusten yhteenvetoon, edellyttää jälkikoulutusta.sisältää:

Valvottu hienosäätö (SFT):
- Tiedonkeruu: Käytä ihmisten kirjoittamia tietoja ja synteettistä dataa varmistaaksesi, että tiedon laatu on monipuolinen ja kattaa useita luonnollisen kielen käyttöskenaarioita.
- Tietojen yhdistäminen: Valitse ja yhdistä ihmistiedot ja synteettiset tiedot huolellisesti korkealaatuisten datasekoitusten muodostamiseksi.
- Hienosäätömenetelmä: Käytä LoRA-sovitinta mallin hienosäätämiseen, säädä vain sovittimen parametreja ja säilytä mallin yleinen tuntemus.
Vahvistusoppiminen ihmisen palautteen perusteella (RLHF):
- Palkkiomalli: Kouluta palkkiomalli käyttämällä ihmisten mieltymystietoja ja arvioi mallin vastausten laatua.
- Iterative Teaching Committee (iTeC): Parantaa mallia iteratiivisesti käyttämällä useita mieltymysten optimointialgoritmeja, mukaan lukien hylkäysnäytteenotto, suora preferenssien optimointi ja online-vahvistusoppiminen.
- Online RLHF-algoritmi (MDLOO): Käytä Mirror Descent -käytännön optimointia ja Leave-One-Out -etuarviointia maksimoidaksesi palkinnot ja parantaaksesi mallin laatua.

Jälkikoulutuksen edut:

Mallin laadun parantaminen: Jälkiharjoittelu parantaa merkittävästi AFM-mallin laatua ja suorituskykyä, jolloin se toimii hyvin tietyissä tehtävissä.
Noudata Applen perusarvoja ja vastuullisia tekoälyperiaatteita: Koulutuksen jälkeisessä prosessissa otetaan täysin huomioon tietojen laatu, turvallisuus ja haitallisen sisällön suodatus varmistaakseen, että malli on Applen perusarvojen ja vastuullisten tekoälyperiaatteiden mukainen.
Skaalautuvuus: Harjoittelun jälkeinen menetelmä on skaalattavissa muihin tehtäviin, jolloin AFM-malli tukee enemmän Apple Intelligence -ominaisuuksia.

Päätelmien optimointi

AFM:llä ei tarvitse olla vain vahvat kielen ymmärtämisominaisuudet, vaan sen on myös kyettävä toimimaan tehokkaasti laitteissa, kuten iPhonessa, iPadissa ja Macissa, sekä Private Cloud Computessa Applen piipalvelimilla. Tämän tavoitteen saavuttamiseksi Apple on kehittänyt joukon optimointitekniikoita varmistaakseen, että AFM-mallit toimivat tehokkaasti tietyissä tehtävissä säilyttäen samalla mallin yleisen laadun.

Optimointi:

Mallin kvantisointi: Käytä 4-bittistä kvantisointitekniikkaa AFM-mallin kvantisoimiseen, mikä vähentää merkittävästi mallin kokoa ja päättelykustannuksia.
Tarkkuuspalautussovitin: Palauta kvantisoidun mallin tarkkuus LoRA-sovittimen avulla niin, että se on lähellä kvantisoimattoman mallin suorituskykyä.
Sekatarkkuuskvantisointi: Kvantisoi mallin jokainen kerros käyttämällä 4- ja 2-bittistä kvantisointitarkkuutta vähentääksesi muistin käyttöä entisestään samalla, kun säilytät mallin laadun.
Interaktiivinen mallianalyysi: Käytä Talaria-työkalua mallin latenssin ja virrankulutuksen analysoimiseen, bittinopeuden valinnan ohjaamiseen ja mallin suorituskyvyn optimointiin.
Ajonaikaisesti vaihdettavat sovittimet: Käytä LoRA-sovittimia mallin hienosäätämiseen niin, että se voidaan räätälöidä tiettyihin tehtäviin samalla, kun säilytät mallin yleisen tuntemuksen.

Optimointitapaus-sähköpostiyhteenveto:

Tiedonkeruu: Kerää syöttötietoja, jotka sisältävät otteita sähköposteista, viesteistä ja ilmoituksista, ja suorita tietojen puhdistus ja kopioinnin poistaminen.
Synteettisen yhteenvedon luominen: Käytä AFM-palvelinta synteettisten yhteenvetojen luomiseen, jotka täyttävät tuotevaatimukset, ja käytä sääntöjä ja malleja suodatukseen tietojen laadun varmistamiseksi.
Vihje: Lisää harjoitustietoihin AFM-palvelimen luomia yhteenvetoja, jotta AFM-laitemalli ymmärtää paremmin ja luo yhteenvetoja.

Lisäksi Apple Intelligence noudattaa useita vastuullisia tekoälyperiaatteita, mukaan lukien käyttäjien voimaannuttaminen, käyttäjien edustaminen, huolellinen suunnittelu ja yksityisyyden suojaaminen. Teknisessä raportissa Apple kiistää syytökset siitä, että se käyttää eettisesti kyseenalaisia menetelmiä tiettyjen mallien kouluttamiseen, ja toistaa, että se ei käytä yksityisiä käyttäjätietoja ja sen sijaan käyttää julkisesti saatavilla olevien ja lisensoitujen tietojen yhdistelmää Applen Intelligence-tarkoituksiin. He korostivat, että AFM-mallin harjoitustiedot saatiin "vastuullisesti".

uutiset

Miten Apple Intelligence on kehitetty?Täydellisin tulkinta on tässä

Miten AFM toimii?

Miten AFM:ää "harjoitetaan"?

Johdanto

yhteystietoni