Applen tekoäly on järkyttävällä tavalla lanseerattu iPhonessa, mutta Sirin kehittyneessä versiossa ei ole ChatGPT:tä! 47-sivuinen tekninen raportti paljastaa itse kehitetyn model

Applen tekoäly on järkyttävällä tavalla lanseerattu iPhonessa, mutta Sirin kehittyneessä versiossa ei ole ChatGPT:tä! 47-sivuinen tekninen raportti paljastaa itse kehitetyn mallin

2024-07-31

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen] Tänä aamuna kaikki kehittäjät hämmästyivät iOS 18.1:n äkillisestä betaversiosta! Yllättäen Applen tekoälyä voidaan nyt käyttää varhaisille käyttäjille, ja suuri määrä arvosteluja on tulvinut koko Internetiin. Vielä yllättävämpää on, että verkossa on myös 47-sivuinen tekninen raportti Applen tekoälyn taustalla olevasta perusmallista.

Aikaisin aamulla kauan odotettu ensimmäinen Apple AI:n esikatseluversio lähetettiin virallisesti kehittäjille!

Applen AI:n uusimmat ominaisuudet on upotettu kolmeen pääjärjestelmään: iOS 18.1, iPadOS 18.1 ja macOS Sequoia 15.1.

Ne ensimmäinen joukko käyttäjiä, jotka saivat iOS 18.1:n beta-version, hurraavat jo ilosta, ja aalto toisensa jälkeen todellista testien jakamista leviää koko verkkoon.

Uusin esikatseluversio sisältää monia yllätyksiä (pika esikatseluversio):

Uusi Siri: syttyy pehmeästi näytön reunaan, kun se kommunikoi vaihtamalla tekstiä ja ääntä
Kirjoitustyökalut: Voit kirjoittaa uudelleen, oikolukua ja tehdä yhteenvedon tekstistä missä tahansa tilanteessa. (Muistiot, asiakirjat ja kolmannen osapuolen sovellukset ovat kaikki hyväksyttäviä)
Tarkennustila (vähennä keskeytyksiä): Näytä vain ilmoitukset, jotka sinun täytyy nähdä välittömästi
Valokuvaominaisuudet: Hae valokuvia luonnollisella kielellä ja luo videoita
Luo tekoälyyhteenvetoja sähköposteista, viesteistä ja vastaajaviestien transkriptioista

Lisäksi on joitakin ominaisuuksia, jotka Apple ilmoitti julkaisevansa ensi vuonna, mukaan lukien ChatGPT-integraatio, kuvien/emojien luominen, automaattinen valokuvien puhdistus ja supertehokas Siri, jossa on näytön tietoisuus.

Muuten, tällä hetkellä iOS 18.1 -beetaversio (mukaan lukien iPadOS ja macOS) on saatavilla vain Yhdysvalloissa, eikä sitä ole vielä julkaistu Kiinassa.

Lisäksi matkapuhelimista vain iPhone 15 Pro ja iPhone 15 Pro Max tukevat uutta järjestelmää.

Järjestelmän esittelyn mukaan iOS18.1 beta -versio vie yhteensä 15,44 Gt muistitilaa, josta iOS-järjestelmän kapasiteetti on 12,58 Gt, kun taas Apple AI vain 2,86 Gt.

Tämä johtuu siitä, että Applen päätelaitteiden käyttämässä mallissa on vain 3 miljardia parametria.

Yksityiskohtaisempi esittely mallista on piilotettu juuri julkaistussa Applen AI teknisessä raportissa.

48-sivuinen paperi kattaa Applen LLM:n suunnittelun ja arvioinnin, mukaan lukien arkkitehtuuri, tiedonhallinta, koulutusta edeltävät ja koulutuksen jälkeiset reseptit, optimointi, toiminnallinen mukauttaminen ja arviointitulokset.

Paperin osoite: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Tarkemmin sanottuna Apple on kehittänyt kaksi uutta peruskielimallia, jotka muodostavat Applen AI:n ytimen:

Yksi on päätymalli AFM-on-device, jolla on noin 3 miljardia parametria Optimoinnin jälkeen se voi toimia iPhonessa ja muissa päätelaitteissa suuremmalla tehokkuudella ja herkkyydellä.

Toinen on isompi parametrimalli, joka voi toimia Applen pilvipalvelimella, nimeltään AFM-server, joka on suunniteltu intensiivisiin tehtäviin ja käyttää yksityistä pilvilaskentaa (Private Cloud Compute) käyttäjien tietojen suojaamiseen.

Muistan edelleen, että viime kuun WWDC-konferenssissa Cook ilmoitti maailmalle Applen tekoälyn tehokkaat toiminnot, mikä antoi Applen perheelle eeppisen päivityksen.

Koko Internet ajattelee, että tekoäly ei ole enää ollenkaan hyvä, ja meidän on vielä katsottava Applen tekoälyä.

Yleisesti ottaen Apple julkaisee yleensä ensin iOS18-pääjärjestelmän.

En kuitenkaan odottanut, että tällä kertaa Apple toimittaisi beta-version ensimmäiselle kehittäjäjoukolle näin lyhyessä ajassa.

Tältä osin Bloombergin uusin raportti huomautti, että Apple rikkoi tavanomaista ohjelmistojulkaisurytmiään, koska Apple AI tarvitsee edelleen enemmän testausaikaa.

Mietin, mitä uusia maanosia ensimmäiset varhaiset omaksujat löysivät?

Varsinainen nettilaisten testi

Applen teknologiabloggaaja Brandon Butch julkaisi heti videoselvityksen, jossa esitettiin iOS 18.1 -betaversion kattavimmat Applen AI-toiminnot.

Olitpa kuinka ankara tahansa, se on aina lempeä ja suloinen.

Hän sanoi, että Apple AI auttoi häntä löytämään paremman tavan ilmaista, mitä hän halusi sanoa.

Kirjoita viestiliittymän syöttöruutuun, mitä haluat sanoa.

Valitse sitten ne kaikki ja napsauta Applen AI-painiketta käyttääksesi "ystävällinen" kirjoitustyökalussa AI tekee tämän kappaleen sävyn välittömästi tahdikkaisemmaksi.

Katsotaanpa vielä toista nettiläistä, joka kirjoitti nimenomaan kirosanan, mikä oli paljon mukavampaa, kun tekoäly kirjoitti sen uudelleen.

Kieliopin kirjoitusvirheen korjaus

Lisäksi Butch huudahti, että Grammarly on tapettu, ja tämä on todellinen Apple AI.

Katsokaapa seuraavaa kohtaa, joka on kirjoitettu väärin, sen ensimmäinen kirjain, jota ei kirjoiteta isolla, ja minkä pitäisi mielestäsi päättyä kysymysmerkkiin pisteen sijaan.

Voidaan nähdä, että Apple AI on korjannut kaiken puolestasi.

Sähköpostissa on myös Applen AI-ominaisuudet, jotka saavat ihmiset hulluiksi sen kuultuaan.

Se tukee myös muistioiden ja viestien kirjoitustyökalujen ominaisuuksia, mukaan lukien oikoluku, uudelleenkirjoitus jne.

Yhteenveto sähköpostista näkyy yläreunassa.

Applen AI-kirjoitustyökalun animaatiovaikutus on "erittäin Apple" verrattuna tiheään merkkien virtaan, kun malli reagoi, kaikki näyttää niin sujuvalta.

Upouusi Siri, erittäin sujuva vastaus

Tarkasteltaessa näytön reunavaikutelmaa Sirille soitettaessa, minun on sanottava, että Apple tuntee suunnittelun parhaiten.

Katsotaanpa Sirin iPad-versiota.

Humanen tekoälyinsinööri ja entinen Applen insinööri testasivat Siriä ja ylistivät sitä sanoen, että Applen tekoäly on erittäin, erittäin nopea.

Herätä Siri ja kysy kuinka korkea Eiffel-torni on? Missä se sijaitsee?

Muuten, anna sen tuoda viimeaikaisia uutisia Pariisin olympialaisista ja olympiatapahtumien seuraamisesta.

Lyhyessä ajassa Apple AI sai vastauksen.

AI transkription yhteenveto, tärkeä puhelimen sisältö ei pelkää puuttua

Lisäksi Apple AI voi myös auttaa sinua muuttamaan puhelut muistiinpanoiksi ja tallentamaan puhumasi asiat.

Jos nauhoituspainiketta painetaan, sekä soittajalle että soitetulle osapuolelle kuuluu merkkiääni, joka ilmaisee, että puhelu nauhoitetaan.

Kun nauhoitus on valmis, voit siirtyä suoraan ilmoitusten ponnahdusikkunaan nähdäksesi tallennuksen sisällön.

tarkennustila

Käytä Applen tekoälyä analysoimaan automaattisesti ilmoitusten sisältöä ja havaitsemaan tärkeät ilmoitukset!

Tärkeiden henkilöiden ilmoitukset kiinnitetään näytön alareunaan.

Valokuvahaku, paljon valituksia

Syy siihen, miksi iOS 18.1 julkaistiin ensimmäisenä, on tietysti se, että kehittäjät voivat testata enemmän, löytää raportoituja ongelmia ja parantaa Applen tekoälyominaisuuksia.

Ei, kun YouTube-bloggaaja testasi valokuvatoimintoa, hän havaitsi, että Siri oli edelleen "henkisesti jälkeenjäänyt".

Bloggaaja kysyi ensin: "Siri näytä minulle kuvia 2022 kiitospäivämatkalta." Siri vastasi: Kuinka monta kertaa Health-sovellus on avattu...

Sitten hän toisti kysymyksen uudelleen: "Siri, etsi valokuvia kiitospäivästä valokuvista."

Hassua kyllä, Siri haki joukon kiitospäivään liittyviä kuvia suoraan Internetistä.

Kun hän kysyi uudelleen: "Siri, näytä minulle kuvia matkaltani Taiwaniin", Siri kuunteli alkuperäisiä sanoja avainsanoja ja haki Internetistä "My Trip to Twaiwan".

Sitten hän jatkoi kysymistä, ja Siri oli edelleen hämmentynyt.

Itsepäinen bloggaaja, rikkinäinen Siri, en voi olla nauramatta...

Kuten alussa mainittiin, Apple AI:n asentaminen päätelaitteisiin perustuu tiimin itse kehittämään perusmalliin, joka loistaa kirkkaasti.

iPhonen tekoälyvallankumous: 3 miljardia parametria taskussasi

Tarkemmin sanottuna AFM on vain dekooderin tiheä malli, joka perustuu Transformer-arkkitehtuuriin.

Sen suunnitteluideat ovat seuraavat:

Jaetut sisään-/ulostulomatriisit parametrien muistin käytön vähentämiseksi
Käytä RMSNormin esinormalisointia harjoituksen vakauden parantamiseen
Kyselyn/näppäimen normalisointi harjoituksen vakauden parantamiseksi
Grouped Query Attention (GQA), jossa on 8 avainarvootsikkoa KV-välimuistin muistin jalanjäljen pienentämiseksi
Tehokkaampi SwiGLU-aktivointi
RoPE-paikan upottaminen perustaajuudella 500k, tukee pitkää kontekstia

sovittimen arkkitehtuuri

Käyttämällä LoRA-sovitinta Applen perusmalli voi dynaamisesti erikoistua lennossa kulloisenkin tehtävän perusteella.

Nämä pienet neuroverkkomoduulit voidaan kytkeä perusmallin eri kerroksiin ja käyttää mallin hienosäätämiseen tiettyjä tehtäviä varten.

Sovittimien koulutuksen helpottamiseksi Apple on myös luonut tehokkaan infrastruktuurin, jonka avulla sovittimia voidaan nopeasti lisätä, kouluttaa uudelleen, testata ja ottaa käyttöön, kun taustalla oleva malli tai koulutustiedot päivitetään tai uusia ominaisuuksia tarvitaan.

optimointi

Käyttäjien päivittäisen käytön vuoksi tiimi otti käyttöön erilaisia optimointi- ja kvantifiointitekniikoita vähentääkseen merkittävästi muistin käyttöä, latenssia ja virrankulutusta samalla kun mallin laatu säilyy.

menetelmä

Harjoittelun jälkeisessä vaiheessa Apple pakkasi ja kvantisoi mallin keskimäärin alle 4 bittiin painoa kohti.

Kvantisoidut mallit kärsivät yleensä jonkinasteisesta laadun heikkenemisestä. Siksi T&K-tiimi ei luovuta kvantitatiivista mallia suoraan sovellustiimille toiminnallista kehitystä varten, vaan liittää joukon parametritehokkaita LoRA-sovittimia mallin laadun palauttamiseksi.

Jokainen tuotetiimi hienosäätää sitten ominaisuuskohtaisen LoRA-sovittimensa alustamalla sovittimen painot tarkkuutta palauttavista sovittimista pitäen samalla kvantisoidun perusmallin ennallaan.

On syytä huomata, että harjoitustarkkuuden palautussovitin on mallitehokas ja sitä voidaan pitää harjoituksen perusmallin miniversiona.

Niistä sovittimen esikoulutusvaiheessa tarvitaan vain noin 10 miljardia merkkiä (noin 0,15 % perusmallin harjoittelusta) kvantisoidun mallin kyvyn palauttamiseksi täysin.

Koska sovellussovittimet hienosäädetään näistä tarkkuuspalautussovittimista, niistä ei aiheudu ylimääräisiä muistinkäyttö- tai päättelykuluja.

Sovittimen koon osalta tiimi havaitsi, että sovitin, jonka sijoitus oli 16, tarjosi parhaan tasapainon mallin kapasiteetin ja päättelysuorituskyvyn välillä.

Joustavuuden lisäämiseksi Apple tarjoaa kuitenkin joukon erilaisia tarkkoja palautussovittimia, joista sovellustiimit voivat valita.

Määritä määrä

Toinen tarkkuuspalautussovittimien tuoma etu on, että ne mahdollistavat joustavamman kvantisointimenetelmien valinnan.

Aikaisemmin suuria kielimalleja kvantisoitaessa oli yleistä jakaa painot pieniksi paloiksi, normalisoida jokainen pala vastaavalla enimmäisabsoluuttisella arvollaan poikkeavien tekijöiden suodattamiseksi ja sitten soveltaa kvantisointialgoritmia lohkoperusteisesti.

Vaikka suuremmat lohkokoot vähentävät tehollisten bittien määrää painoa kohti ja lisäävät suorituskykyä, myös kvantisointihäviö kasvaa. Tämän kompromissin tasapainottamiseksi lohkon koko asetetaan yleensä pienemmäksi arvoksi, kuten 64 tai 32.

Mutta Applen kokeissa tiimi havaitsi, että tarkkuuden palautussovitin voi merkittävästi parantaa Pareto-rintamaa tässä kompromississa.

Aggressiivisemmissa kvantisointimenetelmissä enemmän virheitä palautetaan. Tämän seurauksena Apple pystyy käyttämään tehokkaita kvantisointimenetelmiä AFM:ssä murehtimatta mallikapasiteetin menettämisestä.

sekoitettu tarkkuuskvantisointi

Jokaisessa muuntajalohkossa ja AFM:n jokaisessa kerroksessa on jäännösliitännät. Siksi on epätodennäköistä, että kaikki kerrokset ovat yhtä tärkeitä.

Tämän intuition perusteella Apple vähensi muistin käyttöä edelleen työntämällä tietyt tasot 2-bittiseen kvantisointiin (oletus on 4-bittinen).

Keskimäärin AFM-laitteiden mallit voidaan pakata noin 3,5 bittiin painoa kohden (bpw) ilman merkittävää laadun heikkenemistä.

Tuotannossa Apple valitsee 3,7 bpw:n, koska se täyttää jo muistivaatimukset.

arvioinnin tulos

esikoulutus

Taulukossa 2 esitetään AFM-on-device ja AFM-palvelimen tulokset HELM MMLU v1.5.0:ssa, joka testasi 5 otoksen monivalintakysymyksiä 57 koehenkilössä.

Taulukot 3 ja 4 esittävät AFM-palvelimen tulokset HuggingFace OpenLLM -sijoituksen V1 ja HELM-Lite v1.5.0 vertailuarvoissa.

Voidaan nähdä, että AFM-esiharjoittelumallissa on tehokkaat kieli- ja päättelyominaisuudet, mikä tarjoaa vankan perustan harjoituksen jälkeiselle koulutukselle ja ominaisuuksien hienosäädölle.

koulutuksen jälkeen ihmisen arviointi

Applen tekoälysovellusskenaarioissa ihmisen arviointi on lähempänä käyttökokemusta.

Arvioidakseen mallin yleisiä ominaisuuksia tiimi keräsi kattavan 1 393 vihjeen sarjan.

Kehotteet ovat kaiken kattavat ja kattavat eri luokat ja vaikeustasot, mukaan lukien: Analyyttinen päättely, Aivoriihi, Chatbotit, Luokittelu, Suljettuihin kysymyksiin vastaaminen, Koodaus, Poimiminen, Matemaattinen päättely, Avoimen kysymyksen vastaus, Uudelleenkirjoittaminen, Turvallisuus, Yhteenveto ja kirjoittaminen.

Kuvassa 3 on esitetty AFM:n vertailu avoimen lähdekoodin malleihin (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) ja kaupallisiin malleihin (GPT-3.5 ja GPT-4).

Havaittiin, että ihmisarvioijat suosivat AFM-mallia kilpailijamalliin verrattuna.

Erityisesti, vaikka AFM-on-device mallin koko on 25 % pienempi, sen voittoprosentti on 47,7 % verrattuna Phi-3-miniin, ylittäen jopa avoimen lähdekoodin vahvat peruslinjat Gemma-7B ja Mistral- yli kaksinkertaisella nopeudella. parametrien määrä 7B.

Verrattuna suljetun lähdekoodin malliin AFM-palvelin osoitti myös tiettyä kilpailukykyä: voittoprosentti oli yli 50 % ja tasapeli 27,4 % GPT-3.5:een verrattuna.

Noudata ohjeita

Ohjeiden seuraaminen (IF) on ydinominaisuus, jota Apple-tiimi odottaa suuria kielimalleissa, koska tosielämän kehotteet tai ohjeet ovat usein monimutkaisia.

Tässä ryhmä käytti julkista IFEval-vertailua arvioidakseen, pystyvätkö suuret kielimallit noudattamaan tarkasti kehotteen ohjeita luodessaan vastauksia. Niihin sisältyy usein erityisiä vaatimuksia vastauksen pituudesta, muodosta ja sisällöstä.

Kuten kuvasta 4 näkyy, AFM-on-device ja AFM-palvelin toimivat hyvin sekä komentotason että kehotteen tarkkuudella.

Lisäksi Apple-tiimi vertaili AFM-mallia AlpacaEval 2.0 LC -testillä mitatakseen sen yleisiä ohjeita noudattavia ominaisuuksia, ja tulokset osoittivat, että sen malli on erittäin kilpailukykyinen.

Työkalun käyttö

Työkalun käyttöskenaarioissa, kun malli on vastaanottanut käyttäjäpyynnön ja luettelon mahdollisista työkaluista kuvauksineen, se voi valita tietyn työkalun kutsumisen tarjoamalla strukturoidun tulosteen ja määrittämällä työkalun nimen ja parametrien arvot.

Ryhmä arvioi mallin julkisella Berkeley Function Calling Leaderboard -vertailulla käyttämällä AST-mittareita, jotka tukevat funktiokutsuja.

Kuten kuvasta 5 näkyy, AFM-palvelin toimii parhaiten kokonaistarkkuudessa, ohittaen Gemini-1.5-Pro-Preview-0514 ja GPT-4.

kirjoittaminen

Kirjoittaminen on yksi suurten kielimallien tärkeimmistä ominaisuuksista, koska se tukee useita loppupään sovelluksia, kuten sävyn vaihtamista, uudelleenkirjoittamista ja yhteenvetoa.

Tiimi arvioi AFM:n kirjoitustaitoja sisäisissä yhteenveto- ja kirjoitustesteissä. Ja noudattaen LLM-tuomarina -lähestymistapaa, jokaiselle yhteenveto- ja kirjoitustehtävälle suunniteltiin pisteytysohjeet, ja GPT-4 Turboa kehotettiin arvioimaan mallivastaus asteikolla 1-10.

Kuten kuvasta 6 näkyy, AFM-on-device näyttää vertailukelpoisen tai paremman suorituskyvyn verrattuna Gemma-7B:hen ja Mistral-7B:hen. AFM-palvelin on huomattavasti parempi kuin DBRX-Instruct ja GPT-3.5, ja jopa verrattavissa GPT-4:ään.

On syytä huomata, että LLM-pisteytysten käytössä on joitain rajoituksia ja harhoja, kuten pituuspoikkeama.

matematiikka

Kuvassa 7 ryhmä vertaa AFM:n suorituskykyä matemaattiseen vertailuun.

Niistä tutkijat käyttivät 8-laukaisia CoT-kärkiä GSM8K:lle ja 4-laukaisia CoT-kärkiä MATH:lle.

Tulokset osoittavat, että AFM-on-device ylittää merkittävästi Mistral-7B:n ja Gemma-7B:n jopa alle puolet molempien koosta.

Yhteenvetotoiminto

Tuotetiimi kehitti räätälöidyn joukon ohjeita, mittareita ja erityisiä pisteytyskriteerejä sähköpostien, viestien ja ilmoitusten yhteenvedoille arvioidakseen yhteenvedon laatua käyttämällä erilaisia avoimen lähdekoodin, lisensoituja ja patentoituja tietojoukkoja.

Yhteenveto luokitellaan "Huonoksi", jos jokin alamitta on luokitus "Huono" ennalta määritettyjen tuotetietojen perusteella. Vastaavasti yhteenveto luokitellaan "hyväksi" vain, jos kaikki alamitat on luokiteltu "hyväksi".

Kuva 8 osoittaa, että AFM-on-device+ -sovittimen yleinen suorituskyky on parempi kuin Phi-3-mini, Llama-3-8B ja Gemma-7B.

arvioida turvallisuutta

Kuvassa 9 on esitetty mallirikkomusten arvioijien arviointitulokset Mitä pienempi arvo, sitä parempi.

Voidaan nähdä, että AFM-on-device ja AFM-palvelin osoittavat vahvaa kestävyyttä vastakkaisten kehotteiden käsittelyssä, ja rikkomusprosentti on huomattavasti alhaisempi kuin avoimen lähdekoodin ja kaupalliset mallit.

Kuva 10 näyttää tarkastajien mieltymykset turvallisuuden arviointikehotteille.

AFM-malli voitti jälleen kerran, koska se voisi tarjota turvallisemman ja hyödyllisemmän vastauksen.

Yllä oleva on keskeinen katsaus Applen tekoälymalliin.

Milloin kaikki voivat käyttää Applen AI-ominaisuuksia?

Apple lanseeraa joka vuosi uusia tuotteita syyskonferenssissa, ja iOS 18:n alkuperäinen versio julkaistaan samaan aikaan iPhone 16:n kanssa.

Kaikkien on kuitenkin odotettava lokakuuhun asti kokeakseen sen.

Viitteet:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

uutiset

Applen tekoäly on järkyttävällä tavalla lanseerattu iPhonessa, mutta Sirin kehittyneessä versiossa ei ole ChatGPT:tä! 47-sivuinen tekninen raportti paljastaa itse kehitetyn mallin

Johdanto

yhteystietoni