notizia

Rivelato! Un documento di 47 pagine che smantella l’intelligenza di Apple, dall’architettura e i dati alla formazione e ottimizzazione

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Alla Worldwide Developers Conference del 2024, Apple ha lanciato Apple Intelligence, un nuovo sistema intelligente personalizzato in grado di fornire servizi intelligenti pratici, che coprono iPhone, iPad e Mac, ed è profondamente integrato in iOS 18, iPadOS 18 e macOS Sequoia.

Cook una volta disse che Apple Intelligence è un nuovo capitolo nell'innovazione di Apple e cambierà il modo in cui gli utenti utilizzano i prodotti. Ha sottolineato che l'approccio unico di Apple combina l'intelligenza artificiale generativa e le informazioni personali degli utenti per fornire servizi intelligenti veramente utili. Inoltre, Apple Intelligence fornisce un accesso completamente privato e sicuro alle informazioni, aiutando gli utenti a realizzare ciò che conta di più per loro. Questa è un'esperienza AI unica per Apple.

Ora è passato più di un mese dall'annuncio ufficiale di Apple Intelligence. Questa tecnologia è stata finalmente implementata sui dispositivi intelligenti e i relativi documenti tecnici sono stati finalmente rilasciati.

Nei giorni scorsi, gli utenti che possiedono iPhone 15 Pro o iPhone 15 Pro Max possono scaricare la beta di sviluppo di iOS 18.1 e sperimentare le funzioni di Apple Intelligence.

Con la pubblicazione di questo rapporto tecnico di 47 pagine, possiamo comprendere più a fondo l’arma segreta dietro l’intelligenza di Apple.



Indirizzo del rapporto: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Il rapporto descrive in dettaglio due dei modelli:AFM sul dispositivo, AFM sta per Apple Foundation Model, che è un modello linguistico di circa 3 miliardi di parametri, nonché un modello linguistico più ampio basato su serverServer AFM, possono svolgere compiti specializzati in modo efficiente, accurato e responsabile (Figura 1).

Questi due modelli base esistono come parte della più ampia famiglia di modelli generativi di Apple.



Struttura e formazione

Il modello base AFM è un modello di decodificatore denso costruito sull'architettura Transformer e adotta il seguente design:

Matrici di incorporamento di input/output condivise per ridurre l'utilizzo della memoria per i parametri.

Utilizza RMSNorm per la pre-normalizzazione per migliorare la stabilità dell'allenamento.

Normalizzazione di query/chiavi per migliorare la stabilità dell'addestramento.

Grouped Query Attention (GQA) con 8 intestazioni di valori-chiave per ridurre l'ingombro della memoria cache KV.

SwiGLU attivato per una maggiore efficienza.

Incorporamento della posizione RoPE, la frequenza di base (frequenza di base) è impostata su 500k per supportare un contesto lungo.



Il processo di pre-formazione AFM svolge un ruolo chiave nello sviluppo di modelli linguistici ad alte prestazioni per supportare una gamma di funzionalità di Apple Intelligence. Il team di ricerca si concentra sull'efficienza e sulla qualità dei dati per ottenere un'esperienza utente end-to-end di alta qualità.

In termini di post-formazione, il team di ricerca ha scoperto che il miglioramento generale del post-formazione può migliorare le prestazioni di tutte le funzioni di Apple Intelligence perché il modello avrà una maggiore capacità di seguire istruzioni, ragionare e scrivere.

Per garantire che queste funzioni del modello siano coerenti con l’impegno di Apple nella protezione della privacy degli utenti e con i principi di intelligenza artificiale responsabile di Apple, il lavoro post-formazione include una serie di raccolta e generazione di dati, adeguamento delle istruzioni e innovazione dell’allineamento. Il processo post-formazione è costituito da due fasi: messa a punto supervisionata (SFT) e apprendimento per rinforzo dal feedback umano (RLHF). Il gruppo di ricerca ha proposto due nuovi algoritmi post-addestramento: (1) un algoritmo di fine-tuning del campionamento del rifiuto con il comitato degli insegnanti (iTeC) e (2) un algoritmo RLHF per iterazioni di apprendimento di rinforzo con ottimizzazione della politica di discesa speculare (ottimizzazione della politica di discesa speculare). ) e lo stimatore del vantaggio del "leave-one-out" (MDLOO), migliorando significativamente la qualità del modello.

Funzionalità di intelligenza di Apple

Il modello base è progettato specificamente per Apple Intelligence, un sistema di intelligenza personale che supporta iPhone, iPad e Mac.

Apple ha scoperto che era possibile migliorare le prestazioni di modelli di piccole dimensioni portandoli ai livelli migliori della categoria ottimizzandoli per compiti specifici. Inoltre, ha sviluppato un'architettura basata su adattatori sostituibili in fase di esecuzione per consentire a un singolo modello base di specializzarsi in decine di tali compiti. La Figura 2 mostra una panoramica di alto livello.



architettura dell'adattatore

Apple utilizza gli adattatori LoRA per ottimizzare i modelli per attività specifiche. Per ogni compito, i ricercatori regolano tutte le matrici di proiezione lineare nello strato di autoattenzione AFM e gli strati completamente connessi nella rete feedforward puntuale. Semplicemente ottimizzando l'adattatore, i parametri originali del modello di base pre-addestrato rimangono invariati, consentendo di preservare la conoscenza generale del modello personalizzando l'adattatore per supportare attività specifiche.

Quantificare

Per incorporare l'AFM nei dispositivi edge con budget di memoria limitati e ridurre i costi di inferenza, è necessario prendere in considerazione le tecniche di quantizzazione. Ricerche precedenti hanno scoperto che i modelli quantizzati a 4 bit subiscono una perdita minima rispetto al virgola mobile grezzo a 32/16 bit.

Per raggiungere il miglior equilibrio tra capacità del modello e prestazioni di inferenza, Apple ha sviluppato metodi di quantizzazione all’avanguardia e un framework che sfrutta gli adattatori di recupero dell’accuratezza. Ciò consente al modello di ottenere una quantizzazione quasi senza perdite quando il peso medio di ciascun peso è inferiore a 4 bit e fornisce una selezione flessibile dello schema di quantizzazione.

metodo

Dopo il post-addestramento, il modello viene compresso e quantizzato per ottenere pesi in media inferiori a 4 bit. I modelli quantitativi mostrano tipicamente una moderata perdita di qualità. Pertanto, Apple non utilizzerà il modello quantizzato direttamente per lo sviluppo delle funzionalità, ma allegherà una serie di adattatori LoRA efficienti in termini di parametri per il ripristino della qualità.

Vale la pena notare che l'adattatore per il recupero della precisione dell'addestramento è efficiente in termini di campioni e può essere considerato una versione mini del modello base di addestramento. Nella fase di pre-addestramento dell'adattatore, sono necessari solo circa 10 miliardi di token (circa lo 0,15% dell'addestramento del modello di base) per ripristinare completamente la capacità del modello quantizzato.

Poiché gli adattatori dell'applicazione verranno ottimizzati da questi adattatori di ripristino della precisione, non comportano alcun utilizzo di memoria aggiuntivo o costi di inferenza. Per quanto riguarda le dimensioni dell'adattatore, Apple ha scoperto che un adattatore di rango 16 offre il miglior compromesso tra capacità del modello e prestazioni di inferenza.

Tuttavia, per motivi di flessibilità, Apple fornisce una serie di adattatori per il ripristino della precisione con diversi ranghi {8, 16, 32} tra cui i team applicativi possono scegliere.

quantizzazione a precisione mista

Esistono connessioni residue per ogni blocco trasformatore e ogni strato in AFM. Pertanto, è improbabile che tutti gli strati abbiano la stessa importanza. Seguendo questa intuizione, Apple ha ridotto ulteriormente l'utilizzo della memoria spingendo alcuni livelli a utilizzare la quantizzazione a 2 bit (l'impostazione predefinita è 4 bit). In media, l'AFM sul dispositivo può comprimere solo circa 3,5 bit per peso (bpw) senza una significativa perdita di qualità.

Valutare

Il gruppo di ricerca utilizza strumenti di valutazione e benchmark comuni open source per valutare il modello preaddestrato AFM. La tabella 2 mostra i risultati di AFM-on-device e AFM-server su HELM MMLU v1.5.0.



Questi benchmark dimostrano che il modello pre-addestrato AFM ha forti capacità linguistiche e di inferenza, fornendo una solida base per la post-formazione e la messa a punto delle funzionalità.





I risultati del confronto di AFM con modelli open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) e modelli commerciali (GPT3.5 e GPT-4) sono mostrati nella Figura 3 di seguito. I modelli AFM sono preferiti dai valutatori umani rispetto ad altri modelli. In particolare, rispetto a Phi-3-mini, AFM-on-device ha ottenuto un tasso di vincita del 47,7% nonostante una dimensione del modello più piccola del 25%, addirittura migliore delle forti linee di base open source Gemma-7B e Mistral-7B.



Per misurare la capacità del modello di generare risposte che seguono le istruzioni nei prompt, il team di ricerca ha valutato AFM-on-device e AFM-server sul benchmark IFEval. I risultati sono mostrati nella Figura 4 di seguito:



Come mostrato nella Figura 5, il server AFM raggiunge la migliore precisione complessiva, migliore di Gemini-1.5-Pro-Preview-0514 e GPT-4.



Apple ha confrontato AFM con alcuni dei migliori modelli e con modelli open source più piccoli. Come mostrato nella Figura 6, AFM-on-device può raggiungere prestazioni equivalenti o migliori rispetto a Gemma-7B e Mistral-7B. Le prestazioni del server AFM sono significativamente migliori rispetto a DBRX-Instruct e GPT3.5 ed sono paragonabili a GPT4.



La Figura 7 confronta le prestazioni dell'AFM post-addestrato su benchmark matematici. È stato riscontrato che l'AFM-on-device ha funzionato significativamente meglio di Mistral-7B e Gemma-7B, anche se era meno della metà delle loro dimensioni.



La figura seguente mostra i valutatori umani che valutano la qualità degli adattatori AFM sul dispositivo, Phi-3-mini, Llama-3-8B e Gemma-7B in un'attività di riepilogo. La Figura 8 mostra che l'adattatore AFM-on-device generalmente supera gli altri modelli.



IA responsabile

Apple Intelligence è sviluppata e progettata pensando alla privacy dell'utente.

La Figura 9 riassume i tassi di violazione forniti dai valutatori umani su diversi modelli, dove inferiore è migliore. Sia AFM-on-device che AFM-server sono resistenti alle richieste degli avversari, con tassi di violazione significativamente più bassi rispetto ai modelli open source e commerciali.



La Figura 10 mostra che il modello AFM è maggiormente favorito dai valutatori umani rispetto ad altri modelli.