notizia

Come viene sviluppata l'intelligenza di Apple?L'interpretazione più completa è qui

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scritto da |. Ma Xuewei

Siri si è finalmente trasformato in "AI Siri" e la tanto attesa Apple Intelligence è qui.

Con il lancio di Apple Intelligence per iOS 18, iPadOS 18 e macOS Sequoia, Apple ha rilasciato anche un rapporto tecnico sul proprio modello di grandi dimensioni, annunciando un gran numero di dettagli tecnici, che hanno attirato grande attenzione da parte del settore.

Secondo i rapporti, Apple Intelligence contiene molteplici modelli generativi ad alte prestazioni che sono veloci, efficienti, progettati per le attività quotidiane degli utenti e possono adattarsi istantaneamente alle attività attuali degli utenti. I modelli fondamentali integrati in Apple Intelligence sono già ottimizzati per esperienze utente come la scrittura e la rifinitura del testo, l’assegnazione delle priorità e il riepilogo delle notifiche, la creazione di immagini interessanti per le conversazioni con familiari e amici e l’esecuzione di azioni in-app per semplificare l’interazione tra app.

Nel rapporto tecnico, il team Apple ha spiegato in dettaglio come due dei modelli: un modello linguistico AFM (Apple Foundation Model) con circa 3 miliardi di parametri e un modello linguistico AFM-server più grande, basato su server, sono stati costruiti e adattati per funzionare compiti professionali in modo efficiente e accurato.

Figura |. Panoramica del modello AFM

Questi due modelli fondamentali fanno parte di una famiglia più ampia di modelli generativi creati da Apple per supportare utenti e sviluppatori; questo include un modello di programmazione basato sul modello linguistico AFM per creare intelligenza in Xcode e un modello di diffusione per aiutare gli utenti a esprimersi visivamente, come nelle applicazioni di messaggistica.

Come si comporta l'AFM?

AFM è stato sottoposto a una valutazione rigorosa durante il processo di sviluppo e i risultati della valutazione hanno mostrato che il modello ha funzionato bene nelle attività pre-formazione, post-formazione e specifiche ed era in linea con i valori fondamentali di Apple e i principi dell'IA responsabile.

1. Valutazione pre-formazione

Il team Apple ha utilizzato benchmark di valutazione pubblici come HELM MMLU, HELMLite e OpenLLM per valutare la comprensione del linguaggio e le capacità di ragionamento del modello AFM. I risultati mostrano che il modello AFM ha ottenuto risultati eccellenti su molteplici indicatori di valutazione, ha dimostrato una forte comprensione del linguaggio e capacità di ragionamento e ha gettato le basi per le successive applicazioni post-formazione e per compiti specifici.

2. Valutazione post-formazione

Il team Apple ha combinato la valutazione umana e i benchmark di valutazione automatizzata per valutare le capacità generali e le capacità specifiche del modello AFM, come seguire le istruzioni, utilizzare gli strumenti e scrivere.I risultati della valutazione sono i seguenti:

  • Valutazione umana:Il modello AFM è paragonabile o migliore di altri modelli open source e commerciali su più attività, dimostrando che il modello può comprendere e seguire istruzioni complesse e generare testo di alta qualità.

Figura |. Confrontando il modello AFM con altri modelli open source e commerciali, i valutatori umani preferiscono il modello AFM.

Il gruppo di ricerca ha valutato MAIA sul paradigma di descrizione dei neuroni. Lo studio ha dimostrato che MAIA ha ottenuto eccellenti effetti descrittivi sia su modelli reali che su set di dati sintetici sui neuroni, con capacità predittive migliori rispetto ai metodi di base e paragonabili a quelle degli esperti umani.

  • Valutazione della conformità delle istruzioni:Il modello AFM ha ottenuto risultati eccellenti su benchmark come IFEval e AlpacaEval 2.0 LC, dimostrando che il modello può comprendere e seguire efficacemente le istruzioni.

Figura |. Confronto delle capacità di conformità alle istruzioni del modello AFM e dei modelli correlati, misurate utilizzando IFEval.

  • Valutazione dell'utilizzo dello strumento:Il modello AFM ha ottenuto la migliore precisione complessiva nel benchmark Berkeley Function Calling Leaderboard, indicando che il modello può utilizzare efficacemente lo strumento.

Figura |. Il server AFM raggiunge la migliore precisione complessiva, migliore di Gemini-1.5-Pro-Preview-0514 e GPT-4.

  • Valutazione della scrittura:Il modello AFM ha ottenuto buoni risultati nel riepilogo interno e nei benchmark di scrittura, dimostrando la capacità del modello di generare testo fluido e di alta qualità.

Figura |. AFM rispetto ad alcuni dei modelli più importanti e a modelli open source su scala ridotta. Rispetto a Gemma-7B e Mistral-7B, AFM-on-device può raggiungere prestazioni equivalenti o migliori. Il server AFM supera significativamente le prestazioni della direttiva dbrx ed è paragonabile a GPT-3.5 e GPT-4.

  • Valutazione matematica:Il modello AFM ha ottenuto ottimi risultati su benchmark come GSM8K e MATH, indicando che il modello può risolvere efficacemente problemi matematici.

Figura |. Il gruppo di ricerca ha confrontato le prestazioni dell'AFM su benchmark matematici dopo l'allenamento, inclusi GSM8K e matematica. Le prestazioni dell'AFM sul dispositivo sono significativamente migliori rispetto a Mistral-7B e Gemma-7B.

Inoltre, il gruppo di ricerca ha condotto valutazioni specifiche per attività e valutazioni della sicurezza del modello. Hanno utilizzato la valutazione umana e benchmark di valutazione specifici per attività per valutare le prestazioni del modello AFM su attività specifiche, come il riepilogo delle e-mail, il riepilogo dei messaggi e il riepilogo delle notifiche. Secondo i risultati della valutazione, le prestazioni del modello AFM nel riepilogo delle e-mail, nel riepilogo dei messaggi e nel riepilogo delle notifiche sono migliori rispetto ad altri modelli sotto molti aspetti, come accuratezza, completezza e leggibilità.

In termini di sicurezza, il team di ricerca ha utilizzato set di dati contraddittori e valutazione umana per valutare la resistenza del modello AFM a contenuti dannosi e argomenti sensibili. I risultati della valutazione mostrano che il modello AFM mostra una buona resistenza ai dati contraddittori e agli argomenti sensibili, evitando in una certa misura risposte dannose o inappropriate.

Come viene “praticata” l’AFM?

Architettura

Come la maggior parte dei modelli tradizionali, il modello AFM si basa su Trasformatore architettura, ma impiega anche alcune scelte progettuali specifiche per migliorare efficienza e prestazioni.I componenti principali sono i seguenti:

  • Modulo Transformer: AFM utilizza il modulo Transformer standard, incluso il meccanismo di attenzione multi-testa e il feedforwardReti neurali

  • Matrice di incorporamento di input/output condivisa: questo design riduce il numero di parametri del modello e migliora l'efficienza della memoria.

  • Prenormalizzazione e RMSNorm: queste tecniche migliorano la stabilità dell'addestramento e aiutano il modello ad apprendere modelli più complessi.

  • Normalizzazione di query/chiavi: questa tecnica migliora ulteriormente la stabilità dell'addestramento.

  • Grouped Query Attention (GQA): il meccanismo GQA riduce l'utilizzo della memoria e migliora l'efficienza computazionale.

  • Funzione di attivazione SwiGLU: questa funzione di attivazione migliora l'efficienza del modello.

  • Incorporamento della posizione RoPE: il meccanismo RoPE supporta la codifica di testo lungo e migliora la capacità del modello di rappresentare il contesto.

Figura |. AFM-on-device ha 3072 parametri ed è adatto per l'inferenza sul dispositivo. Utilizza 26 livelli Transformer, ogni livello contiene 128 intestazioni, 8 intestazioni di query/chiave e 24 intestazioni di query.

pre-allenamento

Il processo di pre-addestramento del modello AFM è progettato per addestrare modelli linguistici potenti per supportare varie funzioni del sistema Apple Intelligence. I modelli AFM vengono addestrati su cluster Cloud TPU utilizzando il framework AXLearn, che supporta l'addestramento di modelli su larga scala e lunghezze di sequenza e fornisce addestramenti efficienti e prestazioni di inferenza.

Il set di dati di pre-addestramento AFM è costituito da più tipi di dati di alta qualità, tra cui:

  • Contenuti Web: informazioni pubblicamente disponibili sottoposte a scansione tramite Applebot e filtrate.

  • Set di dati concessi in licenza: set di dati di alta qualità ottenuti da editori che forniscono diversi dati di testo lunghi.

  • Codice: dati del codice open source ottenuti da GitHub, che coprono più linguaggi di programmazione.

  • Matematica: dati Web contenenti contenuti matematici come domande matematiche, forum, blog, tutorial e seminari.

  • Set di dati pubblico: un set di dati disponibile al pubblico che è stato valutato e vagliato.

La pre-formazione AFM è divisa in tre fasi:

  • Fase principale: utilizzare il set di dati più ampio per la formazione. L'obiettivo principale è apprendere le conoscenze e i modelli linguistici di base.

  • Fase continua: in base alla fase principale, vengono aggiunti codice e dati matematici e il peso dei dati della pagina Web viene ridotto per espandere ulteriormente l'ambito di conoscenza del modello.

  • Fase di espansione del contesto: in base alla fase continua, vengono utilizzate sequenze più lunghe e dati sintetici di testo lungo per migliorare le capacità di elaborazione del modello per i testi lunghi.

post allenamento

AFM acquisisce forti capacità di comprensione del linguaggio nella fase pre-formazione, ma per applicarle ad attività specifiche, come il riepilogo di posta elettronica, il riepilogo dei messaggi e il riepilogo delle notifiche, è necessaria la post-formazione.includere:

  • Fine tuning supervisionato (SFT):

    • Raccolta dati: utilizzare dati con annotazioni umane e dati sintetici per garantire che la qualità dei dati sia diversificata e copra una varietà di scenari di utilizzo del linguaggio naturale.

    • Combinazione di dati: seleziona e combina attentamente dati umani e sintetici per formare miscele di dati di alta qualità.

    • Metodo di ottimizzazione: utilizzare l'adattatore LoRA per ottimizzare il modello, regolare solo i parametri dell'adattatore e conservare la conoscenza generale del modello.

  • Apprendimento per rinforzo basato sul feedback umano (RLHF):

    • Modello di ricompensa: addestra un modello di ricompensa utilizzando i dati sulle preferenze umane e valuta la qualità delle risposte del modello.

    • Comitato didattico iterativo (iTeC): migliora iterativamente il modello utilizzando algoritmi di ottimizzazione delle preferenze multiple, tra cui il campionamento del rifiuto, l'ottimizzazione delle preferenze dirette e l'apprendimento per rinforzo online.

    • Algoritmo RLHF online (MDLOO): utilizza l'ottimizzazione della policy Mirror Descent e lo stimatore del vantaggio Leave-One-Out per massimizzare i premi e migliorare la qualità del modello.

Vantaggi del post-allenamento:

  • Miglioramento della qualità del modello: il post-addestramento migliora significativamente la qualità e le prestazioni del modello AFM, facendolo funzionare bene su compiti specifici.

  • Rispettare i valori fondamentali di Apple e i principi dell’IA responsabile: il processo post-formazione considera pienamente la qualità dei dati, la sicurezza e il filtraggio dei contenuti dannosi per garantire che il modello sia conforme ai valori fondamentali di Apple e ai principi dell’IA responsabile.

  • Scalabilità: il metodo post-formazione è scalabile ad altre attività, consentendo al modello AFM di supportare più funzionalità di Apple Intelligence.

Ottimizzazione dell'inferenza

AFM non solo deve avere forti capacità di comprensione del linguaggio, ma deve anche essere in grado di funzionare in modo efficiente su dispositivi come iPhone, iPad e Mac, nonché su Private Cloud Compute su server Apple in silicio. Per raggiungere questo obiettivo, Apple ha sviluppato una serie di tecniche di ottimizzazione per garantire che i modelli AFM funzionino in modo efficiente su attività specifiche mantenendo la qualità complessiva del modello.

Ottimizzazione:

  • Quantizzazione del modello: utilizza la tecnologia di quantizzazione a 4 bit per quantizzare il modello AFM, riducendo significativamente le dimensioni del modello e i costi di inferenza.

  • Adattatore per il recupero dell'accuratezza: utilizzare l'adattatore LoRA per ripristinare l'accuratezza del modello quantizzato in modo che sia vicino alle prestazioni del modello non quantizzato.

  • Quantizzazione a precisione mista: quantizza ogni livello del modello utilizzando la precisione di quantizzazione a 4 e 2 bit per ridurre ulteriormente l'utilizzo della memoria mantenendo la qualità del modello.

  • Analisi interattiva del modello: utilizza lo strumento Talaria per analizzare la latenza e il consumo energetico del modello, guidare la selezione del bitrate e ottimizzare le prestazioni del modello.

  • Adattatori sostituibili in runtime: utilizza gli adattatori LoRA per ottimizzare il tuo modello in modo che possa essere personalizzato per attività specifiche mantenendo una conoscenza generale del modello.

Riepilogo email del caso di ottimizzazione:

  • Raccolta dati: raccogli dati di input contenenti estratti di e-mail, messaggi e notifiche ed esegui la pulizia e la deduplicazione dei dati.

  • Generazione di riepiloghi sintetici: utilizzare il server AFM per generare riepiloghi sintetici che soddisfino i requisiti del prodotto e utilizzare regole e modelli per il filtraggio per garantire la qualità dei dati.

  • Inserimento di suggerimenti: aggiungere riepiloghi generati dal server AFM ai dati di addestramento per aiutare il modello del dispositivo AFM a comprendere meglio e generare riepiloghi.

Inoltre, Apple Intelligence segue una serie di principi di intelligenza artificiale responsabile, tra cui dare maggiore potere agli utenti, rappresentarli, progettare attentamente e proteggere la privacy. Nella relazione tecnica, Apple confuta le accuse di utilizzare metodi eticamente discutibili per addestrare determinati modelli, ribadendo che non utilizza dati privati ​​degli utenti e utilizza invece una combinazione di dati disponibili pubblicamente e concessi in licenza per scopi di Apple Intelligence. Hanno sottolineato che i dati di addestramento per il modello AFM sono stati ottenuti in modo "responsabile".