L'IA di Apple viene lanciata a sorpresa su iPhone, ma la versione evoluta di Siri non ha ChatGPT! Un rapporto tecnico di 47 pagine rivela model

L'IA di Apple viene lanciata a sorpresa su iPhone, ma la versione evoluta di Siri non ha ChatGPT! Una relazione tecnica di 47 pagine rivela il modello sviluppato autonomamente

2024-07-31

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza] Questa mattina, tutti gli sviluppatori sono rimasti sbalorditi dall'improvvisa versione beta di iOS 18.1! Inaspettatamente, ora l'intelligenza artificiale di Apple può essere utilizzata dai primi utenti e un gran numero di recensioni ha inondato l'intera Internet. Ciò che è ancora più sorprendente è che è online anche un rapporto tecnico di 47 pagine sul modello base dell’intelligenza artificiale di Apple.

La tanto attesa prima versione di anteprima di "Apple AI" è stata ufficialmente presentata di buon mattino agli sviluppatori!

Le ultime funzionalità dell'intelligenza artificiale di Apple sono integrate nei tre principali sistemi iOS 18.1, iPadOS 18.1 e macOS Sequoia 15.1.

Il primo gruppo di utenti che hanno ottenuto la versione beta di iOS 18.1 stanno già esultando di gioia e ondate di condivisione dei test si sono diffuse su tutta la rete.

L'ultima versione di anteprima contiene molte sorprese (versione di anteprima rapida):

Nuovo Siri: si illumina dolcemente sul bordo dello schermo quando è sveglio; comunica con gli utenti passando dal testo alla voce; può comprendere i comandi anche quando l'altoparlante inciampa e può anche rispondere a domande sulla risoluzione dei problemi dei prodotti Apple;
Strumenti di scrittura: puoi riscrivere, correggere e riassumere il testo in qualsiasi scenario. (Memo, documenti e APP di terze parti sono tutti accettabili)
Modalità Focus (riduci le interruzioni): mostra solo le notifiche che devi vedere immediatamente
Funzionalità foto: cerca foto utilizzando il linguaggio naturale e crea video
Genera riepiloghi AI per e-mail, messaggi e trascrizioni di messaggi vocali

Inoltre, ci sono alcune funzionalità che Apple ha dichiarato di lanciare l'anno prossimo, tra cui l'integrazione ChatGPT, la generazione di immagini/emoji, la pulizia automatica delle foto e il super potente Siri con riconoscimento dello schermo.

A proposito, attualmente la versione beta di iOS 18.1 (inclusi iPadOS e macOS) è disponibile solo negli Stati Uniti e non è ancora stata lanciata in Cina.

Inoltre, solo iPhone 15 Pro e iPhone 15 Pro Max tra i telefoni cellulari supportano il nuovo sistema.

Secondo l'introduzione del sistema, la versione beta di iOS18.1 occupa un totale di 15,44 GB di spazio di memoria, di cui la capacità del sistema iOS è di 12,58 GB, mentre l'intelligenza artificiale di Apple occupa solo 2,86 GB.

Questo perché il modello utilizzato da Apple sui dispositivi end-side ha solo 3 miliardi di parametri.

Un’introduzione più dettagliata al modello è nascosta nel rapporto tecnico sull’intelligenza artificiale di Apple appena pubblicato.

Il lungo documento di 48 pagine copre la progettazione e la valutazione del LLM di Apple, inclusa l'architettura, la gestione dei dati, le ricette pre-formazione e post-formazione, l'ottimizzazione, l'adattamento funzionale e i risultati della valutazione.

Indirizzo del documento: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Nello specifico, Apple ha sviluppato due nuovi modelli linguistici di base, che costituiscono il nucleo dell’intelligenza artificiale di Apple:

Uno è il modello end-side AFM-on-device, che ha circa 3 miliardi di parametri, dopo l'ottimizzazione, può funzionare su iPhone e altri dispositivi terminali, con maggiore efficienza e reattività.

L'altro è un modello di parametri più ampio che può essere eseguito nel server cloud di Apple, chiamato AFM-server, progettato per attività intensive e utilizza un sistema di cloud computing privato (Private Cloud Compute) per proteggere i dati degli utenti.

Ricordo ancora che alla conferenza WWDC del mese scorso, Cook annunciò al mondo le potenti funzioni dell’intelligenza artificiale di Apple, che diedero alla famiglia Apple un aggiornamento epico.

L’intera Internet pensa che l’intelligenza artificiale non sia più una buona cosa e dobbiamo ancora guardare all’intelligenza artificiale di Apple.

In generale, Apple di solito rilascia prima il sistema principale iOS18.

Ma non mi aspettavo che questa volta Apple consegnasse la versione beta al primo gruppo di sviluppatori in un periodo di tempo così breve.

A questo proposito, l’ultimo rapporto di Bloomberg ha sottolineato che Apple ha interrotto il suo consueto ritmo di rilascio del software perché l’intelligenza artificiale di Apple ha ancora bisogno di più tempo per i test.

Mi chiedo: quali nuovi continenti hanno scoperto i primi early adopters?

Test reale da parte dei netizen

Il blogger tecnologico di Apple Brandon Butch ha immediatamente prodotto un video esplicativo che mostra le funzioni AI di Apple più complete nella versione beta di iOS 18.1.

Non importa quanto tu sia duro, sarà sempre gentile e dolce.

Ha detto che l'intelligenza artificiale di Apple lo ha aiutato a trovare un modo migliore per esprimere ciò che voleva dire.

Nell'interfaccia del messaggio, scrivi ciò che vuoi dire nella casella di input.

Quindi selezionali tutti e fai clic sul pulsante AI di Apple per utilizzare "friendly" nello strumento di scrittura. L'intelligenza artificiale renderà immediatamente più discreto il tono di questo paragrafo.

Diamo un'altra occhiata a un altro netizen che ha scritto appositamente una parolaccia, che era molto più comoda dopo che l'IA l'ha riscritta.

Correzione di errori di battitura grammaticali

Inoltre, Butch ha esclamato che Grammarly è stato ucciso e questa è la vera IA di Apple.

Basta guardare il seguente passaggio. Informativo è scritto in modo errato, la prima lettera di ciò che non è in maiuscolo e cosa pensi che dovrebbe terminare con un punto interrogativo anziché con un punto.

Si può vedere che l'intelligenza artificiale di Apple ha corretto tutto per te.

Ci sono anche le funzionalità AI di Apple nelle e-mail, che fanno impazzire le persone quando le sentono.

Supporta inoltre le funzionalità di strumenti di scrittura in promemoria e messaggi, inclusa la correzione di bozze, la riscrittura, ecc.

In alto verrà visualizzato un riepilogo dell'e-mail.

L'effetto di animazione dello strumento di scrittura AI di Apple è "molto Apple". Rispetto al denso flusso di token quando il modello risponde, tutto sembra così fluido.

Siri nuovo di zecca, risposta super fluida

Osservando l'effetto bordo dello schermo quando si chiama Siri, devo dire che Apple conosce meglio il design.

Diamo un'occhiata alla versione iPad di Siri.

Un ingegnere AI di Humane e un ex ingegnere Apple hanno testato Siri e lo hanno elogiato, dicendo che l’intelligenza artificiale di Apple è molto, molto veloce.

Sveglia Siri e chiedi quanto è alta la Torre Eiffel? Dove si trova?

A proposito, lascia che pubblichi alcune notizie recenti sulle Olimpiadi di Parigi e su come guardare gli eventi olimpici.

In breve tempo, l’intelligenza artificiale di Apple ha avuto la risposta.

Riepilogo della trascrizione AI, i contenuti importanti del telefono non hanno paura di mancare

Inoltre, l’intelligenza artificiale di Apple può anche aiutarti a trascrivere le telefonate in appunti e registrare ciò di cui hai parlato.

Se si preme il pulsante di registrazione, verrà riprodotto un tono sia per la parte chiamante che per quella chiamata, indicando che la chiamata verrà registrata.

Una volta completata la registrazione, è possibile accedere direttamente alla finestra pop-up di notifica per visualizzare il contenuto della registrazione.

modalità di messa a fuoco

Utilizza l'intelligenza artificiale di Apple per analizzare automaticamente il contenuto delle notifiche e rilevare notifiche importanti!

Le notifiche delle persone importanti verranno appuntate nella parte inferiore dello schermo.

Ricerca di foto, tante lamentele

Ovviamente, il motivo per cui iOS 18.1 è stato lanciato per primo è consentire agli sviluppatori di testare di più, scoprire i problemi segnalati e migliorare meglio le capacità AI di Apple.

No, un blogger di YouTube ha testato la funzione foto e ha scoperto che Siri era ancora "ritardata mentale".

Il blogger ha prima chiesto: "Siri mostrami le foto del viaggio del Ringraziamento del 2022". Siri ha risposto: Il numero di volte in cui è stata aperta l'app Salute....

Quindi, ha ripetuto nuovamente la domanda: "Siri, trova le foto del Ringraziamento nelle foto".

Stranamente, Siri ha cercato una serie di immagini relative al Ringraziamento direttamente da Internet.

Quando ha chiesto di nuovo: "Siri, mostrami le foto del mio viaggio a Taiwan", Siri ha ascoltato le parole originali come parole chiave e ha cercato "Il mio viaggio a Twaiwan" su Internet.

Poi ha continuato a chiedere e Siri era ancora confusa.

Blogger testardo, Siri distrutta, non posso fare a meno di ridere...

Come accennato all'inizio, la possibilità di installare l'intelligenza artificiale di Apple nei dispositivi terminali si basa sul modello base sviluppato autonomamente dal team, che brilla brillantemente.

La rivoluzione dell’intelligenza artificiale di iPhone: 3 miliardi di parametri in tasca

Nello specifico, AFM è un modello denso solo decoder basato sull'architettura Transformer.

Le sue idee progettuali sono le seguenti:

Matrici di incorporamento di input/output condivise per ridurre l'utilizzo della memoria dei parametri
Utilizza la pre-normalizzazione di RMSNorm per migliorare la stabilità dell'allenamento
Normalizzazione di query/chiavi per migliorare la stabilità dell'addestramento
Grouped Query Attention (GQA) con 8 intestazioni di valori-chiave per ridurre l'ingombro della memoria della cache KV
Attivazione SwiGLU più efficiente
Incorporamento della posizione RoPE con frequenza di base di 500k, che supporta un contesto lungo

architettura dell'adattatore

Utilizzando l'adattatore LoRA, il modello base di Apple può specializzarsi dinamicamente al volo in base all'attività corrente.

Questi piccoli moduli di rete neurale possono essere inseriti in vari livelli del modello base e utilizzati per mettere a punto il modello per compiti specifici.

Per facilitare l'addestramento degli adattatori, Apple ha anche creato un'infrastruttura efficiente che consente di aggiungere, riqualificare, testare e distribuire rapidamente gli adattatori quando il modello sottostante o i dati di addestramento vengono aggiornati o sono necessarie nuove funzionalità.

ottimizzazione

Data la necessità di soddisfare l'utilizzo quotidiano degli utenti, il team ha adottato una varietà di tecniche di ottimizzazione e quantificazione per ridurre significativamente l'utilizzo della memoria, la latenza e il consumo energetico mantenendo la qualità del modello.

metodo

Nella fase post-training, Apple ha compresso e quantizzato il modello a una media inferiore a 4 bit per peso.

I modelli quantizzati di solito subiscono un certo grado di perdita di qualità. Pertanto, il team di ricerca e sviluppo non consegna direttamente il modello quantitativo al team dell'applicazione per lo sviluppo funzionale, ma allega una serie di adattatori LoRA efficienti in termini di parametri per ripristinare la qualità del modello.

Ciascun team di prodotto perfeziona quindi il proprio adattatore LoRA specifico per la funzionalità inizializzando i pesi dell'adattatore dagli adattatori di ripristino della precisione mantenendo invariato il modello base quantizzato.

Vale la pena notare che l'adattatore per il recupero della precisione dell'addestramento è efficiente in termini di campioni e può essere considerato una versione mini del modello base di addestramento.

Di questi, nella fase di pre-addestramento dell'adattatore, sono necessari solo circa 10 miliardi di token (circa lo 0,15% dell'addestramento del modello di base) per ripristinare completamente la capacità del modello quantizzato.

Poiché gli adattatori dell'applicazione verranno ottimizzati da questi adattatori di ripristino di precisione, non comporteranno alcun utilizzo di memoria aggiuntivo o costi di inferenza.

Per quanto riguarda le dimensioni dell'adattatore, il team ha scoperto che un adattatore con rango 16 forniva il miglior equilibrio tra capacità del modello e prestazioni di inferenza.

Tuttavia, per garantire maggiore flessibilità, Apple offre una serie di diversi tipi di adattatori per il ripristino di precisione tra cui i team applicativi possono scegliere.

Quantificare

Un altro vantaggio offerto dagli adattatori per il recupero di precisione è che consentono una selezione più flessibile degli schemi di quantizzazione.

In passato, quando si quantizzavano modelli linguistici di grandi dimensioni, era comune suddividere i pesi in piccoli pezzi, normalizzare ciascun pezzo in base al suo valore assoluto massimo corrispondente per filtrare i valori anomali e quindi applicare un algoritmo di quantizzazione su base pezzo.

Sebbene dimensioni di blocco maggiori riducano il numero di bit effettivi per peso e aumentino il throughput, aumenta anche la perdita di quantizzazione. Per bilanciare questo compromesso, la dimensione del blocco è solitamente impostata su un valore inferiore, come 64 o 32.

Ma negli esperimenti di Apple, il team ha scoperto che l’adattatore per il recupero della precisione può migliorare significativamente il fronte paretiano di questo compromesso.

Per schemi di quantizzazione più aggressivi, verranno recuperati più errori. Di conseguenza, Apple è in grado di utilizzare schemi di quantizzazione efficienti per AFM senza preoccuparsi della perdita di capacità del modello.

quantizzazione a precisione mista

Sono presenti connessioni residue in ciascun blocco Transformer e in ciascun livello dell'AFM. Pertanto, è improbabile che tutti gli strati abbiano la stessa importanza.

Sulla base di questa intuizione, Apple ha ridotto ulteriormente l'utilizzo della memoria spingendo alcuni livelli alla quantizzazione a 2 bit (l'impostazione predefinita è 4 bit).

In media, i modelli sui dispositivi AFM possono essere compressi a circa 3,5 bit per peso (bpw) senza una significativa perdita di qualità.

Nella produzione, Apple sceglie di utilizzare 3,7 bpw perché soddisfa già i requisiti di memoria.

risultato della valutazione

pre-allenamento

La tabella 2 mostra i risultati di AFM-on-device e AFM-server su HELM MMLU v1.5.0, che ha testato domande a scelta multipla di 5 campioni in 57 soggetti.

Le tabelle 3 e 4 mostrano rispettivamente i risultati del server AFM sui benchmark HuggingFace OpenLLM ranking V1 e HELM-Lite v1.5.0.

Si può vedere che il modello di pre-formazione AFM ha potenti capacità linguistiche e di ragionamento, fornendo così una solida base per la post-formazione e la messa a punto delle funzionalità.

post allenamento valutazione umana

Per gli scenari applicativi dell'intelligenza artificiale di Apple, la valutazione umana è più vicina all'esperienza dell'utente.

Per valutare le capacità generali del modello, il team ha raccolto una serie completa di 1.393 suggerimenti.

I suggerimenti sono onnicomprensivi e coprono diverse categorie e livelli di difficoltà, tra cui: ragionamento analitico, brainstorming, chatbot, classificazione, risposta a domande chiuse, codifica, estrazione, ragionamento matematico, risposta a domande aperte, riscrittura, sicurezza, riepilogo e scrittura.

La Figura 3 mostra il confronto di AFM con modelli open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) e modelli commerciali (GPT-3.5 e GPT-4).

È stato riscontrato che i valutatori umani preferivano il modello AFM rispetto al modello della concorrenza.

In particolare, sebbene la dimensione del modello di AFM-on-device sia inferiore del 25%, il suo tasso di vincita è del 47,7% rispetto a Phi-3-mini, superando addirittura le forti linee di base open source Gemma-7B e Mistral- con più del doppio della numero di parametri.

Rispetto al modello closed source, anche il server AFM ha mostrato una certa competitività, con una percentuale di vincita superiore al 50% e una percentuale di pareggio del 27,4% rispetto a GPT-3.5.

Segui le istruzioni

Il seguito delle istruzioni (IF) è una funzionalità fondamentale su cui il team Apple ripone grandi speranze per i modelli linguistici, perché i suggerimenti o le istruzioni del mondo reale sono spesso complessi.

In questo caso, il team ha utilizzato il benchmark pubblico IFEval per valutare se i modelli linguistici di grandi dimensioni possono seguire accuratamente le istruzioni nel prompt durante la generazione delle risposte. Questi spesso includono requisiti specifici per la lunghezza, il formato e il contenuto della risposta.

Come mostrato nella Figura 4, AFM-on-device e AFM-server funzionano bene sia in termini di precisione a livello di comando che a livello di prompt.

Inoltre, il team Apple ha anche confrontato il modello AFM sul benchmark AlpacaEval 2.0 LC per misurare le sue capacità di seguire le istruzioni generali, e i risultati hanno mostrato che il suo modello è altamente competitivo.

Utilizzo dello strumento

Negli scenari di utilizzo degli strumenti, dopo che il modello riceve una richiesta dell'utente e un elenco di potenziali strumenti con descrizioni, può scegliere di chiamare uno strumento specifico fornendo un output strutturato e specificando il nome dello strumento e i valori dei parametri.

Il team ha valutato il modello sul benchmark pubblico Berkeley Function Calling Leaderboard utilizzando metriche AST con supporto nativo per le chiamate di funzione.

Come mostrato nella Figura 5, il server AFM offre le migliori prestazioni in termini di precisione complessiva, superando Gemini-1.5-Pro-Preview-0514 e GPT-4.

scrivere

La scrittura è una delle funzionalità più importanti dei modelli linguistici di grandi dimensioni, poiché supporta una varietà di applicazioni a valle come il cambio di tono, la riscrittura e il riepilogo.

Il team valuta le capacità di scrittura di AFM nel riepilogo interno e nella scrittura di test di benchmark. E seguendo l'approccio LLM come giudice, sono state progettate istruzioni per il punteggio per ogni attività di riepilogo e scrittura e a GPT-4 Turbo è stato chiesto di valutare la risposta del modello su una scala da 1 a 10.

Come mostrato nella Figura 6, AFM-on-device mostra prestazioni comparabili o migliori rispetto a Gemma-7B e Mistral-7B. Il server AFM è significativamente migliore di DBRX-Instruct e GPT-3.5 e persino paragonabile a GPT-4.

Vale la pena notare che esistono alcune limitazioni e distorsioni nell'utilizzo del punteggio LLM, come la distorsione della lunghezza.

matematica

Nella Figura 7, il team confronta le prestazioni di AFM su un benchmark matematico.

Tra questi, i ricercatori hanno utilizzato punte CoT a 8 scatti per GSM8K e punte CoT a 4 scatti per MATH.

I risultati mostrano che l'AFM-on-device supera significativamente le prestazioni di Mistral-7B e Gemma-7B anche con dimensioni inferiori alla metà di entrambi.

Funzione di riepilogo

Il team del prodotto ha sviluppato una serie personalizzata di linee guida, metriche e criteri di punteggio specializzati per il riepilogo di e-mail, messaggi e notifiche per valutare la qualità del riepilogo, utilizzando una varietà di set di dati open source, concessi in licenza e proprietari.

Il riepilogo è classificato come "Scadente" se una qualsiasi sottodimensione è classificata "Scadente" in base alle specifiche del prodotto predefinite. Allo stesso modo, un riepilogo è classificato come "buono" solo se tutte le sottodimensioni sono classificate come "buone".

La Figura 8 mostra che le prestazioni complessive dell'adattatore AFM-on-device+ sono migliori rispetto a Phi-3-mini, Llama-3-8B e Gemma-7B.

valutare la sicurezza

La Figura 9 mostra i risultati della valutazione dei revisori umani per le violazioni del modello. Più basso è il valore, meglio è.

Si può vedere che AFM-on-device e AFM-server mostrano una forte robustezza nel gestire le richieste degli avversari e il tasso di violazione è significativamente inferiore rispetto ai modelli open source e commerciali.

La Figura 10 mostra le preferenze dei revisori umani per le richieste di valutazione della sicurezza.

Il modello AFM ha vinto ancora una volta perché potrebbe fornire una risposta più sicura e utile.

Quanto sopra è uno scorcio chiave del modello AI di Apple.

Quando tutti saranno in grado di utilizzare le funzionalità AI di Apple?

Ogni anno Apple lancia nuovi prodotti alla conferenza autunnale e la versione iniziale di iOS 18 verrà lanciata contemporaneamente all'iPhone 16.

Tutti però dovranno aspettare fino a ottobre per sperimentarla.

Riferimenti:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

notizia

L'IA di Apple viene lanciata a sorpresa su iPhone, ma la versione evoluta di Siri non ha ChatGPT! Una relazione tecnica di 47 pagine rivela il modello sviluppato autonomamente

introduzione

le mie informazioni di contatto