notizia

Google è il più grande vincitore!Per utilizzare l'intelligenza artificiale nei telefoni cellulari Apple, Cook si è addirittura inchinato ai suoi avversari

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Negli ultimi due giorni, il lancio di Apple Intelligence è diventata una delle più grandi novità tecnologiche.

Anche se rispetto alla versione completa di Apple Intelligence annunciata più di un mese fa, le funzionalità di Apple Intelligence introdotte in Apple iOS 18.1 beta 1 non sono complete Image Playground, Genmoji, notifiche prioritarie, Siri con riconoscimento dello schermo e integrazione ChatGPT... queste Affatto.

Ma in generale, Apple offre ancora Writing Tools (strumenti di scrittura), registrazione delle chiamate (inclusa la trascrizione) e un Siri di nuova concezione.

Tra questi, Strumenti di scrittura supporta la riscrittura, la specializzazione, l'abbreviazione e altre funzioni e può essere utilizzato in scenari come chat, pubblicazione su Momenti, note Xiaohongshu e la registrazione delle chiamate di testo può non solo registrare le chiamate, ma anche trascriverle automaticamente; testo, che è conveniente per la revisione degli utenti.

Inoltre, anche Siri è stato "aggiornato", ma sfortunatamente al momento è limitato al design, inclusi nuovi effetti speciali "marquee" e supporto per l'input da tastiera.

Ma ciò che colpisce è che Apple lo ha rivelato in un documento intitolato "Apple Intelligence Foundation Language Models".Apple non ha utilizzato la comune NVIDIA H100 e altre GPU, ma ha scelto il TPU del suo "vecchio rivale" Google per addestrare il modello base di Apple Intelligence.


Immagine/Mela

Utilizza Google TPU per creare Apple Intelligence

Come tutti sappiamo, l’intelligenza artificiale di Apple è divisa in tre livelli: uno è l’intelligenza artificiale on-device eseguita localmente sui dispositivi Apple e l’altro è l’intelligenza artificiale cloud eseguita sui data center di Apple basata sulla tecnologia di “cloud computing privato”. Secondo le notizie provenienti dalla catena di fornitura, Apple costruirà il proprio data center producendo in serie M2 Ultra.

Inoltre, esiste un altro livello che si collega a modelli cloud di grandi dimensioni di terze parti, come GPT-4o, ecc.

Ma questo è il lato dell’inferenza. Il modo in cui Apple addestra il proprio modello di intelligenza artificiale è sempre stato uno dei focus dell’attenzione nel settore. A giudicare dal documento ufficiale di Apple, Apple ha addestrato due modelli base sull’hardware dei cluster TPUv4 e TPUv5p:

Uno è il modello AFM-on-device lato dispositivo con una scala di parametri di 300 milioni, che viene addestrato utilizzando 2048 blocchi di TPU v5p e funziona localmente sui dispositivi Apple; l'altro è un modello AFM-server lato server con un valore più grande scala dei parametri, utilizzando 8192 blocchi. L'addestramento del chip TPU v4 viene infine eseguito nel data center di Apple.


Immagine/Mela

Questo è strano. Dopotutto, sappiamo tutti che le GPU come Nvidia H100 sono attualmente la scelta principale per l'addestramento dell'intelligenza artificiale. Si dice addirittura che "solo le GPU Nvidia vengono utilizzate per l'addestramento dell'intelligenza artificiale".

Al contrario, il TPU di Google sembra un po' "sconosciuto".

Ma in realtà, il TPU di Google è un acceleratore appositamente progettato per attività di machine learning e deep learning, che può fornire eccellenti vantaggi in termini di prestazioni. Grazie alla sua efficiente potenza di calcolo e alle connessioni di rete a bassa latenza, il TPU di Google funziona bene nella gestione di attività di training di modelli di grandi dimensioni.

Ad esempio, TPU v4 può fornire una potenza di calcolo di picco fino a 275 TFLOPS per chip e connettere 4096 chip TPUv4 in un supercomputer TPU su larga scala attraverso un'interconnessione ad altissima velocità, raddoppiando così la scala della potenza di calcolo.

E non solo Apple, ma anche altre aziende di modelli di grandi dimensioni hanno adottato il TPU di Google per addestrare i loro modelli di grandi dimensioni.Claude di Anthropic è un tipico esempio.


Classifiche Chatbot Arena, foto/LMSYS

Ora si può dire che Claude sia il concorrente più potente del modello OpenAI GPT Nell'arena dei robot di chat LMSYS, Claude 3.5 Sonnet e GPT-4o sono sempre stati "draghi accovacciati e pulcini di fenice" (lode). Secondo quanto rivelato, Anthropic non ha mai acquistato GPU Nvidia per creare supercalcolo, ma utilizza invece cluster TPU su Google Cloud per l'addestramento e l'inferenza.

Alla fine dello scorso anno, Anthropic ha annunciato ufficialmente che sarebbe stata la prima a utilizzare i cluster TPU v5e su Google Cloud per addestrare Claude.

L'utilizzo a lungo termine di Anthropic e i risultati ottenuti da Claude dimostrano pienamente l'efficienza e l'affidabilità di Google TPU nella formazione sull'intelligenza artificiale.

Inoltre, anche per l'allenamento Gemini di Google si affida interamente a chip TPU sviluppati internamente. Il modello Gemini mira a far avanzare la frontiera della tecnologia di elaborazione e generazione del linguaggio naturale e il suo processo di formazione richiede l’elaborazione di grandi quantità di dati di testo e l’esecuzione di calcoli di modelli complessi.

La potente potenza di calcolo del TPU e l'efficiente architettura di formazione distribuita consentono a Gemini di completare la formazione in un periodo di tempo relativamente breve e di ottenere progressi significativi nelle prestazioni.

Ma se Gemini è comprensibile, allora perché persone da Anthropic ad Apple scelgono Google TPU invece della GPU Nvidia?

TPU e GPU, battaglia segreta tra Google e Nvidia

Al SIGGRAPH 2024, la conferenza più importante sulla grafica per computer tenutasi lunedì, il fondatore e CEO di NVIDIA Jensen Huang ha rivelato che NVIDIA invierà questa settimana campioni dell'architettura Blackwell, l'architettura GPU di ultima generazione di NVIDIA.

Il 18 marzo 2024, NVIDIA ha rilasciato la sua architettura GPU di ultima generazione, Blackwell, e la GPU B200 di ultima generazione alla conferenza GTC. In termini di prestazioni, la GPU B200 può raggiungere 20 petaflop (un quadrilione di operazioni in virgola mobile al secondo) di potenza di calcolo su FP8 e sul nuovo FP6, rendendola eccellente nell'elaborazione di modelli IA complessi.

Due mesi dopo il rilascio di Blackwell, Google ha rilasciato anche il suo TPU di sesta generazione (Trillium TPU), ogni chip può fornire una potenza di calcolo di picco di quasi 1.000 TFLOPS (trilioni al secondo) con BF16 e Google lo ha anche valutato come "il TPU con le prestazioni più elevate e il maggior risparmio energetico fino ad oggi".


Immagine/Google

Rispetto al Trillium TPU di Google, la GPU NVIDIA Blackwell presenta ancora alcuni vantaggi nell'elaborazione ad alte prestazioni con il supporto della memoria a larghezza di banda elevata (HBM3) e dell'ecosistema CUDA. In un unico sistema, Blackwell può connettere fino a 576 GPU in parallelo per ottenere una potente potenza di calcolo e una scalabilità flessibile.

Al contrario, Trillium TPU di Google si concentra sull'efficienza e sulla bassa latenza nella formazione distribuita su larga scala. Il TPU è progettato per rimanere efficiente nell'addestramento di modelli su larga scala e migliorare l'efficienza complessiva del calcolo riducendo la latenza della comunicazione attraverso interconnessioni di rete ad altissima velocità.

E non solo sull'ultima generazione di chip AI,La "guerra segreta" tra Google e Nvidia esiste in realtà da otto anni, a partire dal 2016, quando Google ha sviluppato il proprio chip AI TPU.

Ad oggi, la GPU H100 di NVIDIA è attualmente il chip AI più popolare nel mercato mainstream. Non solo fornisce memoria a larghezza di banda elevata fino a 80 GB, ma supporta anche la memoria HBM3 e realizza una comunicazione efficiente di più GPU tramite l'interconnessione NVLink. Basata sulla tecnologia Tensor Core, la GPU H100 ha un'efficienza computazionale estremamente elevata nelle attività di deep learning e inferenza.

Ma allo stesso tempo, TPUv5e presenta vantaggi significativi in ​​termini di rapporto costi-prestazioni ed è particolarmente adatto per l'addestramento di modelli di piccole e medie dimensioni. Il vantaggio di TPUv5e risiede nella sua potente potenza di calcolo distribuita e nel rapporto di consumo energetico ottimizzato, che gli consente di funzionare bene durante l'elaborazione di dati su larga scala. Inoltre, TPUv5e è disponibile anche tramite Google Cloud Platform, consentendo agli utenti di condurre formazione e implementazione flessibili sul cloud.


Centro dati Google, foto/Google

Nel complesso, NVIDIA e Google hanno strategie diverse per i chip AI: NVIDIA spinge i limiti prestazionali dei modelli AI fornendo una potente potenza di calcolo e un ampio supporto agli sviluppatori; mentre Google migliora le prestazioni dei chip AI attraverso un'efficiente architettura informatica distribuita dell'addestramento dei modelli AI su larga scala . Queste due diverse scelte di percorso consentono loro di mostrare vantaggi unici nei rispettivi campi di applicazione.

Ma, cosa ancora più importante, gli unici che possono sconfiggere Nvidia sono quelli che adottano strategie di co-progettazione software e hardware e hanno forti capacità di chip e capacità software.

Google è uno di questi avversari.

Il più forte sfidante all’egemonia di Nvidia

Blackwell è un altro importante aggiornamento di NVIDIA dopo Hopper. Ha potenti capacità di elaborazione ed è progettato per modelli linguistici su larga scala (LLM) e intelligenza artificiale generativa.

Secondo i rapporti, la GPU B200 è prodotta utilizzando il processo N4P di TSMC, ha fino a 208 miliardi di transistor, è "composta" da due chip GPU che utilizzano la tecnologia di interconnessione ed è dotata di un massimo di 192 GB di memoria HBM3e (memoria a larghezza di banda elevata), con una larghezza di banda fino a 8TB/s.

In termini di prestazioni, il TPU Trillium di Google è migliorato di 4,7 volte con BF16 rispetto alla generazione precedente di TPU v5e, e anche la capacità e la larghezza di banda HBM, nonché la larghezza di banda di interconnessione dei chip, sono raddoppiate. Inoltre, Trillium TPU è dotato anche dello SparseCore di terza generazione, che può accelerare l'addestramento di una nuova generazione di modelli base, con latenza inferiore e costi inferiori.

Trillium TPU è particolarmente adatto per l'addestramento di modelli linguistici e sistemi di raccomandazione su larga scala. Può essere espanso a centinaia di set e connettere decine di migliaia di chip al secondo tramite la tecnologia di interconnessione di rete di livello PB, realizzando un altro livello di super "computer". ", migliorando notevolmente l'efficienza di calcolo e riducendo la latenza della rete.


Immagine/Google

A partire dalla seconda metà di quest’anno, gli utenti di Google Cloud saranno i primi ad adottare questo chip.

In generale, il vantaggio hardware di Google TPU risiede nella sua efficiente potenza di calcolo e nell'architettura di training distribuito a bassa latenza. Ciò fa sì che la TPU funzioni bene nella formazione di modelli linguistici e sistemi di raccomandazione su larga scala. Tuttavia, il vantaggio di Google TPU risiede in un altro ecosistema completo indipendente da CUDA e in una più profonda integrazione verticale.

Attraverso la piattaforma Google Cloud, gli utenti possono formarsi e implementare in modo flessibile nel cloud. Questo modello di servizio cloud non solo riduce gli investimenti delle imprese nell’hardware, ma migliora anche l’efficienza della formazione dei modelli di intelligenza artificiale. Google e Cloud forniscono inoltre una serie di strumenti e servizi che supportano lo sviluppo dell'intelligenza artificiale, come TensorFlow e Jupyter Notebook, rendendo più semplice per gli sviluppatori addestrare e testare i modelli.


Google TPU v5p utilizzato da Apple, foto/Google

L'ecosistema AI di Google include anche una varietà di strumenti e framework di sviluppo, come TensorFlow, un framework di machine learning open source ampiamente utilizzato in grado di sfruttare appieno le capacità di accelerazione hardware delle TPU. Google fornisce anche altri strumenti per supportare lo sviluppo dell'intelligenza artificiale, come TPU Estimator e Keras. La perfetta integrazione di questi strumenti semplifica notevolmente il processo di sviluppo.

Inoltre, il vantaggio di Google è che Google stessa è il cliente con la maggiore richiesta di potenza di calcolo TPU. Dall'elaborazione degli enormi contenuti video di YouTube a ogni formazione e inferenza di Gemini, TPU è stato a lungo integrato nel sistema aziendale di Google e ha anche soddisfatto le enormi esigenze di potenza di calcolo di Google.

Si può dire che l'integrazione verticale di Google è molto più approfondita di quella di Nvidia e ha padroneggiato quasi completamente i nodi chiave, dalla formazione del modello all'applicazione fino all'esperienza dell'utente. Ciò offre effettivamente a Google maggiori possibilità di iniziare dal basso in base alla tecnologia tendenze del mercato. Iniziare a ottimizzare l’efficienza.

Pertanto, sebbene Trillium TPU sia ancora difficile da competere con la GPU Blackwell in termini di indicatori di prestazione del chip, quando si tratta di addestrare modelli di grandi dimensioni, Google può ancora ottimizzare sistematicamente l'efficienza per rivaleggiare o addirittura superare l'ecosistema CUDA di NVIDIA.

L'utilizzo del TPU in Google Cloud è la scelta migliore di Apple

In breve, le prestazioni, i costi e i vantaggi ecologici del cluster TPU di Google lo rendono la scelta ideale per l’addestramento di modelli IA su larga scala. A sua volta, l'utilizzo del TPU in Google Cloud è anche la scelta migliore di Apple in questa fase.


Il supercalcolo basato su TPU v4 viene utilizzato anche da Apple.Immagine/Google

Da un lato ci sono prestazioni e costi. TPU funziona bene nella gestione di attività di formazione distribuite su larga scala, fornendo capacità di calcolo efficienti e a bassa latenza per soddisfare le esigenze di Apple nella formazione dei modelli AI. Utilizzando la piattaforma Google Cloud, Apple può ridurre i costi dell’hardware, adattare in modo flessibile le risorse di elaborazione e ottimizzare il costo complessivo dello sviluppo dell’intelligenza artificiale.

L’altro aspetto è l’ecologia.L’ecosistema di sviluppo dell’intelligenza artificiale di Google fornisce inoltre numerosi strumenti e supporto, consentendo ad Apple di sviluppare e implementare i suoi modelli di intelligenza artificiale in modo più efficiente. Insieme alla potente infrastruttura e al supporto tecnico di Google Cloud, fornisce anche una solida base per i progetti AI di Apple.

Nel marzo di quest’anno, Sumit Gupta, che aveva lavorato per Nvidia, IBM e Google, si è unito ad Apple per guidare l’infrastruttura cloud. Secondo i rapporti, Sumit Gupta è entrato a far parte del team dell'infrastruttura AI di Google nel 2021 e alla fine è diventato il product manager del TPU di Google, della CPU Arm autosviluppata e di altre infrastrutture.

Sumit Gupta comprende i vantaggi del TPU di Google meglio della maggior parte delle persone all'interno di Apple.

Nella prima metà del 2024, il circolo tecnologico è turbolento.
L’implementazione di modelli di grandi dimensioni sta accelerando, telefoni cellulari AI, PC AI, elettrodomestici AI, ricerca AI, e-commerce AI… le applicazioni AI stanno emergendo all’infinito;
Vision Pro viene messo in vendita e sbarca nel mercato cinese, dando il via a un'altra ondata di calcolo spaziale XR;
HarmonyOS NEXT viene ufficialmente rilasciato, cambiando l'ecosistema del sistema operativo mobile;
Le automobili sono entrate a pieno titolo nella "seconda metà" e l'intelligenza è diventata una priorità assoluta;
La concorrenza nell’e-commerce sta diventando sempre più agguerrita, con prezzi più bassi e servizi migliori;
L’ondata di espansione all’estero è in aumento e i marchi cinesi stanno intraprendendo il viaggio della globalizzazione;

A luglio viene lanciato l'argomento Lei Technology·Mid-year review, che riassume i marchi, le tecnologie e i prodotti che vale la pena registrare nella prima metà del 2024 nel settore tecnologico, registrando il passato e guardando al futuro, quindi rimanete sintonizzati.