notizia

Dieci anni di duro lavoro: perché il chip TPU di Google può “mangiare” Apple?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Prima della nascita di ChatGPT, Google aveva dato il via da solo a un'importante ondata nello sviluppo dell'intelligenza artificiale nel mondo. Ciò che fece clamore in tutto il mondo fu che Google AlphaGo sconfisse il giocatore coreano di Go Lee Sedol nella "Guerra Uomo-Macchina". nel 2016. Dietro a questo, il chip TPU che supporta il funzionamento del "cervello più potente" di AlphaGo è fondamentale e viene ancora migliorato in modo iterativo.

Sebbene il TPU sia stato originariamente creato per carichi di lavoro interni, grazie ai suoi molteplici vantaggi, non solo è stato ampiamente utilizzato all'interno di Google ed è diventato la spina dorsale dell'intelligenza artificiale, ma è stato anche favorito e applicato in modo competitivo da giganti della tecnologia come Apple e molti modelli di grandi dimensioni. startup. Guardando indietro, nei dieci anni trascorsi dalla sua nascita, i chip TPU si sono gradualmente spostati dai margini del settore dell’intelligenza artificiale al centro della scena. Tuttavia, poiché l'infrastruttura TPU è costruita principalmente attorno a TensorFlow e JAX, Google si trova ad affrontare in una certa misura anche sfide come "isole tecniche".



Dieci anni “al passo” con l’innovazione dell’intelligenza artificiale

Con lo sviluppo approfondito degli algoritmi di machine learning e deep learning, la domanda del settore di chip informatici dedicati IA ad alte prestazioni e a basso consumo sta crescendo rapidamente. Tuttavia, le tradizionali CPU e GPU generiche specializzate in attività complesse come l'accelerazione grafica e il rendering video non possono soddisfare le enormi esigenze dei carichi di lavoro di deep learning. Allo stesso tempo, ci sono problemi come la bassa efficienza e l'elaborazione dedicata limitata.

Jeff Dean, capo scienziato di Google, ha dichiarato: "Abbiamo fatto alcuni calcoli approssimativi su quanta potenza di calcolo sarebbe necessaria se centinaia di milioni di persone avessero una conversazione di tre minuti con Google ogni giorno. Ci siamo subito resi conto in quel momento che ciò avrebbe richiesto consumando sostanzialmente tutti i computer utilizzati da Google. In altre parole, il numero di computer nei data center di Google dovrà essere raddoppiato per supportare queste nuove funzionalità."

Di conseguenza, Google si è impegnata a esplorare soluzioni di machine learning più convenienti e a risparmio energetico, ha lanciato immediatamente il progetto TPU e ha annunciato nel 2015 che il chip TPU di prima generazione (TPU v1) era online internamente. Un TPU è un circuito integrato specifico per l'applicazione (ASIC) progettato per un unico scopo specifico, inclusa l'esecuzione delle operazioni matematiche uniche basate su matrice e vettori necessarie per costruire modelli di intelligenza artificiale. Diversamente dalle operazioni di matrice della GPU, la caratteristica iconica di PU è la sua unità di moltiplicazione della matrice (MXU).

Secondo il vicepresidente di Google e accademico di ingegneria Norm Jouppi, l’emergere del TPU ha consentito a Google di salvare 15 data center. Un motivo importante per cui il TPU è più conveniente è che lo stack software di Google è più integrato verticalmente rispetto alla GPU. Google dispone di un team di ingegneri dedicato che costruisce l'intero stack software, dall'implementazione del modello (Vertex Model Garden) ai framework di deep learning (Keras, JAX e TensorFlow) ai compilatori ottimizzati per TPU (XLA).

In termini di prestazioni, TPU v1 ha 65536 MAC (Matrix Multiplication Unit) a 8 bit, prestazioni di picco di 92 TOPS e 28 MiB di spazio di memoria su chip. Rispetto a CPU e GPU, TPU v1 offre buone prestazioni in termini di tempo di risposta e rapporto di efficienza energetica e può migliorare significativamente la velocità di inferenza delle reti neurali. Il successo di TPU v1 ha fatto capire a Google che i chip di machine learning hanno ampie prospettive di sviluppo, quindi continua ad aggiornare e lanciare in modo iterativo prodotti con prestazioni più avanzate e maggiore efficienza basati su TPU v1.

Ad esempio, TPU v2 e TPU v3 sono progettati come chip di inferenza e addestramento AI lato server per supportare attività AI più complesse. TPU v4 migliora ulteriormente la scalabilità e la flessibilità e supporta la costruzione di cluster di elaborazione AI su larga scala. Tra questi, TPU v2 estende per la prima volta il design a chip singolo a un sistema di supercalcolo più grande, costruendo un Pod TPU composto da 256 chip TPU. Inoltre, TPU v3 aggiunge la tecnologia di raffreddamento a liquido e TPU v4 introduce interruttori del circuito ottico per migliorare ulteriormente prestazioni ed efficienza.

Nel 2023, visti i dubbi e le controversie "esagerati" affrontati dal chip TPU v5, Google è passata direttamente alla versione TPU v5e. TPU v5e è stato modificato nell'architettura, utilizzando una singola architettura TensorCore. La potenza di calcolo di picco di INT8 raggiunge 393 TFLOPS, che supera i 275 TFLOPS di v4. Tuttavia, la potenza di calcolo di picco di BF16 è di soli 197 TFLOPS, che è inferiore il livello della generazione precedente v4. Ciò dimostra che TPU v5e è più adatto per compiti di ragionamento e può anche riflettere la scelta strategica di Google per il mercato dei servizi di potenza di calcolo AI.

Alla I/O Developer Conference di maggio di quest'anno, Google ha rilasciato il TPU Trillium di sesta generazione. Amin Vadhat, vicepresidente e direttore generale di Google Cloud Machine Learning, Systems e Cloud AI, ha affermato che le prestazioni di elaborazione di picco di Trillium TPU sono oltre 4,7 volte superiori rispetto alla generazione precedente di TPU v5e e che l'efficienza energetica è superiore al 67% superiore a TPU v5e. Allo stesso tempo, memoria a larghezza di banda elevata. La capacità e la larghezza di banda sono raddoppiate e anche la larghezza di banda di interconnessione tra chip è raddoppiata per soddisfare le esigenze dei sistemi IA più avanzati.



Vale la pena ricordare che Trillium può scalare fino a 256 TPU in un singolo pod a larghezza di banda elevata e bassa latenza. Sfruttando i progressi di Google nella scalabilità a livello di pod, nella tecnologia multi-slice e nelle unità di elaborazione intelligenti Titanium, gli utenti saranno in grado di collegare centinaia di pod individuali di Trillium TPU per costruire reti di supercomputer e data center su scala petabyte.

Nel complesso, il vantaggio della soluzione basata sulla tecnologia TPU risiede nella sua architettura più centralizzata. A differenza di più GPU collegate alla stessa scheda, i TPU sono organizzati a forma di cubo, consentendo una comunicazione tra chip più rapida, e la collaborazione approfondita con Broadcom ha notevolmente migliorato la velocità di trasmissione della comunicazione. Inoltre, in scenari dedicati e requisiti di casi d'uso, può promuovere più rapidamente l'ottimizzazione e l'iterazione del prodotto. Tuttavia, poiché l’infrastruttura TPU è costruita principalmente attorno a TensorFlow e JAX, e l’industria è più diffusa nell’utilizzo del modello HuggingFace e PyTorch per l’innovazione, Google affronta in una certa misura anche il problema dell’”isola tecnica”.

Adottato da Apple e da un gran numero di startup AI

In termini di applicazioni, il progetto Google TPU è stato originariamente creato per specifiche esigenze interne ed è diventato rapidamente ampiamente utilizzato in vari dipartimenti, diventando uno dei chip personalizzati più maturi e avanzati nel campo dell'intelligenza artificiale. Secondo Andy Swing, ingegnere capo del sistema hardware di machine learning di Google, inizialmente si prevedeva di produrre meno di 10.000 TPU v1, ma alla fine ne sono stati prodotti più di 100.000, con applicazioni che coprivano pubblicità, ricerca, voce, AlphaGo e persino guida autonoma e molto altro altri campi.

Man mano che le prestazioni e l'efficienza continuano a migliorare, i chip TPU sono gradualmente diventati l'infrastruttura AI di Google e la spina dorsale AI di quasi tutti i prodotti. Ad esempio, Google Cloud Platform utilizza ampiamente chip TPU per supportare la propria infrastruttura AI. Questi chip vengono utilizzati per accelerare il processo di training e inferenza dei modelli di machine learning e fornire capacità di calcolo efficienti e ad alte prestazioni. Attraverso Google Cloud Platform, gli utenti possono accedere alle istanze di macchine virtuali (VM) basate su chip TPU per l'addestramento e l'implementazione dei propri modelli di machine learning.

Sebbene abbia guadagnato una buona base di utenti per i servizi cloud, Google non vende hardware direttamente agli utenti. Gli analisti del settore sottolineano che Google sta competendo ferocemente con OpenAI per l'intelligenza artificiale generativa. Se vendesse TPU, sfiderebbe direttamente Nvidia. "Lottare da entrambe le parti" potrebbe non essere la strategia più saggia al momento. Allo stesso tempo, la vendita diretta di hardware comporta costi elevati e una gestione complessa della catena di fornitura, mentre la fornitura di TPU tramite servizi cloud può semplificare il processo di installazione, implementazione e gestione, riducendo l’incertezza e i costi aggiuntivi.

D'altro canto bisogna considerare anche la stretta collaborazione tra Google Cloud e Nvidia. Google non solo utilizza le GPU NVIDIA internamente, ma fornisce anche servizi basati su GPU NVIDIA sulla sua piattaforma di servizi cloud per soddisfare le esigenze dei clienti in termini di elaborazione ad alte prestazioni e applicazioni IA.

È vero che i chip AI di Nvidia sono diventati un "must competere" per i giganti della tecnologia, ma l'industria sta anche esplorando opzioni più diversificate. Sebbene sia stato ampiamente utilizzato internamente, Google sta anche cercando di utilizzare la TPU per tenere il passo con l’innovazione dell’intelligenza artificiale per fornire servizi di intelligenza artificiale a più clienti. Andy Swing ha dichiarato: “La nostra configurazione del TPU e del pod si trova in una posizione che meglio si adatta alle attuali capacità del data center, ma stiamo modificando il design del data center per soddisfare meglio le esigenze. Pertanto, la soluzione preparata oggi sarà molto diversa dalla soluzione domani, diversamente, stiamo costruendo una rete globale di data center ricca di TPU”.



Attualmente, molte aziende tecnologiche in tutto il mondo utilizzano i chip TPU di Google. Ad esempio, Apple ha ammesso di utilizzare Google TPU per addestrare il suo modello di intelligenza artificiale, affermando che "questo sistema ci consente di addestrare in modo efficiente e scalabile modelli AFM, inclusi dispositivi AFM, server AFM e modelli più grandi". ha addestrato il server AFM da zero su 8192 chip TPUv4, utilizzando una lunghezza di sequenza di 4096 e una dimensione batch di 4096 sequenze per condurre un addestramento di 6,3 trilioni di token. Inoltre, l'AFM end-side è addestrato sui chip Google TPUv5p 2048.

Altri dati mostrano che oltre il 60% delle startup di intelligenza artificiale generativa che hanno ricevuto finanziamenti e quasi il 90% degli unicorni di intelligenza artificiale generativa utilizzano l’infrastruttura AI di Google Cloud e i servizi Cloud TPU e sono ampiamente utilizzati in vari campi socioeconomici.

Ad esempio, note startup di intelligenza artificiale come Anthropic, Midjourney, Salesforce, Hugging Face e AssemblyAI utilizzano ampiamente Cloud TPU. Tra questi, in qualità di "rivale di OpenAI", Anthropic utilizza il chip Google Cloud TPU v5e per fornire supporto hardware per il suo modello linguistico di grandi dimensioni Claude per accelerare il processo di addestramento e inferenza del modello. Inoltre, anche molti istituti di ricerca scientifica e di istruzione utilizzano i chip TPU di Google per supportare i loro progetti di ricerca relativi all’intelligenza artificiale. Queste istituzioni possono utilizzare la potenza di calcolo ad alte prestazioni dei chip TPU per accelerare i processi sperimentali, promuovendo così la ricerca scientifica all’avanguardia e il progresso dell’istruzione.

Vale la pena notare che, secondo le informazioni ufficiali di Google, il costo operativo del suo ultimo TPU è inferiore a 2 dollari l’ora, ma i clienti devono prenotarlo con tre anni di anticipo per garantirne l’utilizzo. Ciò potrebbe comportare sfide importanti per le grandi aziende modello in un settore in rapida evoluzione.

In ogni caso, il viaggio decennale di TPU ha dimostrato con successo che oltre a CPU e GPU, il settore ha un nuovo percorso nel perseguire la potenza di calcolo richiesta per l'intelligenza artificiale. È diventata anche il nucleo delle funzioni AI in quasi tutti i prodotti Google supporta l'avanzato di Google DeepMind Il rapido sviluppo di modelli di base e persino dell'intero settore dei modelli di grandi dimensioni. In futuro, man mano che la tecnologia AI continua a svilupparsi e il mercato continua ad espandersi, sempre più aziende potrebbero scegliere di utilizzare i chip TPU di Google per soddisfare le proprie esigenze di elaborazione AI. Ma l’hardware AI potrebbe anche diventare più specializzato, il che renderà l’hardware e i modelli più strettamente integrati, rendendo difficile guardare fuori dal quadro per nuove possibilità di innovazione.