notizia

Attaccando la GPU, i chip TPU diventano popolari da un giorno all'altro

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Da alloraChatGPTDopo l'esplosione, la ricerca e lo sviluppo di grandi modelli di intelligenza artificiale sono emersi uno dopo l'altro. Mentre questa "guerra delle 100 modalità" era in pieno svolgimento, l'azienda americana di chip NVIDIA ha guadagnato un sacco di soldi con le eccezionali prestazioni della sua GPU nei calcoli di modelli di grandi dimensioni. .

Tuttavia, una recente mossa di Apple ha leggermente raffreddato l'entusiasmo di Nvidia.

01

Addestramento modello AI, Apple sceglie il TPU al posto della GPU

NVIDIA è sempre stata leader nel campo dell'infrastruttura informatica AI. Nel mercato dell'hardware AI, in particolare nel campo della formazione AI, la sua quota di mercato è superiore all'80%. La GPU NVIDIA è sempre stata leader in Amazon, Microsoft , Meta,IA aperta È la soluzione di potenza di calcolo preferita da molti giganti della tecnologia nel campo dell’intelligenza artificiale e dell’apprendimento automatico.

Pertanto, Nvidia continua a incontrare diverse sfide nel settore. Tra i suoi concorrenti ci sono molti attori forti nella ricerca e nello sviluppo indipendenti di GPU, nonché pionieri nell'esplorazione di architetture innovative. Anche il TPU di Google è diventato un potente avversario che Nvidia non può ignorare in virtù dei suoi vantaggi unici.

Il 30 luglio Apple ha pubblicato un documento di ricerca. Nel documento, Apple ha introdotto due modelli che forniscono supporto per Apple Intelligence-AFM-on-device (AFM è l'abbreviazione di Apple Basic Model) e AFM-server (un grande modello linguistico basato su server. Il primo è un 30-). modello linguistico con parametri di 100 milioni di anni fa, quest'ultimo è un modello linguistico basato su server.

Apple ha dichiarato nel documento che per addestrare il suo modello di intelligenza artificiale ha utilizzato due tipi di processori tensoriali (TPU) di Google e queste unità sono state organizzate in grandi cluster di chip. Per creare AFM-on-device, un modello AI che può essere eseguito su iPhone e altri dispositivi, Apple utilizza chip 2048 TPUv5p. Per il suo server AI modello AFM-server, Apple ha implementato 8192 processori TPUv4.

La scelta strategica di Apple di abbandonare le GPU Nvidia e passare ai TPU di Google ha lanciato una bomba shock nel mondo della tecnologia. Quel giorno il prezzo delle azioni di Nvidia è sceso di oltre il 7%, il calo più grande in tre mesi, e il suo valore di mercato è evaporato di 193 miliardi di dollari.

Addetti al settore hanno affermato che la decisione di Apple indica che alcune grandi aziende tecnologiche potrebbero essere alla ricerca di alternative alle unità di elaborazione grafica di Nvidia quando si tratta di formazione sull'intelligenza artificiale.

02

TPU VS GPU, quale è più adatta ai modelli di grandi dimensioni?

Prima di discutere se TPU o GPU siano più adatti per i modelli di grandi dimensioni, dobbiamo avere una comprensione preliminare dei due.

Confronto tra TPU e GPU

TPU, nome completo di Tensor Processing Unit, è un chip speciale progettato da Google per accelerare i carichi di lavoro di machine learning. Viene utilizzato principalmente per l'addestramento e il ragionamento di modelli di deep learning. Vale la pena notare che anche il TPU appartiene alla categoria dei chip ASIC e l'ASIC è un chip appositamente personalizzato per determinate esigenze specifiche.

Tutti conoscono la GPU, un processore originariamente progettato per il rendering grafico e successivamente ampiamente utilizzato nel calcolo parallelo e nel deep learning. Ha potenti capacità di elaborazione parallela e la GPU ottimizzata è molto adatta anche per attività parallele come il deep learning e il calcolo scientifico.

Si può vedere che questi due diversi chip hanno obiettivi diversi nella loro progettazione iniziale.

Rispetto alle CPU tradizionali, le capacità di calcolo parallelo delle GPU le rendono particolarmente adatte per l'elaborazione di set di dati su larga scala e attività di calcolo complesse. Pertanto, con l'esplosione di grandi modelli di intelligenza artificiale negli ultimi anni, le GPU sono diventate una volta la prima scelta di hardware di calcolo Formazione sull'intelligenza artificiale.

Tuttavia, con il continuo sviluppo di grandi modelli di intelligenza artificiale, le attività di calcolo stanno diventando esponenzialmente più grandi e complesse, il che pone nuovi requisiti in termini di potenza di calcolo e risorse di calcolo. Quando la GPU viene utilizzata per il calcolo dell’intelligenza artificiale, il tasso di utilizzo della potenza di calcolo è basso l'elevata efficienza energetica, il collo di bottiglia del consumo energetico, nonché il prezzo elevato e la scarsa offerta di prodotti GPU NVIDIA, hanno attirato maggiore attenzione sull'architettura TPU, originariamente progettata per il deep learning e l'apprendimento automatico. Il dominio della GPU in questo campo sta iniziando ad affrontare sfide.

È stato riferito che Google ha iniziato a sviluppare internamente chip dedicati agli algoritmi di apprendimento automatico dell’intelligenza artificiale già nel 2013, e solo nel 2016 questo chip sviluppato internamente chiamato TPU è stato ufficialmente reso pubblico. Ha sconfitto Lee Sedol nel marzo 2016 e Ke Jie nel maggio 2017 AlfaGo, che viene addestrato utilizzando i chip della serie TPU di Google.

Se si dice che il TPU sia più adatto all'addestramento di grandi modelli di intelligenza artificiale, potrebbe essere difficile convincere tutti senza spiegare nel dettaglio le sue "capacità".

In che modo il TPU è adatto per l'addestramento di modelli di grandi dimensioni?

Innanzitutto, il TPU dispone di unità di calcolo multidimensionali per migliorare l'efficienza del calcolo.Rispetto all'unità di calcolo scalare nella CPU e all'unità di calcolo vettoriale nella GPU, il TPU utilizza unità di calcolo bidimensionali o anche di dimensione superiore per completare le attività di calcolo ed espande il ciclo operativo di convoluzione per ottenere il massimo riutilizzo dei dati e ridurre i dati costi di trasmissione e migliorare l’efficienza di accelerazione.

In secondo luogo, il TPU offre una trasmissione dati più rapida e un'unità di controllo ad alta efficienza.Il problema del muro di memoria causato dall'architettura von Neumann è particolarmente evidente nelle attività di deep learning e TPU adotta una strategia più radicale per progettare la trasmissione dei dati e l'unità di controllo è più piccola, lasciando più spazio per la memoria su chip e le unità di calcolo.

Infine, il TPU è progettato per accelerare l’intelligenza artificiale e migliorare le capacità di elaborazione AI/ML.Con un posizionamento accurato, un'architettura semplice, un controllo a thread singolo e un set di istruzioni personalizzato, l'architettura TPU è estremamente efficiente nelle operazioni di deep learning e facile da espandere, rendendola più adatta per calcoli di addestramento AI su larga scala.

È stato riferito che Google TPUv4 ha un consumo energetico 1,3-1,9 volte inferiore rispetto a NVIDIA A100. In vari modelli funzionanti come Bert e ResNet, l'efficienza è 1,2-1,9 volte superiore a quella di A100. Allo stesso tempo, i suoi prodotti TPUv5/TPU Trillium può raggiungere un consumo energetico 1,3-1,9 volte inferiore rispetto a NVIDIA A100 Migliorare ulteriormente le prestazioni di elaborazione di 2 volte/quasi 10 volte. Si può vedere che i prodotti Google TPU presentano maggiori vantaggi in termini di costi e consumo energetico rispetto ai prodotti NVIDIA.

Alla conferenza degli sviluppatori I/O 2024 tenutasi a maggio di quest'anno, il CEO di Alphabet Sundar Pichai ha annunciato il chip Tensor Processor Unit (TPU)-Trillium del data center AI di sesta generazione, affermando che il prodotto è quasi cinque volte più veloce del suo predecessore e che dice che le consegne saranno disponibili entro la fine dell'anno.

Google ha affermato che le prestazioni di calcolo del chip Trillium di sesta generazione sono 4,7 volte superiori a quelle del chip TPU v5e e l'efficienza energetica è superiore del 67% rispetto al v5e. Il chip è progettato per alimentare la tecnologia che genera testo e altri contenuti da modelli di grandi dimensioni. Google ha inoltre affermato che i chip Trillium di sesta generazione saranno disponibili per i suoi clienti cloud entro la fine dell'anno.

Gli ingegneri di Google hanno ottenuto ulteriori miglioramenti delle prestazioni aumentando la capacità di memoria a larghezza di banda elevata e la larghezza di banda complessiva. I modelli di intelligenza artificiale richiedono grandi quantità di memoria avanzata, che ha rappresentato un collo di bottiglia nel miglioramento ulteriore delle prestazioni.

Vale la pena notare che Google non venderà i propri chip TPU separatamente come prodotti indipendenti, ma fornirà servizi informatici basati su TPU a clienti esterni tramite Google Cloud Platform (GCP).

L'intelligenza di Google si vede anche in questo piano: la vendita diretta dell'hardware comporta spese elevate e una complessa gestione della catena di fornitura. Fornendo TPU tramite servizi cloud, Google può semplificare il processo di installazione, implementazione e gestione, riducendo l'incertezza e i costi aggiuntivi. Questo modello semplifica inoltre il processo di vendita, eliminando la necessità di istituire un ulteriore team di vendita dell'hardware. Inoltre, Google è in forte concorrenza con OpenAI per l’intelligenza artificiale generativa. Se Google inizia a vendere TPU, dovrà competere con due potenti avversari allo stesso tempo: Nvidia e OpenAI, che potrebbe non essere la strategia più intelligente al momento.

A questo punto dell'articolo, alcune persone potrebbero chiedersi: poiché il TPU offre vantaggi prestazionali così eccellenti, sostituirà la GPU nel prossimo futuro?

03

Ora parliamo di sostituire la GPU? Forse è troppo presto

Questo problema non è così semplice.

Parlare solo dei vantaggi del TPU senza parlare dei vantaggi della GPU è un occhio cieco. Successivamente, dobbiamo anche capire in che modo la GPU è adatta all'attuale addestramento di modelli di grandi dimensioni con intelligenza artificiale rispetto alla TPU.

Vediamo che i vantaggi del TPU risiedono nell'eccezionale rapporto di efficienza energetica e negli indicatori di potenza di calcolo del costo unitario. Tuttavia, come chip ASIC, anche lo svantaggio dell'elevato costo di tentativi ed errori è relativamente chiaro.

Anche in termini di maturità dell’ecosistema. Dopo anni di sviluppo, GPU dispone di un ampio e maturo ecosistema di software e strumenti di sviluppo. Molti sviluppatori e istituti di ricerca sviluppano e ottimizzano da molto tempo basati su GPU e hanno accumulato una vasta gamma di librerie, framework e algoritmi. L'ecosistema TPU è relativamente nuovo e le risorse e gli strumenti disponibili potrebbero non essere così ricchi come quelli delle GPU, il che potrebbe rendere più difficile l'adattamento e l'ottimizzazione per gli sviluppatori.

In termini di versatilità. Le GPU sono state originariamente progettate per il rendering grafico, ma la loro architettura è altamente flessibile e può adattarsi a molti tipi diversi di attività di elaborazione, non solo al deep learning. Ciò rende la GPU più adattabile quando si affrontano diversi scenari applicativi. Al contrario, le TPU sono progettate su misura per i carichi di lavoro di machine learning e potrebbero non essere in grado di gestire altre attività di elaborazione non correlate all’apprendimento automatico con la stessa efficienza delle GPU.

Infine, la concorrenza nel mercato delle GPU è agguerrita. Vari produttori continuano a promuovere l'innovazione tecnologica e gli aggiornamenti dei prodotti, e le nuove architetture e i miglioramenti delle prestazioni sono più frequenti. Lo sviluppo del TPU è guidato principalmente da Google e il suo ritmo di aggiornamento ed evoluzione potrebbe essere relativamente lento.

Nel complesso, NVIDIA e Google hanno strategie diverse per i chip AI: NVIDIA spinge i limiti prestazionali dei modelli AI fornendo una potente potenza di calcolo e un ampio supporto agli sviluppatori; mentre Google migliora le prestazioni dei chip AI attraverso un'efficiente architettura informatica distribuita dell'addestramento dei modelli AI su larga scala . Queste due diverse scelte di percorso consentono loro di mostrare vantaggi unici nei rispettivi campi di applicazione.

Il motivo per cui Apple ha scelto Google TPU potrebbe essere dovuto ai seguenti punti: in primo luogo, TPU funziona bene durante l'elaborazione di attività di formazione distribuite su larga scala, fornendo capacità di calcolo efficienti e a bassa latenza, in secondo luogo, utilizzando la piattaforma Google Cloud, Apple può ridurre l'hardware; costi ed essere flessibile. Adeguare le risorse informatiche per ottimizzare il costo complessivo dello sviluppo dell’intelligenza artificiale. Inoltre, l’ecosistema di sviluppo dell’intelligenza artificiale di Google fornisce anche una vasta gamma di strumenti e supporto, consentendo ad Apple di sviluppare e implementare i suoi modelli di intelligenza artificiale in modo più efficiente.

L'esempio di Apple dimostra la capacità del TPU nell'addestramento di modelli di grandi dimensioni. Tuttavia, rispetto a NVIDIA, il TPU viene ancora utilizzato raramente nel campo dei modelli di grandi dimensioni. Dietro di esso ci sono aziende di modelli più grandi, tra cui giganti come OpenAI, Tesla e ByteDance. I principali data center AI utilizzano ancora generalmente le GPU NVIDIA.

Pertanto, potrebbe essere troppo presto per dire che il TPU di Google può battere la GPU di Nvidia, ma il TPU deve essere un giocatore molto impegnativo.

04

Lo sfidante della GPU non è solo il TPU

La Cina ha anche un’azienda che scommette sui chip TPU: Zhonghao Xinying. Yang Gongyifan, fondatore di Zhonghao Xinying, una volta lavorava come membro principale dello staff di ricerca e sviluppo di chip presso Google ed è stato profondamente coinvolto nella progettazione e nella ricerca e sviluppo di Google TPU 2/3/4. A suo avviso, la TPU è un'architettura vantaggiosa per i modelli di intelligenza artificiale di grandi dimensioni .

Nel 2023 è nato ufficialmente il chip "Snap" di Zhonghao Xinying. Con le sue esclusive capacità di interconnessione inter-chip ad alta velocità di 1.024 chip, il chip "Snap" ha costruito un cluster di elaborazione intelligente su larga scala chiamato "Taize". Le prestazioni del cluster di sistema sono decine di volte superiori a quelle delle GPU tradizionali si tratta di un AIGC con oltre 100 miliardi di parametri. L'addestramento e l'inferenza di modelli di grandi dimensioni forniscono una garanzia di potenza di calcolo senza precedenti. Questo risultato non solo dimostra la profonda accumulazione di Zhonghao Xinying nel campo della tecnologia della potenza di calcolo dell'intelligenza artificiale, ma conquista anche un posto prezioso per i chip nazionali sulla scena internazionale.

Tuttavia, nell'attuale corsa all'oro dell'intelligenza artificiale, i chip NVIDIA H100 scarseggiano e sono costosi. Le aziende grandi e piccole stanno cercando di sostituire i prodotti chip AI di NVIDIA, comprese le aziende che seguono la tradizionale strada delle GPU, oltre a esplorare nuove architetture aziendali.

Le sfide che la GPU deve affrontare vanno ben oltre il TPU.

Nella ricerca e nello sviluppo del percorso GPU, il più grande rivale di Nvidia èDegenerazione maculare, nel gennaio di quest'anno, i ricercatori hanno utilizzato circa l'8% delle GPU del cluster di supercalcolo Frontier per addestrare un modello di grandi dimensioni al livello GPT 3.5. Il cluster di supercalcolo Frontier è completamente basato su hardware AMD, composto da 37.888 GPU MI250X e 9.472 CPU Epyc 7A53. Questa ricerca ha inoltre superato le difficoltà dei modelli di training distribuiti avanzati su hardware AMD, fornendo un'ampia piattaforma di training per le piattaforme AMD. Il modello verificato la fattibilità.

Allo stesso tempo, l'ecosistema CUDA viene gradualmente disgregato. Nel luglio di quest'anno, l'azienda britannica Spectral Compute ha lanciato una soluzione in grado di compilare in modo nativo il codice sorgente CUDA per le GPU AMD, che ha notevolmente migliorato l'efficienza di compatibilità delle GPU AMD con CUDA.

IntelGaudi 3 ha anche confrontato direttamente Nvidia H100 quando è stato rilasciato. Nell'aprile di quest'anno, Intel ha lanciato Gaudi 3 per modelli di deep learning e intelligenza artificiale generativa su larga scala. Intel ha affermato che, rispetto alla generazione precedente, Gaudi 3 può fornire una potenza di calcolo AI in formato a virgola mobile quattro volte superiore e una larghezza di banda della memoria aumentata di 1,5. tempi e servizio La larghezza di banda della rete per l'espansione su larga scala del sistema viene raddoppiata. Rispetto al chip H100 di NVIDIA, se applicato al modello Meta Llama2 con parametri 7B e 13B e al modello OpenAI GPT-3 con parametri 175B, si prevede che Gaudi 3 ridurrà il tempo di addestramento di questi modelli in media del 50%.

Inoltre, se applicato a Llama con parametri 7B e 70B e al modello Falcon open source con parametri 180B, si prevede che il throughput di inferenza di Gaudi 3 sarà in media del 50% superiore rispetto a H100 e l'efficienza di inferenza sarà in media del 40% superiore. Inoltre, Gaudi 3 offre un maggiore vantaggio in termini di prestazioni di inferenza su sequenze di input e output più lunghe.

Se applicato a Llama con parametri 7B e 70B e al modello Falcon con parametri 180B, la velocità di inferenza di Gaudi 3 aumenta del 30% rispetto a NVIDIA H200.

Intel ha affermato che Gaudi 3 sarà disponibile per i clienti nel terzo trimestre di quest'anno e per gli OEM tra cui Dell, HPE, Lenovo e Supermicro nel secondo trimestre, ma la fascia di prezzo di Gaudi 3 non è stata annunciata.

Lo scorso novembre,MicrosoftAlla Ignite Technology Conference, ha rilasciato il suo primo chip AI autosviluppato Azure Maia 100, nonché Azure Cobalt, un chip utilizzato nei servizi software cloud. I due chip saranno prodotti da TSMC e utilizzeranno la tecnologia di processo a 5 nm.

È stato riferito che i prodotti di fascia alta di Nvidia possono talvolta essere venduti a 30.000-40.000 dollari ciascuno. Si ritiene che i chip utilizzati per ChatGPT ne richiedano circa 10.000, il che rappresenta un costo enorme per le aziende di intelligenza artificiale. Le principali aziende tecnologiche con una grande domanda di chip AI sono alla disperata ricerca di fonti di approvvigionamento alternative. Microsoft ha scelto di sviluppare i propri prodotti nella speranza di migliorare le prestazioni dei prodotti di intelligenza artificiale generativa come ChatGPT riducendo al contempo i costi.

Cobalt è un chip per uso generale basato sull'architettura Arm con 128 core. Maia 100 è un chip ASIC appositamente progettato per i servizi cloud di Azure e i carichi di lavoro AI. Viene utilizzato per l'addestramento e il ragionamento sul cloud e il numero di transistor raggiunge i 105 miliardi. Questi due chip verranno importati nel data center di Microsoft Azure e supporteranno servizi come OpenAI e Copilot.

Rani Borkar, vicepresidente responsabile del dipartimento chip di Azure, ha affermato che Microsoft ha iniziato a testare il chip Maia 100 con Bing e anche il principale partner AI di Microsoft, lo sviluppatore ChatGPT OpenAI. Alcuni commenti del mercato ritengono che i tempi del progetto del chip AI di Microsoft siano casuali, proprio nel momento in cui i modelli linguistici su larga scala coltivati ​​da Microsoft, OpenAI e altre società hanno iniziato a decollare.

Tuttavia, Microsoft non crede che i suoi chip AI possano sostituire ampiamente i prodotti Nvidia. Alcuni analisti ritengono che se gli sforzi di Microsoft avranno successo, ciò potrebbe anche aiutarla a ottenere un vantaggio nelle future negoziazioni con Nvidia.

Oltre ai giganti dei chip, non mancano anche gli effetti delle start-up. Ad esempio, LPU lanciato da Groq, Wafer Scale Engine 3 lanciato da Cerebras, Sohu lanciato da Etched, ecc.

Attualmente Nvidia controlla circa l’80% del mercato dei chip per data center di intelligenza artificiale, mentre la maggior parte del restante 20% è controllato da diverse versioni di Google TPU. La quota di mercato di TPU continuerà ad aumentare in futuro? Quanto crescerà? Ci saranno altre architetture di chip AI che divideranno in tre la struttura del mercato esistente? Si prevede che questa suspense verrà gradualmente rivelata nei prossimi anni.