notizia

chi può diventare il sostituto di nvidia?

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autore丨barry

redattore丨guan ju

fonte immagine丨metà viaggio

chi può sostituire nvidia?

nel campo delle gpu per data center, le spedizioni di nvidia raggiungeranno i 3,76 milioni di unità nel 2023, rappresentando quasi il 98% della quota di mercato globale, una quota che si può dire senza rivali.

i chip ai, noti anche come acceleratori ai o schede di calcolo, sono moduli utilizzati specificatamente per gestire un gran numero di attività di calcolo in applicazioni di intelligenza artificiale. includono principalmente processori grafici (gpu), array di gate programmabili sul campo (fpga) e specifici dell'applicazione circuiti integrati (asic) ecc.

secondo gartner, il mercato dei chip ai raggiungerà i 53,4 miliardi di dollari nel 2023, con un incremento del 20,9% rispetto al 2022, e aumenterà del 25,6% raggiungendo i 67,1 miliardi di dollari nel 2024. entro il 2027, si prevede che i ricavi dei chip ai raddoppieranno le dimensioni del mercato nel 2023, raggiungendo i 119,4 miliardi di dollari.

la corsa agli armamenti per la potenza di calcolo organizzata dalle principali aziende giganti è senza dubbio diventata una forte forza trainante per il mercato dei chip ai.

a partire dal 2024, quasi tutti i modelli di grandi dimensioni tradizionali avranno più di 100 miliardi di parametri, llama3 avrà 400 miliardi di parametri e gpt4 avrà 1,8 trilioni di parametri. un modello di grandi dimensioni con trilioni di parametri corrisponde a un cluster di potenza di calcolo estremamente grande con una scala di oltre 10.000 kilobyte.

openai ha almeno 50.000 gpu nvidia di fascia alta, meta ha costruito il proprio cluster di super 10.000 schede composto da 24.576 h100 e google ha un supercomputer a3 composto da 26.000 h100... più di 40.000 aziende hanno acquistato gpu nvidia, aziende come meta, microsoft, amazon e google hanno contribuito per un totale del 40% delle sue entrate.

il rapporto finanziario mostra che il margine di profitto lordo di nvidia ha raggiunto il 71%, di cui il margine di profitto lordo delle serie a100 e h100 ha raggiunto il 90%. come azienda hardware, nvidia ha un margine di profitto lordo più elevato rispetto alle aziende internet.

è stato riferito che i chip ai di nvidia per i data center hanno un prezzo di 25.000-40.000 dollari al pezzo, ovvero 7-8 volte quello dei prodotti tradizionali. kazuhiro sugiyama, direttore della consulenza presso la società di ricerca omdia, ha affermato che i prezzi elevati dei prodotti nvidia rappresentano un peso per le aziende che vogliono investire nell'intelligenza artificiale.

l'elevato prezzo di vendita ha indotto anche molti grandi clienti a cercare alternative. il 30 luglio, apple ha annunciato che il suo modello ai è stato addestrato utilizzando 8.000 tpu di google. oggi è stato presentato anche il primo chip di openai che utilizzerà il processo a livello angstrom a16 più avanzato di tsmc ed è costruito appositamente per le applicazioni video sora.

in tutto il mondo, startup e unicorni di chip ai sono emersi uno dopo l'altro, cercando di rubare cibo a nvidia. tra questi, ci sono gli unicorni sostenuti dalla cina sambanova e il nuovo emergente etched, nonché cerebras systems, un unicorno investito dal ceo di openai altman, che sta correndo verso una ipo il presidente del gruppo softbank masayoshi son dopo aver quotato con successo arm l'anno scorso, in nel luglio di quest'anno ha acquisito graphcore, una società britannica di chip ai, nel tentativo di costruire la prossima nvidia.

sambanova, un chip unicorno ai costruito dai cinesi a stanford

il 27 agosto, la startup statunitense di chip ai sambanova ha presentato in dettaglio per la prima volta il suo primo sistema di chip ai al mondo appena lanciato per modelli di intelligenza artificiale (ai) su scala di trilioni di parametri, basato sul chip ai riconfigurabile data flow unit (rdu) sn40l .

secondo i rapporti, il sistema a 8 chip basato su sn40l di sambanova può fornire supporto per 5 trilioni di modelli di parametri e la lunghezza della sequenza su un singolo nodo del sistema può raggiungere oltre 256k. rispetto al chip h100 di yingwei, sn40l non solo raggiunge 3,1 volte le prestazioni di inferenza dell'h100, ma raddoppia anche le prestazioni di allenamento e il costo totale di proprietà è solo 1/10.

il ceo di sambanova rodrigo liang

i tre cofondatori dell'azienda provengono tutti da stanford. il ceo rodrigo liang è l'ex vicepresidente di sun/oracle. gli altri due cofondatori sono entrambi professori di stanford. inoltre, ci sono molti ingegneri cinesi nel team.

sambanova ha attualmente un valore di 5 miliardi di dollari (circa 36,5 miliardi di yuan) e ha completato 6 round di finanziamento per un totale di 1,1 miliardi di dollari. gli investitori includono intel, softbank, samsung, google venture, ecc.

non solo sfidano nvidia sui chip, ma vanno oltre nvidia anche in termini di modello di business: partecipano direttamente ad aiutare le aziende a formare modelli privati ​​di grandi dimensioni. e i chip non vengono venduti da soli, ma i loro stack tecnologici personalizzati, dai chip ai sistemi server e persino all'implementazione di modelli di grandi dimensioni.

le sue ambizioni per i clienti target sono ancora più grandi: si rivolge alle 2.000 aziende più grandi del mondo. al momento, i chip e i sistemi di sambanova hanno conquistato molti grandi clienti, tra cui i migliori laboratori di supercalcolo del mondo, il giapponese fugaku, l'argonne national laboratory degli stati uniti, il lawrence national laboratory e la società di consulenza accenture.

rodrigo liang ritiene che il prossimo campo di battaglia per la commercializzazione di modelli di grandi dimensioni e di intelligenza artificiale generativa saranno i dati privati ​​delle imprese, in particolare delle grandi imprese. alla fine, invece di eseguire un modello molto grande come gpt-4 o google gemini, l’azienda creerà 150 modelli unici basati su diversi sottoinsiemi di dati, con più di un trilione di parametri aggregati.

questa strategia è in netto contrasto con approcci come gpt-4 e google gemini, che sperano principalmente di creare un modello gigante in grado di generalizzare a milioni di attività.

etched, un'azienda di chip ai fondata da due abbandonati di harvard nati negli anni 2000

i fondatori di etched sono due ragazzi nati nel 2000 che hanno abbandonato harvard. gavin uberti ha ricoperto posizioni senior in octoml e xnor.ai, mentre chris zhu è cinese oltre a servire come ricercatore docente in informatica presso l'università di harvard, ha anche esperienza di stage in aziende come amazon.

erano ottimisti riguardo alla direzione dei modelli di grandi dimensioni prima del rilascio di chatgpt, quindi abbandonarono l'università di harvard nel 2022 e fondarono etched insieme a robert wachen e all'ex chief technology officer di cypress semiconductor mark ross per creare modelli di grandi dimensioni dedicati all'intelligenza artificiale dei chip.

gavin uberti (a sinistra) e chris zhu (a destra)

hanno preso una strada unica: potevano eseguire solo il chip ai di transformer e hanno adottato un design asic. al momento, quasi tutte le soluzioni sul mercato supportano ampiamente i modelli ai e hanno stabilito che il modello transformer dominerà l'intero mercato dalla fine del 2022. ritengono che gli aggiornamenti delle prestazioni della gpu siano troppo lenti e l'unico modo è utilizzare chip asic specializzati solo in questo modo possiamo ottenere un salto di prestazioni.

dopo due anni, etched ha lanciato il suo primo chip ai sohu il 27 giugno di quest'anno, diventando il primo chip al mondo dedicato all'elaborazione transformer.

funziona con modelli di grandi dimensioni 20 volte più velocemente di nvidia h100 e più di 10 volte più velocemente del chip top di gamma b200, lanciato a marzo di quest'anno. un server dotato di otto chip sohu può sostituire ben 160 gpu nvidia h100. pur riducendo notevolmente i costi, non ci sarà alcuna perdita di prestazioni.

poiché sohu supporta solo un algoritmo, la maggior parte dei moduli del flusso di controllo può essere eliminata. il chip può integrare più unità di calcolo matematico e l'utilizzo della potenza di calcolo può raggiungere oltre il 90%, mentre la gpu può fare solo il 30%. per un piccolo team di progettazione, il mantenimento di uno stack software a architettura singola è ovviamente meno stressante.

contemporaneamente al rilascio del chip sohu, etched ha anche annunciato di aver completato un finanziamento di serie a da 120 milioni di dollari, co-guidato da primary venture partners e positive sum ventures.

i principali investitori in questo round di finanziamento includono il noto investitore della silicon valley peter thiel, ex cto della piattaforma di trading di criptovalute coinbase ed ex socio generale di a16z balaji srinivasan, il ceo di github thomas dohmke, il co-fondatore di cruise kyle vogt e il fondatore di quora charlie cheever e di più.

cerebras systems, l'unicorno di chip ai investito da ultraman, prevede di correre per l'ipo

la cosa più singolare di cerebras systems, fondata nel 2015, è che i suoi chip sono molto diversi dalle gpu nvidia tradizionali. in passato, i chip sono diventati sempre più piccoli sotto la guida della legge di moore. prendendo come esempio nvidia h100, ha 80 miliardi di transistor su un'area centrale di 814 millimetri quadrati.

il chip ai di cerebras sceglie di rendere l’intero chip sempre più grande, sostenendo di aver “creato il chip con l’area più grande del mondo”. secondo quanto riferito, il chip wse 3 sviluppato da cerebras è ricavato da un intero wafer, che è più grande di un piatto e richiede una persona che lo sorregga con entrambe le mani. un chip wse 3 ha 4.000 miliardi di transistor (50 volte quello dell'h100) su un'area centrale di oltre 46.000 millimetri quadrati.

i trucioli più grandi del piatto richiedono la presa con entrambe le mani. fonte: ars technica

cerebras afferma che la dimensione del modello di grandi dimensioni ai che il loro chip può addestrare è 10 volte più grande rispetto ai principali modelli di grandi dimensioni del settore attuale (come gpt-4 di openai o gemini di google).

il 27 agosto di quest’anno, cerebras systems ha annunciato il lancio del servizio di inferenza ai cerebras inference, considerato “il più veloce al mondo”. secondo il sito ufficiale, questo servizio di inferenza è 20 volte più veloce del servizio nvidia e garantisce allo stesso tempo una precisione: la larghezza di banda della memoria del processore è 7.000 volte superiore a quella di nvidia, mentre il prezzo è solo 1/5 della gpu e il rapporto prezzo/prestazioni è notevole; aumentato di 100 volte. cerebras inference fornisce inoltre più livelli di servizio, inclusi i livelli gratuito, sviluppatore ed aziendale, per soddisfare le diverse esigenze, dallo sviluppo su piccola scala all'implementazione aziendale su larga scala.

il cofondatore e ceo andrew feldman ha conseguito un mba presso la stanford university e il chief technology officer gary lauterbach è riconosciuto come uno dei migliori architetti informatici del settore. nel 2007, i due hanno co-fondato la società di microserver seamicro, acquisita da amd per 334 milioni di dollari nel 2012, e successivamente si sono uniti ad amd.

secondo quanto riportato dai media stranieri, cerebras systems ha fatto segretamente domanda per una ipo negli stati uniti e sarà quotata in borsa nell'ottobre 2024. attualmente, la società ha raccolto 720 milioni di dollari e ha un valore compreso tra 4,2 e 5 miliardi di dollari. uno dei maggiori investitori individuali è il ceo di openai sam altman. secondo quanto riferito, altman ha partecipato al finanziamento di serie d da 81 milioni di dollari di cerebras.

tenstorrent, affiancato dal leggendario chip master, diventerà il "sostituto" di nvidia

prima del 2021, tenstorrent era ancora un’azienda sconosciuta. tuttavia, l'azienda divenne famosa per un po' quando jim keller, una grande figura nell'industria dei semiconduttori conosciuta come "silicon immortal", annunciò che si sarebbe unito all'azienda come chief technology officer e presidente.

la carriera di jim keller può essere definita la storia dell'industria informatica. dal 1998 al 1999, jim keller ha lavorato all'architettura k7/k8 che supportava athlon presso amd; dal 2008 al 2012, ha assunto la guida dello sviluppo dei processori a4 e a5 presso apple, dal 2012 al 2015, ha presieduto il k12 arm; project presso amd, progetto di architettura zen; dal 2016 al 2018 ha sviluppato chip autopilota fsd presso tesla e dal 2018 al 2020 ha partecipato a progetti misteriosi presso intel.

jim keller si unisce a tenstorrent, sperando di fornire un "sostituto" per le costose gpu di nvidia. crede che nvidia non stia servendo bene alcuni mercati e questi mercati sono esattamente ciò che tenstorrent sta cercando di catturare.

tenstorrent afferma che il suo sistema galaxy è tre volte più efficiente e il 33% meno costoso di nvidia dgx, il server ai più popolare al mondo.

secondo i rapporti, tenstorrent dovrebbe rilasciare il suo processore ai multiuso di seconda generazione entro la fine di quest'anno. secondo l'ultima roadmap di tenstorrent dello scorso autunno, la società intende rilasciare il suo processore ai autonomo black hole e i chiplet quasar a basso consumo e a basso costo per soluzioni ai multi-chip.

l'azienda afferma che i suoi prossimi processori offrono efficienze prestazionali paragonabili alle gpu ai di nvidia. allo stesso tempo, tenstorrent afferma che la sua architettura consuma meno larghezza di banda della memoria rispetto ai suoi concorrenti, il che è una delle ragioni principali della sua maggiore efficienza e dei costi inferiori.

la caratteristica principale del chip tentorrent è che ciascuno dei suoi oltre 100 core ha una piccola cpu, un "cervello nel cervello". i core saranno in grado di "pensare" da soli, decidendo quali dati elaborare per primi se scartare alcuni dati considerati compiti necessari indesiderabili, aumentando così l'efficienza complessiva.

ad oggi, tentorrent ha completato almeno 6 round di finanziamento. in precedenza, gli investitori di tentorrent erano principalmente venture capital, ovvero, dopo l'ingresso di jim keller, la società ha completato un nuovo round di finanziamento di 100 milioni di dollari nell'agosto 2023 e il capitale industriale ha iniziato ad apparire tra gli investitori: hyundai automotive group e samsung catalyst fund. , una divisione di venture capital di samsung.

softbank acquisisce graphcore con uno sconto per creare un concorrente di nvidia

graphcore è stata fondata nel 2016 dal cto simon knowles e dal ceo nigel toon. l'azienda è impegnata nello sviluppo dell'intelligence processing unit (ipu), un processore progettato specificamente per l'intelligenza artificiale e l'apprendimento automatico, con architettura e vantaggi unici, come l'architettura mimd massivamente parallela, l'elevata larghezza di banda della memoria e la sram distribuita locale strettamente accoppiata, ecc.

graphcore ha successivamente lanciato una serie di prodotti basati su ipu, come il processore ipu gc200, bow ipu, ecc., e continua a effettuare aggiornamenti e miglioramenti tecnici.

tuttavia, nel luglio di quest’anno, questa azienda britannica di chip ai in difficoltà è stata acquisita da softbank.

in base all'accordo, graphcore diventerà una consociata interamente controllata da softbank e continuerà a operare con il suo nome attuale. secondo i rapporti, il valore totale della transazione potrebbe raggiungere circa 400 milioni di sterline (circa 500 milioni di dollari, 3,56 miliardi di yuan), ovvero circa l'82% in meno rispetto alla valutazione dell'ultimo round di finanziamento di graphcore di 2,8 miliardi di dollari. softbank lo ha acquistato solo con uno sconto del 20%.

una volta graphcore era considerata la "versione britannica di nvidia". tuttavia, dal 2020, l’azienda non ha ricevuto nuovi investimenti e ha anche perso importanti ordini da parte di microsoft. ciò l’ha resa finanziariamente a corto di risorse e operativamente difficile, e non è riuscita a tenere il passo con la tendenza generale nel campo dei chip ai. allo stesso tempo, gli stati uniti continuano a rafforzare i controlli sulle esportazioni di semiconduttori cinesi per l’intelligenza artificiale, il che influisce anche sullo sviluppo di graphcore in cina. alla fine, graphcore ha dovuto scegliere di ritirarsi dal mercato cinese e perdere un quarto delle sue entrate totali.

questa acquisizione di graphcore non solo consolida la posizione di softbank nel campo dei chip ai, ma rappresenta anche un passo importante nella strategia ai di son.

ex ingegneri di google hanno fondato groq per creare una nuova specie di lpu

nell'agosto di quest'anno, groq ha annunciato il completamento di un finanziamento di serie d da 640 milioni di dollari. gli investitori includono blackrock, cisco investments, samsung catalyst fund, ecc., con una valutazione di 2,8 miliardi di dollari.

l’azienda, fondata nel 2016 dall’ex ingegnere di google jonathan ross, afferma che la sua unità hardware di elaborazione linguistica lpu può eseguire modelli genai esistenti, come gpt-4, dieci volte più velocemente consumando solo un decimo dell’energia. l'azienda ha stabilito un nuovo record di prestazioni del modello llm (large language model) utilizzando llama 2 di meta, a 300 token al secondo per utente.

rispetto alla versatilità della gpu, sebbene la lpu funzioni bene nell'elaborazione del linguaggio, il suo campo di applicazione è ristretto. ciò limita la loro generalizzabilità a una gamma più ampia di compiti di intelligenza artificiale. inoltre, essendo una tecnologia emergente, la lpu non ha ancora ricevuto un ampio sostegno da parte della comunità e anche l’usabilità deve affrontare sfide.

groq prevede di implementare più di 108.000 lpu entro la fine del primo trimestre del 2025, la più grande implementazione di inferenza di intelligenza artificiale al di fuori dei principali giganti della tecnologia.