Dialogo con Xiong Dapeng, presidente di Yizhu Technology: l'integrazione di storage e calcolo potrebbe avviare la seconda curva di crescita della potenza di calcolo nell'era dell'intelligenza artificiale
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
L’esplosione dell’intelligenza artificiale (AI) ha comportato una massiccia domanda di potenza di calcolo Nell’era post-Moore, i processi avanzati di produzione di chip si stanno avvicinando ai limiti fisici e si prevede che l’integrazione di storage e calcolo diventerà uno dei percorsi tecnologici più importanti. in futuro.
L'archiviazione e l'elaborazione sono integrate, ovvero l'archiviazione e l'elaborazione dei dati sono integrate nella stessa area dello stesso chip. In quali aspetti si riflettono i vantaggi in termini di prestazioni e costi dei chip con architettura di archiviazione e calcolo integrati? Quali sono le sfide attuali che la commercializzazione su larga scala deve affrontare? L’integrazione di storage ed elaborazione diventerà una possibilità per l’industria nazionale dei chip di cambiare rotta e superarla?
China Business News ha recentemente avuto uno scambio con Xiong Dapeng, fondatore, presidente e CEO di Yizhu Technology, sugli argomenti sopra menzionati. A suo avviso, la tecnologia integrata di archiviazione e calcolo ha un potenziale di trasformazione nel futuro campo informatico e infrangerà la legge di Moore e avvierà la seconda curva di crescita della potenza di calcolo. "Soprattutto nell'era dell'intelligenza artificiale, questa tecnologia potrebbe diventare un fattore chiave nel guidare la crescita della potenza di calcolo."
Rompi l’architettura di von Neumann ed elimina tre problemi principali
Nella tradizionale architettura von Neumann, le funzioni di calcolo e di archiviazione sono completate rispettivamente da unità di calcolo (CPU, GPU, ecc. XPU) e unità di archiviazione. I dati vengono ottenuti dalla memoria e restituiti alla memoria dopo l'elaborazione. Il tempo richiesto per trasportare e leggere i dati dalla memoria all'esterno dell'unità di elaborazione è spesso molte volte superiore al tempo di elaborazione, con conseguente diminuzione dell'efficienza di elaborazione o della potenza di calcolo effettiva.
"Oggi, quando prevalgono modelli di grandi dimensioni, i parametri del modello devono essere spostati per completare i calcoli. La quantità di parametri è molto grande e il tempo impiegato rappresenta una percentuale elevata, anche più dell'80%. In alcuni casi, questo La proporzione è ancora più alta. Pertanto, la larghezza di banda dei dati limita l'effettiva Le prestazioni effettive del chip possono essere una P, ma le prestazioni effettive potrebbero essere molto inferiori a questo numero Questo è il cosiddetto 'muro di archiviazione'," Xiong Dapeng ha detto a China Business News.
Insieme al problema del "problema del muro di stoccaggio", nel processo di trasmissione viene consumata una grande quantità di energia, con conseguente riduzione significativa del rapporto di efficienza energetica del chip, che è il "problema del muro di energia".
Inoltre, esiste il problema del "muro della compilazione", ovvero la pianificazione dinamica del flusso di dati è complessa e il compilatore non può ottimizzare automaticamente gli operatori e i programmi eseguibili per ottenere l'ottimizzazione del flusso di dati in condizioni statiche e prevedibili. È necessario fare affidamento sul manuale messa a punto per raggiungere questo obiettivo. La maggiore potenza di calcolo effettiva aumenta i tempi e i costi di manodopera dell'implementazione e della migrazione effettive. "Questi tre punti hanno limitato notevolmente lo sviluppo dell'industria dell'intelligenza artificiale, che è sempre più a corto di risorse e ha aumentato significativamente il consumo energetico", ha affermato Xiong Dapeng.
La tecnologia di archiviazione e calcolo integrata rompe l'architettura di von Neumann, integra funzioni di archiviazione e funzioni di calcolo sullo stesso chip e utilizza direttamente unità di archiviazione per l'elaborazione dei dati. Modificando l'architettura di elaborazione in memoria del circuito di "lettura", può essere utilizzata nel circuito di "lettura". "Il risultato dell'operazione viene ottenuto nel circuito e il risultato viene "scritto" direttamente all'indirizzo di destinazione della memoria. Non sono più necessari frequenti trasferimenti di dati tra l'unità di calcolo e l'unità di memorizzazione, eliminando il consumo causato dal movimento dei dati e riducendo notevolmente il consumo energetico, migliorando notevolmente l'efficienza del calcolo.
"Si prevede che la tecnologia di archiviazione e calcolo integrata diventerà uno dei percorsi tecnici più importanti nell'era post-Moore. Dal primo principio di potenza di calcolo effettiva, per l'integrazione di archiviazione e calcolo, la quantità di trasferimento di dati è significativamente ridotta e l'effettiva la potenza di calcolo mostra una crescita lineare. Si può dire che la potenza di archiviazione e quella di calcolo sono integrate L'integrazione informatica infrangerà la legge di Moore e aprirà la seconda curva di crescita della potenza di calcolo potenziale nel futuro campo informatico, soprattutto nell'era dell'intelligenza artificiale, questa tecnologia potrebbe diventare un fattore chiave nel promuovere la crescita della potenza di calcolo", ha affermato Xiong Dapeng.
Una soluzione con migliore efficienza energetica e prestazioni in termini di costi
Rispetto al chip di memoria HBM a larghezza di banda elevata recentemente popolare, il chip con architettura integrata di archiviazione e calcolo offre una migliore efficienza energetica del sistema e prestazioni in termini di costi.
HBM è una tecnologia di interfaccia di memoria ad alte prestazioni utilizzata principalmente per migliorare le capacità di elaborazione dei dati dei sistemi GPU e di calcolo ad alte prestazioni (HPC). Questa tecnologia aumenta notevolmente la larghezza di banda impilando i chip DRAM verticalmente e collegandoli strettamente al processore utilizzando interconnessioni ad alta velocità.
"HBM è una soluzione tecnica efficace per risolvere il problema del 'muro di storage', ma richiede costi e consumo energetico, perché fornire un'ampia larghezza di banda richiede un consumo energetico maggiore, e anche il prezzo è molto costoso, superando di gran lunga il prezzo della DRAM tradizionale." Xiong Dapeng ha affermato: "Essenzialmente, HBM è un chip di memoria e non ha funzioni di calcolo. Deve essere accoppiato con chip di calcolo come GPGPU per ottenere funzioni di calcolo."
Dal punto di vista del costo del sistema, il chip di archiviazione e calcolo integrato potrebbe essere inferiore rispetto alla combinazione di GPGPU tradizionale e HBM.
Da un lato ciò è dovuto alla maggiore densità di potenza di calcolo o PPA dell'architettura di storage e calcolo integrata. "La larghezza di banda dati equivalente dell'architettura integrata di memorizzazione e calcolo è di gran lunga maggiore di quella della HBM, che può essere molte volte o addirittura dieci volte la differenza. Allo stesso tempo, la sua densità di potenza di calcolo è più vantaggiosa. L'effettiva potenza di calcolo effettiva , le prestazioni in termini di costi e il rapporto di efficienza energetica saranno molto più elevati rispetto alla soluzione GPGPU+HBM," ha affermato Xiong Dapeng.
D'altro canto, la tecnologia integrata di storage e calcolo dipende relativamente meno da processi avanzati, mentre sia GPGPU che HBM fanno molto affidamento su processi avanzati. "HBM fa affidamento su processi avanzati e presenta grandi rischi nella catena di fornitura. Tuttavia, se adotta il percorso della tecnologia di storage e calcolo integrata, anche se non utilizza processi avanzati, come 12 nm e 22 nm, le prestazioni potrebbero non essere peggiori di 4 nm o 4 nm" anche 3 miglia Anche questo è un cambiamento.
In termini di prestazioni in termini di costi, sebbene lo storage e l'elaborazione integrati possano richiedere più chip per ottenere le stesse prestazioni, le prestazioni ad alto costo e l'elevato rapporto di efficienza energetica sono uno dei suoi vantaggi significativi.
Potrebbe essere implementato su larga scala nel campo dei modelli di grandi dimensioni nei prossimi 2-3 anni.
La ricerca e l'applicazione della tecnologia informatica e di archiviazione integrata stanno accelerando in tutto il mondo.
Attualmente, tra le grandi aziende estere di chip di elaborazione che adottano il percorso integrato di archiviazione e elaborazione figurano la start-up di chip AI Groq, che ha un valore di oltre 2,8 miliardi di dollari ed è considerata un forte concorrente di Nvidia d-Matrix; ha acquisito Microsoft, Temasek, Samsung, Marvell, Hainan, ecc. Lux, Ericsson e molte altre società hanno investito.
Inoltre, Samsung ha anche pubblicato una ricerca sull'in-memory computing basato su MRAM su Nature e ha dimostrato l'elevata precisione del suo algoritmo AI. SK Hynix ha lanciato prodotti di elaborazione in-memory DRAM basati sull'interfaccia GDDR, che possono aumentare significativamente la velocità di elaborazione e ridurre il consumo energetico.
"Per quanto ne so, la maggior parte delle aziende straniere implementano l'integrazione di storage e calcolo basata su SRAM, ma la sua capacità è bassa e il costo è elevato. Ad esempio, la soluzione completa di Groq richiede più di 570 chip. Se viene utilizzata NVIDIA H100, The numero di chip è solo a una cifra. Ciò è causato principalmente da una densità di archiviazione insufficiente. "Xiong Dapeng ha affermato che molte aziende emergenti nazionali hanno fatto passi avanti nella tecnologia di archiviazione e calcolo integrata, offrendo la possibilità all'industria cinese dei chip di cambiare rotta e superare.
Tuttavia, quando la potenza di calcolo dello storage integrato e dei chip informatici viene ampliata su larga scala, deve ancora affrontare molte sfide: in primo luogo, il problema della precisione inaffidabile; in secondo luogo, sulla base di calcoli analogici, la conversione da digitale ad analogico comporta colli di bottiglia nell’energia; consumo, dimensioni del die e prestazioni; in terzo luogo, i modelli di intelligenza artificiale di grandi dimensioni hanno requisiti di capacità.
"Il percorso completamente digitale può risolvere bene questi problemi, che è anche la base per la tecnologia Yizhu per sviluppare chip di inferenza di grande potenza di calcolo AI", ha affermato Xiong Dapeng.
In un sistema integrato di archiviazione e calcolo analogico generale, i dati vengono archiviati sotto forma di segnali analogici, rappresentati da diversi livelli di tensione all'interno dell'unità di archiviazione, e operazioni come MAC vengono eseguite in base alla legge di Ohm e alle leggi di Kirchhoff. Il problema più grande con questo approccio è che l'accuratezza e l'accuratezza non sono affidabili, a causa del rumore del circuito analogico e di varie variabili. Indipendentemente dal processo di produzione o dall'ambiente di lavoro, i valori rappresentati dal memristor presenteranno errori o derive. I metodi ibridi digitale-analogici cercano di bilanciare i problemi di efficienza e accuratezza, ma non riescono ancora a garantire un'elevata accuratezza e affidabilità dell'accuratezza.
Xiong Dapeng ha introdotto che la soluzione di Yizhu Technology è un'integrazione di archiviazione e calcolo completamente digitale basata su memristor (ReRAM). Poiché è completamente digitale, i dati vengono inseriti nell'unità di memorizzazione in forma binaria. Un memristor rappresenta solo un bit e ci sono solo differenze tra livelli alto e basso, resistenza alta e bassa e corrente alta e bassa. può essere affidabile.
Inoltre, lo sviluppo dell'archiviazione e dell'elaborazione integrata deve affrontare anche problemi di attuazione dei progetti. "Come nuovo percorso tecnologico, come utilizzare e integrare l'ecologia esistente è una grande sfida. La programmabilità e la compatibilità con l'ecologia esistente sono cruciali", ha dichiarato Xiong Dapeng a China Business News.
Nel loro insieme, la tecnologia integrata di archiviazione e calcolo è considerata a livello globale come un mezzo efficace per risolvere la contraddizione tra l’elevata domanda di potenza di calcolo e gli elevati costi di consumo energetico. Fornisce inoltre un’importante opportunità per l’industria cinese dei chip di recuperare terreno. Nei prossimi anni, man mano che la tecnologia continua a maturare e la domanda del mercato aumenta, si prevede che i chip di archiviazione e di elaborazione integrati saranno ampiamente utilizzati in molti campi e promuoveranno lo sviluppo innovativo dell’intero settore. Al momento, l'applicazione di chip di archiviazione e di calcolo integrati nel campo dei modelli di grandi dimensioni è ancora in fase di sviluppo e Xiong Dapeng prevede che sarà implementata su larga scala nei prossimi 2-3 anni.
(Questo articolo proviene da China Business News)