dialogo alla china computing power conference|l'accademico liu yunjie: la potenza di calcolo nazionale deve compensare le proprie carenze attraverso i cluster gpu
2024-09-29
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
l’era dell’ia (intelligenza artificiale) è anche l’era della potenza di calcolo. le aziende tecnologiche e gli operatori di telecomunicazioni in patria e all'estero hanno "arrotolato" 10.000 o anche più di 10.000 carte, ma anche problemi come la compatibilità ecologica e l'informatica eterogenea sono diventati montagne che l'industria deve scalare.
il 28 settembre, durante la cerimonia di apertura della china computing power conference 2024, liu yunjie, accademico dell'accademia cinese di ingegneria, ha dichiarato in un'intervista a beijing news shell finance e altri media che le gpu endpoint nazionali non saranno ancora in grado di competere con l'estero in un breve periodo di tempo. un possibile modo per compensare le carenze è costruire una rete di potenza di calcolo per “addestrare l’intera potenza di calcolo” e sfruttare appieno l’effetto dei cluster gpu.
inoltre ha sottolineato che non è possibile giudicare semplicemente quale tipo di impresa presenta maggiori vantaggi nella costruzione di una rete di potenza di calcolo, ma soprattutto attraverso la valutazione tecnica. "dipende se la vostra tecnologia può essere utilizzata e sviluppata, e se la vostra innovazione e il percorso che intraprendete soddisfano le esigenze." per quanto riguarda il problema del costo della potenza di calcolo, ha sottolineato ancora che "deve essere risolto con le nuove tecnologie".
allo stato attuale, la tecnologia di rete deterministica studiata da liu yunjie può far risparmiare dal 60% al 70% dei costi. il progetto di pianificazione della rete informatica lanciato da lui insieme ad altre istituzioni può realizzare molteplici corsi di formazione fuori sede per raggiungere l'80% di efficienza del singolo. allenamento a punti.
liu yunjie, accademico dell'accademia cinese di ingegneria. foto per gentile concessione degli intervistati.
si consiglia di seguire il grande modello del settore per risolvere i problemi di circolazione dei dati e di utilizzo della potenza di calcolo.
"la cina deve intraprendere la strada dei modelli industriali su larga scala", ha sottolineato liu yunjie nel suo discorso programmatico. egli ritiene che i grandi modelli nazionali di uso generale potrebbero rimanere molto indietro rispetto agli stati uniti nel breve termine, e sarà difficile recuperare il ritardo.
ha proposto che se le aziende modello nazionali riescono ad addestrare bene i dati del settore e a creare modelli di settore basati su modelli generali di grandi dimensioni, "possono sicuramente seguire il percorso cinese". è ottimista riguardo a questa direzione tecnica perché ritiene che "i dati dell'industria cinese siano i più completi ed esaurienti".
allo stesso tempo, ha affermato che lo sviluppo di modelli industriali su larga scala richiede gli sforzi congiunti del governo, delle imprese e del capitale. ha detto a un giornalista di shell finance che attualmente la condivisione e la circolazione dei dati nazionali devono ancora essere rafforzate, il che ha avuto un impatto sul grande modello del settore della formazione, e "tutti stanno ancora esplorando" quale tipo di percorso è più promettente.
i dati divulgati alla china computing power conference del 2024 mostrano che la scala totale della potenza di calcolo nazionale raggiunge i 246 eflops. secondo l’osservazione di liu yunjie, la potenza di calcolo nazionale ha raggiunto una certa scala, ma il tasso di utilizzo non è proprio ideale.
"se la potenza di calcolo vuole servire l'economia reale, diverse parti devono essere d'accordo." liu yunjie ritiene che prima di tutto la potenza di calcolo e i fornitori di rete debbano fare un buon lavoro, "(perché) hanno ottenuto benefici attraverso questi servizi." inoltre, il governo dovrebbe dire cose positive, "(perché) il governo ha risolto il problema". infine, le aziende devono dire bene, "(perché) le aziende hanno migliorato la propria efficienza utilizzando la potenza di calcolo e internet".
ha sottolineato che l'effetto dell'accordo di una parte non è duraturo, il che significa che l'industria non ha creato un ecosistema di potenza di calcolo. “se non risolviamo il problema ecologico, non saremo in grado di utilizzarlo (la potenza di calcolo).”
la rete deterministica è una delle tecnologie di base della futura rete di potenza di calcolo, che farà risparmiare il 60%-70% dei costi.
"l'addestramento di modelli di grandi dimensioni richiede una trasmissione di dati senza perdite e impone requisiti sugli indicatori di rete come perdita di pacchetti, jitter e ritardo", ha affermato liu yunjie. prendendo come esempio gli standard internazionali dei dati, ha spiegato che se il tasso di perdita dei pacchetti raggiunge i cinque millesimi, l'efficienza di trasmissione diminuirà del 50%.
ha inoltre spiegato che è come utilizzare l'intera larghezza di banda di 100g per trasmettere dati e solo la larghezza di banda di 50g è utile. "quando scende all'1%, la sua efficienza è approssimativamente pari a 0, il che rende impossibile allenarsi e ragionare."
il protocollo rdma (remote direct memory access) è necessario affinché la rete eviti la perdita di pacchetti. questa tecnologia consente al computer di accedere direttamente alla memoria del computer remoto, trasmettere dati a livello di memoria senza interventi frequenti della cpu e ridurre il ritardo di elaborazione e il consumo di risorse dell'estremità di invio e di ricezione durante il processo di trasmissione dei dati.
come soddisfare gli standard di trasmissione dei dati per l'addestramento e l'inferenza di modelli di grandi dimensioni? liu yunjie ritiene che la tecnologia di rete deterministica soddisfi relativamente i requisiti e la giudica "una tecnologia di base per le future reti di potenza di calcolo". liu yunjie ha rivelato che nel 2022 ha guidato il team ad aprire reti deterministiche in 35 città. il numero di città è ora aumentato a 39. può raggiungere un ritardo end-to-end e un jitter inferiori a 50 microsecondi e ottenere una perdita di pacchetti pari a zero. .
nel processo di sviluppo della tecnologia di rete deterministica, liu yunjie ritiene che la svolta tecnologica più importante sia l'integrazione fotoelettrica, che apporta innovazioni nell'utilizzo della larghezza di banda, nei costi di rete e nel consumo energetico.
in termini di costi, ha preso come esempio una certa azienda di guida autonoma e ha spiegato che i dati di guida autonoma generati ogni giorno da 20 veicoli in 4 luoghi in tutto il paese vengono prima rispediti a shanghai e poi a guiyang per la formazione, che richiede circa due circuiti 10g e a 1g costano circa 10 milioni di yuan all'anno.
cosa devo fare se non posso permettermelo? passare all’utilizzo dei dischi rigidi per raccogliere dati e trasportarli tra le due città, tenendo conto della perdita di dati, dei danni al disco rigido, ecc., costerebbe circa 1,9 milioni di yuan all’anno. e utilizzando una rete deterministica per fornire servizi attraverso lo slicing, "120.000 yuan all'anno sono sufficienti".
liu yunjie ha sottolineato che questo livello di riduzione dei costi si ottiene attraverso la condivisione della rete. i dati mostrati nel suo discorso di apertura hanno dimostrato che è in funzione sulla rete di prova da più di tre mesi, con un'efficienza dei parametri che ha raggiunto oltre il 95% e un risparmio sui costi dal 60% al 70%.
sfrutta al massimo l'effetto del cluster gpu per compensare le carenze della potenza di calcolo domestica
è probabile che la rete di potenza di calcolo sia la direzione in cui la potenza di calcolo nazionale supererà la potenza di calcolo straniera in futuro? liu yunjie ha detto che una comprensione più accurata serve a "compensare le carenze". ritiene che in un breve periodo di tempo la nostra gpu endpoint non sarà ancora in grado di competere con i paesi stranieri. "potrei non essere in grado di eguagliarti in un singolo aspetto, ma posso batterti sfruttando la potenza del gruppo." ha inoltre sottolineato che per esercitare l'effetto dei cluster gpu, è necessario costruire una rete per "addestrarsi". l’intera potenza di calcolo.”
crede che i modelli di grandi dimensioni possano adottare il percorso della formazione collaborativa e della formazione distribuita. "se 100.000 carte venissero addestrate in un unico posto, la potenza sarebbe eccessiva". ha rivelato che il suo team ha lanciato il programma insieme all'accademia cinese delle scienze. il national supercomputing wuxi center e altre istituzioni. il progetto di pianificazione della rete nazionale di potenza di calcolo può ottenere l'effetto di risolvere i problemi di coda a livello minuto e la formazione multipla fuori sede può raggiungere l'80% di efficienza della formazione a punto singolo. "fondamentalmente, la formazione distribuita e la formazione collaborativa sono fattibili."
quando si parla di come coordinare il rapporto di sviluppo tra hardware e software informatico, liu yunjie ha proposto che software e hardware debbano essere combinati e integrati per lo sviluppo.
la produzione di hardware consuma risorse geofisiche, ha affermato. "(ogni volta) consuma un po', le risorse sono un po' meno." il software è relativamente flessibile, può essere modificato e consuma meno risorse fisiche. "questo è un concetto di sviluppo sociale molto importante." inoltre, liu yunjie ritiene che lo sviluppo del software consumi una certa quantità di risorse umane, ma dopo l'applicazione dell'intelligenza artificiale, l'efficienza dello sviluppo è stata accelerata. ha poi proposto di sviluppare il più possibile tutte le parti che possono essere sostituite dal software.
"ma il software non è onnipotente e deve soddisfare le condizioni hardware richieste dalla potenza di calcolo." egli ritiene che le parti che il software non può sopportare debbano essere sviluppate insieme all'hardware.
come creare un ecosistema di rete di potenza di calcolo condivisa? liu yunjie ha suggerito che i dipartimenti governativi competenti dovrebbero coordinarlo e gestirlo, e che le imprese e gli istituti di ricerca scientifica dovrebbero cooperare strettamente. "si tratta di un progetto complessivo, ma attualmente ognuno sta lavorando per conto proprio."
wei yingzi, giornalista della beijing news shell finance
redattore lin zi
correzione di bozze di liu jun