Esperto: la Cina non può fare affidamento su “schede impilabili” per sviluppare AI

Esperto: lo sviluppo dell’intelligenza artificiale in Cina non può basarsi su “schede impilabili”

2024-07-29

Fonte: Global Times

[Global Times Reporter Ma Jun] Gli Stati Uniti fanno affidamento sui propri vantaggi in termini di software e hardware per utilizzare la propria scala per costruire l'intelligenza artificiale (AI) più potente del mondo. Il miliardario americano Musk ha recentemente annunciato sui social media che la sua start-up di intelligenza artificiale xAI ha iniziato a utilizzare un "Memphis Super Cluster" composto da 100.000 GPU H100 per l'addestramento all'intelligenza artificiale, sostenendo di essere "il cluster di addestramento all'intelligenza artificiale più potente al mondo". La Cina dovrebbe seguire questo percorso tecnologico guidato dagli Stati Uniti? Recentemente, al seminario degli esperti sullo sviluppo della potenza informatica cinese del 2024, co-sponsorizzato dalla China Intelligent Computing Industry Alliance e dal gruppo di lavoro sugli standard di potenza computazionale del National Beacon Committee, numerosi accademici ed esperti hanno espresso le loro rispettive opinioni.

Il futuro dell’integrazione della super-intelligenza sarà diviso in tre fasi

Chen Runsheng, accademico dell'Accademia cinese delle scienze, ha dichiarato al seminario: "I grandi modelli di intelligenza artificiale sono rappresentanti di una nuova produttività. Lo sviluppo integrato di grandi modelli e di supercalcolo è molto importante. Il nostro Paese deve seriamente pianificarlo e considerarlo ." Zhang Yunquan, ricercatore dell'Istituto di tecnologia informatica dell'Accademia cinese delle scienze, ha affermato che il rapido sviluppo di modelli di grandi dimensioni dimostra le caratteristiche di una nuova produttività, ma attualmente incontra anche un collo di bottiglia nella potenza di calcolo. In considerazione della profonda accumulazione tecnologica della Cina nel campo del supercalcolo, si spera che la fusione superintelligente (la fusione tra supercalcolo e calcolo intelligente rappresentata da modelli di grandi dimensioni) possa risolvere efficacemente questa sfida. Shan Zhiguang, direttore del Dipartimento di informazione e sviluppo industriale del Centro nazionale di informazione, ha spiegato: "La fusione superintelligente è nata con l'attuale sviluppo diversificato della potenza di calcolo di base, della potenza di calcolo intelligente, della potenza di supercalcolo, ecc., cioè, se può utilizzare risorse informatiche ibride o sistemi informatici integrati per soddisfare le esigenze applicative di più risorse informatiche diverse contemporaneamente.

Nel prevedere il futuro processo di integrazione della super-intelligenza, Qian Depei, accademico dell'Accademia cinese delle scienze, ritiene che esso si evolverà chiaramente lungo le tre fasi dell'intelligenza artificiale, dell'intelligenza artificiale e dell'essere intelligenza artificiale, evolvendosi a tutto tondo. dall'hardware al software per adattarsi e promuovere lo sviluppo della tecnologia. Nella prima fase per l’intelligenza artificiale, si concentrerà sulla trasformazione e l’aggiornamento dei sistemi informatici esistenti e sullo sviluppo di hardware dedicato per garantire che le attività di intelligenza artificiale possano essere supportate ed eseguite in modo efficiente e per fornire una solida infrastruttura per la ricerca sull’intelligenza artificiale. Nella seconda fase dell'intelligenza artificiale, l'intelligenza artificiale verrà utilizzata per trasformare l'informatica tradizionale. Da un lato, i metodi dell'intelligenza artificiale verranno utilizzati per risolvere i problemi del supercalcolo tradizionale, dall'altro, l'intelligenza artificiale influenzerà anche la struttura dei computer tradizionali diventare evidente. Nella fase finale dell'intelligenza artificiale, il sistema informatico presenterà caratteristiche intelligenti intrinseche. L'intelligenza artificiale non è più un'abilità esterna, ma è diventata l'attributo principale e il componente di base del computer l’intelligenza sarà molto diversa. Supererà il supercalcolo o l’informatica intelligente di cui disponiamo oggi.

Chen Runsheng ha notato che la comunità scientifica e l'industria stanno cercando di risolvere il problema dell'integrazione del supercalcolo e dell'informatica intelligente. Ad esempio, l'ultima architettura GB200 di Nvidia è in realtà composta da due GPU più una CPU. In un certo senso, può essere considerata come un sistema che sfrutta sia il calcolo intelligente che il supercalcolo. Nel layout di due GPU che eseguono l'apprendimento automatico, l'aggiunta della CPU fornisce l'alta velocità trasmissione dati. Ma ritiene che questa architettura non risolva fondamentalmente il problema dell’efficienza. “La combinazione di supercalcolo e calcolo intelligente è inevitabile e sarà integrata organicamente anziché semplicemente messa insieme”.

Zheng Weimin, accademico dell'Accademia cinese di ingegneria, ha inoltre affermato che tutti gli aspetti dello sviluppo, della formazione, della messa a punto e dell'inferenza di modelli di grandi dimensioni sono inseparabili dalla potenza di calcolo e che il costo della potenza di calcolo rappresenta la maggior parte del costo complessivo. la spesa, soprattutto nella fase di formazione, che arriva al 70%. Nella fase di ragionamento arriva al 95%. In considerazione di ciò, la potenza di calcolo è diventata un fattore chiave a supporto dello sviluppo di modelli di grandi dimensioni.

L'informatica intelligente dovrebbe riferirsi all'"intelligenza umana"

Accademici ed esperti cinesi hanno espresso il proprio punto di vista sull'attuale mania dei modelli su larga scala in Cina e sul percorso tecnologico per seguire la "scala del reattore" degli Stati Uniti. Qian Depei ha affermato che la Cina ora ha più modelli su larga scala in numero e tipologia rispetto agli Stati Uniti, e sono anche impegnati nell'intelligenza artificiale generale. Tuttavia, non solo siamo strettamente limitati dagli Stati Uniti in termini di hardware, ma anche la qualità dei dati utilizzati per l'addestramento del modello su larga scala. Sia il modello che la quantità sono relativamente piccoli "Il modello di grandi dimensioni prodotto in questo modo può essere migliore di quello degli Stati Uniti? Penso che dobbiamo ancora conformarsi a quello nazionale cinese. condizioni e non possono seguire completamente gli americani."

Chen Runsheng ritiene inoltre che i grandi modelli attualmente emergenti in Cina siano fondamentalmente miglioramenti rispetto ai grandi modelli e agli algoritmi proposti dagli Stati Uniti, ma c’è poca considerazione della teoria di base dell’intero grande modello. Durante il seminario ha sottolineato che rispetto al modello di memoria locale utilizzato dai supercomputer tradizionali, l'informatica intelligente presenta una differenza fondamentale: l'archiviazione distribuita delle informazioni. Questo metodo di archiviazione imita la complessa struttura della rete neurale del cervello umano, trasportando modelli sempre più grandi attraverso reti di chip su larga scala e densamente interconnesse. Tuttavia, come integrare efficacemente la conoscenza umana in questi sistemi complessi e come le informazioni vengono distribuite e archiviate nel sistema, gli algoritmi e le teorie tecniche alla base non sono stati ancora completamente esplorati. "Con l'espansione incontrollata della scala dei modelli, un problema insormontabile è il consumo di energia. Pertanto, non è del tutto consigliabile aggiungere ciecamente chip e fare affidamento sulla crescente complessità del sistema per risolvere il problema di stoccaggio dei modelli di grandi dimensioni."

Pertanto, Chen Runsheng ritiene che il futuro dell'informatica intelligente dovrebbe ancora riferirsi all'"intelligenza umana", che consiste nel simulare il meccanismo operativo del cervello umano. Il cervello umano è molto piccolo e consuma solo decine di watt di energia, ma l’intelligenza che genera supera l’attuale intelligenza artificiale all’avanguardia, che consuma tanta energia quanto un’intera città. "Lo sviluppo di modelli di grandi dimensioni e di calcolo intelligente richiede non solo miglioramenti nei modelli e negli algoritmi a livello applicativo, ma richiede anche scoperte dal punto di vista della teoria di base. Attualmente, i modelli di grandi dimensioni hanno sviluppato solo il primo 10% e il 90% del il lavoro non è stato fatto Credo anche che i modelli di grandi dimensioni non si ottengono sicuramente impilando sempre più chip. Devono imparare come il cervello umano, comprimendo la complessità dello spazio e della complessità del tempo per essere più piccoli e riducendo il consumo di energia Penso che sia il più basilare. Il problema è studiare l’attuale complessità dello spazio per completare la teoria di base dell’informatica intelligente. Se riusciamo a fare qualche progresso nella teoria di base, possiamo raggiungere un’innovazione fondamentale e originale”.

Yuan Guoxing, ricercatore presso l'Istituto di fisica applicata e matematica computazionale di Pechino, ritiene che sia impossibile aspettarsi che un modello generale di grandi dimensioni sia in grado di risolvere problemi in tutti gli ambiti della vita. Dalla situazione reale, applicazioni diverse hanno tecnologie diverse, richiedono algoritmi diversi e hanno requisiti diversi in termini di potenza di calcolo. Ad esempio, nell’informatica scientifica, i requisiti di precisione dei calcoli diventano sempre più elevati. Man mano che la scala dei computer si espande, ci sono sempre più dati e la loro credibilità diminuisce costantemente. Anche la National Aeronautics and Space Administration (NASA) ha sottolineato un punto simile e ha requisiti molto elevati per la precisione dei calcoli. Pertanto, diverse applicazioni in futuro avranno diversi modelli di grandi dimensioni e diversi calcoli per risolvere diversi problemi. I grandi modelli di oggi hanno requisiti completamente diversi in termini di precisione di calcolo e algoritmi.

He Baohong, direttore dell'Istituto di Cloud Computing e Big Data dell'Accademia cinese di tecnologia dell'informazione e della comunicazione, ha aggiunto: "L'informatica e la formazione hanno requisiti diversi per l'infrastruttura sottostante, ed è anche necessario determinare in quali scenari le differenze dovrebbero essere protetti e in quali scenari dovrebbero riflettersi le differenze."

Necessità di sviluppare modelli di grandi dimensioni a livello sovrano

Zhang Yunquan ha affermato che gli Stati Uniti hanno recentemente cercato di "bloccare" il mio Paese nello sviluppo dell'intelligenza artificiale attraverso una serie di azioni, tra cui il divieto della vendita di GPU di fascia alta, la fine della condivisione del codice sorgente per i modelli di grandi dimensioni e l'interruzione cooperazione ecologica. Allo stesso tempo, quando la scala di calcolo dei modelli di grandi dimensioni raggiunge ora le 10.000 GPU, o addirittura le 100.000 GPU, è necessario sviluppare supercomputer speciali per modelli di grandi dimensioni per superare i colli di bottiglia tecnici come i muri di consumo energetico, i muri di affidabilità e i muri paralleli. In questo contesto, se la Cina vuole superare a breve termine il collo di bottiglia della potenza di calcolo dei modelli di grandi dimensioni, ha una strada da percorrere: utilizzare la tecnologia avanzata di supercalcolo accumulata negli ultimi due decenni per sviluppare supercomputer dedicati a modelli di grandi dimensioni per superare la collo di bottiglia della potenza di calcolo dei modelli di grandi dimensioni, in modo che il nostro Paese possa afferrare saldamente il livello più avanzato dei grandi modelli globali e non rimanere indietro.

Quando Zhang Yunquan introdusse il piano "Sovereign Large Model" nell'ambito del sistema di fusione superintelligente, affermò che il nostro Paese ha una profonda accumulazione tecnologica nel campo del supercalcolo. Negli ultimi anni ha investito enormi quantità di denaro nello sviluppo dell'intelligenza potenza di calcolo, concentrandosi sulla creazione di un sistema di potenza di calcolo di fusione super-intelligente come centro. L'ingegneria del sistema risponde alle esigenze di potenza di calcolo di modelli di grandi dimensioni, sperando di massimizzare l'uso dei vantaggi della tecnologia di supercalcolo per risolvere le sfide di potenza di calcolo. Secondo l'implementazione del piano "Sovereign Level Large Model", il consorzio di innovazione "Sovereign Level Large Model" farà affidamento sul supercomputer nazionale, su noti team di professori dell'Accademia cinese delle scienze e sulle principali università nazionali, aziende di chip intelligenti, società di soluzioni di modello di grandi dimensioni, ecc. per creare congiuntamente un'organizzazione aperta simile di OpenAI è sviluppata dal settore non profit per organizzare il "modello di grandi dimensioni a livello sovrano" e il settore for-profit è organizzato per implementare il "modello di grandi dimensioni a livello sovrano ". Ha suggerito che il supercomputer è "l'arma più importante del Paese" e deve essere utilizzato per superare le sfide più grandi e difficili. Il grande modello a livello sovrano è un modello radice in grado di sostenere lo sviluppo nazionale, non un normale modello di grandi dimensioni. Simili supermodelli a livello nazionale hanno ricevuto grande attenzione anche da altri paesi. Ad esempio, Microsoft negli Stati Uniti e OpenAI hanno annunciato piani per investire 100 miliardi di dollari in un nuovo supercomputer di intelligenza artificiale. Anche il Giappone ha recentemente annunciato che investirà molto lo sviluppo di modelli a livello nazionale.

Chen Runsheng ritiene che, viste le attuali condizioni di base della Cina e l'inevitabile tendenza allo sviluppo di modelli di grandi dimensioni, non sia realistico per noi seguire completamente l'approccio occidentale e sarà difficile recuperare il ritardo a breve termine. Pertanto, è ancora più importante trovare un modo per sviluppare modelli su larga scala a livello sovrano.

notizia

Esperto: lo sviluppo dell’intelligenza artificiale in Cina non può basarsi su “schede impilabili”

introduzione

le mie informazioni di contatto