notizia

Viene rilasciata la prima piattaforma di allenamento mista con chip eterogenei su scala kilocalorica!Wuwen Xinqiong: Lascia che il mondo non abbia una potenza di calcolo AI difficile da usare

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cose intelligenti
AutoreZeR0
L'editore Mo Ying

“Prima di aprire il rubinetto, non abbiamo bisogno di sapere da quale fiume proviene l’acqua. Allo stesso modo, quando in futuro utilizzeremo varie applicazioni di intelligenza artificiale, non sapremo quali modelli base richiama e quali carte acceleratrici utilizza. Potenza di calcolo: questa è la migliore infrastruttura AI Native."

Tale infrastruttura AI Native deve essere costruita insieme da tutti. Il 4 luglio, all'AI Infrastructure Forum della World Artificial Intelligence Conference 2024, Xia Lixue, co-fondatore e CEO di Wuwen Core Dome, ha rilasciato la prima piattaforma di allenamento ibrido con chip eterogeneo su scala kilocalorica, l'allenamento ibrido eterogeneo kilocalorie cluster L'utilizzo della potenza di calcolo raggiunge un massimo del 97,6%.


Allo stesso tempo, Xia Lixue ha annunciato che la piattaforma cloud Infini-AI di Wuwen Core Dome ha integrato funzionalità di formazione mista con chip eterogenei su scala kilo-card di grandi dimensioni. È la prima piattaforma al mondo in grado di eseguire formazione mista con chip eterogenei su scala kilo-card a compito singolo e ha una scalabilità di 10.000 ka. Supporta l'addestramento misto di modelli di grandi dimensioni, inclusi sei chip eterogenei di AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread e NVIDIA.

A partire da luglio, gli utenti che richiedono un corso di prova potranno avviare con un clic un corso di formazione su modelli di grandi dimensioni con una scala di 70 miliardi di parametri su Infini-AI.

Solo 4 mesi fa, la piattaforma cloud di servizi e sviluppo di modelli di grandi dimensioni Infini-AI di Wuwen Xinqiong ha annunciato la sua prima beta pubblica. I clienti di grandi aziende di modelli come Zhipu AI, Dark Side of the Moon e Shengshu Technology utilizzano stabilmente Infini-AI. Potenza di calcolo eterogenea e più di 20 startup di applicazioni AI native continuano a chiamare vari modelli API preimpostati su Infini-AI e utilizzano la catena di strumenti fornita da Wuwen Xinqiong per sviluppare i propri modelli di business.

Il lancio della prima piattaforma al mondo in grado di eseguire l'addestramento misto di chip eterogenei su scala kilocard non è solo un riflesso della forza tecnica di Wuwen Core Dome nell'ottimizzazione del calcolo eterogeneo e nella progettazione di sistemi cluster, ma anche un riflesso dell'adesione di Wu Wen Core Dome a "MxN" Un risultato importante del concetto ecologico dello strato intermedio.

Wuwen Xinqiong ha preso l'iniziativa nella costruzione di un modello ecologico dello strato intermedio "MxN" per ottenere un'implementazione efficiente e unificata di più algoritmi di modelli di grandi dimensioni su più chip.

La piattaforma Infini-AI ha supportato più di 30 modelli tra cui Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, serie ChatGLM3 e AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, più di 10 tipi di elaborazione le schede, tra cui Muxi, Moore Thread e NVIDIA, non solo supportano la connessione uno a uno tra un singolo algoritmo e un chip, ma supportano anche la corrispondenza e la combinazione libere di più modelli e più chip.

Secondo Xia Lixue, si prevede che entro la fine di quest’anno Wuwen Xinqiong implementerà completamente il routing automatico M×N dal modello al chip.


1. Il cluster Wanka è un campo di battaglia per strateghi militari su larga scala e il paese incontra difficoltà nell’aprire l’ecosistema.

Xia Lixue, co-fondatore e CEO di Wuwen Core Dome, ritiene che la potenza di calcolo sia l’avamposto e la pietra angolare dello sviluppo dell’intelligenza artificiale. La scala dei modelli apparsi dopo GPT-4 non è ulteriormente aumentata in modo esponenziale e la potenza di calcolo richiesta per supportare l’algoritmo ha incontrato un collo di bottiglia. Attualmente nessuno può implementare un sistema di grandi dimensioni con una scala più ampia e una maggiore quantità di calcoli per un singolo modello, che fa entrare lo sviluppo del modello in una nuova fase. In uno stato di rallentamento e stagnazione, in altre parole, il sistema di potenza di calcolo che supporta le capacità del modello per passare alla generazione successiva deve ancora essere sviluppato e costruito. .

I grandi modelli competono nella potenza di calcolo globale sotto l’influenza della legge di scala. Secondo alcuni rapporti, Microsoft e OpenAI stanno costruendo un grande progetto di potenza di calcolo del valore di oltre 100 miliardi di dollari USA. Rispetto a molte altre tecniche, questa espansione su scala semplice e grezza offre il ritorno più pratico sull’intelligenza del modello. Google, OpenAI, così come i principali produttori nazionali e i tre principali operatori stanno costruendo grandi cluster su scala Wanka.

In un sistema iterativo, ampio e stabile veramente sostenibile, la Legge di Scaling presenta vantaggi unici. Non ha così tante tecniche avanzate ed è più facile da mantenere ed espandere. Per un sistema che necessita davvero di funzionare a lungo, la scalabilità è un attributo molto importante e un sistema scalabile è un buon sistema.


Il grafico IDC mostra che la domanda di potenza di calcolo per la futura deduzione e formazione dell’IA si sta sviluppando rapidamente in tutto il mondo e sia la formazione che l’inferenza richiedono il supporto di potenti risorse informatiche. L’ecologia nazionale ed estera dietro questo enorme mercato è molto diversa. Il modello dello strato del modello ecologico estero e dello strato dei chip è relativamente concentrato, mentre l’ecosistema cinese è relativamente decentralizzato e vivace. Sia lo strato del modello che lo strato dei chip competono per espandere il mercato della potenza di calcolo e affrontano molte questioni chiave nell’apertura ecosistema.


L'Ammasso Wanka è un campo di battaglia per strateghi militari su larga scala. Xia Lixue ha condiviso che ora ci sono più di 100 cluster di kilocard in costruzione o pianificati in Cina, e la maggior parte di essi ha una potenza di calcolo eterogenea. Molti cluster utilizzano diversi servizi di chip e sono impegnati nella produzione di intelligenza artificiale. Le ragioni includono la possibilità di rischi per la catena di approvvigionamento derivanti da un’eccessiva dipendenza da un’unica piattaforma hardware e i rapidi miglioramenti delle prestazioni dei chip nazionali che forniscono alle parti del cluster una varietà di opzioni.

Tuttavia, un gran numero di chip eterogenei hanno formato anche "silos ecologici". Diversi ecosistemi hardware sono chiusi e incompatibili tra loro. Gli stack software non possono essere ben coordinati e collegati. L'uso della potenza di calcolo deve affrontare una serie di sfide ingegneristiche molto complesse. Anche se esistono molti cluster di potenza di calcolo, è ancora difficile ottenere un'integrazione e un utilizzo efficaci. Questo è uno spreco di risorse di potenza di calcolo. Non solo è diventato la difficoltà più grande nella costruzione di infrastrutture AI native, ma anche un motivo importante per cui L'attuale industria dei modelli di grandi dimensioni si trova ad affrontare una "carenza di potenza di calcolo".


Wuwen Core Dome vuole costruire un'infrastruttura nativa AI in grado di adattarsi al panorama ecologico multi-modello e multi-chip della Cina, fornire un'utile piattaforma informatica che integri in modo efficiente risorse informatiche eterogenee e un middleware che supporti l'ottimizzazione congiunta e l'accelerazione di software e hardware. , rompendo i "silos ecologici" esistenti e consentendo a chip e cluster eterogenei di trasformarsi realmente in una grande potenza di calcolo.


Le attività di inferenza dell'addestramento dell'intelligenza artificiale sono molto diverse dall'elaborazione tradizionale. Ad esempio, una singola attività sarà ampia e frenetica. Pertanto, se non viene adottata una strategia di pianificazione più nativa dell'intelligenza artificiale, l'utilizzo delle risorse dell'intero sistema sarà molto basso o addirittura. Di conseguenza, le attività dei clienti spesso si interrompono e si riavviano, ritardando così il processo di sviluppo dell’intelligenza artificiale.

La soluzione di Wuwenxinqiong ha alla base un sistema di gestione cloud completo, comprese funzionalità di pianificazione e piattaforme PaaS e MaaS. Quanto segue equivale a una base di potenza di calcolo per la collaborazione sul cloud, che consente a sviluppatori e ricercatori di modelli di grandi dimensioni di trasferirsi con le loro borse e utilizzare rapidamente diverse potenze di calcolo.

La piattaforma di servizi MaaS costruita su questa base, ovvero la piattaforma di servizi di set di modelli, può fornire molti servizi modello di grandi dimensioni con applicazioni flessibili per aiutare alcune aziende che sono ancora nel periodo di apprendimento dell'intelligenza artificiale a sviluppare rapidamente alcune applicazioni su larga scala di modelli di grandi dimensioni.


2. Ottenere una formazione incrociata di diversi chip e ridurre i costi di implementazione di applicazioni di modelli di grandi dimensioni

Dietro una serie di progressi nella produzione e nella ricerca, il team di ricerca e sviluppo di Wuwen Xinqiong ha molta esperienza pratica e risultati nell'ottimizzazione del chip computing eterogeneo e nella progettazione di sistemi cluster.

Recentemente, il gruppo di ricerca congiunto di Wuwen Xinqiong, Tsinghua University e Shanghai Jiao Tong University ha rilasciato HETHUB, un sistema di formazione ibrido distribuito eterogeneo per modelli su larga scala. Questa è la prima volta nel settore che è stata ottenuta una formazione mista tra sei diverse marche di chip e il livello di completamento della progettazione è elevato. Secondo Xia Lixue, l'intenzione originale di progettare questa tecnologia è quella di continuare a spingere il limite superiore delle capacità tecniche dei modelli di grandi dimensioni integrando una potenza di calcolo più eterogenea e, allo stesso tempo, aprendo l'eterogeneo ecosistema di chip, continuare a ridurre la costo di implementazione di applicazioni di modelli di grandi dimensioni.


Ha affermato che le due principali sfide affrontate nella costruzione del sistema sono state la comunicazione e la formazione distribuita. Librerie di comunicazione diverse per architetture hardware diverse equivalgono ad avere due persone che utilizzano linguaggi completamente diversi per completare un progetto di grandi dimensioni. Le schede eterogenee presentano molte differenze di prestazioni dovute a concetti di progettazione diversi e si adattano a compiti diversi, risultando in una varietà di differenze l'efficienza mostrata da diversi tipi di carte può rendere inefficiente la formazione distribuita su larga scala.

Pertanto, il suo team ha svolto molto lavoro, tra cui:


1. In termini di comunicazione, istituire una biblioteca di comunicazione collettiva universale per ottenere una comunicazione efficiente di diversi tipi di chip ed essere compatibile con molti tipi di hardware;

2. Proporre uno schema di suddivisione non uniforme basato sul parallelismo delle pipeline per risolvere il problema delle diverse efficienze hardware e assegnare i compiti più adatti in base alla propria situazione;

3. Lo strumento di previsione dell'allenamento misto auto-sviluppato può prevedere in anticipo il valore di ciascun chip all'inizio dell'allenamento, trovando così una strategia di suddivisione ottimale per completare l'intero compito di allenamento e formare la soluzione migliore su diverse carte.

A giudicare dall'effettivo effetto dell'allenamento misto, Wuwen Xinqiong ha eseguito molte combinazioni che possono raggiungere più del 70% e l'utilizzo della potenza di calcolo può arrivare fino al 97,6%. L'allenamento misto su 6 diverse combinazioni di chip ha raggiunto una scala di kilocalorie .


In precedenza, Wuwen Xinqiong aveva ottenuto l’inferenza M×N, ma ora ha ottenuto l’addestramento M×N, il che rappresenta un grande passo avanti.

Tale funzionalità è integrata nella piattaforma Infini-AI esistente. La piattaforma ha la capacità di consentire agli utenti di distribuire in modo efficiente applicazioni e servizi sulla piattaforma. Dopo aver aggiunto funzionalità di formazione miste, può supportare la combinazione incrociata di 6 marchi, eliminando il collo di bottiglia della formazione di un singolo marchio mondo a supporto delle kilocalorie eterogenee Una piattaforma per allenamenti misti.

Il livello superiore di Infini-AI supporta una varietà di strategie di formazione, tra cui il parallelismo dei tensori, il parallelismo dei dati e la sovrapposizione delle comunicazioni, che possono ottenere una formazione efficiente e supportare la formazione di modelli di grandi dimensioni con oltre 70 miliardi di token, nonché la formazione mista con un clic di grandi dimensioni -modelli in scala. Utilizzando questa piattaforma, gli sviluppatori non devono dedicare più tempo a considerare le differenze nella potenza di calcolo sottostante, possono personalizzare rapidamente i propri modelli di grandi dimensioni su un cluster ibrido composto da diversi chip e implementare rapidamente la propria attività.

3. Pianificazione efficiente + tolleranza agli errori efficiente per garantire il completamento stabile delle attività su cluster di grande potenza di calcolo

Dopo aver costruito un grande cluster di potenza di calcolo, uno dei compiti principali da affrontare è come utilizzarlo? Ciò comporta problemi di pianificazione efficiente. Un efficiente sistema di pianificazione della potenza di calcolo può rendere le risorse eterogenee integrate meglio utilizzate da tutti gli utenti.

Wuwen Core Dome ha fatto molti progressi nel sistema di pianificazione efficiente della potenza di calcolo. La gestione unificata di cluster multi-eterogenei può supportare più di dieci tipi di chip e costruire più di 10.000 sistemi di potenza di calcolo a livello di scheda serie di ibridi La progettazione della strategia di pianificazione rende il ritardo medio di pianificazione delle attività a livello di millisecondi e l'utilizzo delle risorse dell'intero cluster di sistema può essere mantenuto al di sopra del 90%. Migliorando la base dell'intero contenitore AI, Wuwen Xinqiong può aumentare lo SLO dell'intero cluster al 99,95% in uno scenario multi-tenant e la scalabilità è molto elevata.

Oltre alla pianificazione, quando si esegue la formazione del modello, la formazione non può essere riavviata continuamente. Wuwen Core Qiong ha sviluppato un efficiente sistema di addestramento con tolleranza agli errori, incluso un sistema di runtime tollerante agli errori per modelli di grandi dimensioni, un sistema di previsione di anomalie degli indicatori ibridi e un sistema di lettura e scrittura asincrona di checkpoint.


La parte di tolleranza agli errori ha aumentato del 30% il tempo di addestramento effettivo dei modelli di grandi dimensioni, il tasso di successo del rilevamento di anomalie dei modelli di grandi dimensioni è stato aumentato al 70% e la maggior parte degli errori può essere scoperta ed evitata in anticipo. L'efficienza di lettura e scrittura dei checkpoint è stato aumentato di 20 volte e il terminale anomalo dei modelli di grandi dimensioni è stato migliorato. Il tempo è stato ridotto a meno di 5 minuti, il che può garantire il completamento stabile delle attività su cluster di grande potenza di calcolo.

Per facilitare agli sviluppatori un utilizzo migliore del cluster, la piattaforma integra le capacità tecniche di ottimizzazione del sistema di servizi modello di grandi dimensioni di Wuwenxinqiong Quando si incontra un'elevata concorrenza e più utenti che inviano richieste contemporaneamente, attraverso la pianificazione delle richieste, tecnologie come la memorizzazione nella cache delle parole tempestiva possono. aiuta a gestire meglio le attività e a restituire i risultati dei calcoli, il che può aumentare la velocità di throughput di oltre 30 volte, rendendo le applicazioni più fluide e fluide.


Conclusione: lasciamo che non esista al mondo una potenza di calcolo dell’intelligenza artificiale difficile da usare

"Non c'è contraddizione tra l'innalzamento del limite tecnico e l'implementazione e la diffusione della tecnologia, e dipende da come siamo determinati a trattare questa tecnologia. Xia Lixue ritiene che parlare di ridurre il costo dei modelli di grandi dimensioni a 1/10.000 oggi sia giusto." come parlare di elettrificare ogni famiglia 30 anni fa.

Un'infrastruttura eccellente è una tale "magia". Quando il costo marginale scende a un valore critico, più persone possono abbracciare le nuove tecnologie.


Attualmente, lo sviluppo dell'industria dei modelli di grandi dimensioni sta entrando nella fase di implementazione industriale su larga scala. Il fiorire di scenari applicativi ha comportato una necessità sempre più urgente di formazione sui modelli di grandi dimensioni. Costruire un'infrastruttura AI Native nell'era dei modelli di grandi dimensioni non solo può fornire agli sviluppatori di IA un ambiente di ricerca e sviluppo più versatile, efficiente e conveniente, ma è anche una pietra miliare fondamentale per ottenere un'integrazione efficace delle risorse informatiche e supportare lo sviluppo sostenibile dell'IA. ​industria.

Lo sviluppo dell'intelligenza artificiale richiede sia capacità di sistema sottostanti in grado di integrare in modo uniforme più chip eterogenei, sia uno strato intermedio che implementa la facilità d'uso tra potenza di calcolo eterogenea e algoritmi multipli, consentendo agli utenti di programmare diverse potenze di calcolo attraverso un quadro di programmazione unificato volta, su di esso vengono installate interfacce compatibili con le abitudini di programmazione degli utenti esistenti per facilitare l'espansione futura.

Wuwen Core si impegna a costruire un'infrastruttura nativa AI che sia veramente adattabile a più modelli e multi-chip, in modo che non ci sia potenza di calcolo AI difficile da usare al mondo. Speriamo di ottenere non solo una connessione efficace, utilizzo e integrazione di "M×N", ma anche l'obiettivo finale è trasformare le risorse informatiche apparentemente dormienti in una grande potenza di calcolo, migliorare l'integrità dell'ecosistema di modelli di grandi dimensioni, ridurre significativamente i costi di implementazione di modelli di grandi dimensioni e contribuire a promuovere l’innovazione applicativa di modelli di grandi dimensioni in vari settori.