Rompendo l'isola ecologica, vengono lanciati potenti strumenti di calcolo nazionali eterogenei con intelligenza artificiale nativa, da Zhongke Jiahe

2024-07-22

Rapporto sul cuore della macchina

Autore: Zenan

"Con l'aiuto del software di ottimizzazione del sistema, la soglia per lo sviluppo sarà abbassata, vari hardware saranno unificati e l'ecologia tecnologica sarà sviluppata. Ciò è di grande importanza per il progresso dell'attuale ecologia intelligente", ha affermato l'accademico della L'Accademia cinese di ingegneria e accademico dell'Istituto di tecnologia informatica dell'Accademia cinese delle scienze, presidente del comitato e presidente della CCF, ha tenuto un discorso alla conferenza stampa. "Oltre ai chip intelligenti e alle applicazioni del settore dell'intelligenza artificiale, abbiamo bisogno che i soggetti che si occupano di ottimizzazione del software di sistema si uniscano e lavorino insieme, in modo da poter migliorare l'ecosistema domestico."

L'accademico Sun Ninghui alla conferenza stampa

Di fronte al problema della potenza di calcolo "bloccata", abbiamo finalmente una soluzione a livello di sistema.

Il 20 luglio, la startup di infrastrutture AI Zhongke Jiahe ha rilasciato ufficialmente la prima generazione di strumenti informatici nativi eterogenei per l’intelligenza artificiale.

Di fronte all'attuale tendenza all'implementazione su larga scala della potenza di calcolo domestica, il metodo proposto da Zhongke Jiahe può consentire di parallelizzare diversi tipi di chip su larga scala massimizzando l'efficienza e consente agli utenti della potenza di calcolo di accedere direttamente alla potenza di calcolo senza dover prestare attenzione alla diversa ecologia dei chip Vieni a usarlo.

Cui Huimin, fondatore e CEO di Zhongke Jiahe, ha rilasciato e introdotto che gli "strumenti di potenza di calcolo AI nativi eterogenei di Jiahe" hanno già svolto un certo ruolo nell'infrastruttura AI della potenza di calcolo domestica. È compatibile con una varietà di chip AI domestici e fornisce un'interfaccia unificata ad alte prestazioni per proteggere le differenze tra i chip.Sulla base di piattaforme native eterogenee, i cluster di potenza di calcolo dell’intelligenza artificiale hanno migliorato le prestazioni nel ragionamento su modelli di grandi dimensioni.La latenza può essere ridotta di 3-74 volte, il throughput aumentato di 1,4-2,1 volte, l'efficienza energetica migliorata di 1,46 volte e può supportare modelli densi di grandi dimensioni con parametri 340B e modelli MoE di grandi dimensioni con 640B。

Allo stesso tempo, Zhongke Jiahe ha fornito supporto di ragionamento ad alte prestazioni a più di 10 clienti tra cui chip, integratori, fornitori di servizi, ecc. La sua architettura supporta grandi modelli tradizionali nazionali ed esteri e può eseguire ragionamenti paralleli diversificati.

I fornitori di potenza di calcolo e i partner applicativi annunciati durante la conferenza stampa includono: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology e Wuwenxin Qiong, Yunxi Hashrate, Xinhua San , ecc. (ordinati in ordine alfabetico secondo pinyin).

Cui Huimin, fondatore e amministratore delegato di Zhongke Jiahe, alla conferenza stampa

Potenza di calcolo eterogenea dell'intelligenza artificiale nativa, con l'obiettivo di raggiungere "tre zero e uno alto"

Il piano proposto da Zhongke Jiahe mira a consentire l’applicazione di modelli di intelligenza artificiale di grandi dimensioniOttieni una migrazione a costo zero, un utilizzo senza perdite e un utilizzo efficiente della distribuzione senza ritardi su chip diversi。

Questo insieme di strumenti software comprende tre prodotti: il motore di inferenza nativo eterogeneo per modelli di grandi dimensioni "SigInfer", il motore di regolazione fine nativo eterogeneo "SigFT" e lo strumento automatico di generazione e traduzione di operatori "SigTrans".

Tra questi, SigInfer, rilasciato ieri, è un motore di inferenza nativo eterogeneo multipiattaforma e ad alte prestazioni che supporta non solo schede acceleratrici AI a livello di server, ma anche GPU a livello di consumatore. Pertanto, può essere implementato nei data center e accelerare vari dispositivi end-side.

Essendo la base tecnica per l'elaborazione eterogenea, la diversa potenza di elaborazione dell'intelligenza artificiale a cui si accede tramite SigInfer può ottenere interfacce di chiamata unificate e una migrazione fluida delle applicazioni aziendali. SigInfer eseguirà un'ottimizzazione approfondita multilivello facendo appello a una varietà di diverse potenze di calcolo per sfruttare appieno il potenziale della potenza di calcolo del chip.

Presenta varie funzionalità dei moderni motori di inferenza di modelli di grandi dimensioni, come il supporto del servizio API, la pianificazione delle richieste, la gestione dei batch, l'ottimizzazione della cache KV, il parallelismo del tensore, il parallelismo della pipeline, il parallelismo degli esperti e persino il parallelismo della pipeline multi-macchina.

Zhongke Jiahe ha affermato che SigInfer supporta già la maggior parte delle strutture di modelli di grandi dimensioni del settore.

Attualmente, SigInfer può già implementare funzionalità complete del motore di inferenza. Il cluster eterogeneo di schede acceleratrici che supporta può programmare in modo flessibile le schede acceleratrici NVIDIA AI + le schede acceleratrici AI domestiche per l'inferenza ibrida e può essere espanso fino a trilioni di modelli di grandi dimensioni.

L’utilizzo di SigInfer per assistere l’implementazione dei chip AI può consentire ai servizi di modello di grandi dimensioni di mantenere un throughput elevato e una bassa latenza quando aumentano i requisiti di accesso aziendale. Questi indicatori sono cruciali per le applicazioni su larga scala dell’IA generativa.

Quando si utilizza la stessa scheda grafica NVIDIA, possiamo vedere che SigInfer può fornire un effetto di accelerazione più evidente:

Inoltre, quando si utilizzano chip domestici per completare attività simili, SigInfer può anche migliorare la velocità di throughput delle schede acceleratrici dell'intelligenza artificiale nel calcolo parallelo, riducendo significativamente il ritardo nell'emissione dei token.

Gli strumenti di potenza di calcolo IA nativi eterogenei possono regolare la frequenza di calcolo dell'acceleratore AI in base a diverse fasi di elaborazione di attività di modelli di grandi dimensioni, caratteristiche dell'operatore, ottimizzazione adattiva degli obiettivi di ottimizzazione, ecc., ottenendo così un'elevata efficienza. Zhongke Jiahe ha calcolato per noi un conto Durante il funzionamento del data center, l'utilizzo di A800 più SigInfer può aumentare il rapporto di efficienza energetica del 46% rispetto a vllm.

Oltre a ottimizzare l'infrastruttura cloud, Zhongke Jiahe ha anche dimostrato l'ottimizzazione delle prestazioni per l'inferenza lato client. SigInfer può accelerare le apparecchiature chip basate sui principali produttori come Intel, Qualcomm e AMD. Rispetto alle soluzioni di distribuzione tradizionali del settore, SigInfer può aumentare l'efficienza dell'inferenza lato dispositivo fino a 5 volte.

Dietro l’elaborazione eterogenea e i miglioramenti dell’efficienza ci sono l’applicazione e l’ottimizzazione di una serie di tecnologie e ingegneria all’avanguardia.

Per migliorare l'efficienza del calcolo parallelo, Zhongke Jiahe ha introdotto una serie di ottimizzazioni. Ad esempio, l'ottimizzazione dell'accesso alla memoria nella fase di decodifica approfondita consente a KV Cache di ottenere il multiplexing a livello di registro. Rispetto al caricamento da L2, sia la latenza che la larghezza di banda sono state ottimizzate.

Allo stesso tempo, per alleviare la riduzione del parallelismo, i ricercatori di Zhongke Jiahe hanno anche eseguito divisioni parallele nella dimensione della sequenza dei dati. Combinato con l'ottimizzazione del riutilizzo di KV Cache, non solo salva l'accesso alla memoria, ma aumenta anche il parallelismo, migliorando l'efficienza di esecuzione del calcolo principale dell'intero meccanismo di attenzione.

Zhongke Jiahe ha anche esplorato metodi di generazione di operatori ad alte prestazioni per una potenza di calcolo eterogenea. Collaborando con i produttori di potenza di calcolo, Zhongke Jiahe ha migrato la sciabola verso l'architettura dei chip domestici, migliorando notevolmente l'efficienza operativa della moltiplicazione delle matrici. Tra questi, l'azienda ha ottenuto un miglioramento delle prestazioni di oltre il 20% attraverso l'ottimizzazione combinata con la tecnologia di compilazione.

Con il supporto di una serie di tecnologie, i potenti strumenti di calcolo AI nativi eterogenei di Jiahe hanno raggiunto un'eccellente ottimizzazione dell'efficienza energetica.

A partire dalla tecnologia di compilazione: il percorso tecnico di Zhongke Jiahe

Diversamente dalle funzionalità fornite in passato da alcune società di infrastrutture informatiche basate sull'intelligenza artificiale,Il calcolo eterogeneo e l'accelerazione forniti da Zhongke Jiahe sono incentrati sulla tecnologia di compilazione.。

Per i computer, il lavoro svolto dal livello di compilazione è "traduzione". È responsabile della conversione del contenuto del linguaggio di programmazione di alto livello scritto dagli esseri umani in un linguaggio che la macchina può comprendere ed eseguire.

In questo processo è necessario ottimizzare anche la compilazione, ovvero migliorare l'efficienza operativa del codice macchina generato. Quando si tratta di prestazioni del chip, la compilazione gioca un ruolo importante ma viene spesso trascurata.

La piattaforma informatica CUDA svolge un ruolo importante sui chip NVIDIA più popolari del settore. Include linguaggi di programmazione, compilatori, varie librerie di accelerazione ad alte prestazioni e framework AI. Può fungere da distributore quando il computer esegue attività, sfruttando appieno le risorse di calcolo di diversi hardware per far funzionare più velocemente modelli di codice complessi. Si può dire che l'ecosistema AI di oggi è in gran parte basato su CUDA.

Per la potenza di calcolo domestica, al fine di ottenere un'applicazione su larga scala, è necessario costruire l'ecologia e le capacità richieste.

Nell’era dell’intelligenza artificiale generativa, la domanda di potenza di calcolo da parte delle persone ha promosso lo sviluppo della tecnologia dei chip, ma sono emerse anche nuove sfide:

Anche dal punto di vista delle aziende produttrici di chip, l’ecosistema si sta sviluppando in molteplici frammenti, il che comporterà un aumento dei costi di sviluppo e questioni come l’efficienza dell’implementazione e la compatibilità.
Dal punto di vista dello sviluppo del settore, la tecnologia AI si sta sviluppando rapidamente e copre sempre più scenari, il che significa che saranno coinvolti più tipi di potenza di calcolo, il che promuove ulteriormente la domanda di calcolo eterogeneo.

Pertanto, l’industria ha urgentemente bisogno di una catena di strumenti efficiente in grado di supportare una varietà di chip domestici. Se una serie di software di base universali, a basso costo e ad alte prestazioni potesse emergere e aiutare i partner ecologici a trapiantare rapidamente le applicazioni sviluppate sulla base dell’ecosistema NVIDIA, il potenziale dei chip domestici potrebbe essere pienamente liberato, accelerando il ritmo della ricerca e dello sviluppo tecnologico, Costruire gradualmente un ciclo positivo che stabilisca l’ecosistema della potenza di calcolo dell’IA.

Questo è ciò che ha fatto Zhongke Jiahe.

Il livello della piattaforma software di base fornito da Zhongke Jiahe è posizionato a livello dell'operatore, del compilatore e del framework, costruendo un ponte tra hardware e software.Gli eterogenei strumenti di elaborazione IA nativi forniti possono aiutare gli utenti a migrare senza problemi i modelli IA e le architetture dei chip, il che offre grande comodità alle applicazioni IA.

Tutti questi livelli di capacità coinvolgono la tecnologia di compilazione. La copertura della compilazione AI include sia il livello che il livello dell'operatore. Rispetto ai compilatori tradizionali, l'intervallo di trasformazione semantica è più ampio. Ad esempio, i compilatori di intelligenza artificiale devono generalmente considerare il partizionamento dei grafici di calcolo, la fusione dei sottografi, il calcolo parallelo, il blocco dei dati, ecc. Questi sono problemi difficili da risolvere.

A questo proposito, Zhongke Jiahe ha completato molte ricerche, come condurre analisi del flusso di dati globale a livello di espressione del tensore, costruire grafici di calcolo accurati e grafici di dipendenza dei dati e quindi superare i limiti degli operatori per la fusione degli operatori, e ha ottenuto buoni risultati. Effetto. Su alcune reti, il suo metodo ha raggiunto un rapporto di accelerazione fino a 3,7 volte rispetto al livello avanzato del settore. Importanti risultati di lavoro sono stati pubblicati in occasione della conferenza più importante di quest'anno nel campo dei computer.

Costruire una potenza di calcolo end-to-end che consenta soluzioni per contribuire a far prosperare l’ecosistema di intelligenza artificiale nazionale

Zhongke Jiahe è stata fondata nel luglio 2023 e il suo team proviene principalmente dall'Istituto di tecnologia informatica dell'Accademia cinese delle scienze. Il fondatore, Cui Huimin, si è laureato al Dipartimento di Informatica dell'Università Tsinghua ed è a capo del team di compilazione dell'Istituto di Tecnologia Informatica, Accademia Cinese delle Scienze. Il team principale dell'azienda ha più di 20 anni di esperienza nella ricerca e nello sviluppo di compilatori ed è stato membro principale nel presiedere o partecipare alla ricerca e allo sviluppo di compilatori di una serie di chip nazionali.

Fin dalla sua fondazione, l'azienda si è concentrata sulla tecnologia di compilazione e ottimizzazione dei chip e si è impegnata a fornire risorse informatiche universali, a basso costo e ad alte prestazioni, con la missione di "raccogliere la potenza combinata dei chip per costruire un ecosistema domestico". Allo stato attuale, Zhongke Jiahe ha ricevuto numerosi finanziamenti per un totale di quasi 100 milioni di yuan.

Zhongke Jiahe sta costruendo una serie di prodotti attorno a tre percorsi, tra cui un motore di inferenza di modelli di grandi dimensioni AI che supporta potenza di calcolo eterogenea, un framework di regolazione fine di modelli di grandi dimensioni e una suite di strumenti di compilazione AI. Non solo possono aiutare gli utenti della potenza di calcolo a utilizzare rapidamente la potenza di calcolo dell’IA diversificata, ma anche aiutare i fornitori di potenza di calcolo a migliorare l’ecosistema del software e aumentare la competitività, completando una parte importante dell’ecosistema di potenza di calcolo dell’IA nazionale.

Ancora più importante, Zhongke Jiahe spera di diventare un ponte di "comunicazione", collegando un gran numero di utenti e fornitori di potenza di calcolo, in modo che entrambe le parti possano andare felicemente in entrambe le direzioni, promuovendo così lo sviluppo di una potenza di calcolo IA nativa eterogenea alle applicazioni su larga scala e al vigoroso sviluppo dell’ecosistema domestico dell’intelligenza artificiale.

notizia

Rompendo l'isola ecologica, vengono lanciati potenti strumenti di calcolo nazionali eterogenei con intelligenza artificiale nativa, da Zhongke Jiahe

introduzione

le mie informazioni di contatto