shen dou, vicepresidente esecutivo del gruppo baidu: i modelli di grandi dimensioni sono strettamente integrati con il cloud computing e stanno diventando un nuovo tipo di infrastruttura

shen dou, vicepresidente esecutivo del gruppo baidu: i modelli di grandi dimensioni sono strettamente integrati con il cloud computing e stanno diventando un nuovo tipo di infrastruttura.

2024-09-25

il 25 settembre, alla baidu cloud intelligence conference del 2024, shen dou, vicepresidente esecutivo del gruppo baidu e presidente del baidu intelligent cloud business group, ha affermato alla cloud intelligence conference che l'anno passato è stato la chiave per la trasformazione di modelli di grandi dimensioni da dal cambiamento tecnologico al cambiamento industriale. un anno e i modelli di grandi dimensioni sono strettamente integrati con il cloud computing e stanno diventando un nuovo tipo di infrastruttura. "i modelli di grandi dimensioni e i relativi sistemi stanno rapidamente diventando in pochi anni una nuova generazione di infrastrutture. la velocità di questo cambiamento non ha precedenti."

shen dou, vicepresidente esecutivo del gruppo baidu e presidente del gruppo baidu intelligent cloud business. fonte foto: foto fornita dall'azienda

per quanto riguarda la potenza di calcolo dei modelli di grandi dimensioni, shen dou ha affermato che quando si tratta di potenza di calcolo, molte persone hanno sentito parlare del "cluster wanka". in poche parole, i cluster gpu hanno tre caratteristiche: scala estrema, densità estremamente elevata e interconnessione estrema.

e questi “estremi” comportano diverse sfide serie. shen dou ha spiegato che il primo riguarda gli enormi costi di costruzione e di esercizio. per costruire un cluster wanka, il costo di acquisto della sola gpu ammonta a diversi miliardi di yuan. in secondo luogo, su un cluster così vasto, la complessità del funzionamento e della manutenzione aumenta notevolmente. ha osservato che l'hardware inevitabilmente fallirà e maggiore è la scala, maggiore è la probabilità di guasto. "quando meta ha addestrato llama3, un cluster che utilizzava 16.000 schede gpu ha riscontrato un guasto medio ogni 3 ore."

shen dou ha inoltre affermato che tra questi guasti, la stragrande maggioranza è causata dalla gpu. in effetti, la gpu è un hardware molto sensibile e anche le fluttuazioni della temperatura atmosferica a mezzogiorno influenzeranno il tasso di guasto della gpu. queste due sfide hanno costretto baidu a ripensare come costruire, gestire e mantenere cluster gpu grandi e complessi, proteggere la complessità del livello hardware e fornire una piattaforma informatica semplice e facile da usare per l'intero processo di implementazione di modelli di grandi dimensioni, consentendo agli utenti è più semplice gestire la potenza di calcolo della gpu e sfruttare al meglio la potenza di calcolo a basso costo. "nell'ultimo anno, abbiamo notato che le esigenze di formazione dei modelli dei clienti sono aumentate vertiginosamente e la dimensione dei cluster richiesti è diventata sempre più grande. allo stesso tempo, anche le aspettative di tutti per il continuo calo dei costi di inferenza dei modelli sono diventate sempre più alte tutto ciò ha un grande impatto sulle gpu. la stabilità e l’efficacia della gestione hanno imposto requisiti più elevati”.

sulla base di ciò, baidu intelligent cloud ha annunciato che aggiornerà completamente la piattaforma informatica eterogenea baige ai alla versione 4.0. concentrandosi sulle esigenze di potenza di calcolo dell'intero percorso di implementazione di modelli di grandi dimensioni, fornirà alle imprese quattro aspetti principali: creazione di cluster, esperimenti di sviluppo, addestramento del modello e inferenza del modello fornire un'infrastruttura ai "multipla, veloce, stabile ed economica".

tra questi, al fine di risolvere il problema della carenza di risorse di calcolo, baige 4.0 ha apportato aggiornamenti chiave alla capacità di "addestramento misto multi-core", raggiungendo un'efficienza di addestramento misto multi-core del 95% su cluster su scala wanka, raggiungendo il massimo livello avanzato nel settore. nel processo di implementazione del cluster, baige aggiornato può raggiungere un'implementazione di secondo livello a livello di strumento, riducendo i tempi di preparazione per le operazioni del cluster wanka da settimane a un'ora al massimo, migliorando notevolmente l'efficienza di implementazione e abbreviando il ciclo di lancio aziendale. in risposta al problema dei guasti frequenti durante l'addestramento di modelli di grandi dimensioni, baige 4.0 ha aggiornato in modo completo i metodi di rilevamento dei guasti e i meccanismi di tolleranza automatica dei guasti, che possono ridurre efficacemente la frequenza dei guasti e ridurre significativamente il tempo di gestione dei guasti del cluster. ha raggiunto più di 99,5 % sulla durata effettiva dell'allenamento nel cluster wanka.

inoltre, baidu intelligent cloud ha anche annunciato l'ultima "pagella" della piattaforma del modello di grandi dimensioni qianfan sulla piattaforma del modello di grandi dimensioni qianfan, il modello di grandi dimensioni wenxin ha un volume medio di chiamate giornaliere di oltre 700 milioni di volte e ha aiutato gli utenti a migliorare. -sintonizzare un totale di 30.000 modelli di grandi dimensioni, sviluppato più di 700.000 applicazioni a livello aziendale. nell'ultimo anno, il prezzo del modello grande di punta di wenxin è sceso di oltre il 90%.

notizie economiche quotidiane

segnalazione/feedback

notizia

shen dou, vicepresidente esecutivo del gruppo baidu: i modelli di grandi dimensioni sono strettamente integrati con il cloud computing e stanno diventando un nuovo tipo di infrastruttura.

introduzione

le mie informazioni di contatto