shen dou, vice-président exécutif du groupe baidu : les grands modèles sont étroitement intégrés au cloud computing et deviennent un nouveau type d'infrastructure

shen dou, vice-président exécutif du groupe baidu : les grands modèles sont étroitement intégrés au cloud computing et deviennent un nouveau type d'infrastructure.

2024-09-25

le 25 septembre, lors de la baidu cloud intelligence conference 2024, shen dou, vice-président exécutif du groupe baidu et président du baidu intelligent cloud business group, a déclaré lors de la cloud intelligence conference que l'année écoulée a été la clé pour que les grands modèles passent de la technologie à l'autre. du changement au changement industriel.en un an, les grands modèles sont étroitement intégrés au cloud computing et deviennent un nouveau type d'infrastructure. « les grands modèles et leurs systèmes associés sont rapidement devenus une nouvelle génération d'infrastructures. ce changement est sans précédent.

shen dou, vice-président exécutif du groupe baidu et président du baidu intelligent cloud business group source photo : photo fournie par l'entreprise.

concernant la puissance de calcul des grands modèles, shen dou a déclaré qu'en matière de puissance de calcul, de nombreuses personnes ont entendu parler du « cluster wanka ». en termes simples, les clusters gpu ont trois caractéristiques : une échelle extrême, une densité extrêmement élevée et une interconnexion extrême.

et ces « extrêmes » entraînent plusieurs défis de taille. shen dou a présenté que le premier concerne les énormes coûts de construction et d'exploitation pour construire un cluster wanka, le coût d'achat du gpu à lui seul s'élève à plusieurs milliards de yuans. deuxièmement, sur un cluster d’une telle envergure, la complexité de l’exploitation et de la maintenance augmente considérablement. il a noté que le matériel tombera inévitablement en panne et que plus l'échelle est grande, plus la probabilité de panne est élevée. "lorsque meta a formé llama3, un cluster utilisant 16 000 cartes gpu a connu une panne moyenne toutes les 3 heures."

shen dou a en outre déclaré que parmi ces pannes, la grande majorité sont causées par le gpu. en fait, le gpu est un matériel très sensible, et même les fluctuations de température à midi affecteront le taux de panne du gpu. ces deux défis ont forcé baidu à repenser la façon de créer, de gérer et de maintenir des clusters gpu vastes et complexes, de protéger la complexité de la couche matérielle et de fournir une plate-forme informatique simple et facile à utiliser pour l'ensemble du processus de mise en œuvre de grands modèles, permettant il est plus facile pour les utilisateurs de gérer la puissance de calcul du gpu et de faire bon usage de la puissance de calcul à faible coût. « au cours de l'année écoulée, nous avons constaté que les besoins de formation des clients en matière de modèles ont grimpé en flèche et que la taille de cluster requise est devenue de plus en plus grande. dans le même temps, les attentes de chacun concernant la baisse continue des coûts d'inférence des modèles sont également devenues de plus en plus élevées. tout cela a un grand impact sur les gpu. la stabilité et l’efficacité de la gestion ont mis en avant des exigences plus élevées.

sur cette base, baidu intelligent cloud a annoncé qu'il mettrait entièrement à niveau la plate-forme informatique hétérogène baige ai vers la version 4.0. en se concentrant sur les besoins en puissance de calcul tout au long du processus de mise en œuvre de grands modèles, il offrira aux entreprises quatre aspects majeurs : la création de clusters, expériences de développement, formation de modèles et inférence de modèles. fournir une infrastructure d'ia « multiple, rapide, stable et économique ».

parmi eux, afin de résoudre le problème de la pénurie de ressources informatiques, baige 4.0 a apporté des améliorations clés à la capacité de « formation mixte multicœur », atteignant une efficacité de formation mixte multicœur de 95 % sur les clusters à l'échelle de wanka, atteignant le plus niveau avancé dans le métier. dans le processus de déploiement du cluster, le baige mis à niveau peut réaliser un déploiement de deuxième niveau au niveau des outils, réduisant le temps de préparation des opérations du cluster wanka de plusieurs semaines à une heure au maximum, améliorant considérablement l'efficacité du déploiement et raccourcissant le cycle de lancement commercial. en réponse au problème des pannes fréquentes lors de la formation de grands modèles, baige 4.0 a entièrement mis à niveau les méthodes de détection des pannes et les mécanismes automatiques de tolérance aux pannes, qui peuvent réduire efficacement la fréquence des pannes et réduire considérablement le temps de traitement des pannes du cluster. il a atteint plus de 99,5. % sur le cluster wanka.

en outre, baidu intelligent cloud a également annoncé le dernier « bulletin » de la plate-forme grand modèle qianfan. sur la plate-forme grand modèle qianfan, le grand modèle wenxin a un volume d'appels quotidien moyen de plus de 700 millions de fois et a bien aidé les utilisateurs. -régler un total de 30 000 grands modèles et développer plus de 700 000 applications au niveau de l'entreprise. au cours de l'année écoulée, le prix du grand modèle phare de wenxin a chuté de plus de 90 %.

l'actualité économique quotidienne

rapport/commentaires

nouvelles

shen dou, vice-président exécutif du groupe baidu : les grands modèles sont étroitement intégrés au cloud computing et deviennent un nouveau type d'infrastructure.

introduction

mes coordonnées