nature : à la découverte du calcul intensif le plus rapide au monde day

nature : découverte de la journée de calcul intensif la plus rapide au monde

2024-09-15

nouveau rapport de sagesse

editeur : qiao yang

[introduction à la nouvelle sagesse]dans les montagnes de l’est du tennessee, un superordinateur record appelé frontier offre aux scientifiques des opportunités sans précédent d’étudier tout, des atomes aux galaxies.

la construction de supercalculateurs bat son plein, et les géants souverains de l’ia et de la technologie fournissent constamment à nvidia des transfusions sanguines et construisent des centres de données.

avant cela, en décembre 2023, le supercalculateur le plus rapide au monde était frontier, également connu sous le nom d'olcf-5, situé à oak ridge, tennessee, états-unis.

frontier est équipé de cpu et gpu amd, avec 50 000 processeurs (dont 38 000 gpu), et une vitesse de calcul de 1,102 exaflops, soit 1,102 exaflops par seconde (10¹⁸) opérations en virgule flottante.

cette vitesse est encore plus rapide que celle de 100 000 ordinateurs portables fonctionnant en même temps, et lors de ses débuts en 2022, frontier a également battu pour la première fois un record de vitesse de calcul exascale.

le supercalculateur frontier couvre une superficie plus grande que deux terrains de basket

la raison pour laquelle nous recherchons une vitesse et une échelle aussi excellentes est de répondre aux besoins des calculs de simulation dans la recherche scientifique de pointe dans divers domaines.

frontier est très efficace pour créer des simulations qui capturent à la fois des modèles à grande échelle et des détails à petite échelle, tels que la manière dont les minuscules gouttelettes de nuages affectent le taux de réchauffement climatique.

aujourd'hui, des chercheurs du monde entier se connectent à frontier pour créer des modèles de pointe, depuis les particules subatomiques jusqu'aux galaxies, y compris la simulation de protéines pour la découverte et le développement de médicaments, la simulation de turbulences pour améliorer les moteurs d'avion et la formation de llm open source qui concurrencent google et openai.

cependant, un jour d’avril de cette année, quelque chose d’inattendu s’est produit dans les opérations de frontier.

bronson messer, directeur scientifique du laboratoire national d'oak ridge dans le tennessee, où se trouve frontier, a déclaré que pour répondre aux demandes des scientifiques du monde entier, la consommation électrique de frontier a fortement augmenté, atteignant un pic d'environ 27 mégawatts, ce qui est suffisant. pour alimenter environ 10 000 foyers.

cela pose également des problèmes au système de refroidissement du supercalculateur. selon les mots de messer, « la machine fonctionne comme un chien échaudé ».

selon les statistiques de 2023, frontier compte un total de 1 744 utilisateurs situés dans 18 pays, et les calculs et les données fournis soutiennent au moins 500 articles publiés publiquement.

explorer l’intérieur du « cerveau » de frontier

semblable à la scène que nous avons imaginée, la salle informatique où se trouve frontier ressemble à un entrepôt et le bourdonnement électronique généré pendant le fonctionnement est constant et doux.

il y a 74 racks dans la salle informatique et chaque nœud contient 4 gpu et 1 cpu. la raison de cette vitesse de calcul rapide est due au grand nombre de gpu.

messer, le directeur du laboratoire, a expliqué : « ces gpu sont très rapides, mais ils sont aussi extrêmement stupides. ils peuvent faire la même chose encore et encore. »

cette capacité à gérer plusieurs opérations en même temps est très utile pour travailler rapidement sur des supercalculateurs, mais à part cela, il n’y a pas grand-chose d’autre.

derrière cette « stupidité extrême » se cache une sorte de polyvalence. les scientifiques de divers domaines peuvent faire fonctionner des gpu grâce à un code personnalisé.

frontier fonctionne sans interruption jour et nuit, ainsi que l'équipe d'ingénierie responsable de l'exploitation et de la maintenance.

l'équipe d'ingénieurs responsables de la construction de ce supercalculateur vient de hewlett-packard. l'un des techniciens, corey edmonds, a déclaré qu'ils disposaient d'une équipe d'ingénieurs qui surveillerait en permanence frontier pour déterminer s'il y avait des signes de panne.

par exemple, l'un des employés de nuit, conner cunningham, travaille de 19 heures à 7 heures du matin. il est chargé d'utiliser plus de dix moniteurs pour veiller à la sécurité du réseau et des bâtiments, et surveiller la météo locale pour assurer la sécurité. fonctionnement normal de frontier.

en fait, la plupart des nuits sont des « veilles de noël ». cunningham n'a généralement besoin que de quelques inspections et peut passer le reste du temps à étudier à son poste de travail.

"ce métier, c'est un peu comme être pompier. si quelque chose arrive, il faut que quelqu'un soit de garde pour le surveiller."

alimenter la grande science

bien que frontier fonctionne jour et nuit, il n’est pas facile pour les chercheurs de postuler aux opportunités d’utilisation.

le directeur scientifique messer et trois autres collègues sont responsables de l'évaluation et de l'approbation des propositions d'utilisation. ils ont approuvé un total de 131 projets l'année dernière, avec un taux de réussite d'environ 1/4.

pour être approuvés, les candidats doivent démontrer que leurs projets utiliseront l'intégralité du système de calcul intensif, généralement utilisé pour modéliser diverses échelles temporelles et spatiales.

frontier dispose d'un total d'environ 65 millions d'heures-nœuds disponibles chaque année, et l'allocation la plus courante obtenue par les chercheurs est de 500 000 heures-nœuds, ce qui équivaut à trois jours de fonctionnement continu de l'ensemble du système.

messer a déclaré que les chercheurs disposent d'environ dix fois plus de ressources informatiques à frontier que dans d'autres centres de données.

frontier possède plus de 50 000 processeurs et est refroidi par liquide

avec des vitesses de calcul plus rapides et davantage de ressources informatiques, les chercheurs peuvent réaliser une « grande science » plus ambitieuse.

par exemple, simuler avec précision des processus biologiques avec une précision au niveau atomique, tels que la façon dont les protéines ou les acides nucléiques en solution interagissent avec d'autres parties de la cellule.

en mai de cette année, certains chercheurs ont utilisé frontier pour simuler une gouttelette d'eau en forme de cube contenant plus de 155 milliards de molécules d'eau, soit environ un dixième de la largeur d'un cheveu humain. il s'agit de l'une des plus grandes simulations au niveau atomique jamais réalisées. histoire.

à court terme, les chercheurs espèrent simuler les organites pour informer le laboratoire ; ils espèrent également combiner ces simulations à haute résolution avec l’imagerie ultrarapide des lasers à électrons libres à rayons x pour accélérer la découverte.

ces travaux ouvrent la voie à un objectif plus vaste dans le futur : modéliser la cellule entière à partir des atomes.

avec frontier, les modèles climatiques deviennent également plus précis.

l'année dernière, le climatologue matt norman et d'autres chercheurs ont utilisé frontier pour exécuter un modèle climatique mondial avec une résolution de 3,25 kilomètres, qui incorporait également des mouvements complexes des nuages à des résolutions plus fines.

afin de créer des modèles prédictifs sur plusieurs décennies, la puissance de calcul de frontier est nécessaire et nécessite pour ce faire la puissance de calcul de l'ensemble du système.

pour qu’un modèle soit adapté aux prévisions météorologiques et climatiques, il faut au moins un an de simulations quotidiennes.

frontier peut simuler 1,26 ans par jour, une vitesse qui permet aux chercheurs de créer des prévisions sur 50 ans plus précises qu'auparavant.

s'il est exécuté sur un autre ordinateur, la vitesse de calcul sera beaucoup plus lente pour atteindre la même résolution et prendre en compte l'influence du cloud.

à une plus grande échelle cosmique, frontier peut également apporter une résolution plus élevée.

evan schneider, astrophysicien à l'université de pittsburgh, utilise également frontier pour étudier comment les galaxies de la taille de la voie lactée évoluent à mesure qu'elles vieillissent.

les modèles de galaxies qu’ils ont créés couvraient quatre ordres de grandeur, avec une taille maximale d’environ 100 000 années-lumière. avant frontier, les plus grandes structures simulées à des résolutions similaires étaient des galaxies naines, avec une masse d'environ un cinquantième.

ce que frontier signifie pour l’ia

en tant qu'ancien numéro 1 mondial, le statut de frontier est d'autant plus unique que ce supercalculateur est l'un des rares équipements appartenant au secteur public, plutôt que dominé par l'industrie.

étant donné que la recherche dans le domaine de l’ia nécessite souvent une puissance de calcul énorme, il existe un énorme écart entre les résultats du monde universitaire et ceux de l’industrie.

selon les statistiques de certains chercheurs, en 2021, 96 % des plus grands modèles d’ia proviendront de l’industrie. en moyenne, les modèles industriels sont près de 30 fois plus grands que les modèles académiques.

la différence est également évidente dans le montant investi. les agences publiques américaines hors défense ont fourni 1,5 milliard de dollars en 2021 pour soutenir la recherche sur l’ia. la même année, les dépenses industrielles mondiales ont dépassé 340 milliards de dollars.

depuis la sortie de llm commerciaux tels que gpt-4 et gemini ultra, l'écart entre les deux s'est encore creusé. cet écart d'investissement a conduit à une nette asymétrie dans les ressources informatiques disponibles dans l'industrie et le monde universitaire.

étant donné que le développement de modèles dans l'industrie est à but lucratif, de nombreuses questions importantes auxquelles il faut faire face dans le développement technologique sont souvent ignorées, telles que la recherche fondamentale, les besoins des groupes à faible revenu, l'évaluation des risques des modèles, la correction des biais du modèle, etc.

si le monde universitaire veut assumer ces responsabilités, il lui faut une puissance de calcul à la hauteur de l’échelle de l’industrie, et c’est là qu’intervient frontier.

l’exemple le plus typique est que les llm formés par des entreprises technologiques conservent souvent des degrés divers de nature exclusive, mais les chercheurs rendent souvent les modèles qu’ils développent gratuits et accessibles à tous.

cela aidera les chercheurs universitaires à rivaliser avec les entreprises, a déclaré abhinav bhatele, informaticien à l'université du maryland, college park. "la seule façon pour les universitaires de former des modèles de taille similaire est d'avoir accès à des ressources comme frontier."

bhatele estime que des installations telles que frontier jouent ce rôle essentiel dans le domaine de l'ia, en permettant à davantage de personnes de participer au développement technologique et de partager les résultats.

cependant, il convient de noter que la concurrence pour l'infrastructure de puissance de calcul entre les pays, les entreprises technologiques et les organisations à but non lucratif se poursuit, et même une entreprise puissante comme frontier finira par tomber.

oak ridge laboratory prévoit déjà un successeur à frontier, appelé discovery, qui augmentera la vitesse de calcul de 3 à 5 fois.

pour référence, frontier est 35 fois plus rapide que tianhe-2a, le supercalculateur le plus rapide de 2014, et 33 000 fois plus rapide que earth simulator, le supercalculateur le plus rapide de 2004.

les chercheurs aspirent toujours à des vitesses plus rapides, mais les ingénieurs sont confrontés à des défis permanents, parmi lesquels l’énergie.

l'efficacité énergétique de frontier est plus de quatre fois supérieure à celle de summit, en grande partie grâce aux différentes solutions de refroidissement.

frontier utilise de l'eau à température ambiante pour le refroidissement, contrairement à summit qui utilise de l'eau froide. environ 3 à 4 % de la consommation totale d'énergie de frontier est utilisée pour le refroidissement, contre 10 % pour summit.

contrairement à summit qui utilise de l’eau réfrigérée. environ 3 à 4 % de la consommation totale d'énergie de frontier est utilisée pour le refroidissement, contre 10 % pour summit.

l’efficacité énergétique constitue depuis des années un goulot d’étranglement majeur dans la construction de supercalculateurs plus avancés, et devrait le rester dans un avenir prévisible.

messer, directeur du laboratoire, a déclaré : « nous aurions pu construire un supercalculateur exascale en 2012, mais le coût de la fourniture d'énergie était trop élevé et nécessitait un ou deux ordres de grandeur de puissance en plus. »

nouvelles

nature : découverte de la journée de calcul intensif la plus rapide au monde

nouveau rapport de sagesse

[introduction à la nouvelle sagesse]dans les montagnes de l’est du tennessee, un superordinateur record appelé frontier offre aux scientifiques des opportunités sans précédent d’étudier tout, des atomes aux galaxies.

introduction

mes coordonnées