noticias

naturaleza: explorando el día de la supercomputación más rápida del mundo

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  nuevo informe de sabiduría

editor: qiao yang
[introducción a la nueva sabiduría]en las montañas del este de tennessee, una supercomputadora que bate récords llamada frontier está brindando a los científicos oportunidades sin precedentes para estudiar todo, desde átomos hasta galaxias.

la construcción de supercomputadoras está en pleno apogeo, y tanto los gigantes soberanos de la inteligencia artificial como de la tecnología brindan constantemente a nvidia transfusiones de sangre y construyen centros de datos.

antes de esto, a diciembre de 2023, la supercomputadora más rápida del mundo es frontier, también conocida como olcf-5, ubicada en oak ridge, tennessee, ee. uu.

frontier está equipada con cpu y gpu amd, con 50.000 procesadores (incluidas 38.000 gpu) y una velocidad informática de 1.102 exaflops, o 1.102 exaflops por segundo (1018) operaciones de punto flotante.

esta velocidad es incluso más rápida que la de 100.000 computadoras portátiles funcionando al mismo tiempo, y cuando debutó en 2022, frontier también rompió un récord en el umbral de velocidad de computación a exaescala por primera vez.

la supercomputadora frontier cubre un área más grande que dos canchas de baloncesto

la razón para buscar una velocidad y escala tan excelentes es satisfacer las necesidades de los cálculos de simulación en la investigación científica de vanguardia en diversos campos.

frontier es muy bueno creando simulaciones que capturan tanto patrones a gran escala como detalles a pequeña escala, como cómo las pequeñas gotas de las nubes afectan la tasa de calentamiento climático.

hoy en día, investigadores de todo el mundo inician sesión en frontier para crear modelos de vanguardia de todo, desde partículas subatómicas hasta galaxias, incluida la simulación de proteínas para el descubrimiento y desarrollo de fármacos, la simulación de turbulencias para mejorar los motores de los aviones y la capacitación de llm de código abierto que compiten con google y abiertoai.

sin embargo, un día de abril de este año, sucedió algo inesperado en las operaciones de frontier.

bronson messer, director científico del laboratorio nacional oak ridge en tennessee, donde se encuentra frontier, dijo que para mantenerse al día con las demandas de los científicos de todo el mundo, el consumo de energía de frontier ha aumentado considerablemente, alcanzando un pico de alrededor de 27 megavatios, suficiente para alimentar a unos 10.000 hogares.

esto también plantea desafíos al sistema de refrigeración de la supercomputadora. en palabras de messer, "la máquina funciona como un perro escaldado".

según las estadísticas de 2023, frontier tiene un total de 1.744 usuarios ubicados en 18 países, y los cálculos y datos aportados respaldan al menos 500 artículos publicados públicamente.

explorando el interior del “cerebro” de frontier

de manera similar a la escena que imaginamos, la sala de computadoras donde se encuentra frontier es similar a un almacén y el zumbido electrónico generado durante la operación es constante y suave.

hay 74 bastidores en la sala de computadoras y cada nodo contiene 4 gpu y 1 cpu. la razón de una velocidad de computación tan rápida se debe a la gran cantidad de gpu.

messer, el director del laboratorio, describió: "estas gpu son muy rápidas, pero también extremadamente estúpidas. pueden hacer lo mismo una y otra vez".

esta capacidad de manejar múltiples operaciones al mismo tiempo es muy útil para el trabajo rápido en supercomputadoras, pero aparte de eso, no hay mucho más.

detrás de esta "estupidez extrema" hay una especie de versatilidad. los científicos de diversos campos pueden ejecutar gpu mediante código personalizado.

frontier opera sin parar día y noche, y también el equipo de ingeniería responsable de la operación y mantenimiento.

el equipo de ingenieros responsables de construir esta supercomputadora es de hewlett-packard. uno de los técnicos, corey edmonds, dijo que tienen un equipo de ingeniería que monitoreará continuamente a frontier para determinar si hay signos de falla.

por ejemplo, uno de los miembros del personal del turno de noche, conner cunningham, trabaja de 7 p.m. a 7 a.m. es responsable de utilizar más de diez monitores para prestar atención a la seguridad de la red y los edificios, y monitorear el clima local para garantizar la seguridad. funcionamiento normal de frontier.

de hecho, la mayoría de las noches son "nochebuena". por lo general, cunningham sólo necesita hacer algunas inspecciones y puede pasar el resto del tiempo estudiando en su estación de trabajo.

"este trabajo es un poco como ser bombero. si algo sucede, es necesario que haya alguien de guardia para monitorearlo".

impulsando la gran ciencia

aunque frontier opera día y noche, no es fácil para los investigadores solicitar oportunidades de uso.

el director científico messer y otros tres colegas son responsables de la evaluación y aprobación de las propuestas de uso. el año pasado aprobaron un total de 131 proyectos, con una tasa de aprobación de aproximadamente 1/4.

para ser aprobado, los solicitantes deben demostrar que sus proyectos utilizarán todo el sistema de supercomputación, que generalmente se usa para modelar varias escalas temporales y espaciales.

frontier tiene un total de aproximadamente 65 millones de horas-nodo disponibles cada año, y la asignación más común obtenida por los investigadores es 500.000 horas-nodo, lo que equivale a tres días de funcionamiento continuo de todo el sistema.

messer dijo que los investigadores obtienen aproximadamente diez veces más recursos informáticos en frontier que en otros centros de datos.

frontier tiene más de 50.000 procesadores y está refrigerado por líquido

con velocidades informáticas más rápidas y más recursos informáticos, los investigadores pueden realizar una "gran ciencia" más ambiciosa.

por ejemplo, simular con precisión procesos biológicos con precisión a nivel atómico, como cómo las proteínas o los ácidos nucleicos en solución interactúan con otras partes de la célula.

en mayo de este año, algunos académicos utilizaron frontier para simular una gota de agua en forma de cubo que contiene más de 155 mil millones de moléculas de agua, que es aproximadamente una décima parte del ancho de un cabello humano. es una de las simulaciones a nivel atómico más grandes del mundo. historia.

a corto plazo, los investigadores esperan simular los orgánulos para informar al laboratorio; también esperan combinar estas simulaciones de alta resolución con imágenes ultrarrápidas de láseres de rayos x de electrones libres para acelerar el descubrimiento.

estos trabajos allanaron el camino para un objetivo más amplio en el futuro: modelar la célula completa a partir de átomos.

con frontier, los modelos climáticos también se vuelven más precisos.

el año pasado, el científico climático matt norman y otros investigadores utilizaron frontier para ejecutar un modelo climático global con una resolución de 3,25 kilómetros, que también incorporaba movimientos complejos de nubes a resoluciones más finas.

para crear modelos predictivos que duren décadas, la potencia informática de frontier es necesaria y requiere la potencia informática de todo el sistema para hacerlo.

para que un modelo sea adecuado para predicciones meteorológicas y climáticas, se requiere al menos un año de simulaciones diarias.

frontier puede simular 1,26 años por día, una velocidad que permite a los investigadores crear pronósticos a 50 años más precisos que antes.

si se ejecuta en otro ordenador, la velocidad de cálculo será mucho más lenta para conseguir la misma resolución y tener en cuenta la influencia de la nube.

en una escala cósmica mayor, frontier también puede ofrecer una resolución más alta.

evan schneider, astrofísico de la universidad de pittsburgh, también está utilizando frontier para estudiar cómo evolucionan las galaxias del tamaño de la vía láctea a medida que envejecen.

el modelo de galaxia que crearon abarca cuatro órdenes de magnitud, con un tamaño máximo de unos 100.000 años luz. antes de frontier, las estructuras más grandes simuladas con resoluciones similares eran galaxias enanas, con una masa de aproximadamente una quincuagésima parte.

qué significa frontier para la ia

como ex número uno del mundo, el estatus de frontier es aún más exclusivo porque esta supercomputadora es una de las pocas piezas de equipo que pertenece al sector público, en lugar de estar dominada por la industria.

dado que la investigación en el campo de la ia a menudo requiere una enorme potencia informática, existe una enorme brecha entre los resultados de la academia y la industria.

según estadísticas de algunos académicos, en 2021, el 96% de los modelos de ia más grandes provendrán de la industria. en promedio, los modelos industriales son casi 30 veces más grandes que los modelos académicos.

la diferencia también es evidente en el monto invertido. las agencias públicas estadounidenses ajenas a la defensa proporcionaron 1.500 millones de dólares en 2021 para apoyar la investigación de la ia. ese mismo año, el gasto de la industria mundial superó los 340 mil millones de dólares.

desde el lanzamiento de llm comerciales como gpt-4 y gemini ultra, la brecha anterior entre los dos se ha ampliado aún más. esta brecha de inversión ha llevado a una clara asimetría en los recursos informáticos disponibles en la industria y la academia.

dado que el desarrollo de modelos en la industria tiene como objetivo obtener ganancias, muchas cuestiones importantes que deben abordarse en el desarrollo tecnológico a menudo se ignoran, como la investigación básica, las necesidades de los grupos de bajos ingresos, la evaluación de los riesgos de los modelos, la corrección del sesgo de los modelos, etc.

si la academia va a asumir estas responsabilidades, necesita una potencia informática que pueda igualar la escala de la industria, y aquí es donde entra en juego frontier.

el ejemplo más típico es que los llm formados por empresas de tecnología a menudo conservan diversos grados de propiedad exclusiva, pero los investigadores suelen hacer que los modelos que desarrollan sean gratuitos para que cualquiera pueda utilizarlos.

esto ayudará a los investigadores universitarios a competir con las empresas, dijo abhinav bhatele, científico informático de la universidad de maryland, college park. "la única forma que tienen las personas en el mundo académico de entrenar modelos de tamaño similar es tener acceso a recursos como frontier".

bhatele cree que instalaciones como frontier desempeñan este papel vital en el campo de la ia, permitiendo que más personas participen en el desarrollo tecnológico y compartan resultados.

sin embargo, vale la pena señalar que la competencia por la infraestructura de potencia informática entre países, empresas de tecnología y organizaciones sin fines de lucro aún continúa, e incluso una empresa poderosa como frontier eventualmente caerá.

oak ridge laboratory ya está planeando un sucesor de frontier, llamado discovery, que aumentará la velocidad de computación de 3 a 5 veces.

como referencia, frontier es 35 veces más rápida que tianhe-2a, la supercomputadora más rápida de 2014, y 33.000 veces más rápida que earth simulator, la supercomputadora más rápida de 2004.

los investigadores todavía anhelan velocidades más rápidas, pero los ingenieros enfrentan desafíos continuos, uno de los cuales es la energía.

la eficiencia energética de frontier es más de cuatro veces mayor que la de summit, en gran parte debido a las diferentes soluciones de refrigeración.

frontier utiliza agua a temperatura ambiente para enfriar, a diferencia de summit, que utiliza agua fría. alrededor del 3% al 4% del consumo total de energía de frontier se utiliza para refrigeración, en comparación con el 10% de summit.

a diferencia de summit que utiliza agua fría. alrededor del 3-4% del consumo total de energía de frontier se utiliza para refrigeración, en comparación con el 10% de summit.

la eficiencia energética ha sido un obstáculo clave en la construcción de supercomputadoras más avanzadas durante años, y se espera que siga siéndolo en el futuro previsible.

messer, director del laboratorio, dijo: "podríamos haber construido una supercomputadora a exaescala en 2012, pero el costo de proporcionar energía era demasiado alto y requería uno o dos órdenes de magnitud más de energía".