notícias

natureza: explorando o dia da supercomputação mais rápido do mundo

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  novo relatório de sabedoria

editor: qiao yang
[introdução à nova sabedoria]nas montanhas do leste do tennessee, um supercomputador recordista chamado frontier está a dar aos cientistas oportunidades sem precedentes para estudar tudo, desde átomos a galáxias.

a construção de supercomputadores está em pleno andamento, e tanto a ia soberana quanto os gigantes da tecnologia estão constantemente fornecendo transfusões de sangue à nvidia e construindo data centers.

antes disso, em dezembro de 2023, o supercomputador mais rápido do mundo era o frontier, também conhecido como olcf-5, localizado em oak ridge, tennessee, eua.

frontier é equipado com cpus e gpus amd, com 50.000 processadores (incluindo 38.000 gpus) e velocidade de computação de 1.102 exaflops, ou 1.102 exaflops por segundo (1018) operações de ponto flutuante.

essa velocidade é ainda mais rápida do que 100.000 laptops funcionando ao mesmo tempo e, quando estreou em 2022, frontier também quebrou um recorde de velocidade de computação em exaescala pela primeira vez.

supercomputador frontier cobre uma área maior que duas quadras de basquete

a razão para buscar essa velocidade e escala excelentes é atender às necessidades de cálculos de simulação em pesquisas científicas de ponta em diversos campos.

frontier é muito bom na criação de simulações que capturam padrões em grande escala e detalhes em pequena escala, como como pequenas gotículas de nuvens afetam a taxa de aquecimento climático.

hoje, pesquisadores de todo o mundo acessam a frontier para criar modelos de ponta de tudo, desde partículas subatômicas até galáxias, incluindo simulação de proteínas para descoberta e desenvolvimento de medicamentos, simulação de turbulência para melhorar motores de aeronaves e treinamento de llms de código aberto que competem com o google e openai.

no entanto, num dia de abril deste ano, algo inesperado aconteceu com as operações da frontier.

bronson messer, diretor científico do laboratório nacional de oak ridge, no tennessee, onde a frontier está localizada, disse que, para acompanhar as demandas dos cientistas de todo o mundo, o consumo de energia da frontier aumentou acentuadamente, atingindo um pico de cerca de 27 megawatts, o suficiente para abastecer cerca de 10.000 residências.

isto também traz desafios ao sistema de refrigeração do supercomputador. nas palavras de messer, “a máquina funciona como um cão escaldado”.

de acordo com as estatísticas de 2023, frontier tem um total de 1.744 usuários localizados em 18 países, e os cálculos e dados fornecidos apoiam pelo menos 500 artigos publicados publicamente.

explorando o interior do “cérebro” da frontier

semelhante à cena que imaginamos, a sala de informática onde o frontier está localizado é semelhante a um armazém, e o zumbido eletrônico gerado durante a operação é constante e suave.

existem 74 racks na sala de informática e cada nó contém 4 gpus e 1 cpu. a razão para essa velocidade de computação rápida é o grande número de gpus.

messer, o diretor do laboratório, descreveu: "essas gpus são muito rápidas, mas também extremamente estúpidas. elas podem fazer a mesma coisa repetidamente".

essa capacidade de lidar com múltiplas operações ao mesmo tempo é muito útil para trabalhos rápidos em supercomputadores, mas fora isso não há muito mais.

por trás dessa “estupidez extrema” está uma espécie de versatilidade. cientistas de diversas áreas podem executar gpus por meio de código personalizado.

a frontier opera ininterruptamente dia e noite, e também a equipe de engenharia responsável pela operação e manutenção.

a equipe de engenheiros responsáveis ​​pela construção deste supercomputador é da hewlett-packard. um dos técnicos, corey edmonds, disse que eles têm uma equipe de engenharia que monitorará continuamente o frontier para determinar se há sinais de falha.

por exemplo, um dos funcionários do turno noturno, conner cunningham, trabalha das 19h às 7h. ele é responsável por utilizar mais de dez monitores para prestar atenção à segurança da rede e dos edifícios, além de monitorar o clima local para garantir o bom funcionamento. operação normal da frontier.

na verdade, a maioria das noites é “véspera de natal”. cunningham normalmente só precisa fazer algumas inspeções e pode passar o resto do tempo estudando em seu posto de trabalho.

“este trabalho é um pouco como ser bombeiro. se alguma coisa acontecer, alguém precisa estar de plantão para monitorar.”

impulsionando a grande ciência

embora o frontier opere dia e noite, não é fácil para os pesquisadores se candidatarem a oportunidades de uso.

o diretor científico messer e outros três colegas são responsáveis ​​pela avaliação e aprovação das propostas de uso. aprovaram um total de 131 projetos no ano passado, com uma taxa de aprovação de cerca de 1/4.

para serem aprovados, os candidatos precisam comprovar que seus projetos utilizarão todo o sistema de supercomputação, normalmente usado para modelar diversas escalas temporais e espaciais.

a frontier tem um total de cerca de 65 milhões de horas de nó disponíveis a cada ano, e a alocação mais comum obtida pelos pesquisadores é de 500 mil horas de nó, o que equivale a três dias de operação contínua de todo o sistema.

messer disse que os pesquisadores obtêm cerca de dez vezes mais recursos computacionais na frontier do que em outros data centers.

frontier tem mais de 50.000 processadores e é refrigerado a líquido

com velocidades de computação mais rápidas e mais recursos computacionais, os pesquisadores podem fazer uma “grande ciência” mais ambiciosa.

por exemplo, simulando com precisão processos biológicos com precisão de nível atômico, como a forma como proteínas ou ácidos nucléicos em solução interagem com outras partes da célula.

em maio deste ano, alguns estudiosos usaram o frontier para simular uma gota de água em forma de cubo contendo mais de 155 bilhões de moléculas de água, que tem cerca de um décimo da largura de um fio de cabelo humano. é uma das maiores simulações em nível atômico. história.

no curto prazo, os pesquisadores esperam simular as organelas para informar o laboratório e também esperam combinar essas simulações de alta resolução com imagens ultrarrápidas de lasers de elétrons livres de raios x para acelerar a descoberta;

esses trabalhos abrem caminho para um objetivo maior no futuro – modelar toda a célula a partir dos átomos.

com o frontier, os modelos climáticos também se tornam mais precisos.

no ano passado, o cientista climático matt norman e outros investigadores usaram o frontier para executar um modelo climático global com uma resolução de 3,25 quilómetros, que também incorporou movimentos complexos de nuvens em resoluções mais precisas.

para criar modelos preditivos de décadas, o poder computacional da frontier é necessário e requer o poder computacional de todo o sistema para fazê-lo.

para que um modelo seja adequado para previsões meteorológicas e climáticas, é necessário pelo menos um ano de simulações diárias.

o frontier pode simular 1,26 anos por dia, uma velocidade que permite aos pesquisadores criar previsões de 50 anos mais precisas do que era possível anteriormente.

se for executado em outro computador, a velocidade de cálculo será muito mais lenta para atingir a mesma resolução e levar em consideração a influência da nuvem.

numa escala cósmica maior, frontier também pode trazer maior resolução.

evan schneider, astrofísico da universidade de pittsburgh, também está usando o frontier para estudar como as galáxias do tamanho da via láctea evoluem à medida que envelhecem.

os modelos de galáxias que criaram abrangeram quatro ordens de magnitude, com um tamanho máximo de cerca de 100.000 anos-luz. antes da frontier, as maiores estruturas simuladas com resoluções semelhantes eram galáxias anãs, com uma massa de cerca de um quinquagésimo.

o que frontier significa para ia

sendo o antigo número 1 do mundo, o estatuto da frontier é ainda mais único porque este supercomputador é um dos poucos equipamentos que pertence ao sector público, em vez de ser dominado pela indústria.

uma vez que a investigação no domínio da ia ​​requer frequentemente um enorme poder computacional, existe uma enorme lacuna entre os resultados da academia e da indústria.

de acordo com estatísticas de alguns estudiosos, em 2021, 96% dos maiores modelos de ia virão da indústria. em média, os modelos industriais são quase 30 vezes maiores que os modelos acadêmicos.

a diferença também fica evidente no valor investido. as agências públicas não relacionadas com a defesa dos eua forneceram 1,5 mil milhões de dólares em 2021 para apoiar a investigação em ia. no mesmo ano, as despesas globais da indústria ultrapassaram os 340 mil milhões de dólares.

desde o lançamento de llms comerciais como gpt-4 e gemini ultra, a lacuna anterior entre os dois aumentou ainda mais. esta lacuna de investimento levou a uma clara assimetria nos recursos computacionais disponíveis na indústria e na academia.

uma vez que o desenvolvimento de modelos na indústria visa o lucro, muitas questões importantes que devem ser enfrentadas no desenvolvimento tecnológico são frequentemente ignoradas, tais como a investigação básica, as necessidades dos grupos de baixos rendimentos, a avaliação dos riscos do modelo, a correcção de enviesamentos do modelo, etc.

se a academia quiser assumir essas responsabilidades, ela precisará de um poder computacional que possa corresponder à escala da indústria, e é aí que entra a frontier.

o exemplo mais típico é que os llms treinados por empresas de tecnologia muitas vezes mantêm vários graus de natureza proprietária, mas os pesquisadores muitas vezes tornam os modelos que desenvolvem gratuitos para qualquer pessoa usar.

isso ajudará os pesquisadores universitários a competir com as empresas, disse abhinav bhatele, cientista da computação da universidade de maryland, college park. “a única maneira de as pessoas na academia treinarem modelos de tamanho semelhante é ter acesso a recursos como o frontier”.

bhatele acredita que instalações como a frontier desempenham um papel vital no campo da ia, permitindo que mais pessoas participem no desenvolvimento tecnológico e partilhem resultados.

no entanto, vale a pena notar que a competição pela infra-estrutura de poder computacional entre países, empresas tecnológicas e organizações sem fins lucrativos ainda continua, e mesmo uma empresa poderosa como a frontier acabará por cair.

o laboratório oak ridge já está planejando um sucessor do frontier, chamado discovery, que aumentará a velocidade de computação em 3 a 5 vezes.

para referência, o frontier é 35 vezes mais rápido que o tianhe-2a, o supercomputador mais rápido de 2014, e 33.000 vezes mais rápido que o earth simulator, o supercomputador mais rápido de 2004.

os investigadores ainda anseiam por velocidades mais rápidas, mas os engenheiros enfrentam desafios constantes, um dos quais é a energia.

a eficiência energética do frontier é mais de quatro vezes superior à do summit, em grande parte devido às diferentes soluções de refrigeração.

o frontier usa água em temperatura ambiente para resfriamento, ao contrário do summit, que usa água fria. cerca de 3% a 4% do consumo total de energia da frontier é usado para refrigeração, em comparação com 10% da summit.

ao contrário do summit, que utiliza água gelada. cerca de 3-4% do consumo total de energia da frontier é usado para refrigeração, em comparação com 10% da summit.

a eficiência energética tem sido um gargalo fundamental na construção de supercomputadores mais avançados durante anos, e espera-se que assim continue no futuro próximo.

messer, diretor do laboratório, disse: “poderíamos ter construído um supercomputador em exaescala em 2012, mas o custo de fornecer energia era muito alto e exigia uma ou duas ordens de magnitude a mais de energia”.