소식

자연: 세계에서 가장 빠른 슈퍼컴퓨팅의 날을 탐험해보세요

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  새로운 지혜 보고서

편집자: 양차오
[새로운 지혜 소개]테네시주 동부 산지에서는 기록적인 슈퍼컴퓨터인 프론티어(frontier)가 과학자들에게 원자부터 은하까지 모든 것을 연구할 수 있는 전례 없는 기회를 제공하고 있습니다.

슈퍼컴퓨팅 구축이 본격화되고 있으며, 주권 ai와 거대 기술 기업 모두 nvidia에 지속적으로 수혈을 제공하고 데이터 센터를 구축하고 있습니다.

이에 앞서 2023년 12월 현재 세계에서 가장 빠른 슈퍼컴퓨터는 미국 테네시주 오크리지에 위치한 프론티어(olcf-5)다.

frontier에는 50,000개의 프로세서(38,000개의 gpu 포함)를 갖춘 amd cpu 및 gpu가 장착되어 있으며 컴퓨팅 속도는 1.102exaflops, 즉 초당 1.102exaflops(1018) 부동 소수점 연산.

이 속도는 동시에 작동하는 100,000대의 노트북보다 훨씬 빠르며, 2022년에 출시되었을 때 frontier는 처음으로 엑사스케일 컴퓨팅 속도의 문턱을 경신하는 기록을 깨뜨렸습니다.

프론티어 슈퍼컴퓨터는 농구장 2개보다 더 넓은 면적을 차지합니다.

이러한 뛰어난 속도와 규모를 추구하는 이유는 다양한 분야의 최첨단 과학 연구에서 시뮬레이션 계산의 요구를 충족시키기 위해서입니다.

frontier는 작은 구름 방울이 기후 온난화 속도에 어떤 영향을 미치는지와 같이 대규모 패턴과 소규모 세부 사항을 모두 캡처하는 시뮬레이션을 만드는 데 매우 능숙합니다.

오늘날 연구자들은 약물 발견 및 개발을 위한 단백질 시뮬레이션, 항공기 엔진 개선을 위한 난기류 시뮬레이션, google과 경쟁하는 오픈 소스 llm 교육 등을 포함하여 아원자 입자부터 은하계까지 모든 것에 대한 최첨단 모델을 만들기 위해 전 세계에서 frontier에 로그인하고 있습니다. 오픈ai.

그런데 올해 4월 어느 날, 프론티어의 운영에 예상치 못한 일이 일어났습니다.

프론티어가 위치한 테네시주 오크리지 국립연구소 과학소장인 브론슨 메서(bronson messer)는 전 세계 과학자들의 요구에 부응하기 위해 프론티어의 전력 소비량이 급격히 늘어나 약 27메가와트에 달해 최고치에 이르렀다고 말했다. 약 10,000 가구에 전력을 공급합니다.

이는 또한 슈퍼컴퓨터의 냉각 시스템에 문제를 가져옵니다. messer의 말에 따르면 "기계는 데인 개처럼 작동합니다."

2023년 통계에 따르면 frontier는 18개국에 총 1,744명의 사용자를 보유하고 있으며, 기여된 계산 및 데이터는 공개적으로 출판된 최소 500편의 논문을 뒷받침합니다.

프론티어의 '뇌' 내부 탐험

우리가 상상했던 장면과 비슷하게 프론티어가 위치한 컴퓨터실은 창고와 비슷하며, 작동 중에 발생하는 전자 윙윙거리는 소리가 꾸준하고 부드럽습니다.

컴퓨터실에는 74개의 랙이 있으며 각 노드에는 gpu 4개와 cpu 1개가 포함됩니다. 컴퓨팅 속도가 이렇게 빠른 이유는 엄청난 수의 gpu 때문입니다.

연구실 책임자인 messer는 "이 gpu는 매우 빠르지만 매우 멍청합니다. 동일한 작업을 계속해서 수행할 수 있습니다."라고 설명했습니다.

동시에 여러 작업을 처리할 수 있는 이 기능은 슈퍼컴퓨터에서 빠른 작업을 수행하는 데 매우 유용하지만 그 외에는 별다른 것이 없습니다.

이러한 "극단적인 어리석음" 뒤에는 다양한 분야의 과학자들이 맞춤형 코드를 통해 gpu를 실행할 수 있는 일종의 다재다능함이 있습니다.

frontier는 밤낮으로 논스톱으로 운영되며, 운영과 유지보수를 담당하는 엔지니어링 팀도 있습니다.

이 슈퍼컴퓨터를 제작하는 엔지니어 팀은 hewlett-packard 출신입니다. 기술자 중 한 명인 corey edmonds는 frontier를 지속적으로 모니터링하여 오류 징후가 있는지 확인하는 엔지니어링 팀이 있다고 말했습니다.

예를 들어 야간 근무 직원 중 한 명인 conner cunningham은 오후 7시부터 오전 7시까지 근무하며 10개 이상의 모니터를 사용하여 네트워크와 건물의 보안에 주의를 기울이고 지역 날씨를 모니터링하여 상황을 확인합니다. 프론티어의 정상 운영.

사실, 대부분의 밤은 "크리스마스 이브"입니다. cunningham은 일반적으로 몇 가지 검사만 하고 나머지 시간은 작업장에서 공부하면서 보낼 수 있습니다.

"이 직업은 소방관과 비슷해요. 무슨 일이 생기면 누군가는 이를 감시해야 합니다."

거대 과학에 힘을 실어주다

프론티어는 밤낮없이 운영되지만 연구자들이 이용 기회를 신청하기는 쉽지 않다.

과학 디렉터 messer와 다른 세 명의 동료는 사용 제안의 평가 및 승인을 담당하고 있으며 작년에 총 131개의 프로젝트를 승인했으며 합격률은 약 1/4입니다.

승인을 받으려면 지원자는 자신의 프로젝트가 일반적으로 다양한 시간적, 공간적 규모를 모델링하는 데 사용되는 전체 슈퍼컴퓨팅 시스템을 활용할 것임을 입증해야 합니다.

frontier는 매년 총 약 6,500만 노드 시간을 사용할 수 있으며, 연구원이 얻은 가장 일반적인 할당량은 500,000노드 시간으로, 이는 전체 시스템의 3일 연속 운영에 해당합니다.

messer는 연구원들이 다른 데이터 센터보다 frontier에서 약 10배 더 많은 컴퓨팅 리소스를 확보하고 있다고 말했습니다.

frontier에는 50,000개 이상의 프로세서가 있으며 수냉식입니다.

더 빠른 컴퓨팅 속도와 더 많은 컴퓨팅 리소스를 통해 연구자들은 더욱 야심찬 '빅 사이언스'를 수행할 수 있습니다.

예를 들어, 용액 내 단백질이나 핵산이 세포의 다른 부분과 상호 작용하는 방식과 같은 생물학적 과정을 원자 수준의 정확도로 정확하게 시뮬레이션합니다.

올해 5월 일부 학자들은 프론티어(frontier)를 사용해 인간 머리카락 굵기의 약 10분의 1에 해당하는 1,550억 개 이상의 물 분자를 포함하는 입방체 모양의 물방울을 시뮬레이션했습니다. 이는 국내 최대 규모의 원자 수준 시뮬레이션 중 하나입니다. 역사.

단기적으로 연구원들은 세포 소기관을 시뮬레이션하여 실험실에 알리기를 희망하며 이러한 고해상도 시뮬레이션과 x선 자유 전자 레이저의 초고속 이미징을 결합하여 발견을 가속화할 수 있기를 희망합니다.

이러한 연구는 미래에 원자에서 시작하여 전체 세포를 모델링하는 더 큰 목표를 위한 길을 열어줍니다.

frontier를 사용하면 기후 모델도 더욱 정확해집니다.

작년에 기후 과학자 matt norman과 다른 연구원들은 frontier를 사용하여 3.25km 해상도의 글로벌 기후 모델을 실행했으며, 이 모델은 더 미세한 해상도로 복잡한 구름 움직임도 통합했습니다.

수십 년 동안 지속되는 예측 모델을 생성하려면 frontier의 컴퓨팅 성능이 필요하며 이를 위해서는 전체 시스템의 컴퓨팅 성능이 필요합니다.

날씨 및 기후 예측에 적합한 모델을 위해서는 최소 1년 동안 매일 시뮬레이션을 실행해야 합니다.

frontier는 하루에 1.26년을 시뮬레이션할 수 있으며, 이는 연구자들이 이전에 가능했던 것보다 더 정확한 50년 예측을 생성할 수 있는 속도입니다.

다른 컴퓨터에서 실행하면 동일한 해상도를 달성하고 클라우드의 영향을 고려하기 때문에 계산 속도가 훨씬 느려집니다.

더 큰 우주 규모에서 frontier는 더 높은 해상도를 가져올 수도 있습니다.

피츠버그 대학의 천체물리학자인 에반 슈나이더(evan schneider)도 프론티어를 사용하여 은하수 크기의 은하가 나이가 들면서 어떻게 진화하는지 연구하고 있습니다.

그들이 만든 은하 모델은 크기가 4배에 달하며 최대 크기는 약 100,000광년입니다. 프론티어 이전에 유사한 해상도로 시뮬레이션된 가장 큰 구조는 질량이 약 1/50인 왜소은하였습니다.

frontier가 ai에 미치는 영향

전 세계 1위였던 프론티어의 위상은 더욱 독특하다. 이 슈퍼컴퓨터는 산업계에 장악된 것이 아니라 공공부문에 속한 몇 안 되는 장비 중 하나이기 때문이다.

ai 분야의 연구는 엄청난 컴퓨팅 파워를 필요로 하는 경우가 많기 때문에 학계와 산업체의 결과 사이에는 큰 격차가 있습니다.

일부 학자들의 통계에 따르면 2021년에는 최대 규모의 ai 모델 중 96%가 업계에서 나올 것이라고 합니다. 평균적으로 산업 모델은 학술 모델보다 거의 30배 더 큽니다.

투자금액에서도 차이가 드러났다. 미국의 비국방 공공기관은 ai 연구를 지원하기 위해 2021년에 15억 달러를 제공했습니다. 같은 해 전 세계 산업 지출은 3,400억 달러를 초과했습니다.

gpt-4 및 gemini ultra와 같은 상용 llm이 출시된 이후 이전 둘 사이의 격차는 더욱 벌어졌습니다. 이러한 투자 격차로 인해 산업계와 학계에서 사용할 수 있는 컴퓨팅 리소스의 비대칭성이 뚜렷해졌습니다.

업계에서 모델 개발은 이익을 위한 것이기 때문에 기초 연구, 저소득층의 요구, 모델 위험 평가, 모델 편향 수정 등 기술 개발에서 직면해야 하는 많은 중요한 문제가 종종 무시됩니다.

학계가 이러한 책임을 맡으려면 업계 규모에 걸맞은 컴퓨팅 성능이 필요하며, 이것이 바로 frontier가 등장하는 곳입니다.

가장 일반적인 예는 기술 회사에서 훈련한 llm이 다양한 수준의 독점 특성을 유지하는 경우가 많지만, 연구자들은 자신이 개발한 모델을 누구나 무료로 사용할 수 있도록 만드는 경우가 많습니다.

메릴랜드 대학교 칼리지 파크의 컴퓨터 과학자인 abhinav bhatele은 "이는 대학 연구원들이 기업과 경쟁하는 데 도움이 될 것입니다. 학계에서 비슷한 크기의 모델을 훈련할 수 있는 유일한 방법은 frontier와 같은 리소스에 접근하는 것입니다."라고 말했습니다.

bhatele은 frontier와 같은 시설이 ai 분야에서 중요한 역할을 수행하여 더 많은 사람들이 기술 개발에 참여하고 결과를 공유할 수 있다고 믿습니다.

하지만 컴퓨팅 파워 인프라를 두고 국가 간, 기술 기업, 비영리 단체 간 경쟁이 여전히 진행 중이며, 프론티어 같은 막강한 기업도 결국 몰락할 것이라는 점은 주목할 만하다.

oak ridge laboratory는 이미 frontier의 후속작인 discovery를 계획하고 있습니다. discovery는 컴퓨팅 속도를 3~5배 향상시킬 것입니다.

참고로 프론티어는 2014년 가장 빠른 슈퍼컴퓨터인 tianhe-2a보다 35배 빠르며, 2004년 가장 빠른 슈퍼컴퓨터인 earth simulator보다 33,000배 빠릅니다.

연구원들은 여전히 ​​더 빠른 속도를 원하지만 엔지니어들은 지속적인 과제에 직면해 있으며 그 중 하나는 에너지입니다.

frontier의 에너지 효율성은 주로 다양한 냉각 솔루션으로 인해 summit보다 4배 이상 높습니다.

frontier는 냉수를 사용하는 summit과 달리 냉각을 위해 상온의 물을 사용합니다. frontier의 총 에너지 소비량 중 약 3~4%가 냉각에 사용되는 반면 summit의 경우 10%입니다.

냉수를 사용하는 summit과 달리 frontier의 총 에너지 소비량 중 약 3~4%가 냉각에 사용되는데 비해 summit은 10%입니다.

에너지 효율성은 수년 동안 더 발전된 슈퍼컴퓨터를 구축하는 데 있어 주요 병목 현상이었으며, 가까운 미래에도 그러한 문제는 지속될 것으로 예상됩니다.

연구소 소장인 메서(messer)는 "2012년에는 엑사급 슈퍼컴퓨터를 구축할 수도 있었지만 전력 공급 비용이 너무 높아 1~2배 더 많은 전력이 필요했다"고 말했다.