소식

머스크는 19일 만에 세계에서 가장 강력한 AI 클러스터를 구축했습니다! 10만 위안짜리 H100 '수냉식 괴물'이 깨어나려 한다

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]10만 개의 수냉식 H100 건설이 공식적으로 시작되었고, 머스크는 19일 만에 세계에서 가장 강력한 AI 훈련 클러스터를 구축했습니다.

새벽 4시 20분, 바다 건너편 최대 규모의 슈퍼컴퓨팅 훈련 클러스터가 웅성거리기 시작했다.


"420"은 또한 머스크가 가장 좋아하는 밈으로 자유, 자유분방함, 반전통을 상징합니다.

머스크는 제품 가격, 회사 회의 시간, 우주선 발사 시간 등에서 "420"을 자주 사용합니다.

네티즌들은 댓글란에서 머스크가 예의바르고 4시 20분 이전에는 일을 시작하지 않는다는 농담도 했다.


최근 인터뷰에서 머스크는 새로운 슈퍼컴퓨터와 xAI 모델의 진행 상황에 대해 다음과 같이 자세히 밝혔습니다.

- Grok 2는 지난달 약 15K H100을 사용하여 교육을 완료했습니다.

- Grok 2는 GPT-4와 동등한 수준인 다음 달 출시될 예정 - Grok 3는 새로운 100,000대의 수냉식 H100 슈퍼컴퓨터를 구축하고 훈련을 시작 - Grok 3는 12월에 출시될 것으로 예상됩니다.” 세상에서 가장 강력한 '빅 인공지능'


수냉식 H100 100,000개, 19일 만에 완성

세계 최대의 슈퍼컴퓨팅 클러스터가 수냉식 H100을 100,000개 보유하고 있다는 점은 주목할 가치가 있습니다.


10만 위안 상당의 H100 컨셉은 무엇인가요?

가격 면에서 H100 GPU는 AI의 핵심 부품이자 실리콘밸리에서 핫한 상품이다. H100 10만개당 가격은 40억 달러에 달하는 것으로 추정된다.

미국 5대 대학 중 한 곳의 머신러닝 박사가 연구실의 H100 수가 0이고 GPU를 서둘러 사용해야 한다는 글을 올린 적이 있습니다.

Li Feifei는 또한 인터뷰에서 스탠포드의 자연어 처리 팀이 A100 GPU를 64개만 보유하고 있다고 말했습니다.

머스크의 초기 구매 가격은 10만 위안으로 댓글란에 군침이 도는 수치였다.


컴퓨팅 파워 측면에서 보면 OpenAI가 GPT4를 훈련시키는 데 사용하는 A100 블록 25,000개에 비해 컴퓨팅 파워는 약 20배에 달합니다.

전력 소비 측면에서 이 슈퍼컴퓨팅 센터의 운영을 유지하는 데만 필요한 총 전력은 70MW에 이르며 이는 일반 발전소의 설치 용량과 맞먹고 20만명의 에너지 수요를 충족시킬 수 있습니다.

머스크는 올해 5월 2025년 가을까지 '슈퍼컴퓨팅 공장'을 건설하겠다고 밝힌 바 있다.

이제 그는 슈퍼 클러스터 구축을 가속화하기 위해 차세대 H200이나 곧 출시될 다른 Blackwell 기반 B100 및 B200 GPU를 기다리는 대신 현세대 H100 GPU를 구입하기로 선택한 것으로 보입니다.

시장에서는 Nvidia의 새로운 Blackwell 데이터 센터 GPU가 2024년 말 이전에 출시될 것으로 예상하고 있지만 Musk는 분명히 기다릴 인내심이 없습니다.

현재 AI 군비 경쟁은 점점 더 치열해지고 있으며, 중요한 것은 가장 빨리 제품을 출시하는 사람이 빠르게 시장을 점유할 것이라는 점이다.

xAI는 스타트업 기업으로서 다른 거대 기업과의 전쟁에서 주도권을 잡아야 합니다.

이전에 머스크와 오라클의 수백억 건의 주문은 무산됐다. 머스크는 오라클의 느린 속도를 싫어했고 상대방이 실현 가능한 속도로 컴퓨팅 클러스터를 구축하지 않는다고 믿었다.


반면 오라클은 xAI의 슈퍼컴퓨팅 위치가 전력 수요를 감당할 수 없다고 느꼈고, 수백억 건의 주문에 대한 협상이 결렬되자 xAI와 오라클은 기존 협력 확대 가능성에 대한 논의를 중단했습니다.

xAI는 테네시주 멤피스에 자체 인공지능 데이터센터를 구축할 수밖에 없었습니다. 오라클과의 협력이 결렬되자 xAI는 혼자서 100,000개의 H100을 갖춘 독립 데이터센터를 구축해야 했습니다. Oracle과 같은 클라우드 제공업체의 기능.

머스크 자신은 xAI가 훨씬 앞서 있는 세계에서 가장 강력한 AI 훈련 클러스터를 보유하고 있다고 말했습니다.


세계 최강 그록-3(Grok-3) 훈련 시작, 연말 출시 예정

머스크는 최근 인터뷰에서 슈퍼컴퓨터 구축에 관한 몇 가지 세부 사항을 공개했습니다.

Greater Memphis Chamber 회장인 Ted Townsend에 따르면 Musk가 Memphis에 xAI의 새로운 슈퍼컴퓨터를 구축하기로 결정하는 데 약 일주일밖에 걸리지 않았습니다.

지난 3월 며칠간의 회오리바람이 몰아치는 협상 끝에 머스크와 그의 팀은 풍부한 전력과 빠른 건설 능력 때문에 테네시 시를 선택했다고 타운센드는 말했습니다.

더욱이 머스크는 슈퍼컴퓨팅 센터를 구축하는 데 불과 19일밖에 걸리지 않았다는 트윗을 통해 팀의 뛰어난 성과를 칭찬하기도 했습니다.


Supermicro는 xAI에 대한 대부분의 하드웨어 지원도 제공하며 CEO인 Charles Liang도 Musk의 트윗에 댓글을 달며 팀의 실행 능력을 칭찬했습니다.


이러한 대규모 훈련 클러스터의 목적은 Grok 3를 훈련시키는 것입니다.

이달 초 머스크는 8월 말 그록 2 출시를 발표했지만, 아직 Grok-2는 출시되지 않았지만 가장 강력한 모델인 Grok 3의 추진력을 구축하기 위해 Grok-3에 대한 몇 가지 세부 정보도 공개했습니다. .

머스크는 올해 4월 노르웨이 소버린 펀드(Norwegian Sovereign Fund) 대표인 니콜라이 탕겐(Nicolai Tangen)과의 인터뷰에서 Grok 2의 훈련을 위해 약 20,000개의 H100이 필요할 것이라고 말했습니다.

Grok 3는 연말에 출시될 예정입니다. 100,000 GPU 트레이닝을 기반으로 한 Grok 3의 성능은 Grok 2보다 높을 것으로 예상됩니다.

이러한 거대한 슈퍼컴퓨팅 센터에는 당연히 많은 인재와 기술의 지원이 필요합니다. 머스크는 또한 데이터, 인재 및 컴퓨팅 능력의 장점을 최대한 확장하기 위해 트위터에서 계속해서 사람들을 모집하고 있습니다.


참고자료:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993