소식

머스크, 세계에서 가장 강력한 AI 슈퍼컴퓨터 구축 위해 H100 10만대 확보, 차세대 모델 훈련 시작

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

머스크는 세계에서 가장 강력한 AI 클러스터를 구축했습니다!

폭발적인 소식은 Lao Ma 자신이 트위터를 통해 공식적으로 발표했습니다.

현지 시간 오전 4시 20분, xAI, X, NVIDIA가 공동으로 구축한 Memphis 슈퍼 클러스터가 훈련을 시작했습니다.
그것은 구성되어 있습니다H100 100,000개로 구성, 현재 세계에서 가장 강력한 교육 클러스터입니다!



이 규모는 세계에서 가장 강력한 슈퍼컴퓨터인 프론티어(Frontier)를 훨씬 능가합니다.

xAI의 창립 멤버는 다음과 같이 말했습니다.

1년 전 이 회사를 설립했을 때 우리의 목표는 데이터 우위, 인재 우위, 컴퓨팅 우위라는 세 가지 이점을 달성하는 것이었습니다.
오늘부터 3개 다 모았습니다!



머스크의 게시물에 엔비디아와 긴밀한 관계를 맺고 액체 냉각 기술을 전문으로 하는 슈퍼마이크로(Supermicro)도 축하 메시지를 보냈다. 창립자인 Charles Liang은 다음과 같이 말했습니다.

우리가 머스크와 함께 역사를 만들고 있다는 것은 대단한 일입니다.



동시에 머스크는 클러스터 완성이 올해 안에 세계에서 가장 강력한 모델을 훈련하는 데 상당한 이점을 제공할 것이라고 덧붙였습니다.



이전 진술에 따르면 Grok-3를 훈련하려면 100,000개의 H100이 필요합니다.



△클러스터 오버헤드 샷

게다가 올해 6월에는 H100에 1GW의 전력을 투자하는 것이 가치가 없다고 언급한 바 있다. 내년 여름에는 B200 30만개로 구성된 클러스터가 가동될 수도 있다.



자체 구축된 클러스터는 더 자신감이 있습니다.

올해 5월 더 인포메이션(The Information)은 머스크가 2025년 가을까지 10만 대의 H100으로 구성된 슈퍼컴퓨팅 클러스터를 구축하고 오라클과 협력할 것이라고 보도했다.

xAI는 오라클 서버 임대를 위해 100억 달러를 투자할 것으로 알려졌다.

당시 일부 사람들은 왜 내년에 건설될 예정인데도 여전히 이전 세대 기술을 사용하는지 의문을 제기했습니다.

NVIDIA는 H100보다 훨씬 효율적으로 대형 모델을 훈련할 수 있는 새로운 Blackwell 아키텍처를 기반으로 B100 및 B200을 출시했습니다.

지금 생각해보면 아마도 뉴스에 나오는 시간이 잘못된 것 아닐까요? 올해 안에 완공된다면 훨씬 더 합리적일 것입니다.



최근 머스크는 슈퍼컴퓨팅 클러스터 구축을 위해 오라클과의 협력을 종료한다는 소식에 화답했습니다.

그는 xAI가 Grok-2를 훈련하기 위해 Oracle로부터 24,000개의 H100 리소스를 받았다고 말했습니다. 관련 뉴스는 xAI와 Oracle 간의 서버 임대 협력이 여전히 계속되고 있음을 입증합니다.

하지만 10만 장의 카드 H100 클러스터 구축에서는 자체 구축 모델을 선택해 최대한 빠르게 홍보했는데, 10만 장의 카드를 설치하는 데만 19일이 걸렸다고 합니다.

우리는 스스로 운전대를 잡아야 합니다.



나중에 뉴스에 따르면 Dell과 Super Micro가 Musk의 새로운 파트너가 되었습니다.

Dell CEO와 Supermicro CEO는 최근 트위터를 통해 협력이 진행 중이라고 밝혔으며 데이터 센터 사진도 포함했습니다.



클러스터 구축 과정에서 머스크가 직접 현장을 방문했다.

동시에 Grok이 Memphis에서 훈련 중이며 Grok-2가 8월에 출시될 것이라는 사실도 Twitter를 통해 공개되었습니다.



오라클은 이전에 클러스터가 구축된 위치의 전원 공급 장치에 대한 우려를 제기했다는 점을 언급할 가치가 있습니다.

추정에 따르면 H100 장치 10만 대에는 그리드에서 할당된 150MW의 전력이 필요하지만 머스크는 이 문제를 해결한 것으로 보입니다.

최신 뉴스에 따르면 현재 클러스터는 일시적으로 8MW를 확보했습니다. 8월 1일 계약을 체결하면 50MW를 확보하게 된다. 현재 온라인에는 32,000장의 카드가 있으며 4분기에는 100% 온라인으로 제공될 예정입니다. 이는 GPT-5 규모 모델 교육 작업을 지원하기에 충분합니다.



간단히 말해서, 확실한 것은 AI 거물들이 모두 자신의 손에 컴퓨팅 능력을 보유하는 것이 더 신뢰할 수 있고 이를 위해 미친 돈을 쓸 가치가 있다고 믿고 있다는 것입니다.

추정 비용에 따르면 각 H100의 가격은 약 US$30,000-40,000입니다. 머스크의 슈퍼컴퓨팅 클러스터는 미화 40억 달러(290억 위안 이상에 해당)의 가치가 있을 것입니다.

이전 뉴스에서는 Microsoft와 OpenAI가 "Stargate"라는 1000억 달러 규모의 데이터 센터 프로젝트를 개발하고 있다고 밝혔습니다.

이 문제에 정통한 소식통에 따르면 Oracle과 Microsoft 간에 B200 100,000대와 관련된 거래가 성사되고 있습니다. 클러스터는 내년 여름까지 준비될 수 있습니다.

또한 Meta는 고급 슈퍼컴퓨팅 클러스터를 보유하고 있는 것으로 알려졌으며, AWS와 같은 클라우드 공급업체도 데이터 센터에 더 많은 투자를 했습니다.

참고자료:
[1]https://x.com/엘론머스크/상태/1810727394631950752
[2]https://x.com/엘론머스크/상태/1815325410667749760
[3]https://x.com/dylan522p/상태/1815494840152662170
[4]https://x.com/마이클 델/상태/1803385185984974941