AI 패권 전쟁이 시작된다! OpenAI, GB200 슈퍼컴퓨터 10만 대 긴급 구축, 머스크 H100 10만 대 이달 말 훈련 시작

2024-07-16

새로운 지혜 보고서

편집자: 타오지(Taozi)

[새로운 지혜 소개] Musk는 xAI가 구축한 세계 최대 슈퍼컴퓨팅 클러스터가 100,000개의 H100으로 구축되었으며 이달 말에 훈련을 시작할 예정이라고 공식 발표했습니다. 반면 OpenAI는 다시 투자를 늘려 10만GB200으로 구성된 슈퍼컴퓨터를 구축해 xAI를 완전히 무너뜨릴 예정이다.

AGI에 도달하기 위해 전 세계 기업들은 GPU를 모두 태워버릴 준비를 하고 있습니다!

OpenAI의 다음 슈퍼컴퓨팅 클러스터가 100,000GB200 블록으로 구성될 것이라는 정보가 독점적으로 보고되었습니다.

이는 현재까지 Nvidia의 가장 강력한 AI 칩을 사용합니다.

한편, xAI는 10만 개의 H100으로 구성된 '세계 최대 슈퍼컴퓨팅 클러스터'를 구축 중이며 이달 말 훈련에 투입될 예정이다.

머스크는 최근 게시물에서 xAI와 오라클이 서버 거래 협상을 종료했다는 보도에 즉각 반응했습니다.

그는 xAI가 Oracle로부터 24,000개의 H100을 구입했으며 이 칩에서 Grok 2를 교육했다고 말했습니다.

Grok 2는 현재 미세 조정 및 버그 수정 작업을 진행 중이며 다음 달에 출시될 예정입니다. 동시에 xAI는 가장 빠른 훈련 완료 시간을 달성하는 것을 목표로 자체적으로 100,000개의 H100 클러스터를 구축하고 있으며 이번 달 말에 모델 훈련을 시작할 계획입니다. 이는 세계에서 가장 강력한 훈련 클러스터가 될 것이며 그 장점은 자명합니다. 우리가 H100 칩 시스템 10만개와 차세대 주요 시스템을 직접 구축하기로 결정한 이유는 우리의 핵심 경쟁력이 다른 AI 기업보다 빠른 것에 달려 있기 때문이다. 이것이 경쟁사를 따라잡을 수 있는 유일한 방법입니다. 오라클은 훌륭한 회사이고, OpenAI의 GB200 클러스터 프로젝트에 참여할 가능성이 큰 또 다른 회사(Microsoft를 암시)가 있습니다. 그러나 우리의 운명이 가장 빠른 회사가 되는 데 달려 있다면 우리는 방관자가 아니라 책임을 져야 합니다.

요컨대, 끊임없이 변화하는 시대에 경쟁사를 능가하려면 절대적인 속도 우위를 확보해야 합니다.

xAI Oracle 붕괴, 수백억 달러 낭비

올해 5월 Information은 xAI가 Oracle로부터 Nvidia AI 칩을 임대하는 다년간의 계약을 논의하고 있다고 보도했습니다.

이번 거래 규모는 최대 100억 달러에 달할 것으로 예상됐지만 몇 가지 문제로 인해 교착상태에 빠졌다.

그 중 머스크는 슈퍼컴퓨터 구축 속도가 오라클의 상상을 완전히 뛰어넘을 것을 요구하고 있다. Oracle은 또한 xAI가 선호하는 위치의 전력이 충분하지 않을 것이라고 우려하고 있습니다.

이러한 상황을 바꾸기 위해서는 오직 자립에만 의지할 수 있습니다.

이제 xAI는 Dell과 Supermicro가 출시한 Nvidia 칩을 사용하여 테네시주 멤피스에 자체 AI 데이터 센터를 구축하고 있습니다.

협상 관계자에 따르면 오라클은 이번 프로젝트에 참여하지 않는다고 한다.

실제로 xAI는 이전에도 Oracle로부터 많은 Nvidia 칩을 임대했으며 이 클라우드 컴퓨팅 GPU 공급업체의 최대 고객 중 하나가 되었습니다.

광범위한 협상이 실패했음에도 불구하고 이번 거래는 당분간 진행될 예정이다.

머스크의 최근 답변을 보면 오라클 칩의 수가 5월 1만6000개에서 2만4000개로 늘어난 것을 알 수 있다.

H100 시리즈 연결 100,000개

그러나 머스크는 여전히 100,000개의 Nvidia GPU를 장착한 슈퍼컴퓨터를 구축하여 "컴퓨팅의 기가팩토리"라고 부르기를 희망하고 있습니다.

그는 xAI가 차세대 AI 모델인 Grok 3.0을 훈련하려면 더 많은 칩이 필요하다고 말했습니다.

Lao Ma는 지난 5월 투자자들에게 2025년 가을까지 슈퍼컴퓨터를 가동하기를 희망하며 LLM 개발에 중요하기 때문에 슈퍼컴퓨터를 제 시간에 맞춰 제공하는 것을 개인적으로 책임질 것이라고 말했습니다.

그는 100,000개의 H100으로 구성된 수냉식 훈련 클러스터가 몇 달 안에 온라인 상태가 될 것이라고 여러 번 공개적으로 밝혔습니다.

Grok 모델의 반복이 중요한 이유는 그것이 월 8달러부터 시작하고 다양한 기능을 포함하는 X Social App 구독 패키지의 일부이기 때문입니다.

지난주 xAI는 데이터 센터에 있는 머스크와 다른 직원들의 사진도 공개했습니다. 사진 뒤 배경에는 서버가 있습니다.

게시물에 위치가 지정되지 않았지만. 그러나 지난 6월 Greater Memphis Chamber 회장은 xAI가 Memphis의 Electrolux 공장에서 슈퍼컴퓨터를 구축하고 있다고 말했습니다.

테네시주 멤피스에 위치한 새로운 xAI 시설의 유틸리티 레이아웃

Dell CEO Micael Dell은 Dell이 xAI가 데이터 센터를 구축하는 데 도움을 주고 있다고 말했습니다.

또한 Supermicro CEO Charles Liang도 데이터 센터에 자신과 Musk의 사진을 게시하여 xAI와의 파트너십을 확인했습니다.

지난 달 머스크는 xAI가 시리즈 B 파이낸싱에서 60억 달러라는 엄청난 금액을 완료했으며 회사 가치가 240억 달러에 달했다고 발표했습니다.

시리즈 B 파이낸싱의 투자자에는 Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital 및 Fidelity Management & Research를 포함한 8명의 투자자가 포함됩니다.

그는 개인적으로 이번 자금 조달에서 대부분의 자금이 컴퓨팅 파워 구축에 투자될 것이라고 말했습니다.

분명히 xAI가 구축한 슈퍼컴퓨팅 프로젝트는 OpenAI를 따라잡기 위한 노력의 일환입니다.

GB200 슈퍼컴퓨터 100,000대, 2년간 50억 달러에 임대

실제로 OpenAI 역시 한시도 쉬지 않고 연구개발 속도를 쉬지 않고 가속화하고 있습니다.

이 문제에 정통한 두 사람은 Oracle과 Microsoft의 거래에 Nvidia의 곧 출시될 GB200 칩 100,000개의 클러스터가 포함되어 있다고 밝혔습니다.

이 슈퍼컴퓨터가 만들어지면 머스크의 10만 대 H100은 아무 것도 아닐 것이다.

일부 네티즌들은 클러스터에 있는 엔비디아 GB200 칩의 개수가 인텔 80286 프로세서의 트랜지스터 개수와 거의 맞먹는다고 감탄하기도 했다.

다른 누군가는 이를 분석해 "GB200의 훈련 성능은 H100의 4배가 될 것"이라고 말했다.

GPT-4는 25,000개의 A100(H100의 전신)을 사용하여 90일 동안 훈련되었습니다. 따라서 이론상으로는 100,000GB200로 2일 이내에 GPT-4를 훈련할 수 있지만 이는 이상적인 조건이고 완전히 현실적이지 않을 수 있습니다. 하지만 2025년 2분기에 가동될 것으로 예상되는 이 슈퍼컴퓨터 클러스터를 사용하여 90일 안에 어떤 종류의 AI 모델을 훈련할 수 있는지 상상하게 만듭니다.

GTC 2024 컨퍼런스에서 Lao Huang은 H100이 A100보다 4배 빠르고, B200이 H100보다 3배 빠르다고 소개한 적이 있습니다.

GPU 클라우드 가격에 정통한 사람들에 따르면 두 회사가 다년 계약을 체결한다고 가정하면 이러한 클러스터를 임대하는 데 드는 비용은 2년에 걸쳐 약 50억 달러에 이를 수 있습니다.

이 클러스터는 2025년 2분기에 준비될 것으로 예상됩니다.

오라클은 엔비디아로부터 칩을 구매해 마이크로소프트에 임대하고, 마이크로소프트는 이 칩을 OpenAI에 제공할 예정이다. 결국 이는 Microsoft와 OpenAI 간의 상호 이익을 위한 일관된 관행이 되었습니다.

Microsoft는 OpenAI에 돈을 투자하고 그 대가로 새로운 OpenAI 모델에 액세스할 수 있습니다.

계획에 참여한 사람들에 따르면 오라클은 텍사스주 애빌린에 있는 데이터 센터에 칩을 배치할 계획이라고 합니다.

이 거래는 또한 Microsoft 자체가 Nvidia 칩을 충분히 확보할 수 없음을 보여줍니다.

더욱이 클라우드 컴퓨팅 제공업체가 서로 서버를 임대하는 것은 흔한 일이 아니지만 Nvidia 칩에 대한 높은 수요가 이러한 이례적인 거래로 이어졌습니다.

작년에 Microsoft는 Nvidia 서버의 용량을 늘리기 위해 CoreWeave와 유사한 임대 서버 계약을 체결했습니다.

참고자료:

https://x.com/elonmusk/status/181072739463195075

https://x.com/아미르/상태/1810722841106821623

소식

AI 패권 전쟁이 시작된다! OpenAI, GB200 슈퍼컴퓨터 10만 대 긴급 구축, 머스크 H100 10만 대 이달 말 훈련 시작

소개

내 연락처 정보