Musk rakensi maailman tehokkaimman tekoälyklusterin 19 päivässä! 100 000 yuanin H100 "nestejäähdytetty hirviö" on heräämässä

2024-07-23

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]100 000 kappaleen nestejäähdytteisen H100:n rakentaminen aloitettiin virallisesti, ja Musk rakensi maailman vahvimman tekoälyn harjoitusklusterin 19 päivässä.

Aamulla kello 4.20 suurin supertietokoneen harjoitusklusteri toisella puolella valtamerta alkoi mölyttää.

"420" on myös Muskin suosikkimeemi, joka symboloi vapautta, hillittömyyttä ja perinteiden vastaisuutta.

Musk käyttää usein "420" tuotteidensa hinnoittelussa, yrityksen kokousajoissa ja tähtialusten laukaisuajoissa jne.

Nettimiehet vitsailivat myös kommenttikentässä, että Muskilla on hyvä seremoniataju, eikä hän aloita työskentelyä ennen klo 4.20.

Viimeisimmässä haastattelussa Musk paljasti lisää uusien supertietokoneiden ja xAI-mallien edistymisestä:

- Grok 2 suoritti koulutuksen viime kuussa käyttäen noin 15K H100

- Grok 2 julkaistaan ensi kuussa, vastaa GPT-4:ää - Grok 3 rakentaa 100 000 nestejäähdytteistä H100-supertietokonetta ja aloittaa harjoittelun - Grok 3:n odotetaan ilmestyvän joulukuussa, "Sistä tulee maailman tehokkain sitten "Big Artificial Intelligence"

100 000 kappaletta nestejäähdytteistä H100:aa, valmis 19 päivässä

On syytä huomata, että maailman suurimmassa supertietokoneklusterissa on 100 000 H100:ta, jotka ovat nestejäähdytteisiä.

Mikä on 100 000 yuanin arvoisen H100:n käsite?

H100 GPU on AI:n avainkomponentti ja Piilaakson kuuma hyödyke. Arvioiden mukaan 100 000 H100:n yksikköä on 4 miljardia.

Koneoppimisen tohtori yhdestä Yhdysvaltojen viidestä parhaasta yliopistosta julkaisi kerran, että laboratoriossa on 0 H100:a ja GPU:ita on käytettävä kiireellä.

Li Feifei sanoi myös haastattelussa, että Stanfordin luonnollisen kielen käsittelytiimillä on vain 64 A100-grafiikkasuoritinta.

Muskin alkuperäinen ostohinta oli 100 000 yuania, mikä sai kommenttiosion sylkeä.

Laskentateholla mitattuna laskentateho on noin 20 kertaa suurempi kuin 25 000 A100-lohkoa, joita OpenAI käyttää GPT4:n kouluttamiseen.

Tehonkulutuksen kannalta pelkästään tämän superlaskentakeskuksen toiminnan ylläpitämiseksi tarvittava kokonaisteho on 70 MW, mikä vastaa tavallisen voimalaitoksen asennettua kapasiteettia ja pystyy kattamaan 200 000 ihmisen energiantarpeen.

Tämän vuoden toukokuussa Musk ilmoitti toivovansa rakentavansa "supertietokonetehtaan" syksyyn 2025 mennessä.

Nyt näyttää siltä, että superklusterin rakentamisen nopeuttamiseksi hän päätti ostaa nykyisen sukupolven H100 GPU:n sen sijaan, että olisi odottanut uuden sukupolven H200:ta tai muita tulevia Blackwell-pohjaisia B100- ja B200-grafiikkasuorittimia.

Vaikka markkinat odottavat Nvidian uuden Blackwellin datakeskuksen GPU:n olevan saatavilla ennen vuoden 2024 loppua, Muskilla ei selvästikään ole kärsivällisyyttä odottaa.

Nykyinen tekoälyn asevarustelu on kiihtynyt, ja ainoa asia, jolla on merkitystä, on nopeus.

Aloittavana yrityksenä xAI:n on otettava johtoasema taistelussa muiden jättiläisten kanssa.

Aiemmin Musk ja Oraclen kymmeniä miljardeja tilauksia hajosi Musk ei pitänyt Oraclen hitaasta nopeudesta ja uskoi, että toinen osapuoli ei rakentanut laskentaklustereita toteuttamiskelpoisella nopeudella.

Oracle puolestaan koki, että xAI:n supertietokoneiden paikkavalinta ei kestänyt virran kysyntää. Kymmenien miljardien tilausten neuvottelut katkesivat, ja xAI ja Oracle lopettivat keskustelun olemassa olevan yhteistyön laajentamisesta.

xAI:lla ei ollut muuta vaihtoehtoa kuin rakentaa oma tekoälyn tietokeskus Memphisiin, Tennesseen osavaltioon. Yhteistyön katkeaminen Oraclen kanssa johti siihen, että xAI:n täytyi tehdä se yksin ja rakentaa itsenäinen datakeskus, jossa oli 100 000 H100:aa päästäkseen eroon tietokeskuksen rajoituksista. pilvipalveluntarjoajien, kuten Oraclen, ominaisuudet.

Musk itse sanoi, että xAI:lla on maailman vahvin AI-koulutusklusteri, joka on kaukana edellä.

Maailman vahvin Grok-3 aloittaa harjoittelun ja se julkaistaan vuoden loppuun mennessä

Muskin viimeisimmässä haastattelussa hän paljasti joitain yksityiskohtia supertietokoneen rakentamisesta.

Greater Memphis Chamberin puheenjohtajan Ted Townsendin mukaan Muskilta kesti vain noin viikko päättääkseen rakentaa xAI:n uusi supertietokone Memphisiin.

Useita päiviä kestäneiden neuvottelujen jälkeen maaliskuussa Musk ja hänen tiiminsä valitsivat Tennesseen kaupungin sen runsaan voiman ja nopean rakentamiskyvyn vuoksi, Townsend sanoi.

Lisäksi superlaskentakeskuksen rakentamiseen meni vain 19 päivää, ja Musk kehui myös joukkueen erinomaista työtä twiitissä.

Supermicro tarjoaa myös suurimman osan laitteistotuesta xAI:lle, ja sen toimitusjohtaja Charles Liang kommentoi myös Muskin twiittiä ylistäen joukkueen suorituskykyä.

Tällaisen suuren koulutusklusterin tarkoitus on kouluttaa Grok 3.

Tämän kuun alussa Musk ilmoitti Grok 2:n lanseeraamisesta elokuun lopussa. Vaikka Grok-2:ta ei ole vielä julkaistu, Musk paljasti myös joitain Grok-3:n yksityiskohtia vauhdittaakseen tehokkainta mallia, Grok 3:a. .

Haastattelussa Norjan valtionrahaston johtajan Nicolai Tangenin kanssa Musk sanoi tämän vuoden huhtikuussa, että Grok 2 vaatisi noin 20 000 H100:ta koulutukseen.

Grok 3 julkaistaan vuoden lopussa. On odotettavissa, että 100 000 GPU:n koulutukseen perustuvan Grok 3:n suorituskyky on parempi kuin Grok 2.

Tällainen valtava superlaskentakeskus vaatii luonnollisesti lukuisten kykyjen ja teknologian tukea. Musk jatkaa myös ihmisten rekrytointia Twitterissä laajentaakseen datan, lahjakkuuden ja laskentatehon etuja äärimmilleen.

Viitteet:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993

uutiset

Musk rakensi maailman tehokkaimman tekoälyklusterin 19 päivässä! 100 000 yuanin H100 "nestejäähdytetty hirviö" on heräämässä

Johdanto

yhteystietoni