AI-taistelu hegemoniasta alkaa! OpenAI rakentaa kiireellisesti 100 000 GB200 supertietokoneen, Muskin 100 000 H100 aloittaa harjoittelun kuun lopussa

2024-07-16

Uusi viisausraportti

Toimittaja: Taozi

[Johdatus uuteen viisauteen] Musk ilmoitti virallisesti, että maailman suurin xAI:n rakentama supertietokoneklusteri on rakennettu 100 000 H100:lla ja sen odotetaan alkavan harjoitella tämän kuun lopussa. Toisaalta OpenAI lisää jälleen investointejaan ja rakentaa 100 000 GB200:sta koostuvan supertietokoneen murskaamaan xAI:n kokonaan.

AGI:n tavoittamiseksi yritykset ympäri maailmaa valmistautuvat polttamaan kaikki GPU:t!

Tiedot kertoivat yksinomaan, että OpenAI:n seuraava supertietokoneklusteri koostuu 100 000 GB200-lohkosta.

Tämä käyttää Nvidian tähän mennessä tehokkainta AI-sirua.

Toisaalta xAI rakentaa myös niin sanottua "maailman suurinta supertietokoneklusteria", joka koostuu 100k H100:sta, ja se otetaan koulutukseen tämän kuun lopussa.

Muskin viimeisimmässä viestissä hän vastasi välittömästi raportteihin, joiden mukaan xAI ja Oracle olivat lopettaneet palvelinsopimusneuvottelut.

Hän sanoi, että xAI on ostanut 24 000 H100:aa Oraclelta ja kouluttanut Grok 2:ta näillä siruilla.

Grok 2:ssa tehdään parhaillaan hienosäätöä ja virheenkorjauksia, ja sen odotetaan olevan valmis julkaistavaksi ensi kuussa. Samaan aikaan xAI rakentaa myös itse 100 000 H100-klusterin. Tavoitteena on saavuttaa nopein harjoitteluaika ja aikoo aloittaa harjoitusmallit myöhemmin tässä kuussa. Tästä tulee maailman vahvin koulutusklusteri, jonka edut ovat itsestään selviä. Syy, miksi päätimme rakentaa itse 100 000 H100-sirujärjestelmää sekä seuraavan sukupolven suuria järjestelmiä, on se, että ydinkilpailukykymme riippuu siitä, että olemme nopeampia kuin muut tekoälyyritykset. Tämä on ainoa tapa tavoittaa kilpailijasi. Oracle on erinomainen yritys, ja on olemassa toinen yritys (Vittaten Microsoftiin), joka myös osoittaa suurta potentiaalia osallistua OpenAI:n GB200-klusteriprojektiin. Mutta kun kohtalomme riippuu siitä, että olemme nopein yritys, meidän on otettava vastuu, ei vain sivullinen.

Lyhyesti sanottuna, tänä jatkuvasti muuttuvana aikakautena, jos haluat ohittaa kilpailijasi, sinun on varmistettava ehdoton nopeusetu.

xAI Oracle romahtaa, kymmeniä miljardeja dollareita hukkaan

Tämän vuoden toukokuussa Information kertoi, että xAI oli keskustellut monivuotisesta sopimuksesta Nvidia AI -sirujen vuokraamiseksi Oraclelta.

Sopimuksen arvoksi arvioitiin jopa 10 miljardia dollaria, mutta se joutui umpikujaan joidenkin ongelmien vuoksi.

Niistä Musk vaatii, että supertietokoneen rakentamisen nopeus ylittää täysin Oraclen mielikuvituksen. Oracle on myös huolissaan siitä, että xAI:n ensisijaisessa paikassa ei ole tarpeeksi tehoa.

Tämän tilanteen muuttamiseksi voimme luottaa vain omavaraisuuteen.

Nyt xAI rakentaa omaa AI-tietokeskustaan Memphisissä Tennesseen osavaltiossa, joka käyttää Dellin ja Supermicron toimittamia Nvidia-siruja.

Oracle ei ole neuvotteluissa mukana olevien ihmisten mukaan mukana projektissa.

Itse asiassa ennen tätä xAI oli vuokrannut monia Nvidia-siruja Oraclelta ja siitä tuli yksi tämän pilvilaskentaa käyttävän GPU-toimittajan suurimmista asiakkaista.

Sopimus etenee toistaiseksi laajemmissa neuvotteluissa epäonnistumisesta huolimatta.

Muskin uusimmasta vastauksesta voidaan nähdä, että Oracle-sirujen määrä on kasvanut toukokuun 16 000:sta 24 000:een.

100 000 kpl H100-sarjan liitäntää

Musk kuitenkin toivoo edelleen rakentavansa supertietokoneen, joka on varustettu 100 000 Nvidia-grafiikkasuorittimella, kutsuen sitä "Gigafactory of Compute".

Hän sanoi, että xAI tarvitsee lisää siruja kouluttaakseen seuraavan sukupolven AI-mallia - Grok 3.0.

Lao Ma kertoi sijoittajille toukokuussa, että hän toivoo saavansa supertietokoneen käyttöön syksyllä 2025 ja että hän on henkilökohtaisesti vastuussa supertietokoneen toimittamisesta ajoissa, koska se on elintärkeää LLM:n kehittämisen kannalta.

Hän on useaan otteeseen julkisesti todennut, että 100 000 H100:sta koostuva nestejäähdytteinen koulutusklusteri on verkossa muutaman kuukauden sisällä.

Syy, miksi Grok-mallin iterointi on tärkeää, johtuu siitä, että se on osa X Social App -tilauspakettia, joka alkaa 8 dollarista kuukaudessa ja sisältää erilaisia ominaisuuksia.

Juuri viime viikolla xAI julkaisi myös valokuvan Muskista ja muista palvelinkeskuksen työntekijöistä. Taustalla kuvan takana on palvelimia.

Vaikka paikkaa ei viestissä ilmoitettu. Mutta kesäkuussa Greater Memphis Chamberin presidentti sanoi, että xAI rakentaa supertietokonetta Electroluxin tehtaalla Memphisissä.

Uuden xAI-laitoksen apuohjelma Memphisissä, Tennesseen osavaltiossa

Dellin toimitusjohtaja Micael Dell sanoi, että Dell auttaa xAI:ta rakentamaan datakeskuksen.

Lisäksi Supermicron toimitusjohtaja Charles Liang julkaisi myös kuvan itsestään ja Muskista datakeskuksessa, mikä myös vahvisti yrityksen kumppanuuden xAI:n kanssa.

On syytä mainita, että Musk ilmoitti viime kuussa, että xAI oli suorittanut hämmästyttävän 6 miljardin dollarin B-sarjan rahoituksen, ja yhtiön arvo oli 24 miljardia dollaria.

B-sarjan rahoituksen sijoittajia ovat kahdeksan sijoittajaa, mukaan lukien Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital ja Fidelity Management & Research.

Hän sanoi henkilökohtaisesti, että viimeisellä rahoituskierroksella suurin osa varoista sijoitetaan laskentatehon rakentamiseen.

On selvää, että xAI:n rakentama superlaskentaprojekti on osa sen pyrkimyksiä saada kiinni OpenAI:sta.

100 000 GB200-supertietokone, vuokrattu 5 miljardilla dollarilla kahdeksi vuodeksi

Itse asiassa toisaalta OpenAI myös kiihdyttää tutkimus- ja kehitysvauhtiaan taukoamatta, eikä uskalla veltostella.

Kaksi asiaan perehtynyttä henkilöä paljasti, että Oraclen sopimus Microsoftin kanssa sisältää 100 000 Nvidian tulevan GB200-sirun klusterin.

Kun tämä supertietokone rakennetaan, Muskin 100 000 H100 ei ole mitään.

Jotkut netizens huudahtivat, että NVIDIA GB200 -sirujen määrä klusterissa vastaa suunnilleen Intel 80286 -prosessorin transistorien määrää. Olen yllättynyt nähdessäni tämän kohtauksen elämäni aikana.

Joku muu analysoi tämän ja sanoi: "GB200:n harjoitussuorituskyky on 4 kertaa suurempi kuin H100:n."

GPT-4 koulutettiin 25 000 A100:lla (H100:n edeltäjä) 90 päivässä. Joten teoriassa voit harjoitella GPT-4:ää alle kahdessa päivässä 100 000 GB200:lla, vaikka tämä on ihanteellisissa olosuhteissa eikä välttämättä ole täysin realistista. Mutta se saa ihmiset kuvittelemaan, millaisia tekoälymalleja he voivat harjoitella 90 päivässä käyttämällä tätä supertietokoneklusteria, joka on tarkoitus ottaa käyttöön vuoden 2025 toisella neljänneksellä.

GTC 2024 -konferenssissa Lao Huang esitteli kerran, että H100 on 4 kertaa nopeampi kuin A100 ja B200 on 3 kertaa nopeampi kuin H100.

Olettaen, että kaksi yritystä allekirjoittavat monivuotisen sopimuksen, tällaisen klusterin vuokrauskustannukset voivat nousta noin 5 miljardiin dollariin kahdessa vuodessa GPU-pilvihinnoitteluun perehtyneiden ihmisten mukaan.

Tämän klusterin odotetaan valmistuvan vuoden 2025 toisella neljänneksellä.

Oracle ostaa siruja Nvidialta ja vuokraa ne Microsoftille, joka toimittaa sirut OpenAI:lle. Loppujen lopuksi tästä on tullut Microsoftin ja OpenAI:n johdonmukainen molemminpuolinen hyöty.

Microsoft sijoittaa rahaa OpenAI:han ja saa vastineeksi pääsyn uusiin OpenAI-malleihin.

Suunnitteluun osallistuneiden ihmisten mukaan Oracle aikoo sijoittaa sirut palvelinkeskukseen Abilenessa, Texasissa.

Sopimus osoittaa myös, että Microsoft itse ei saa tarpeeksi Nvidia-siruja.

Lisäksi pilvipalveluntarjoajien ei ole yleistä vuokrata palvelimia toisiltaan, mutta Nvidia-sirujen voimakas kysyntä johti tähän epätavalliseen kauppaan.

Viime vuonna Microsoft teki vastaavan vuokrapalvelinsopimuksen CoreWeaven kanssa lisätäkseen Nvidia-palvelinten kapasiteettia.

Viitteet:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

uutiset

AI-taistelu hegemoniasta alkaa! OpenAI rakentaa kiireellisesti 100 000 GB200 supertietokoneen, Muskin 100 000 H100 aloittaa harjoittelun kuun lopussa

Johdanto

yhteystietoni