AI-hirviö Dojo! Itse kehitetty supertietokone haastaa NVIDIA

AI-hirviö Dojo!Itse kehitetty supertietokone haastaa NVIDIA:n

2024-08-05

Artikkeli on painettu uusintapainos kielellä Xinzhiyuan

Kouluttaakseen vahvimman Grok 3:n xAI käytti 19 päivää rakentaen maailman suurinta supertietokoneklusteria, joka koostuu 100 000 H100:sta.

FSD- ja Optimus Prime -robottien koulutuksen osalta Musk ei myöskään säästänyt kustannuksia ja investoi paljon laskentaresursseja.

Supercomputing Dojo on Teslan tekoälyn kulmakivi, ja se on suunniteltu erityisesti FSD-hermoverkkojen kouluttamiseen.

Juuri tänään hän vieraili Teslan supertietokoneklusterissa Texas Super Factoryssa (Cortex).

Musk sanoi: "Tämä on järjestelmä, jossa on noin 100 000 H100/H200 GPU:ta ja laajamittaista tallennustilaa täysin autonomisen ajon (FSD) ja Optimus-robottien videokoulutukseen."

Sen lisäksi, että NVIDIA-grafiikkasuorittimien lisäksi tämä supertietokoneklusteri on varustettu myös Tesla HW4-, AI5- ja Dojo-järjestelmillä.

Niitä saa virtansa ja jäähdytyksen suuresta, jopa 500 megawatin järjestelmästä.

Tesla AI Dayssä vuonna 2021 Musk julkisti Dojon ensimmäistä kertaa.

Nyt on kulunut kolme vuotta, miten Dojon rakentaminen etenee?

8 000 H100 vastaavaa laskentatehoa, tuplaa panoksesi

Puoli kuukautta sitten nettimiehet väittivät, että Teslalla olisi tekoälyn harjoittelulaskentatehoa vuoden 2024 loppuun mennessä, mikä vastaa 90 000 yuania arvoisen H100:n suorituskykyä.

Musk lisäsi tähän jotain:

Emme käytä vain NVIDIA-grafiikkasuorittimia, vaan myös omaa tekoälytietokonettamme - Tesla HW4 AI (uudelleennimetty AI4) AI-koulutusjärjestelmässä, jonka suhde on noin 1:2. Tämä tarkoittaa, että H100-tietokoneita on noin 90 000 ja AI4-tietokoneita noin 40 000.

Hän mainitsi myös, että tämän vuoden loppuun mennessä Dojo 1:llä on noin 8 000 ekvivalenttia H100-laskentatehoa. Tämä mittakaava ei ole suuri, mutta ei myöskään pieni.

Dojo D1 -supertietokoneklusteri

Itse asiassa viime vuoden kesäkuussa Musk paljasti, että Dojo oli ollut verkossa ja suorittanut hyödyllisiä tehtäviä useita kuukausia.

Tämä jo viittaa siihen, että Dojo on osallistunut joidenkin tehtävien koulutukseen.

Äskettäin Teslan tuloskonferenssissa Musk sanoi, että Tesla valmistautuu lanseeraamaan itseajavia takseja lokakuussa, ja tekoälytiimi "kaksinkertaistaa investoinnin" Dojoon.

Dojon kokonaislaskentatehon odotetaan saavuttavan 100 exaflopsia lokakuussa 2024.

Olettaen, että D1-siru voi saavuttaa 362 teraflopsia, 100 exaflopsin saavuttamiseksi Tesla tarvitsee yli 276 000 D1-sirua tai yli 320 000 Nvidia A100 GPU:ta.

50 miljardia transistoria, D1 on otettu tuotantoon

Tesla AI Dayssä vuonna 2021 D1-siru paljastettiin ensimmäistä kertaa. Siinä on 50 miljardia transistoria ja se on vain kämmenen kokoinen.

Sillä on tehokas ja tehokas suorituskyky ja se pystyy käsittelemään nopeasti erilaisia monimutkaisia tehtäviä.

Tämän vuoden toukokuussa D1-sirun tuotanto aloitettiin käyttämällä TSMC:n 7 nm:n prosessisolmua.

Ganesh Venkataramanan, Autopilotin entinen laitteistopäällikkö, sanoi kerran: "D1 voi suorittaa laskelmia ja tiedonsiirtoa samanaikaisesti, ottaa käyttöön räätälöidyn ISA-käskysarjan arkkitehtuurin ja on täysin optimoitu koneoppimisen kuormituksiin."

Tämä on puhdas koneoppimissiru.

Tästä huolimatta D1 ei ole vieläkään yhtä tehokas kuin Nvidia A100, joka on myös valmistettu TSMC:n 7nm prosessilla.

D1 sijoittaa 50 miljardia transistoria 645 neliömillimetrin sirulle, kun taas A100 sisältää 54 miljardia transistoria, sen sirun koko on 826 neliömillimetriä ja se on suorituskyvyltään D1:tä edellä.

Suuremman kaistanleveyden ja laskentatehon saavuttamiseksi Teslan tekoälytiimi integroi 25 D1-sirua yhdeksi ruuduksi ja käytti sitä yhtenäisenä tietokonejärjestelmänä.

Jokaisessa ruudussa on 9 petaflopsia laskentatehoa, 36 teratavua sekunnissa kaistanleveyttä, ja se sisältää tehon, jäähdytyksen ja tiedonsiirtolaitteiston.

Voimme ajatella yhtä ruutua omavaraisena tietokoneena, joka koostuu 25 minitietokoneesta.

Käyttämällä kiekkotason liitäntätekniikkaa InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 D1-sirua samassa kiekossa voivat saavuttaa korkean suorituskyvyn liitännät ja toimia kuin yksi prosessori.

Kuusi tällaista laatta muodostaa telineen ja kaksi telinettä kaapin.

Kymmenen kaappia muodostavat ExaPODin.

Tesla sanoi tekoälypäivänä 2022, että Dojo skaalautuu ottamalla käyttöön useita ExaPODeja. Kaikki tämä yhdessä muodostaa supertietokoneen.

Kiekon mittakaavan prosessorit, kuten Teslan Dojo ja Cerebrasin Wafer-Scale Engine WSE, ovat paljon tehokkaampia kuin moniprosessorit.

Edellisen tärkeimpiä etuja ovat suuri kaistanleveys ja matala latenssi ytimien välinen tiedonsiirto, pienempi verkon impedanssi ja parempi energiatehokkuus.

Tällä hetkellä vain Teslalla ja Cerebralla on järjestelmä-kiekolla -malleja.

25 sirun yhdistäminen aiheuttaa kuitenkin jännitteisiä haasteita ja jäähdytysjärjestelmiä.

Netizens kuvasi Teslaa rakentamassa jättimäistä jäähdytysjärjestelmää Texasissa

Kiekkotason sirujen luontainen haaste on, että niiden on käytettävä sirulla olevaa muistia, joka ei ole tarpeeksi joustava eikä välttämättä sovellu kaikentyyppisiin sovelluksiin.

Tom's Hardware ennustaa, että seuraavan sukupolven teknologia voi olla CoW_SoW (Chip-on-Wafer), joka suorittaa 3D-pinoamisen laatoille ja integroi HBM4-muistin.

Lisäksi Tesla kehittää myös seuraavan sukupolven D2-sirua tiedonkulun ongelman ratkaisemiseksi.

Yksittäisten sirujen yhdistämisen sijaan D2 asettaa koko Dojo-laatan yhdelle piikiekolle.

Vuoteen 2027 mennessä TSMC:n odotetaan tarjoavan monimutkaisempia kiekkotason järjestelmiä, ja laskentatehon odotetaan kasvavan yli 40-kertaiseksi.

D1:n julkaisun jälkeen Tesla ei ole paljastanut tilaamiensa tai odottamiensa D1-sirujen tilaustilaa eikä Dojo-supertietokoneen erityistä käyttöönottoaikataulua.

Kuitenkin tämän vuoden kesäkuussa Musk sanoi, että seuraavan 18 kuukauden aikana puolet Teslan tekoälylaitteistosta otetaan käyttöön ja toinen puoli on Nvidiaa/muita laitteita.

Muut laitteet, mahdollisesti AMD.

Miksi Dojoa tarvitaan

Autonominen ajaminen kuluttaa laskentatehoa

Mielestämme Teslan pääliiketoiminta rajoittuu sähköajoneuvojen tuotantoon joidenkin lisäaurinkopaneelien ja energian varastointijärjestelmien kanssa.

Mutta Musk odottaa Teslalta paljon enemmän.

Useimmat itseohjautuvat järjestelmät, kuten Waymo, Googlen emoyhtiön Alphabetin tytäryhtiö, käyttävät edelleen perinteisiä antureita, kuten tutka, lidar ja kamerat.

Mutta Tesla valitsee "täyden näkemyksen" -polun. He luottavat vain kameroihin visuaalisen datan tallentamiseen, täydentävät sitä teräväpiirtokartoilla paikannusta varten ja käyttävät sitten hermoverkkoja tietojen käsittelemiseen tehdäkseen nopeita päätöksiä autonomisesta ajamisesta.

Intuitiivisesti on selvää, että edellinen on yksinkertaisempi ja nopeampi polku, ja näin todellakin on.

Waymo on kaupallistanut L4 autonomisen ajon, joka on järjestelmä, joka voi ajaa itse ilman ihmisen puuttumista tietyissä SAE:n määrittelemissä olosuhteissa. Mutta Teslan FSD-hermoverkkoa (Full Self-Driving) ei voida silti erottaa ihmisen toiminnasta.

Andrej Karpathy, joka toimi aikoinaan Teslan tekoälypäällikkönä, sanoi, että FSD:n toteuttaminen on periaatteessa "keinotekoisen eläimen rakentamista tyhjästä".

Voimme ajatella sitä ihmisen visuaalisen aivokuoren ja aivojen toimintojen digitaalisena kopiona. FSD:n ei tarvitse vain jatkuvasti kerätä ja käsitellä visuaalista dataa, tunnistaa ja luokitella ajoneuvon ympärillä olevia esineitä, vaan sillä on myös oltava ihmisiin verrattavissa oleva päätöksentekonopeus.

Voidaan nähdä, että Musk haluaa enemmän kuin vain kannattavan autonomisen ajojärjestelmän. Hänen tavoitteenaan on luoda uutta älykkyyttä.

Mutta onneksi hänen ei tarvitse huolehtia riittävistä tiedoista. Noin 1,8 miljoonaa ihmistä maksaa tällä hetkellä FSD:n 8 000 dollarin tilausmaksun (aiemmin se saattoi olla 15 000 dollaria), mikä tarkoittaa, että Tesla voi kerätä miljoonia maileja ajovideota harjoittelua varten.

Laskentateholtaan Dojo-supertietokone on FSD:n harjoituskenttä. Sen kiinalainen nimi voidaan kääntää "dojoksi", nyökkäys taistelulajien harjoitusavaruuteen.

NVIDIA ei ole tarpeeksi hyvä

Kuinka suosittuja NVIDIA GPU:t ovat? Katsokaapa kuinka paljon suurten teknologiajättiläisten toimitusjohtajat haluavat päästä lähelle vanhoja gangstereita.

Jopa niin varakas kuin Musk, hän myönsi heinäkuun tulosneuvottelun aikana olevansa "erittäin huolissaan" siitä, että Tesla ei ehkä pysty käyttämään tarpeeksi Nvidia-grafiikkasuorittimia.

"Näemme, että Nvidia-laitteistojen kysyntä on niin korkea, että grafiikkasuoritteita on usein vaikea saada."

Tällä hetkellä Tesla näyttää edelleen käyttävän Nvidian laitteistoa tarjotakseen laskentatehoa Dojolle, mutta Musk ei näytä haluavan laittaa kaikkia munia samaan koriin.

Varsinkin kun otetaan huomioon, että Nvidia-sirujen palkkio on niin korkea ja suorituskyky ei ole täysin tyydyttävä Muskia.

Laitteiston ja ohjelmiston synergian osalta Tesla ja Apple ovat samankaltaisia, eli näiden kahden välillä pitäisi saavuttaa suuri synergia, erityisesti pitkälle erikoistuneessa järjestelmässä, kuten FSD, jonka pitäisi päästä eroon erittäin standardoiduista grafiikkasuorituksista ja räätälöity laitteisto.

Tämän vision ydin on Teslan oma D1-siru, joka julkaistaan vuonna 2021 ja jonka TSMC tuottaa tämän vuoden toukokuussa.

Lisäksi Tesla kehittää myös seuraavan sukupolven D2-sirua toivoen saavansa koko Dojo-lohkon yhdelle piisirun päälle ratkaistakseen tiedonkulun pullonkaulan.

Toisen vuosineljänneksen tulosraportissa Musk totesi, että hän näki "toisen tavan kilpailla Nvidian kanssa Dojon kautta".

Voiko Dojo menestyä?

Vaikka hän olisi yhtä varma kuin Musk, hän epäröi sanoa Dojosta puhuessaan, että Tesla ei ehkä onnistu.

Pitkällä aikavälillä oman supertietokonelaitteiston kehittäminen voi avata uusia liiketoimintamalleja tekoälysektorille.

Musk on sanonut, että ensimmäinen Dojo-versio räätälöidään Teslan visuaalisen datan huomautuksiin ja koulutukseen, mikä on erittäin hyödyllistä FSD:lle ja Teslan humanoidirobotin Optimuksen koulutukselle.

Tulevat versiot sopivat paremmin yleiseen tekoälykoulutukseen, mutta tähän liittyy väistämättä Nvidian vallihauta - ohjelmisto.

Lähes kaikki tekoälyohjelmistot on suunniteltu toimimaan NVIDIA-grafiikkasuorittimien kanssa, ja Dojon käyttö tarkoittaa koko tekoälyekosysteemin, mukaan lukien CUDA ja PyTorch, uudelleenkirjoittamista.

Tämä tarkoittaa, että Dojolla on melkein vain yksi tapa - vuokrata laskentatehoa ja rakentaa AWS:n ja Azureen kaltainen pilvilaskenta-alusta.

Morgan Stanley ennusti viime syyskuussa julkaisemassaan raportissa, että Dojo voisi avata uusia tulovirtoja robotaksin ja ohjelmistopalvelujen muodossa, mikä lisää 500 miljardia dollaria Teslan markkina-arvoon.

Lyhyesti sanottuna, päätellen Muskin nykyisestä huolellisesta laitteiston jaosta, Dojo ei ole "epätoivoinen liike", vaan enemmän kuin kaksoisvakuutus. Mutta onnistuttuaan valtavia osinkoja voidaan myös vapauttaa.

Viitteet:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

Napsauta "" ja mennään

uutiset

AI-hirviö Dojo!Itse kehitetty supertietokone haastaa NVIDIA:n

Johdanto

yhteystietoni