uutiset

NVIDIAn niin kutsutut "kuumat pelimerkit" ovat itse asiassa "kuumia alustoja"

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia sai harvinaiset huonot uutiset aiemmin tässä kuussa, kun raportit nousivat esiin, että yrityksen odotettu "Blackwell" GPU-kiihdytin voi viivästyä jopa kolmella kuukaudella suunnitteluvirheiden vuoksi. Nvidian tiedottaja kuitenkin sanoi, että kaikki menee suunnitellusti, ja jotkut toimittajat sanoivat, että mikään ei ole muuttunut, kun taas toiset sanoivat, että normaaleja viivästyksiä oli.

Alan sisäpiiriläiset odottavat, että käyttäjät tietävät enemmän Blackwellin tilanteesta, kun Nvidia julkistaa vuoden 2025 toisen neljänneksen taloudelliset tulokset ensi keskiviikkona.

On raportoitu, että Blackwell-sirut - B100, B200 ja GB200 - ovat tämän vuoden Hot Chips -konferenssin painopiste Stanfordin yliopistossa Kaliforniassa ensi viikolla, jossa Nvidia esittelee arkkitehtuurinsa, kertoo joitain uusia innovaatioita ja hahmottaa suunnittelussa käytetyt menetelmät. Tekoälyn sirut ja keskustelee nestejäähdytyksen tutkimuksesta datakeskuksissa näiden kasvavien tekoälytyökuormien suorittamiseksi. Nvidian kiihdytettyjen tietojenkäsittelytuotteiden johtajan Dave Salvadorin mukaan yritys esittelee myös Blackwell-siruja, jotka ovat jo käynnissä jossakin sen datakeskuksessa.

Suurin osa siitä, mistä Nvidia puhuu Blackwellistä, on jo tiedossa, kuten ensi vuonna tuleva Blackwell Ultra GPU ja seuraavan sukupolven Rubin GPU ja Vera CPU:t, jotka alkavat julkaista vuonna 2026. Salvator kuitenkin korostaa,Kun puhutaan Blackwellistä, on tärkeää ajatella sitä alustana, ei yksittäisenä siruna.Salvator kertoi toimittajille ja analyytikoille tiedotustilaisuudessa tällä viikolla valmistellessaan Hot Chipsiä.

"Kun ajattelee Nvidiaa ja rakentamiamme alustoja, GPU:t, verkot ja jopa prosessorimme ovat vasta alkua", hän sanoi. "Teemme järjestelmätason ja datakeskustason suunnittelua rakentaaksemme näitä asioita, jotka voivat todella mennä loppuun ja ratkaise ne todelliset ongelmat koviin luoviin tekoälyhaasteisiin. Olemme nähneet mallien koon kasvavan ajan myötä, ja useimpien luovien tekoälysovellusten on toimittava reaaliajassa, ja johtopäätökset ovat lisääntyneet dramaattisesti viime aikoina. Reaaliaikainen suurten kielimallien päättely vaatii useita GPU:ita ja lähitulevaisuudessa useita palvelinsolmuja.

Tämä ei sisällä vain Blackwell-grafiikkasuorittimia ja Grace-suorittimia, vaan myös NVLink Switch -siruja, Bluefield-3-DPU:ita, ConnextX-7- ja ConnectX-8-verkkokortteja, Spectrum-4 Ethernet-kytkimiä ja Quantum-3 InfiniBand -kytkimiä. Salvator näytti myös erilaisia ​​tietoja NVLink Switchistä (alla), Computesta, Spectrum-X800:sta ja Quantum-X800:sta.

Nvidia lanseerasi odotetun Blackwell-arkkitehtuurin GTC 2024 -konferenssissa tämän vuoden maaliskuussa, ja hyperscale-valmistajat ja alkuperäisten laitteiden valmistajat liittyivät siihen nopeasti. Yrityksen näkemys on suoraan nopeasti kasvavasta generatiivisen tekoälyn kentästä, jossa suurten kielimallien (LLM) on määrä kasvaa entisestään, mistä on osoituksena Metan Llama 3.1, joka julkaistiin kesäkuussa 4050 A -mallilla, jossa on miljardeja parametreja. Salvator sanoi,Kun LLM:t kasvavat ja reaaliaikaisten päätelmien tarve säilyy, ne vaativat enemmän laskentaa ja pienempää latenssia, mikä vaatii alustan lähestymistapaa.

Hän sanoi: "Kuten useimmat muut LLMS:t, tämän mallin käyttämien palveluiden odotetaan toimivan reaaliajassa. Tätä varten tarvitset useita GPU:ita. Haasteena on, kuinka yhdistää GPU:n korkea suorituskyky korkeaan suorituskykyyn. GPU:n suorituskyky on valtava tasapaino käytön ja erinomaisen käyttökokemuksen tarjoamisen välillä näitä tekoälyllä varustettuja palveluita käyttäville loppukäyttäjille.

01 Nopeuden tarve

Blackwellin myötä Nvidia kaksinkertaisti kaistanleveyden kytkintä kohden 900 Gt/s:sta 1,8 Tt/sek:iin. Yrityksen SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) -tekniikka tuo enemmän tietojenkäsittelyä järjestelmään, joka todella sijaitsee kytkimessä. Sen avulla voimme nopeuttaa suorituskyvyn nopeuttamista GPU:sta ja se auttaa myös tasoittamaan verkkoliikennettä NVLink-kankaalla. Nämä ovat innovaatioita, joita jatkamme alustatasolla.

Monisolmuinen GB200 NVL72 on nestejäähdytteinen runko, joka yhdistää 72 Blackwell GPU:ta ja 36 Grace-suoritinta telinemittakaavaisessa rakenteessa, joka Nvidian mukaan toimii yhtenä GPU:na biljoonaparametriisille LLM:ille, kuten GPT-MoE-1.8T. päättelyn suorituskyky. Sen suorituskyky on 30-kertainen HGX H100 -järjestelmään verrattuna ja harjoitusnopeus on 4 kertaa H100-järjestelmään verrattuna.

Nvidia on myös lisännyt alkuperäisen tuen FP4:lle käyttämällä yhtiön Quasar Quantization System -järjestelmää, joka voi tarjota saman tarkkuuden kuin FP16 ja vähentää kaistanleveyden käyttöä 75 %. Quasar-kvantisointijärjestelmä on ohjelmisto, joka hyödyntää Blackwellin Transformer Engineä varmistaakseen tarkkuuden, ja Salvator osoitti tämän vertaamalla FP4:llä ja FP16:lla luotuja generatiivisia tekoälykuvia, joissa havaittiin tuskin havaittavia eroja.

FP4:ää käytettäessä malli voi käyttää vähemmän muistia ja suorituskykyä jopa paremmin kuin FP8 Hopper GPU:ssa.

02 Nestejäähdytysjärjestelmä

Nestejäähdytyksen osalta Nvidia ottaa käyttöön lämpimän veden suoran siru-siru-menetelmän, joka voi vähentää datakeskuksen virrankulutusta 28%.

"Mielenkiintoista tässä lähestymistavassa on jotkin sen eduista, joita ovat lisääntynyt jäähdytystehokkuus, alhaisemmat käyttökustannukset, pidempi palvelimen käyttöikä ja mahdollisuus käyttää talteen otettua lämpöä muihin käyttötarkoituksiin", Salvator sanoi. "Se auttaisi varmasti parantamaan jäähdytystehoa Yksi tapa on, kuten nimestä voi päätellä, että tämä järjestelmä ei käytä jääkaappia, jos se toimii hyvin , mikä säästää energiaa ja alentaa käyttökustannuksia."

Toinen aihe on se, kuinka Nvidia hyödyntää tekoälyä ja suunnittelee tekoälysirunsa Verilogilla, laitteiston kuvauskielellä, joka kuvaa piirejä koodilla, jota on käytetty neljä vuosikymmentä. NVIDIA auttaa itsenäisellä Verilog-agentilla nimeltä VerilogCoder.

"Tutkijamme ovat kehittäneet suuren kielimallin, jota voidaan käyttää nopeuttamaan järjestelmiämme kuvaavan Verilog-koodin luomista", hän sanoi. "Käytämme sitä tulevien sukupolvien tuotteissa näiden koodien rakentamiseen. Se voi tehdä Se voi nopeuttaa suunnittelu- ja todentamisprosessia, nopeuttaa suunnittelun manuaalisia puolia ja olennaisesti automatisoida monia tehtäviä.