uutiset

GPU:ta hyökkäävät TPU-sirut ovat suosittuja yhdessä yössä

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Siitä lähtienChatGPTRäjähdyksen jälkeen suurten tekoälymallien tutkimus ja kehitys nousivat esiin peräkkäin. Samalla kun tämä "100-moodin sota" oli täydessä vauhdissa, amerikkalainen siruyhtiö NVIDIA teki paljon rahaa GPU:n erinomaisella suorituskyvyllä suurten mallien laskelmissa. .

Applen äskettäinen liike on kuitenkin hieman jäähdyttänyt Nvidian innostusta.

01

AI-mallikoulutuksessa Apple valitsee TPU:n GPU:n sijaan

NVIDIA on aina ollut tekoälyn laskentainfrastruktuurin johtaja Tekoälylaitteistomarkkinoilla, erityisesti tekoälykoulutuksen alalla, NVIDIA GPU on aina ollut johtava Amazonissa , meta,OpenAI Se on suosituin laskentatehoratkaisu monille teknologiajättiläisille tekoälyn ja koneoppimisen alalla.

Siksi Nvidia kohtaa jatkuvasti erilaisia ​​​​haasteita alalla. Kilpailijoidensa joukossa on monia vahvoja toimijoita riippumattomassa GPU-tutkimuksessa ja -kehityksessä sekä edelläkävijöitä innovatiivisten arkkitehtuurien tutkimisessa. Googlen TPU:sta on myös tullut voimakas vastustaja, jota Nvidia ei voi sivuuttaa ainutlaatuisten etujensa vuoksi.

Apple julkaisi tutkimuspaperin 30. heinäkuuta. Paperissa Apple esitteli kaksi mallia, jotka tukevat Apple Intelligence-AFM-on-device (AFM on lyhenne sanoista Apple Basic Model) ja AFM-server (suuri palvelinpohjainen kielimalli). vuoden vanha 100 miljoonan parametrin kielimalli, jälkimmäinen on palvelinpohjainen kielimalli.

Apple kertoi lehdessä, että se käytti tekoälymallinsa kouluttamiseen kahdentyyppisiä Googlen tensoriprosessoreita (TPU) ja nämä yksiköt järjestettiin suuriksi siruklusteriksi. Apple käyttää 2048 TPUv5p-sirua rakentaakseen AFM-on-devicen, tekoälymallin, jota voidaan käyttää iPhoneissa ja muissa laitteissa. Palvelin-AI-mallissaan AFM-server Apple otti käyttöön 8192 TPUv4-prosessoria.

Applen strateginen valinta luopua Nvidia-grafiikkasuorituksista ja siirtyä Googlen TPU:ihin pudotti shokkipommin teknologiamaailmassa Nvidian osakekurssi putosi sinä päivänä yli 7 %, mikä on suurin pudotus kolmeen kuukauteen, ja sen markkina-arvo haihtui 193 miljardilla dollarilla.

Alan sisäpiiriläiset sanoivat, että Applen päätös osoittaa, että jotkut suuret teknologiayritykset saattavat etsiä vaihtoehtoja Nvidian grafiikankäsittelyyksiköille tekoälykoulutuksen suhteen.

02

TPU VS GPU, kumpi sopii paremmin suuriin malleihin?

Ennen kuin keskustellaan siitä, sopiiko TPU vai GPU paremmin suuriin malleihin, meidän on saatava alustava käsitys näistä kahdesta.

TPU:n ja GPU:n vertailu

TPU, koko nimi Tensor Processing Unit, on Googlen suunnittelema erityinen siru koneoppimistyökuormien nopeuttamiseen. Sitä käytetään pääasiassa syväoppimismallien koulutukseen ja perustelemiseen. On syytä huomata, että TPU kuuluu myös ASIC-sirujen luokkaan, ja ASIC on siru, joka on erityisesti räätälöity tiettyihin erityistarpeisiin.

Kaikki tuntevat GPU:n, joka on alun perin grafiikan renderöintiin suunniteltu prosessori, jota käytettiin myöhemmin laajalti rinnakkaislaskennassa ja syväoppimisessa. Siinä on tehokkaat rinnakkaiskäsittelyominaisuudet, ja optimoitu GPU sopii hyvin myös rinnakkaisiin tehtäviin, kuten syväoppimiseen ja tieteelliseen laskemiseen.

Voidaan nähdä, että näillä kahdella eri sirulla on erilaiset tavoitteet alkuperäisessä suunnittelussaan.

Perinteisiin prosessoreihin verrattuna GPU:iden rinnakkaiset laskentaominaisuudet tekevät niistä erityisen sopivia suurten tietokokonaisuuksien ja monimutkaisten laskentatehtävien käsittelyyn. Siksi suurten tekoälymallien räjähdysmäisen kasvun myötä GPU:sta on tullut aikoinaan ensimmäinen laskentalaitteiston valinta. AI koulutus.

Suurten tekoälymallien jatkuvan kehityksen myötä laskentatehtävät ovat kuitenkin muuttumassa eksponentiaalisesti suuremmiksi ja monimutkaisemmiksi, mikä asettaa uusia vaatimuksia laskentateholle ja laskentaresursseille Kun GPU:ta käytetään tekoälyn laskemiseen, laskentatehon käyttöaste on alhainen energiankulutuksen korkea energiatehokkuuspullonkaula sekä NVIDIA GPU -tuotteiden korkea hinta ja tiukka tarjonta ovat herättäneet enemmän huomiota TPU-arkkitehtuuriin, joka on alun perin suunniteltu syväoppimiseen ja koneoppimiseen. GPU:n määräävä asema tällä alalla alkaa kohdata haasteita.

On raportoitu, että Google alkoi sisäisesti kehittää tekoälyn koneoppimisalgoritmeille tarkoitettuja siruja jo vuonna 2013, ja tämä itse kehitetty TPU-niminen siru julkistettiin virallisesti vasta 2016. Voitti Lee Sedolin maaliskuussa 2016 ja Ke Jien toukokuussa 2017 AlphaGo, joka on koulutettu Googlen TPU-sarjan siruilla.

Jos sanotaan, että TPU soveltuu paremmin tekoälyn suurten mallien koulutukseen, voi olla vaikea saada kaikki vakuuttuneiksi selittämättä sen "taitoja" yksityiskohtaisesti.

Kuinka TPU sopii isojen mallien harjoitteluun?

Ensinnäkin TPU:ssa on moniulotteiset laskentayksiköt laskentatehokkuuden parantamiseksi.Verrattuna prosessorissa olevaan skalaarilaskentayksikköön ja grafiikkasuorittimen vektorilaskentayksikköön, TPU käyttää kaksiulotteisia tai jopa korkeampiulotteisia laskentayksiköitä laskentatehtävien suorittamiseen ja laajentaa konvoluutiotoimintosilmukkaa saavuttaakseen maksimaalisen tiedon uudelleenkäytön ja vähentääkseen dataa. siirtokustannuksia ja parantaa kiihtyvyyden tehokkuutta.

Toiseksi TPU:ssa on enemmän aikaa säästävä tiedonsiirto ja tehokas ohjausyksikkö.Von Neumann-arkkitehtuurin aiheuttama muistiseinäongelma on erityisen näkyvä syvässä oppimistehtävissä, ja TPU käyttää radikaalimpaa strategiaa tiedonsiirron suunnittelussa, ja ohjausyksikkö on pienempi, mikä jättää enemmän tilaa sirulle muistille ja laskentayksiköille.

Lopuksi TPU on suunniteltu nopeuttamaan tekoälyä ja parantamaan AI/ML-laskentaominaisuuksia.Tarkka paikannus, yksinkertainen arkkitehtuuri, yksisäikeinen ohjaus ja räätälöity ohjesarja tekevät TPU-arkkitehtuurista erittäin tehokkaan syvän oppimisen toiminnassa ja helppo laajentaa, mikä tekee siitä sopivamman erittäin suuriin tekoälyn harjoituslaskelmiin.

On raportoitu, että Google TPUv4:n virrankulutus on 1,3–1,9 kertaa pienempi kuin NVIDIA A100:ssa. Eri toimivissa malleissa, kuten Bert ja ResNet, tehokkuus on 1,2–1,9 kertaa suurempi kuin A100:n voi saavuttaa 1,3-1,9 kertaa pienemmän virrankulutuksen kuin NVIDIA A100 Parantaa edelleen laskentatehoa 2 kertaa / lähes 10 kertaa. Voidaan nähdä, että Googlen TPU-tuotteilla on enemmän etuja kustannusten ja virrankulutuksen suhteen kuin NVIDIA-tuotteilla.

Tämän vuoden toukokuussa järjestetyssä I/O 2024 -kehittäjäkonferenssissa Alphabetin toimitusjohtaja Sundar Pichai julkisti kuudennen sukupolven datakeskuksen AI-sirun Tensor Processor Unit (TPU)-Trilliumin ja sanoi, että tuote on lähes viisi kertaa nopeampi kuin edeltäjänsä, ja se sanoo, että toimitukset ovat saatavilla myöhemmin tänä vuonna.

Google sanoi, että kuudennen sukupolven Trillium-sirun laskentateho on 4,7 kertaa suurempi kuin TPU v5e -sirun ja energiatehokkuus on 67 % korkeampi kuin v5e:n. Siru on suunniteltu tehostamaan tekniikkaa, joka tuottaa tekstiä ja muuta sisältöä suurista malleista. Google sanoi myös, että kuudennen sukupolven Trillium-sirut ovat pilviasiakkaidensa saatavilla vuoden loppuun mennessä.

Googlen suunnittelijat paransivat suorituskykyä lisäämällä suuren kaistanleveyden muistikapasiteettia ja kokonaiskaistanleveyttä. Tekoälymallit vaativat suuria määriä kehittynyttä muistia, mikä on ollut pullonkaula suorituskyvyn edelleen parantamisessa.

On syytä huomata, että Google ei myy omia TPU-sirujaan erikseen itsenäisinä tuotteina, vaan se tarjoaa TPU-pohjaisia ​​laskentapalveluita ulkoisille asiakkaille Google Cloud Platformin (GCP) kautta.

Googlen älykkyys näkyy myös tässä suunnitelmassa: laitteiston myyntiin liittyy suoraan suuria kuluja ja monimutkaista toimitusketjun hallintaa. Tarjoamalla TPU:ta pilvipalvelujen kautta Google voi yksinkertaistaa asennus-, käyttöönotto- ja hallintaprosessia, mikä vähentää epävarmuutta ja lisäkustannuksia. Tämä malli yksinkertaistaa myös myyntiprosessia, jolloin ei tarvitse perustaa ylimääräistä laitteistomyyntitiimiä. Lisäksi Google kilpailee kovassa kilpailussa OpenAI:n kanssa generatiivisesta tekoälystä. Jos Google alkaa myydä TPU:ita, se kilpailee samanaikaisesti kahden tehokkaan vastustajan kanssa: Nvidian ja OpenAI:n kanssa, jotka eivät ehkä ole tällä hetkellä älykkäin strategia.

Artikkelin tässä vaiheessa jotkut saattavat kysyä: Koska TPU:lla on niin erinomaiset suorituskykyedut, korvaako se GPU:n lähitulevaisuudessa?

03

Puhutaanko nyt GPU:n vaihtamisesta? Ehkä se on liian aikaista

Tämä ongelma ei ole niin yksinkertainen.

Pelkästään TPU:n eduista puhuminen puhumattakaan GPU:n eduista on sokaiseva silmä. Seuraavaksi meidän on myös ymmärrettävä, kuinka GPU sopii nykyiseen tekoälyn suuren mallin koulutukseen verrattuna TPU:han.

Näemme, että TPU:n edut piilevät sen erinomaisessa energiatehokkuussuhteessa ja yksikkökustannusten laskentatehoindikaattoreissa. ASIC-siruna sen haittana ovat myös korkeat kokeilu- ja virhekustannukset.

Myös ekosysteemin kypsyyden kannalta. Vuosien kehitystyön jälkeen GPU:lla on laaja ja kypsä ohjelmisto- ja kehitystyökaluekosysteemi. Monet kehittäjät ja tutkimuslaitokset ovat kehittäneet ja optimoineet GPU:n pohjalta jo pitkään, ja he ovat keränneet runsaasti kirjastoja, kehyksiä ja algoritmeja. TPU-ekosysteemi on suhteellisen uusi, eivätkä käytettävissä olevat resurssit ja työkalut välttämättä ole yhtä runsaita kuin GPU:iden, mikä voi vaikeuttaa kehittäjien mukauttamista ja optimointia.

Monipuolisuuden kannalta. GPU:t suunniteltiin alun perin grafiikan renderöintiin, mutta niiden arkkitehtuuri on erittäin joustava ja voi mukautua moniin erilaisiin laskentatehtäviin, ei vain syvään oppimiseen. Tämä tekee GPU:sta mukautuvamman erilaisiin sovellusskenaarioihin. Sitä vastoin TPU:t on suunniteltu räätälöityjä koneoppimiskuormia varten, eivätkä ne välttämättä pysty käsittelemään muita ei-koneoppimiseen liittyviä laskentatehtäviä yhtä tehokkaasti kuin GPU:t.

Lopuksi kilpailu GPU-markkinoilla on kovaa. Useat valmistajat jatkavat teknologisten innovaatioiden ja tuotepäivitysten edistämistä, ja uusia arkkitehtuureja ja suorituskyvyn parannuksia esiintyy useammin. TPU:n kehitystä johtaa pääasiassa Google, ja sen päivitys- ja kehitysvauhti voi olla suhteellisen hidasta.

Kaiken kaikkiaan NVIDIAlla ja Googlella on erilaisia ​​strategioita AI-siruille: NVIDIA ylittää tekoälymallien suorituskyvyn tarjoamalla tehokkaan laskentatehon ja kattavan kehittäjätuen, kun taas Google parantaa tekoälysirujen suorituskykyä tehokkaan hajautetun laskenta-arkkitehtuurin avulla . Nämä kaksi eri polkuvaihtoehtoa antavat heille mahdollisuuden näyttää ainutlaatuisia etuja vastaavilla sovellusalueillaan.

Syy siihen, miksi Apple valitsi Googlen TPU:n, voi johtua seuraavista seikoista: Ensinnäkin TPU toimii hyvin laajamittaisten hajautettujen koulutustehtävien käsittelyssä, mikä tarjoaa tehokkaan ja matalan viiveen laskentaominaisuudet, toiseksi Apple voi vähentää laitteistoa käyttämällä Google Cloud -alustaa kustannuksia ja olla joustava säätämällä laskentaresursseja optimoidaksesi tekoälyn kehittämisen kokonaiskustannukset. Lisäksi Googlen tekoälykehitysekosysteemi tarjoaa myös runsaasti työkaluja ja tukea, joiden avulla Apple voi kehittää ja ottaa käyttöön tekoälymallejaan tehokkaammin.

Applen esimerkki todistaa TPU:n kyvyn suurissa mallikoulutuksessa. NVIDIAan verrattuna TPU:ta käytetään kuitenkin harvoin suurten mallien alalla, mukaan lukien jättiläiset, kuten OpenAI, Tesla ja ByteDance.

Siksi voi olla liian aikaista sanoa, että Googlen TPU voi voittaa Nvidian GPU:n, mutta TPU:n on oltava erittäin haastava pelaaja.

04

GPU:n haastaja ei ole vain TPU

Kiinassa on myös yritys, joka lyö vetoa TPU-siruista – Zhonghao Xinying. Yang Gongyifan, Zhonghao Xinyingin perustaja, työskenteli kerran Googlen ydinsirun T&K-työntekijänä ja oli syvästi mukana Google TPU 2/3/4 -suunnittelussa ja -kehityksessä. Hänen mielestään TPU on edullinen arkkitehtuuri suurille tekoälymalleille .

Vuonna 2023 Zhonghao Xinyingin "Snap"-siru syntyi virallisesti. Ainutlaatuisilla nopeilla 1 024 sirun välisillä liitäntäominaisuuksilla "Snap"-siru on rakentanut laajamittaisen älykkään laskentaklusterin nimeltä "Taize" Sen järjestelmäklusterin suorituskyky on kymmeniä kertoja suurempi kuin perinteisillä GPU:illa se on AIGC, jossa on yli 100 miljardia parametria. Suurien mallien koulutus ja päättely tarjoavat ennennäkemättömän laskentatehon takuun. Tämä saavutus ei ainoastaan ​​osoita Zhonghao Xinyingin syvällistä keskittymistä tekoälyn laskentatehotekniikan alalla, vaan se voittaa myös arvokkaan paikan kotimaisille siruille kansainvälisellä näyttämöllä.

Nykypäivän tekoälyn kultakuumeessa NVIDIA H100 -siruista on kuitenkin pulaa ja ne ovat kalliita. Suuret ja pienet yritykset haluavat korvata NVIDIA:n AI-sirutuotteet, mukaan lukien perinteisen GPU-reitin käyttämät yritykset sekä uusia yrityksiä.

GPU:n haasteet ovat paljon TPU:ta pidemmät.

GPU-polun tutkimuksessa ja kehityksessä Nvidian suurin kilpailija onAMDTämän vuoden tammikuussa tutkijat käyttivät noin 8 prosenttia Frontier-supertietokoneklusterin GPU:ista suuren mallin kouluttamiseen GPT 3.5 -tasolla. Frontier-supertietokoneklusteri perustuu täysin AMD-laitteistoon, joka koostuu 37 888 MI250X GPU:sta ja 9 472 Epyc 7A53 -suorittimesta. Tämä tutkimus mursi myös edistyneiden hajautettujen koulutusmallien vaikeudet AMD-alustoille toteutettavuus.

Samaan aikaan CUDA-ekosysteemi hajoaa asteittain. Tämän vuoden heinäkuussa brittiläinen Spectral Compute lanseerasi ratkaisun, joka pystyy kääntämään CUDA-lähdekoodia AMD-grafiikkasuorittimille, mikä paransi huomattavasti AMD GPU:iden yhteensopivuutta CUDA:n kanssa.

IntelGaudi 3 vertaili myös suoraan Nvidia H100:aa, kun se julkaistiin. Tämän vuoden huhtikuussa Intel lanseerasi Gaudi 3:n syväoppimiseen ja suuriin generatiivisiin tekoälymalleihin Intel sanoi, että Gaudi 3 pystyy tarjoamaan nelinkertaisen liukulukumuodon BF16 AI:n laskentatehon, muistin kaistanleveys kasvoi 1,5:llä. kertaa ja palvelu Verkon kaistanleveys laajamittaista järjestelmän laajentamista varten kaksinkertaistuu. Verrattuna NVIDIAn siruun H100, jos sitä käytetään Meta Llama2 -malliin 7B- ja 13B-parametreilla ja OpenAI GPT-3 -malliin 175B-parametreilla, Gaudi 3:n odotetaan lyhentävän näiden mallien harjoitusaikaa keskimäärin 50%.

Lisäksi, kun Gaudi 3:n päättelytehoa käytetään Llamaan parametreillä 7B ja 70B ja avoimen lähdekoodin Falcon-mallilla 180B parametreilla, sen odotetaan olevan keskimäärin 50 % suurempi kuin H100:n ja päättelytehokkuuden olevan keskimäärin 40 % korkeampi. Lisäksi Gaudi 3:lla on suurempi päättelytehoetu pidemmillä tulo- ja lähtösarjoilla.

Gaudi 3:n päättelynopeus kasvaa 30 % NVIDIA H200:aan verrattuna, kun sitä käytetään Llamaan 7B- ja 70B-parametreilla ja Falcon-mallilla 180B-parametreilla.

Intel sanoi, että Gaudi 3 tulee asiakkaiden saataville tämän vuoden kolmannella neljänneksellä ja OEM-valmistajien, kuten Dell, HPE, Lenovo ja Supermicro, saataville toisella neljänneksellä, mutta Gaudi 3:n hintaluokkaa ei julkistettu.

Viime marraskuussa,MicrosoftIgnite Technology Conference -konferenssissa se julkaisi ensimmäisen itse kehitetyn AI-sirun Azure Maia 100 sekä pilviohjelmistopalveluissa käytettävän Azure Cobaltin. Kaksi sirua valmistaa TSMC ja ne käyttävät 5nm prosessitekniikkaa.

On raportoitu, että Nvidian huippuluokan tuotteet voivat joskus myydä 30 000 - 40 000 dollaria kappaleelta. ChatGPT:ssä käytettyjen sirujen uskotaan vaativan noin 10 000, mikä on valtava kustannus tekoälyyrityksille. Suuret teknologiayritykset, joilla on suuri kysyntä tekoälysiruille, etsivät epätoivoisesti vaihtoehtoisia toimituslähteitä Microsoft päätti kehittää omia tuotteitaan toivoen parantavansa luovien tekoälytuotteiden, kuten ChatGPT:n, suorituskykyä samalla, kun kustannuksia alennetaan.

Cobalt on yleiskäyttöinen Arm-arkkitehtuuriin perustuva siru, jossa on 128 ydintä. Maia 100 on erityisesti Azure-pilvipalveluihin ja AI-työkuormiin suunniteltu ASIC-siru. Nämä kaksi sirua tuodaan Microsoft Azure -palvelinkeskukseen ja tukipalveluihin, kuten OpenAI ja Copilot.

Azure-siruosastosta vastaava varapuheenjohtaja Rani Borkar sanoi, että Microsoft on aloittanut Maia 100 -sirun testaamisen Bingin ja Office AI -tuotteiden kanssa, myös Microsoftin tärkein AI-kumppani, ChatGPT-kehittäjä OpenAI. Jotkut markkinakommentit uskovat, että Microsoftin AI-siruprojektin ajoitus on sattumaa, samoin kuin Microsoftin, OpenAI:n ja muiden yritysten laajamittaiset kielimallit ovat alkaneet nousta.

Microsoft ei kuitenkaan usko, että sen AI-sirut voivat korvata laajasti Nvidian tuotteita. Jotkut analyytikot uskovat, että jos Microsoftin ponnistelut onnistuvat, se voi myös auttaa sitä saamaan etua tulevissa neuvotteluissa Nvidian kanssa.

Sirujättiläisten lisäksi vaikutuksesta puuttuvat myös start-up yritykset. Esimerkiksi Groqin lanseeraama LPU, Cerebrasin lanseeraama Wafer Scale Engine 3, Etchedin lanseeraama Sohu jne.

Tällä hetkellä Nvidia hallitsee noin 80 prosenttia tekoälyn datakeskusten sirumarkkinoista, kun taas suurinta osaa jäljellä olevista 20 prosentista hallitsevat Googlen TPU:n eri versiot. Kasvaako TPU:n markkinaosuus tulevaisuudessa? Kuinka paljon se kasvaa? Onko olemassa muita AI-sirujen arkkitehtuureja, jotka jakavat nykyisen markkinarakenteen kolmeen osaan? Näiden jännitysten odotetaan paljastuvat vähitellen lähivuosina.