uutiset

Kymmenen vuotta kovaa työtä: Miksi Googlen TPU-siru voi "syötä" Applen?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ennen ChatGPT:n syntymää Google oli yksin käynnistänyt tärkeän aallon tekoälyn kehityksessä maailmassa. Se, mikä valtasi ympäri maailmaa, oli se, että Google AlphaGo voitti korealaisen Go-pelaajan Lee Sedolin "Ihmisen ja koneen välisessä sodassa". vuonna 2016. Tämän takana TPU-siru, joka tukee AlphaGon "tehokkaimpien aivojen" toimintaa, on ratkaiseva, ja sitä kehitetään edelleen iteratiivisesti.

Vaikka TPU luotiin alun perin sisäisiä työkuormia varten, monien etujensa vuoksi sitä ei ole vain käytetty laajasti Googlessa ja siitä on tullut tekoälyn selkäranka, vaan sitä ovat suosineet ja soveltaneet kilpailukykyisesti myös teknologiajätit, kuten Apple ja monet suuret mallit. startupeista. Kun katson taaksepäin, kymmenen vuoden aikana syntymästään TPU-sirut ovat vähitellen siirtyneet AI-teollisuuden reunalta näyttämön keskelle. Koska TPU-infrastruktuuri on kuitenkin rakennettu pääasiassa TensorFlown ja JAXin ympärille, Google kohtaa myös tietyssä määrin haasteita, kuten "teknisiä saaria".



Kymmenen vuotta "seuraa" tekoälyinnovaatioita

Koneoppimisen ja syväoppimisalgoritmien perusteellisen kehityksen myötä alan kysyntä tehokkaille, vähän virtaa käyttäville omistettuille tekoälylaskentasiruille kasvaa nopeasti. Perinteiset yleiskäyttöiset suorittimet ja grafiikkasuorittimet, jotka ovat erikoistuneet monimutkaisiin tehtäviin, kuten grafiikan kiihdytykseen ja videon renderöintiin, eivät kuitenkaan pysty täyttämään syvän oppimisen kuormituksen valtavia vaatimuksia. Samaan aikaan on ongelmia, kuten alhainen tehokkuus ja rajoitettu laskenta.

Googlen päätutkija Jeff Dean sanoi: "Teimme karkeita laskelmia siitä, kuinka paljon laskentatehoa tarvittaisiin, jos sadat miljoonat ihmiset keskustelisivat kolmen minuutin ajan Googlen kanssa joka päivä. Huomasimme tuolloin nopeasti, että tämä vaatisi Käytännössä kaikki Googlen käyttämät tietokoneet. Toisin sanoen Googlen palvelinkeskuksissa olevien tietokoneiden määrä on kaksinkertaistettava näiden uusien ominaisuuksien tukemiseksi.

Tämän seurauksena Google sitoutui tutkimaan kustannustehokkaampia ja energiaa säästäviä koneoppimisratkaisuja ja käynnisti välittömästi TPU-projektin ja ilmoitti vuonna 2015, että ensimmäisen sukupolven TPU-siru (TPU v1) oli verkossa sisäisesti. TPU on sovelluskohtainen integroitu piiri (ASIC), joka on suunniteltu yhteen tiettyyn tarkoitukseen, mukaan lukien ainutlaatuisen matriisin ja vektoripohjaisten matemaattisten toimintojen suorittaminen tekoälymallien rakentamiseen. GPU:n matriisitoiminnoista poiketen PU:n ikoninen ominaisuus on sen matriisin kertolaskuyksikkö (MXU).

Googlen varatoimitusjohtajan ja tekniikan akateemikon Norm Jouppin mukaan TPU:n syntyminen on antanut Googlelle mahdollisuuden säästää 15 datakeskusta. Tärkeänä syynä siihen, miksi TPU on kustannustehokkaampi, on se, että Googlen ohjelmistopino on vertikaalisemmin integroitunut kuin GPU. Googlella on omistautunut suunnittelutiimi, joka rakentaa sen koko ohjelmistopinon mallin toteutuksesta (Vertex Model Garden) syväoppimiskehyksiin (Keras, JAX ja TensorFlow) TPU:ille optimoituihin kääntäjiin (XLA).

Suorituskyvyn suhteen TPU v1:ssä on 65536 8-bittinen MAC (Matrix Multiplication Unit), huippusuorituskyky 92 TOPS ja 28 MiB sirussa olevaa muistitilaa. Verrattuna suorittimeen ja GPU:hun, TPU v1 toimii hyvin vasteajassa ja energiatehokkuussuhteessa ja voi merkittävästi parantaa hermoverkkojen päättelynopeutta. TPU v1:n menestys sai Googlen ymmärtämään, että koneoppimissiruilla on laajat kehitysnäkymät, joten se jatkaa toistuvasti päivityksiä ja lanseerauksia edistyneemmällä suorituskyvyllä ja tehokkaammalla TPU v1:een perustuvilla tuotteilla.

Esimerkiksi TPU v2 ja TPU v3 on suunniteltu palvelinpuolen tekoälyn päättely- ja koulutussiruiksi tukemaan monimutkaisempia tekoälytehtäviä. TPU v4 parantaa entisestään skaalautuvuutta ja joustavuutta ja tukee suurten tekoälyklustereiden rakentamista. Niistä TPU v2 laajentaa yhden sirun suunnittelun ensimmäistä kertaa suurempaan supertietokonejärjestelmään rakentamalla TPU Podin, joka koostuu 256 TPU-sirusta. Lisäksi TPU v3 lisää nestejäähdytysteknologiaa ja TPU v4 esittelee optiset piirikytkimet suorituskyvyn ja tehokkuuden parantamiseksi.

Vuonna 2023 TPU v5 -sirun "liioitellut" epäilykset ja kiistat huomioon ottaen Google siirtyi suoraan TPU v5e -versioon. TPU v5e on säädetty arkkitehtuurissa käyttämällä yhtä TensorCore-arkkitehtuuria. INT8:n huippulaskentateho saavuttaa 393 TFLOPS:a, mikä ylittää v4:n 275 TFLOPS:n, mutta BF16:n huippulaskentateho on vain 197 TFLOPS:a. edellisen sukupolven v4 taso. Tämä osoittaa, että TPU v5e sopii paremmin päättelytehtäviin ja voi myös heijastaa Googlen strategista valintaa tekoälyn laskentatehopalvelumarkkinoille.

Tämän vuoden toukokuussa järjestetyssä I/O-kehittäjäkonferenssissa Google julkaisi kuudennen sukupolven TPU Trilliumin. Google Cloud Machine Learningin, Systemsin ja Cloud AI:n varapuheenjohtaja ja johtaja Amin Vadhat sanoi, että Trillium TPU:n huippulaskentateho on yli 4,7 kertaa suurempi kuin edellisen sukupolven TPU v5e ja energiatehokkuus on yli 67 %. korkeampi kuin TPU v5e Samaan aikaan suuren kaistanleveyden muisti Kapasiteetti ja kaistanleveys kaksinkertaistuvat, ja myös sirujen välinen kaistanleveys kaksinkertaistuu kehittyneempien AI-järjestelmien tarpeisiin.



On syytä mainita, että Trillium voi skaalata jopa 256 TPU:hun yhdessä suuren kaistanleveyden ja matalan latenssin Podissa. Hyödyntämällä Googlen edistysaskeleita pod-tason skaalautuvuudessa, monilohkotekniikassa ja älykkäissä Titanium-prosessointiyksiköissä, käyttäjät voivat linkittää satoja yksittäisiä Trillium-TPU-yksiköitä rakentaakseen petatavun mittakaavan supertietokone- ja datakeskusverkkoja.

Kaiken kaikkiaan TPU-teknologiaratkaisun etu on sen keskitetymmässä arkkitehtuurisuunnittelussa. Toisin kuin useat samalle piirilevylle kytketyt GPU:t, TPU:t on järjestetty kuution muotoon, mikä mahdollistaa nopeamman sirujen välisen viestinnän, ja syvällinen yhteistyö Broadcomin kanssa on parantanut huomattavasti tiedonsiirtonopeutta. Lisäksi erityisissä skenaarioissa ja käyttötapausvaatimuksissa se voi nopeammin edistää tuotteiden optimointia ja iterointia. Koska TPU-infrastruktuuri on kuitenkin rakennettu pääosin TensorFlown ja JAX:n ympärille ja ala on valtavirtaisempi HuggingFace-mallin ja PyTorchin käytössä innovaatioissa, Google kohtaa myös "teknisen saaren" ongelman jossain määrin.

Applen ja useiden AI-aloitusyritysten hyväksymä

Sovellusten osalta Google TPU -projekti luotiin alun perin erityisiä sisäisiä tarpeita varten, ja sitä käytettiin nopeasti laajasti eri osastoilla, ja siitä on tullut yksi kypsimmistä ja edistyneimmistä mukautetuista siruista tekoälyn alalla. Googlen koneoppimislaitteiston pääinsinöörin Andy Swingin mukaan he alun perin odottivat valmistavansa alle 10 000 TPU:ta v1:tä, mutta lopulta tuotettiin yli 100 000 sovelluksilla, jotka kattavat mainonnan, haun, puheen, AlphaGon ja jopa autonomisen ajamisen muut kentät.

Suorituskyvyn ja tehokkuuden parantuessa TPU-siruista on vähitellen tullut Googlen AI-infrastruktuuri ja lähes kaikkien tuotteiden tekoälyn selkäranka. Esimerkiksi Google Cloud Platform käyttää laajalti TPU-siruja tukemaan tekoälyinfrastruktuuriaan. Näitä siruja käytetään koneoppimismallien koulutus- ja päättelyprosessin nopeuttamiseen ja korkean suorituskyvyn ja tehokkaan laskentakyvyn tarjoamiseen. Google Cloud Platformin kautta käyttäjät voivat käyttää TPU-siruihin perustuvia virtuaalikoneen esiintymiä (VM) omien koneoppimismalliensa harjoittamista ja käyttöönottoa varten.

Vaikka Google on saanut hyvän käyttäjäkunnan pilvipalveluille, se ei myy laitteita suoraan käyttäjille. Alan analyytikot huomauttavat, että Google kilpailee kiivaasti OpenAI:n kanssa. Samaan aikaan laitteiston myyntiin liittyy suoraan suuria yleiskustannuksia ja monimutkaista toimitusketjun hallintaa, kun taas TPU:n tarjoaminen pilvipalvelujen kautta voi yksinkertaistaa asennus-, käyttöönotto- ja hallintaprosessia, mikä vähentää epävarmuutta ja lisäkustannuksia.

Toisaalta Google Cloudin ja Nvidian tiivistä yhteistyötä on myös harkittava. Google ei vain käytä NVIDIA-grafiikkasuorittimia sisäisesti, vaan tarjoaa myös NVIDIA GPU-pohjaisia ​​palveluita pilvipalvelualustaan ​​vastatakseen asiakkaiden tarpeisiin korkean suorituskyvyn laskentaa ja tekoälysovelluksia varten.

On totta, että Nvidian AI-siruista on tullut "pakkokilpailu" teknologiajättiläisille, mutta teollisuus tutkii myös monipuolisempia vaihtoehtoja. Vaikka sitä on käytetty laajasti sisäisesti, Google yrittää myös käyttää TPU:ta pysyäkseen tekoälyinnovaatioiden tahdissa tarjotakseen tekoälypalveluita useammalle asiakkaille. Andy Swing sanoi: "TPU- ja pod-kokoonpanomme on paikassa, joka vastaa parhaiten nykyistä datakeskuksen kapasiteettia, mutta muutamme datakeskuksen suunnittelua vastaamaan paremmin tarpeita. Siksi tänään valmisteltu ratkaisu on hyvin erilainen kuin ratkaisu huomenna rakennamme maailmanlaajuista datakeskusverkostoa, joka on täynnä TPU:ita.



Tällä hetkellä monet teknologiayritykset ympäri maailmaa käyttävät Googlen TPU-siruja. Esimerkiksi Apple myönsi, että se käyttää Google TPU:ta tekoälymallinsa kouluttamiseen ja sanoi, että "tämä järjestelmä antaa meille mahdollisuuden kouluttaa tehokkaasti ja skaalautuvasti AFM-malleja, mukaan lukien AFM-laitteet, AFM-palvelimet ja suuremmat mallit Applen paljastamana." koulutti palvelimen AFM:n tyhjästä 8192 TPUv4-sirulla käyttämällä 4096 sekvenssin pituutta ja 4096 sekvenssin eräkokoa 6,3 biljoonan token-koulutuksen suorittamiseksi. Lisäksi loppupuolen AFM on koulutettu 2048 Google TPUv5p -sirulle.

Muut tiedot osoittavat, että yli 60 % rahoitusta saaneista generatiivisista tekoälyyrityksistä ja lähes 90 % generatiivisista tekoälyyksisarvisista käyttää Google Cloudin tekoäly-infrastruktuuria ja Cloud TPU -palveluita, ja niitä käytetään laajasti eri sosioekonomisilla aloilla.

Esimerkiksi tunnetut AI-startupit, kuten Anthropic, Midjourney, Salesforce, Hugging Face ja AssemblyAI, käyttävät laajasti Cloud TPU:ta. Niistä "OpenAI-kilpailijana" Anthropic käyttää Google Cloud TPU v5e -sirua tarjotakseen laitteistotukea suurelle kielimallilleen Claude nopeuttaakseen mallin koulutusta ja päättelyprosessia. Lisäksi monet tieteelliset tutkimus- ja oppilaitokset käyttävät Googlen TPU-siruja tukemaan tekoälyyn liittyviä tutkimusprojektejaan. Nämä laitokset voivat käyttää TPU-sirujen korkean suorituskyvyn laskentatehoa kokeellisten prosessien nopeuttamiseen, mikä edistää huippuluokan tieteellistä tutkimusta ja koulutusta.

On syytä huomata, että Googlen virallisten tietojen mukaan sen uusimman TPU:n käyttökustannukset ovat alle 2 dollaria tunnissa, mutta asiakkaiden tulee varata se kolme vuotta etukäteen käytön varmistamiseksi. Tämä voi tuoda merkittäviä haasteita suurille malliyrityksille nopeasti muuttuvalla toimialalla.

Joka tapauksessa TPU:n kymmenen vuoden matka on onnistuneesti osoittanut, että teollisuudella on CPU:n ja GPU:n lisäksi uusi polku tekoälyn vaatiman laskentatehon tavoittelussa. Siitä on tullut myös tekoälytoimintojen ydin lähes kaikissa Googlen tuotteissa ja tukee Google DeepMindin edistyksellistä perusmallien nopeaa kehitystä ja jopa koko suurta malliteollisuutta. Tulevaisuudessa, kun tekoälyteknologia kehittyy ja markkinat kasvavat edelleen, useammat yritykset voivat halutessaan käyttää Googlen TPU-siruja täyttääkseen tekoälyn laskentatarpeensa. Mutta tekoälylaitteisto voi myös erikoistua, mikä tekee laitteistoista ja malleista entistä tiiviimmin integroituja, mikä vaikeuttaa uusien innovaatiomahdollisuuksien etsimistä puitteiden ulkopuolelle.