Ekologisen saaren murtaessa kotimaiset heterogeeniset natiivi tekoälynlaskentatyökalut tuodaan markkinoille, Zhongke Jiahe

Ekologisen saaren murtaessa Zhongke Jiahen kotimaiset heterogeeniset natiivi tekoälynlaskentatyökalut lanseerataan

2024-07-22

Koneen sydänraportti

Kirjailija: Zenan

"Järjestelmän optimointiohjelmiston avulla lasketaan kehityskynnystä, yhtenäistetään erilaisia laitteistoja ja kehitetään teknologista ekologiaa. Tällä on suuri merkitys nykyisen älyekologian edistymiselle", sanoi Akateemikko. Kiinan tekniikan akatemia ja Kiinan tiedeakatemian laskentateknologian instituutin akateemikko Sun Ninghui, komitean puheenjohtaja ja CCF:n puheenjohtaja, piti puheen lehdistötilaisuudessa. "Älysirujen ja tekoälyteollisuuden sovellusten lisäksi tarvitsemme järjestelmäohjelmistojen optimointiosapuolia mukaan ja työskentelemään yhdessä, jotta voimme parantaa kotimaista ekosysteemiä."

Akateemikko Sun Ninghui lehdistötilaisuudessa

"Juutuneen" laskentatehon ongelman edessä meillä on vihdoin järjestelmätason ratkaisu.

Tekoälyinfrastruktuurin startup Zhongke Jiahe julkaisi 20. heinäkuuta virallisesti ensimmäisen sukupolven heterogeeniset natiivi tekoälylaskentatyökalut.

Ottaen huomioon nykyisen trendin kotimaisen laskentatehon laajamittaisessa käyttöönotossa, Zhongke Jiahen ehdottama menetelmä voi mahdollistaa erityyppisten sirujen rinnakkaistamisen suuressa mittakaavassa ja samalla maksimoida tehokkuuden ja antaa laskentatehon käyttäjille mahdollisuuden päästä suoraan laskentatehoon ilman kiinnittää huomiota eri siruekologiaan. Tule käyttämään sitä.

Cui Huimin, Zhongke Jiahen perustaja ja toimitusjohtaja, julkaisi ja esitteli, että "Jiahen heterogeeniset natiivi tekoälynlaskentatyökalut" ovat jo näytelleet tiettyä roolia kotimaisen laskentatehon AI-infrastruktuurissa. Se on yhteensopiva useiden kotimaisten AI-sirujen kanssa ja tarjoaa tehokkaan yhtenäisen käyttöliittymän sirujen erojen suojaamiseksi.Heterogeenisten natiivialustojen perusteella tekoälyn laskentatehoklusterit ovat parantaneet suorituskykyä suurten mallien päättelyssä.Latenssia voidaan lyhentää 3–74 kertaa, suorituskykyä 1,4–2,1 kertaa lisätä, energiatehokkuutta parantaa 1,46 kertaa ja se tukee tiheitä suuria malleja 340B-parametreilla ja suuria MoE-malleja 640B-parametreilla。

Samaan aikaan Zhongke Jiahe on tarjonnut korkean suorituskyvyn päättelytukea yli 10 asiakkaalle, mukaan lukien sirut, integraattorit, palveluntarjoajat jne. Sen arkkitehtuuri tukee kotimaisia ja ulkomaisia valtavirran suuria malleja ja voi suorittaa monipuolisia rinnakkaispäättelyjä.

Lehdistötilaisuudessa julkistettuja laskentatehotoimittajia ja sovelluskumppaneita ovat: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology ja Wuwenxin Qiong, Yunxi Hashrate, Xinhua San jne. (lajiteltu aakkosjärjestykseen pinyinin mukaan).

Cui Huimin, Zhongke Jiahen perustaja ja toimitusjohtaja, lehdistötilaisuudessa

Heterogeeninen natiivi tekoälyn laskentateho, jonka tavoitteena on saavuttaa "kolme nollaa ja yksi korkea"

Zhongke Jiahen ehdottaman suunnitelman tavoitteena on mahdollistaa suurten tekoälymallien soveltaminenSaavuta nollakustannussiirto, nollahäviöllinen käyttö ja tehokas nollaviiveen käyttöönotto eri siruilla。

Tämä ohjelmistotyökalusarja sisältää kolme tuotetta: heterogeenisen alkuperäisen suuren mallin päättelymoottorin "SigInfer", heterogeenisen alkuperäisen hienosäätömoottorin "SigFT" ja automaattisen operaattorin luonti- ja käännöstyökalun "SigTrans".

Niistä eilen julkaistu SigInfer on monikäyttöinen, tehokas heterogeeninen natiivi päättelymoottori, joka ei tue vain palvelintason AI-kiihdytinkortteja, vaan myös kuluttajatason GPU:ita. Siksi se voidaan ottaa käyttöön datakeskuksissa ja nopeuttaa erilaisia päätelaitteita.

Heterogeenisen laskennan teknisenä perustana SigInferin kautta käytettävä eri tekoälyn laskentateho voi saavuttaa yhtenäiset puhelurajapinnat ja sujuvan yrityssovellusten siirtymisen. SigInfer suorittaa monitasoista syvällistä optimointia ja käyttää useita erilaisia laskentatehoja hyödyntääkseen sirun laskentatehon potentiaalia.

Siinä on useita nykyaikaisten suurten mallien päättelykoneiden ominaisuuksia, kuten API-palvelun tuki, pyyntöjen ajoitus, erähallinta, KV-välimuistin optimointi, tensorin rinnakkaisuus, liukuhihnan rinnakkaisuus, asiantuntija-rinnakkaisisuus ja jopa usean koneen liukuhihnan rinnakkaisuus.

Zhongke Jiahe sanoi, että SigInfer tukee jo useimpia alan suuria mallirakenteita.

Tällä hetkellä SigInfer voi jo toteuttaa täydelliset päättelymoottoriominaisuudet. Sen tukema heterogeeninen kiihdytyskorttiklusteri voi ajoittaa joustavasti NVIDIA AI -kiihdytinkortteja + kotimaisia tekoälykortteja hybridipäätelmiä varten, ja sitä voidaan laajentaa jopa biljooniin suuriin malleihin.

SigInferin käyttäminen tekoälysirun käyttöönoton tukemiseen voi mahdollistaa suurten mallipalvelujen ylläpitämisen suuren suorituskyvyn ja alhaisen latenssin, kun yritysten käyttöoikeusvaatimukset kasvavat. Nämä indikaattorit ovat tärkeitä generatiivisen tekoälyn suurissa sovelluksissa.

Kun käytät samaa NVIDIA-näytönohjainta, voimme nähdä, että SigInfer voi tarjota selvemmän kiihdytysvaikutuksen:

Lisäksi, kun käytetään kotimaisia siruja vastaavien tehtävien suorittamiseen, SigInfer voi myös parantaa tekoälykiihdytyskorttien suoritusnopeutta rinnakkaislaskennassa, samalla kun se vähentää merkittävästi Tokenien tulostamisen viivettä.

Heterogeeniset alkuperäiset tekoälylaskentatyökalut voivat säätää tekoälykiihdytin laskentataajuutta suurten mallitehtävien käsittelyn eri vaiheiden, operaattorin ominaisuuksien, optimointitavoitteen mukautuvan optimoinnin jne. perusteella, mikä saavuttaa korkean tehokkuuden. Zhongke Jiahe laski meille tilin Palvelinkeskuksen toiminnan aikana A800 plus SigInferin käyttö voi lisätä energiatehokkuutta 46% vllm:ään verrattuna.

Pilviinfrastruktuurin optimoinnin lisäksi Zhongke Jiahe esitteli myös suorituskyvyn optimointia asiakaspuolen päättelyä varten. SigInfer voi nopeuttaa suurten valmistajien, kuten Intelin, Qualcommin ja AMD:n, piirilaitteita. Verrattuna alan yleisiin käyttöönottoratkaisuihin SigInfer voi lisätä laitepuolen päättelyn tehokkuutta jopa 5 kertaa.

Heterogeenisten tietojenkäsittelyn ja tehokkuuden parannusten takana on useiden huipputeknologioiden ja suunnittelun soveltaminen ja optimointi.

Parantaakseen rinnakkaislaskennan tehokkuutta Zhongke Jiahe on ottanut käyttöön useita optimointeja. Esimerkiksi muistin käytön optimointi perusteellisessa dekoodausvaiheessa sallii KV-välimuistin saada rekisteritason multipleksauksen L2-lataukseen verrattuna sekä latenssi että kaistanleveys on optimoitu.

Samanaikaisesti Zhongke Jiahen tutkijat suorittivat rinnakkaisia jakoja myös datan sekvenssiulottuvuuden lieventämiseksi. Yhdessä KV-välimuistin uudelleenkäytön optimoinnin kanssa se ei vain säästä muistin käyttöä, vaan myös lisää rinnakkaisuutta, mikä parantaa koko huomiomekanismin ydinlaskennan suoritustehokkuutta.

Zhongke Jiahe on myös tutkinut korkean suorituskyvyn operaattoreiden generointimenetelmiä heterogeeniseen laskentatehoon. Tekemällä yhteistyötä laskentatehovalmistajien kanssa Zhongke Jiahe muutti cutlassin kotimaiseen siruarkkitehtuuriin, mikä paransi huomattavasti matriisin kertolaskujen tehokkuutta. Niistä yritys saavutti yli 20 % suorituskyvyn parannuksia optimoimalla yhdistettynä käännöstekniikkaan.

Jiahen heterogeeniset natiivi tekoälynlaskentatyökalut ovat useiden teknologioiden tuella saavuttaneet erinomaisen energiatehokkuuden optimoinnin.

Kokoonpanotekniikasta alkaen: Zhongke Jiahen tekninen reitti

Eroaa joidenkin tekoälyn laskentainfrastruktuuriyritysten aiemmin tarjoamista ominaisuuksista,Zhongke Jiahen tarjoama heterogeeninen laskenta ja kiihtyvyys keskittyvät käännöstekniikkaan.。

Tietokoneille käännöskerroksen tekemä työ on "käännös". Se vastaa ihmisten kirjoittaman korkean tason ohjelmointikielen sisällön muuntamisesta kieleksi, jota kone voi ymmärtää ja suorittaa.

Tässä prosessissa käännös on myös optimoitava, eli generoidun konekoodin toimintatehokkuuden parantamiseksi. Sirujen suorituskyvyn osalta kokoamalla on suuri rooli, mutta se jätetään usein huomiotta.

CUDA-laskenta-alustalla on tärkeä rooli alan suosituimmissa NVIDIA-siruissa. Se sisältää ohjelmointikieliä, kääntäjiä, erilaisia korkean suorituskyvyn kiihdytyskirjastoja ja AI-kehystä. Se voi toimia jakelijana, kun tietokone suorittaa tehtäviä, hyödyntäen täysin eri laitteistojen laskentaresursseja saadakseen monimutkaiset koodimallit toimimaan nopeammin. Voidaan sanoa, että tämän päivän tekoälyekosysteemi perustuu suurelta osin CUDA:han.

Kotimaisen laskentatehon saavuttamiseksi laajamittaisen sovelluksen saavuttamiseksi on tarpeen rakentaa vaadittu ekologia ja ominaisuudet.

Generatiivisen tekoälyn aikakaudella ihmisten laskentatehon kysyntä on edistänyt siruteknologian kehitystä, mutta myös uusia haasteita on ilmaantunut:

Siruyritysten näkökulmasta ekosysteemi on myös kehittymässä moninkertaiseksi fragmentiksi, mikä lisää kehityskustannuksia ja ongelmia, kuten toteutuksen tehokkuutta ja yhteensopivuutta.
Tekoälyteknologia kehittyy teollisuuden kehityksen näkökulmasta nopeasti ja kattaa yhä enemmän skenaarioita, mikä tarkoittaa sitä, että mukana tulee lisää laskentatehoja, mikä lisää entisestään heterogeenisen laskennan kysyntää.

Siksi teollisuus tarvitsee kipeästi tehokkaan työkaluketjun, joka pystyy tukemaan erilaisia kotimaisia lastuja. Jos joukko universaaleja, edullisia ja tehokkaita perusohjelmistoja voi ilmaantua ja auttaa ekologisia kumppaneita nopeasti siirtämään NVIDIA:n ekosysteemiin perustuvia sovelluksia, kotimaisten sirujen potentiaali voidaan vapauttaa täysin valloilleen, mikä nopeuttaa teknologian tutkimusta ja kehitystä. Rakenna vähitellen myönteinen sykli, joka luo tekoälyn laskentatehoekosysteemin.

Tätä Zhongke Jiahe on tehnyt.

Zhongke Jiahen tarjoama perusohjelmistoalustakerros on sijoitettu operaattori-, kääntäjä- ja kehyskerroksiin, mikä rakentaa sillan laitteiston ja ohjelmiston välille.Sen tarjoamat heterogeeniset natiivi tekoälynlaskentatyökalut voivat auttaa käyttäjiä siirtämään tekoälymalleja ja siruarkkitehtuureja sujuvasti, mikä tuo suurta mukavuutta tekoälysovelluksiin.

Nämä ominaisuudet sisältävät kaikki käännösteknologian. Tekoälyn käännöksen kattavuus sisältää sekä kerroksen että operaattorikerroksen Perinteisiin kääntäjiin verrattuna semanttisen muunnoksen ulottuvuus on laajempi. Esimerkiksi tekoälykääntäjien on yleensä otettava huomioon laskentakaavioiden osiointi, osagraafien yhdistäminen, rinnakkaislaskenta, tietojen esto jne. Nämä ovat vaikeita ratkaistavia ongelmia.

Tältä osin Zhongke Jiahe on suorittanut paljon tutkimuksia, kuten suorittanut globaalin tietovirta-analyysin Tensor-lauseketasolla, rakentanut tarkkoja laskentakaavioita ja datariippuvuuskaavioita ja rikkonut sitten operaattorien rajoja operaattorien yhdistämistä varten, ja on saavuttanut hyviä tuloksia. Vaikutus. Joissakin verkoissa sen menetelmällä saavutettiin jopa 3,7-kertainen kiihtyvyyssuhde alan edistyneeseen tasoon verrattuna. Asiaankuuluvat työtulokset julkaistiin tämän vuoden tietokonealan huippukonferenssissa.

Rakenna päästä päähän laskentatehoa mahdollistavia ratkaisuja, jotka auttavat kukoistamaan kotimaista tekoälyekosysteemiä

Zhongke Jiahe perustettiin heinäkuussa 2023, ja sen tiimi tulee pääasiassa Kiinan tiedeakatemian laskentateknologian instituutista. Perustaja Cui Huimin on valmistunut Tsinghuan yliopiston tietojenkäsittelytieteen osastolta ja on Kiinan tiedeakatemian tietojenkäsittelytekniikan instituutin kokoelmaryhmän johtaja. Yrityksen ydintiimillä on yli 20 vuoden kokemus kääntäjätutkimuksesta ja -kehityksestä, ja hän on toiminut ydinjäsenenä useiden kotimaisten sirujen kääntäjätutkimuksen ja -kehityksen puheenjohtajana tai osallistujana.

Perustamisestaan lähtien yritys on keskittynyt sirujen kokoamis- ja optimointitekniikkaan ja on sitoutunut tarjoamaan universaaleja, edullisia ja tehokkaita laskentaresursseja, joiden tehtävänä on "kerätä sirujen yhdistetty teho kotimaisen ekosysteemin rakentamiseksi". Tällä hetkellä Zhongke Jiahe on saanut useita rahoituskierroksia yhteensä lähes 100 miljoonan yuanin arvosta.

Zhongke Jiahe rakentaa sarjaa tuotteita kolmen reitin ympärille, mukaan lukien tekoälyn suuri mallien päättelymoottori, joka tukee heterogeenista laskentatehoa, laaja mallin hienosäätökehys ja tekoälyn käännöstyökalusarja. Ne voivat paitsi auttaa laskentatehon käyttäjiä käyttämään nopeasti monipuolista tekoälyn laskentatehoa, mutta myös auttaa laskentatehon toimittajia parantamaan ohjelmistoekosysteemiä ja parantamaan kilpailukykyä täydentäen tärkeän osan kotimaista tekoälyn laskentatehoekosysteemiä.

Vielä tärkeämpää on, että Zhongke Jiahe toivoo olevansa "viestintä" -silta, joka yhdistää suuren joukon laskentatehon käyttäjiä ja laskentatehontarjoajia, jotta molemmat osapuolet voivat kulkea onnellisina molempiin suuntiin, mikä edistää heterogeenisen natiivin tekoälyn laskentatehon kehitystä laajoihin sovelluksiin ja kotimaisen tekoälyekosysteemin voimakkaaseen kehittämiseen.

uutiset

Ekologisen saaren murtaessa Zhongke Jiahen kotimaiset heterogeeniset natiivi tekoälynlaskentatyökalut lanseerataan

Johdanto

yhteystietoni