ein weiterer chip, der gpu_news herausfordert

ein weiterer chip, der die gpu herausfordert

2024-10-04

zusammenfassung

für ein 3-milliarden-parameter-llm lieferte ein forschungsprototyp einer inferenz-appliance mit 16 ibm aiu northpole-prozessoren einen enormen systemdurchsatz von 28.356 token/sekunde und eine latenz von weniger als 1 ms/token (pro benutzer) im vergleich zu 16. jede northpole-karte verbraucht nur 672 w einen kompakten 2u-formfaktor. mit fokus auf geringe latenz und hohe energieeffizienz wird northpole (12 nm) mit einer reihe von gpus (7/5/4 nm) bei unterschiedlichen stromverbrauchswerten verglichen.bei der niedrigsten gpu-latenz bietet northpole 72,7 bessere energieeffizienzmetriken (token/s/w) und bietet gleichzeitig eine bessere latenz.

einführen

große sprachmodelle (llms) haben bei verschiedenen ki-aufgaben bedeutende leistungsbenchmarks erreicht, z. b. bei der unterstützung der programmierung durch bereitstellung von codevorschlägen, einer guten leistung bei standardisierten tests und der unterstützung bei der inhaltserstellung von artikeln, blogs, bildern und videos.

beim groß angelegten einsatz von llms, insbesondere beim groß angelegten einsatz künstlicher intelligenz, entstehen zwei wesentliche und widersprüchliche herausforderungen, nämlich: energieverbrauch und reaktionslatenz.

da llm sowohl für das training als auch für die inferenz beträchtliche energieressourcen erfordert, ist eine nachhaltige zukünftige computerinfrastruktur erforderlich, um eine effiziente und flächendeckende bereitstellung zu erreichen. da der co2-fußabdruck von rechenzentren zunimmt und diese immer knapper werden, wird die energieeffizienz von rechenzentren immer wichtiger. laut einem bericht des weltwirtschaftsforums:

„derzeit ist der ökologische co2-fußabdruck von rechenzentren hauptsächlich in zwei teile unterteilt: schulungen machen 20 % und schlussfolgerungen 80 % aus. mit der entwicklung von modellen für künstliche intelligenz in verschiedenen bereichen werden die nachfrage nach schlussfolgerungen und ihr ökologischer fußabdruck eskalieren.“ "

zweitens erfordern viele anwendungen, wie etwa interaktive gespräche und autonome arbeitsabläufe, eine sehr geringe latenz. innerhalb einer gegebenen computerarchitektur kann eine reduzierung der latenz durch reduzierung des durchsatzes erreicht werden, was jedoch zu einer verringerten energieeffizienz führt. um eine klassische systemmaxime zu paraphrasieren:

„das durchsatzproblem kann mit geld gelöst werden, aber das verzögerungsproblem ist komplizierter, weil die lichtgeschwindigkeit feststeht.“ (umschreibung von [10], wobei „bandbreite“ durch „durchsatz“ ersetzt wird.)

gpus können durch die verwendung kleinerer batchgrößen eine geringere latenz erreichen, allerdings auf kosten des durchsatzes und der energieeffizienz. darüber hinaus reduziert gpu-sharding die latenz durch die nutzung von datenparallelität über mehrere gpus hinweg, allerdings wiederum auf kosten der energieeffizienz. sharding oder nicht, gpus scheinen bei geringerer latenz an eine harte grenze zu stoßen. der gpu-kompromiss zwischen energieeffizienz und latenz ist in abbildung 1 dargestellt.

abbildung 1: leistung von northpole (12 nm) im vergleich zu aktuellen, hochmodernen gpus (7/5/4 nm) in bezug auf energie- und systemlatenzmetriken, wobei die systemlatenz die gesamtlatenz ist, die jeder benutzer erlebt. bei der niedrigsten gpu-latenz (h100, punkt p2) bietet northpole 72,7-mal bessere energieeffizienzkennzahlen (tokens/sekunde/w). beim besten gpu-energieeffizienzindex (l4, punkt p1) bietet northpole eine 46,9-mal geringere latenz.

daher ist eine zentrale forschungsfrage, die in diesem artikel untersucht wird, die frage, wie die beiden widersprüchlichen ziele einer geringen latenz und einer hohen energieeffizienz gleichzeitig erreicht werden können.

northpole ist ein ökosystem aus inferenzbeschleuniger-chips und software, die von anfang an gemeinsam entwickelt wurden, um eine überlegene effizienz für die inferenz neuronaler netzwerke zu liefern. obwohl northpole nicht speziell für llm entwickelt wurde, zeigt dieses papier überraschenderweise, dass die neue northpole-architektur eine energieeffiziente llm-inferenz mit geringer latenz erreichen kann (abbildung 1, abbildung 2 und tabelle 1).

tabelle i: leistungsmessungen

gemessene leistung von northpole- und gpu-systemen pro karte. für jede metrik bedeutet #, dass niedriger besser ist, während „höher besser ist. bei northpole-geräten mit 16 karten wird der stromverbrauch pro karte gemessen und der gesamtsystemdurchsatz durch 16 karten geteilt. northpole-latenz über alle 16 karten zur messung. p1 , p2, p3 und p4 beziehen sich auf die in abbildung 1 bzw. abbildung 2 markierten punkte und geben den höchsten gpu-energieeffizienzindex, die niedrigste gesamt-gpu-latenz, den höchsten gpu-platzindex und die niedrigste energieeffizienz-gpu-latenz an.

die wichtigsten forschungsergebnisse dieses artikels sind wie folgt:

für ein großes sprachmodell (llm) mit einer parametergröße von 3 milliarden, dessen modellstruktur vom ibm granite-8b-code-base-modell abgeleitet ist und mit llama 3 8b und mistral 7b [14] übereinstimmt, demonstriert dieser artikel a konfiguration forschungsprototyp eines inferenzgeräts mit 16 northpole-prozessoren.

in bezug auf die absolute leistung liefert das gerät einen systemdurchsatz von 28.356 tokens/sekunde und eine einzelbenutzer-latenz von weniger als 1 millisekunde, während es in einem 2u-modell über 16 northpole-karten 672 watt strom verbraucht.

was die relative leistung angeht, wenn man den 12-nm-northpole mit einer reihe von gpus (jeweils 7/5/5/4 nm a100/l4/l40s/h100) mit unterschiedlichem stromverbrauch vergleicht, ist dies aus abbildung 2(a) und as ersichtlich ist in abbildung 2(c) zu sehen: bei der niedrigsten gpu-latenz (punkt p2) bietet northpole 72,7-mal bessere energieeffizienzmetriken (tokens/sekunde/w) und 15,9-mal bessere platzmetriken (tokens/sekunde/transistor), während die die latenz beträgt immer noch weniger als das 2,5-fache; beim besten gpu-energieeffizienzindikator (punkt p1) bietet northpole eine 46,9-mal geringere latenz und 2,1-mal bessere platzindikatoren, während er immer noch eine 2,2-mal bessere energieeffizienz-metrik bietet. punkt p3) bietet northpole eine 20,3-mal geringere latenz und 5,3-mal bessere energieeffizienzmetriken, während es dennoch 1,4-mal bessere raummetriken liefert.

insbesondere beim vergleich des 12-nm-northpole mit der 5-nm-l4-gpu für einen vergleichbaren stromverbrauch ist aus abbildung 2(e) ersichtlich, dass bei der höchsten l4-durchsatzstunde (weniger als 50 ms pro token, punkt p1)northpole bietet eine 46,9-mal geringere latenz und verbessert gleichzeitig den durchsatz um das 1,3-fache. bei der niedrigsten l4-latenz (punkt p4) bietet northpole einen 36,0-mal höheren durchsatz (tokens/sekunde/karte) und verbessert gleichzeitig die latenz immer noch unter dem 5,1-fachen.

abbildung 2: (a)–(d) panels zeigen die leistung von 12 nm northpole im vergleich zu aktuellen state-of-the-art-gpus (7/5/4 nm) in bezug auf energieeffizienz, platz und systemlatenzmetriken, wo die systemlatenz liegt pro die gesamtlatenz, die der benutzer erlebt.

tafel (a) entspricht abbildung 1, mit der zusätzlichen beschriftung von punkt p3. die panels (a) und (c) verwenden eine einzelne gpu, während die panels (b) und (d) sharding-technologie verwenden, die die latenz reduzieren kann, jedoch nur auf kosten der energie- und platzeffizienz. bei der niedrigsten gpu-latenz (h100, punkt p2) bietet northpole 72,7-mal bessere energieeffizienzmetriken (tokens/sekunde/w) und 15,9-mal bessere speicherplatzmetriken (tokens/sekunde/transistor) und weist dennoch eine um mehr als das 2,5-fache niedrige latenz auf; beim besten gpu-energieeffizienzindex (l4, punkt p1) bietet northpole eine 46,9-mal geringere latenz und einen 2,1-mal besseren platzindex, während er im besten fall immer noch einen 2,2-mal besseren energieeffizienzindex bietet. wenn es um räumliche gpu-metriken geht (a100, punkt p3) bietet northpole eine 20,3-mal geringere latenz und 5,3-mal bessere energieeffizienzmetriken, während es dennoch 1,4-mal bessere räumliche metriken liefert.

panel (e) zeigt die leistung des 12-nm-northpole im vergleich zur 5-nm-l4-gpu in bezug auf durchsatz (tokens/sekunde/karte) und systemlatenzmetriken. bei der niedrigsten l4-latenz (punkt p4) bietet northpole einen 36,0-mal höheren durchsatz; beim höchsten l4-durchsatz (weniger als 50 millisekunden pro token, punkt p1) bietet northpole eine 46,9-mal geringere latenz. der zur berechnung der einzelnen energieeffizienzmetriken verwendete gpu-stromverbrauch ist in tabelle i aufgeführt. da keine instrumente zur messung des tatsächlichen stromverbrauchs für verschiedene chargengrößen verfügbar sind, wird für alle chargengrößen die gleiche leistung verwendet, wodurch die energieeffizienzmetrik möglicherweise unterschätzt wird, die qualitativen ergebnisse jedoch weiterhin gültig sind.

nordpol-architektur

wie in abbildung 3 dargestellt, wird der northpole-prozessor in 12-nanometer-prozesstechnologie hergestellt, verfügt über 22 milliarden transistoren und hat eine fläche von 795 quadratmillimetern. seine architektur ist vom gehirn inspiriert, für silizium optimiert und aus zehn komplementären design-axiomen abgeleitet, die computer, speicherung, kommunikation und steuerung abdecken, wodurch northpole andere architekturen bei standard-ki-inferenzaufgaben deutlich übertreffen kann.selbst im vergleich zu prozessoren, die mit fortschrittlicheren prozesstechnologien hergestellt wurden, schneidet er gut ab.

detaillierte axiome der northpole-architektur finden sie unter [11], [12]. einfach ausgedrückt ordnet northpole 256 modulare kerne in einem zweidimensionalen 16×16-array an. jeder kern enthält einen vektor-matrix-multiplikator (vmm), der 2048, 4096 und 8192 operationen pro zyklus mit der genauigkeit int8, int4 bzw. int2 ausführt. die kernberechnung umfasst außerdem eine 4-wege-fp16-vektoreinheit mit 32 schichten und eine aktivierungsfunktionseinheit mit 32 schichten. das core-array verfügt über insgesamt 192 mb sram, wobei jeder kern mit 0,75 mb sram ausgestattet ist. der on-chip-speicher ist eng mit der recheneinheit und der steuerlogik verbunden, mit einer gesamtbandbreite von 13 tb/s zwischen kernspeicher und rechner. darüber hinaus verfügt jeder kern über 4096 drähte, die sich horizontal und vertikal kreuzen, um parameter, anweisungen, aktivierungswerte und teilsummen durch vier dedizierte netzwerke auf einem chip (nocs) zu leiten.um verzögerungen zu vermeiden, ist ein on-chip-frame-puffer mit 32 mb sram ausgestattet, der die off-chip-kommunikation der ein- und ausgangsdaten von der on-chip-berechnung des core-arrays entkoppelt.

abbildung 3: northpole-prozessor: silizium (links), chip (mitte), verpacktes modul (rechts).

ausrüstung

northpole hat den entwurf in einer pcie gen3 × 8-karte prototypisiert, wie in abbildung 4 dargestellt, wobei 16 karten in einem handelsüblichen 2u-server installiert wurden, um einen forschungsprototyp eines inferenzgeräts zu bilden, wie in abbildung 5 dargestellt. der server enthält zwei intel xeon gold 6438m prozessoren mit jeweils 32 kernen und 60 mb cache, getaktet mit 2,2 ghz. das system verfügt außerdem über 512 gb ddr5-speicher mit 4800 mhz. an jeden serverprozessor sind zwei pcie gen5 × 16-busse angeschlossen, die insgesamt 256 gb/s pcie-bandbreite (bidirektional) bereitstellen. diese vier busse werden über pcie-brücken auf die 16 pcie-steckplätze des systems erweitert, wobei in jedem steckplatz eine northpole-karte installiert ist. diese 16 northpole-karten nutzen bis zur hälfte der verfügbaren pcie-bandbreite von 256 gb/s.

abbildung 4: northpole pcie-karte.

abbildung 5: explosionsansicht des forschungsprototypgeräts, die die installation von 16 northpole pcie-karten zeigt. northpole-karten können über das standard-pcie-endpunktmodell mit dem host kommunizieren oder über zusätzliche hardwarefunktionen auf jeder karte direkt und effizienter miteinander kommunizieren.

auf dem system läuft red hat enterprise 8.9 und northpole verwendet einen integrierten vfio-kernel-treiber, damit user-space-software die hardware verwalten kann. das system nutzt iommu für das adressübersetzungsmanagement und ermöglicht sicherheitsfunktionen wie geräteisolation und virtualisierung, um anwendungen mithilfe virtueller maschinen oder containertechnologie auszuführen.

jede northpole-karte empfängt und überträgt daten über eine dma-engine, die sich auf jeder karte befindet. diese dma-engines arbeiten unabhängig und können tensoren auf verschiedene arten gleichzeitig empfangen und senden. die erste methode ist das standard-pcie-endpunktmodell, bei dem das hostprogramm die eingabe aus dem hostspeicher über die dma-engine liest und die tensoren nach abschluss der berechnung zurück in den hostspeicher schreibt. der zweite ansatz nutzt zusätzliche hardwarefunktionen auf jeder karte, um northpole-karten die direkte kommunikation untereinander über pcie zu ermöglichen, ohne dass übertragungen zwischen host-speicher oder zusätzliche softwareverwaltung zur laufzeit erforderlich sind. durch die direkte kommunikation zwischen nordpolen können größere modelle mehrere nordpol-chips umfassen und gleichzeitig die kommunikationslatenz und den overhead reduzieren, die durch ein reines software-managementsystem verursacht werden.

zuordnen von llms zu northpole-geräten

die in abbildung 6 dargestellte strategie zur kartierung von llms basiert auf drei schlüsselbeobachtungen. erstens kann bei ausreichend großen modellen die gesamte transformatorschicht mithilfe von gewichten, aktivierungen und kv-puffern im int4-format vollständig in den speicher eines einzelnen northpole-chips („w4a4“) passen, während die ausgabeschicht auf zwei auf dem chip passen kann. zweitens: wenn sich die gewichtungs- und kv-caches vollständig auf dem chip befinden, muss die laufzeit nur kleine eingebettete tensoren zwischen schichten übertragen, was innerhalb der bandbreite von pcie gen3 × 8 liegt. drittens können prototypen von northpole-geräten einfach zusammengebaut werden, indem 16 northpole pcie-karten in einem handelsüblichen server installiert werden.

dies legt eine strategie nahe, jede transformatorschicht ihrer jeweiligen northpole-karte zuzuordnen, pipeline-parallelität im gpipe-stil zu verwenden und die ausgabeschicht mithilfe von tensor-parallelität auf die beiden northpole-karten aufzuteilen, indem pcie gen3 × 8 den einbettungstensor zwischen schichten sendet.während der inferenz wird ein kleiner stapel von benutzeranfragen (z. b. n anfragen) in m gleiche mikrobatches aufgeteilt und durch 16 northpole-karten geleitet.

während pipeline-parallelität im llm-training ausgenutzt wurde (ohne latenzbeschränkungen), wurde ihre verwendung in der inferenz durch die batch-größe begrenzt, die erforderlich ist, um die leerlaufzeit jeder pipeline-stufe oder pipeline-blase zu reduzieren. einige studien haben beispielsweise herausgefunden, dass für ein effizientes training die anzahl der mikrobatches m etwa viermal so groß sein muss wie die anzahl der pipeline-stufen. die mini-batch-größe n ist begrenzt durch (a) die vom system benötigte latenz pro token und (b) den verfügbaren speicher für den kv-cache zum speichern des gesamten mini-batches. durch die rechenleistung mit geringer latenz und eine on-chip-speicherbandbreite von 13 tb/s kann northpole eine extrem niedrige latenz pro token erreichen. daher ist der begrenzende faktor bei der wahl von n der speicher, der zum speichern des gesamten kv-cache auf dem chip verwendet wird. darüber hinaus stellen wir fest, dass die anzahl der mikrobatches m gleich der anzahl der pipeline-stufen ausreicht, um die pipeline-leerlaufzeit vernachlässigbar zu machen.

in den in diesem artikel beschriebenen experimenten haben wir eine mini-batch-größe von n = 28 gewählt, aufgeteilt in m = 14 gleiche mikro-batches, was zu einer mikro-batch-größe von 2 für jede northpole-kartenberechnung führte. unsere architektonischen entwurfsentscheidungen für eine effiziente berechnung bei solch kleinen chargengrößen sind der schlüssel zum erreichen der in abbildung 1 und tabelle i gezeigten effizienzen.

llm-modell und trainingsmethode

llm-modell

das zum testen unseres systems verwendete modell basiert auf dem open-source-modell ibm granite-8b-code-base, einem transformator-decoder mit 8 milliarden parametern, der 36 transformatorschichten mit einer versteckten schichtgröße von 4096 und einer ffn-zwischenschichtgröße enthält 14.336, die anzahl der aufmerksamkeitsköpfe beträgt 32, die anzahl der schlüsselwertköpfe mit grouped query attention (gqa) beträgt 8 und die vokabulargröße beträgt 49.152. um in einen einzelnen server mit 16 northpole-karten zu passen, verwendeten wir eine 3-milliarden-parameter-version des modells mit 14 transformatorschichten und einer ausgabeschicht, quantisiert auf w4a4-genauigkeit, ansonsten blieb die struktur jedoch unverändert.

bemerkenswert ist, dass diese modellkonfiguration schichtweise mit llama 3 8b [13] und mistral 7b [14] übereinstimmt und sich nur in der anzahl der schichten, der größe des modellvokabulars und den verwendeten trainingsdaten unterscheidet.

training mit voller genauigkeit

um die aufgabengenauigkeit des ursprünglichen modells nach der quantisierung wiederherzustellen, wurde das folgende verfahren zur erstellung von modellgewichten übernommen. zunächst wird ein basismodell von grund auf auf der grundlage von 1 billion code-tokens in 116 sprachen und unter verwendung der vollen fp16-genauigkeit trainiert, wobei dem rezept von [4] gefolgt wird. als nächstes wurden die ausgabeschichtgewichte und eingaben des basismodells sowie die silu-aktivierungen int8-quantisiert, während alle anderen gewichte, linearen schichteingaben und matrixmultiplikationseingaben int4-quantisiert wurden. schließlich wurde die quantifizierungsgenauigkeit nach der wiederherstellung quantifiziert, indem ein quantisierungsbewusstes training für weitere 8,5 milliarden token aus der python-sprachteilmenge der trainingsdaten mit einer lernrate von 8×10⁻⁵ und einer stapelgröße von 128 durchgeführt wurde der lsq-algorithmus. die schrittgröße, die den quantisierer aktiviert, wird mithilfe eines warmstarts trainiert, wodurch die lernrate in den ersten 250 trainingsschritten um den faktor 200 erhöht wird, um eine schnelle anpassung an die daten zu ermöglichen.

das basismodell fp16, das auf der gpu läuft, und das quantisierte modell, das auf northpole läuft, erreichten auf humanevalsynthesize-python eine pass@10-genauigkeit von 0,01 (0,3001 gpu vs. 0,2922 northpole). vergleichbar mit dem granite-8b-code-base-modell. dann wird das gesamttraining reduziert sich auf die charakterisierung der hardwareleistung zu konzentrieren, anstatt die grenzen der aufgabengenauigkeit zu überschreiten.

laufzeitanwendung

während der inferenz werden, wie in abbildung 6 dargestellt, token von einer benutzeranwendung mit hoher pipeline generiert, die auf der host-cpu ausgeführt wird. diese verarbeitet den text mithilfe von tokenisierern und einbettungsschichten in eingabetensoren vor und legt die eingabetensoren auf der ersten northpole-karte im gerät ab , empfängt den resultierenden ausgabetensor von der letzten northpole-karte im gerät, verarbeitet den ausgabetensor mit einem decoder und detokenizer nach und führt den resultierenden token als nächste eingabe durch. die benutzeranwendung ist auch für die benutzeroberfläche sowie für erweiterte optimierungen wie die sofortige vorbelegung verantwortlich.

um die arbeitslast des neuronalen netzwerks auf northpole zu verlagern, ruft die benutzeranwendung eine user-space-laufzeitbibliothek mit einer einfachen api auf, konfiguriert die schichtgewichte und den kv-cache der northpole-karte zur initialisierungszeit und sendet und empfängt zur laufzeit eingabe- und ausgabetensoren.die gewichtungen und der kv-cache sind so konfiguriert, dass sie im on-chip-speicher verbleiben und zur laufzeit nicht vom chip gestreamt werden müssen. die laufzeitbibliothek verwaltet auch den on-chip-frame-puffer, um zu verhindern, dass der northpole-kern aufgrund fehlender eingangsdaten- oder ausgangsdatenempfänger ins stocken gerät. zwischentensoren werden zwischen karten ohne eingreifen des hosts weitergegeben, wie in abschnitt 4 beschrieben.

leistungsergebnisse

das 16-karten-gerät von northpole erreichte einen durchsatz von 28.356 token/sekunde auf einem llm mit 3 milliarden parametern. die sequenzlänge dieses llm ist auf 2048 (1024 hinweislänge, 1024 generierte token) konfiguriert und der decoder verwendet greedy sampling.

zum vergleich mit gpus haben wir die einzelkartenleistung von zwei gpus für low-power-inferenz (l4 und l40s) und zwei gpus für training mit hohem durchsatz (a100 und h100) gemessen.auf allen systemen wird das gleiche llm-modell und die gleiche konfiguration ausgeführt, wobei northpole mit w4a4-präzision und die gpu mit optimaler w4a16-präzision läuft, da unseres wissens keine w4a4-cuda-kerne verfügbar sind.in unseren gpu-experimenten nutzten wir das gptq-quantisierungsmodell und verglichen es mit dem vllm-marlin-kern (version 0.5.4) zum vergleich mit northpole. die verwendung der gptq-quantisierung sorgt für eine optimale modellinferenzleistung auf der gpu, indem die gewichtsgenauigkeit reduziert und gleichzeitig eine akzeptable genauigkeit beibehalten wird. darüber hinaus werden marlin-kerne zur optimierung von matrixoperationen verwendet, insbesondere bei dünn besetzten und dichten matrixmultiplikationen. durch das benchmarking der vllm-laufzeit können wir durchsatz und latenz bewerten und so eine optimale modellleistung für eine bestimmte hardwarekonfiguration sicherstellen. in experimenten mit mehreren gpu-karten wurde tensorparallelität entsprechend der anzahl der verfügbaren karten verwendet, um effektiv die kleinstmögliche latenz über nvlink zu erreichen. unsere experimente zeigen, dass die sharding-technologie zwar die latenz reduziert, aber zu einer verringerung des gpu-durchsatzes pro karte führt. es ist erwähnenswert, dass die überlegene leistung von northpole hauptsächlich auf die enorme on-chip-speicherbandbreite und zweitens auf die geringere genauigkeit zurückzuführen ist.

tabelle i zeigt die gemessenen leistungsergebnisse für northpole- und gpu-systeme pro karte. zu den grundlegenden metriken gehören die unten definierten durchsatz-, latenz-, speicherplatz- und energiemetriken.

die gesamtzahl der für kleine batches von eingabeaufforderungen generierten token beträgt:

unter diesen ist mmm die anzahl der mikrobatches und tok_seq_len die anzahl der von einem einzelnen benutzer generierten ausgabetoken. der systemdurchsatz ist die gesamtzahl der token, die als reaktion auf eingabeaufforderungen generiert werden (token-generierung), geteilt durch die gesamtzeit, die zum verarbeiten der eingabeaufforderung erforderlich ist, einschließlich der vorfüllzeit der eingabeaufforderung (eingabeaufforderungszeit) und der token-generierungszeit (token-generierungszeit):

der durchsatz wird pro karte verglichen, indem der systemdurchsatz durch die anzahl der verarbeitungskarten im system dividiert wird:

die latenz ist ein maß für die durchschnittliche zeit zwischen ausgabetokens, die von einem bestimmten benutzer generiert wurden, und ist die summe der zeit, die ein eingebettetes token benötigt, um durch die verarbeitungspipeline zu fließen, zuzüglich der sofortigen vorbefüllungszeit, amortisiert über die gesamtzahl der generierten token:

ebenso die kombination der gleichungen 1, 2 und 4:

wobei mini-batch-größe = mini-batch-größe. beachten sie, dass dies die systemlatenz ist, die jeder benutzer sieht.

normalisiert durch die anzahl der karten im system erweitern wir die in [11] definierten raum- und energiemetriken, um systeme mit unterschiedlicher kartenanzahl vergleichen zu können. die resultierenden platz- und energiemetriken sind der durchsatz pro karte, normalisiert durch die anzahl der prozessortransistoren pro karte bzw. die leistung pro karte:

wenn der systemdurchsatz proportional zur anzahl der pipeline-karten im system skaliert, wird die kartennormalisierung ausgeglichen, sodass die speicherplatz- und energiemetriken mit der anzahl der karten im system konstant bleiben. typischerweise skaliert der systemdurchsatz aufgrund des kommunikations- und synchronisierungsaufwands sublinear mit der anzahl der karten.

abschließend

wir leisten folgende beiträge:

wir haben einen forschungsprototyp des doka northpole-geräts vorgeführt.

wir zeigen, dass große neuronale netzwerkmodelle wie llm effizient auf mehrere northpole-prozessoren aufgeteilt werden können, und erweitern damit unsere bisherige arbeit, die gezeigt hat, dass ein einzelner northpole-prozessor bei visuellen inferenzaufgaben eine bessere leistung erbringt (resnet50, yolo-v4 übertrifft andere architekturen).

wir zeigen, dass sich die einzigartige architektur von northpole gut für llm-inferenz eignet und es ihnen ermöglicht, edge- und rechenzentrums-gpus bei den beiden zielen geringer latenz und hoher energieeffizienz deutlich zu übertreffen.

da das northpole-gerät als einheit verwendet werden muss, ist es für anwendungen mit hohem durchsatz am effizientesten.

dieses vorläufige papier bietet ein sprungbrett für weitere forschungen zur optimierung der energieeffizienz, zur abbildung größerer llms auf entsprechend größeren northpole-geräten, zu neuen llm-modellen, die gemeinsam mit der northpole-architektur optimiert werden, sowie zu zukünftigen system- und chiparchitekturen.

nachricht

ein weiterer chip, der die gpu herausfordert

einführung

meine kontaktdaten