notizia

un altro chip per sfidare la gpu

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina

riepilogo

per un llm da 3 miliardi di parametri, un'appliance di inferenza prototipo di ricerca con 16 processori ibm aiu northpole ha fornito un enorme throughput di sistema di 28.356 token/secondo e una latenza inferiore a 1 ms/token (per utente) rispetto a 16. ciascuna scheda northpole consuma solo 672 w in un fattore di forma compatto 2u. concentrandosi sulla bassa latenza e sull'elevata efficienza energetica, northpole (12 nm) viene confrontato con un set di gpu (7/5/4 nm) a vari consumi energetici.alla latenza gpu più bassa, northpole fornisce metriche di efficienza energetica 72,7 migliori (token/s/w) fornendo allo stesso tempo una latenza migliore.

introdurre

i modelli linguistici di grandi dimensioni (llm) hanno raggiunto parametri di riferimento prestazionali significativi in ​​diverse attività di intelligenza artificiale, come assistere la programmazione fornendo suggerimenti sul codice, ottenendo buoni risultati nei test standardizzati e aiutando la creazione di contenuti di articoli, blog, immagini e video.

nell’implementazione su larga scala degli llm, in particolare nell’implementazione su larga scala dell’intelligenza artificiale, emergono due sfide principali e contrastanti, vale a dire: il consumo di energia e la latenza di risposta.

in primo luogo, poiché il llm richiede notevoli risorse energetiche sia per la formazione che per l’inferenza, è necessaria un’infrastruttura informatica futura sostenibile per ottenere una sua implementazione efficiente e diffusa. man mano che l'impronta di carbonio dei data center aumenta e diventano sempre più vincolati dal punto di vista energetico, l'efficienza energetica dei data center diventa sempre più importante. secondo un rapporto del world economic forum:

"attualmente, l'impronta di carbonio ambientale dei data center è principalmente divisa in due parti: la formazione rappresenta il 20% e l'inferenza l'80%. man mano che i modelli di intelligenza artificiale si sviluppano in campi diversi, la domanda di inferenza e la sua impronta ambientale aumenteranno. "

in secondo luogo, molte applicazioni, come conversazioni interattive e flussi di lavoro autonomi, richiedono una latenza molto bassa. all'interno di una determinata architettura informatica, è possibile ridurre la latenza riducendo il throughput, ma ciò si traduce in una riduzione dell'efficienza energetica. per parafrasare una massima classica del sistema:

"il problema del throughput può essere risolto con il denaro, ma il problema del ritardo è più complicato perché la velocità della luce è fissa." (parafrasato da [10], sostituendo "larghezza di banda" con "throughput".)

le gpu possono ottenere una latenza inferiore utilizzando batch di dimensioni inferiori, ma a scapito della velocità effettiva e dell'efficienza energetica. inoltre, lo sharding della gpu riduce la latenza utilizzando il parallelismo dei dati su più gpu, ma ancora una volta a scapito dell'efficienza energetica. sharding o meno, le gpu sembrano raggiungere un limite rigido con una latenza inferiore. il compromesso della gpu tra efficienza energetica e latenza è mostrato nella figura 1.

figura 1: prestazioni northpole (12 nm) rispetto alle attuali gpu all'avanguardia (7/5/4 nm) sui parametri di energia e latenza del sistema, dove la latenza del sistema è la latenza totale sperimentata da ciascun utente. alla latenza gpu più bassa (h100, punto p2), northpole fornisce parametri di efficienza energetica 72,7 volte migliori (token/secondo/w). al miglior indice di efficienza energetica della gpu (l4, punto p1), northpole fornisce una latenza 46,9 volte inferiore.

pertanto, una questione chiave della ricerca esplorata in questo documento è come raggiungere contemporaneamente i due obiettivi contrastanti di bassa latenza e alta efficienza energetica.

northpole è un ecosistema di chip acceleratori di inferenza e software co-progettati partendo da principi primi per offrire un'efficienza superiore per l'inferenza della rete neurale. sebbene northpole non sia stato progettato specificamente per llm, sorprendentemente, questo documento dimostra che la nuova architettura northpole può ottenere un'inferenza llm a bassa latenza ed efficiente dal punto di vista energetico (figura 1, figura 2 e tabella 1).

tabella i: misurazioni delle prestazioni

prestazioni misurate dei sistemi northpole e gpu in base alla scheda. per ogni metrica, # significa che più basso è migliore, mentre " significa che più alto è migliore. per i dispositivi northpole a 16 schede, il consumo energetico viene misurato per scheda e il throughput totale del sistema è diviso per 16 schede. latenza northpole su tutte le 16 schede per la misurazione. p1 , p2, p3 e p4 si riferiscono ai punti contrassegnati rispettivamente nella figura 1 e nella figura 2, che indicano l'indice di efficienza energetica della gpu più alto, la latenza complessiva della gpu più bassa, l'indice di spazio della gpu più alto e la latenza della gpu di efficienza energetica più bassa.

i principali risultati della ricerca di questo articolo sono i seguenti:

per un modello linguistico di grandi dimensioni (llm) con una dimensione dei parametri di 3 miliardi, la cui struttura del modello è derivata dal modello ibm granite-8b-code-base ed è coerente con llama 3 8b e mistral 7b [14], questo articolo dimostra un configurazione dispositivo di inferenza prototipo di ricerca con 16 processori northpole.

in termini di prestazioni assolute, il dispositivo offre 28.356 token/sec di throughput di sistema e una latenza per utente singolo inferiore a 1 millisecondo, consumando 672 watt di potenza su 16 schede northpole in un modello 2u.

in termini di prestazioni relative, confrontando il northpole da 12 nm con una gamma di gpu (rispettivamente a100/l4/l40s/h100 da 7/5/5/4 nm) a diversi consumi energetici, si può vedere dalla figura 2(a) e come si può vedere come mostrato nella figura 2(c): alla latenza della gpu più bassa (punto p2), northpole fornisce parametri di efficienza energetica 72,7 volte migliori (token/secondo/w) e parametri di spazio 15,9 volte migliori (token/secondo/transistor), mentre il la latenza è ancora inferiore a 2,5 volte; con il miglior indicatore di efficienza energetica della gpu (punto p1), northpole fornisce una latenza 46,9 volte inferiore e indicatori di spazio 2,1 volte migliori, pur fornendo metriche di efficienza energetica 2,2 volte migliori con la migliore metrica di spazio della gpu (; punto p3), northpole offre una latenza 20,3 volte inferiore e parametri di efficienza energetica 5,3 volte migliori, pur fornendo parametri di spazio 1,4 volte migliori.

in particolare, confrontando il northpole da 12 nm con la gpu l4 da 5 nm per un consumo energetico paragonabile, si può vedere dalla figura 2(e) che al massimo throughput l4 (meno di 50 ms per token, punto p1) ora,northpole fornisce una latenza 46,9 volte inferiore migliorando al contempo il throughput di 1,3 volte; e alla latenza l4 più bassa (punto p4), northpole fornisce un throughput 36,0 volte superiore (token/secondo/scheda) migliorando al tempo stesso la latenza ancora al di sotto di 5,1x.

figura 2: (a)–(d) i pannelli mostrano le prestazioni di northpole a 12 nm rispetto alle attuali gpu all'avanguardia (7/5/4 nm) in termini di efficienza energetica, spazio e latenza del sistema, dove la latenza del sistema è per la latenza totale riscontrata dall'utente.

il pannello (a) è lo stesso della figura 1, con l'aggiunta dell'etichettatura del punto p3. i pannelli (a) e (c) utilizzano una singola gpu, mentre i pannelli (b) e (d) utilizzano la tecnologia sharding, che può ridurre la latenza, ma solo a scapito dell'efficienza energetica e dello spazio. alla latenza gpu più bassa (h100, punto p2), northpole fornisce parametri di efficienza energetica 72,7 volte migliori (token/secondo/w) e parametri di spazio 15,9 volte migliori (token/secondo/transistor) pur mantenendo una bassa latenza più di 2,5 volte; al miglior indice di efficienza energetica della gpu (l4, punto p1), northpole fornisce una latenza 46,9 volte inferiore e un indice di spazio 2,1 volte migliore, fornendo comunque un indice di efficienza energetica 2,2 volte migliore al migliore. quando si tratta di metriche spaziali della gpu (a100,; punto p3), northpole offre una latenza 20,3 volte inferiore e parametri di efficienza energetica 5,3 volte migliori, pur fornendo parametri spaziali 1,4 volte migliori.

il pannello (e) mostra le prestazioni del northpole da 12 nm rispetto alla gpu l4 da 5 nm in termini di throughput (token/secondo/scheda) e parametri di latenza del sistema. alla latenza l4 più bassa (punto p4), northpole fornisce un throughput 36,0 volte superiore; al throughput l4 più elevato (meno di 50 millisecondi per token, punto p1), northpole fornisce una latenza 46,9 volte inferiore. il consumo energetico della gpu utilizzato per calcolare ciascun parametro di efficienza energetica è mostrato nella tabella i. poiché non è disponibile alcuna strumentazione per misurare il consumo energetico effettivo per lotti di diverse dimensioni, viene utilizzata la stessa potenza per lotti di tutte le dimensioni, il che potrebbe sottostimare la metrica dell’efficienza energetica, ma i risultati qualitativi sono comunque validi.

architettura del polo nord

come mostrato nella figura 3, il processore northpole è prodotto utilizzando la tecnologia di processo a 12 nanometri, ha 22 miliardi di transistor e ha un'area di 795 millimetri quadrati. la sua architettura è ispirata al cervello, ottimizzata per il silicio e deriva da dieci assiomi di progettazione complementari che coprono elaborazione, archiviazione, comunicazione e controllo, consentendo a northpole di superare significativamente altre architetture nelle attività di inferenza ia standard.funziona bene anche se confrontato con processori realizzati con tecnologie di processo più avanzate.

per gli assiomi dettagliati dell'architettura del polo nord, vedere [11], [12]. in poche parole, northpole dispone 256 core modulari in un array bidimensionale 16×16. ciascun core contiene un moltiplicatore a matrice vettoriale (vmm) che esegue 2048, 4096 e 8192 operazioni per ciclo rispettivamente con precisione int8, int4 e int2. il calcolo principale include anche un'unità vettoriale fp16 a 4 vie, 32 sezioni e un'unità della funzione di attivazione a 32 sezioni. l'array core ha un totale di 192 mb di sram, con ciascun core dotato di 0,75 mb di sram. la memoria su chip è strettamente collegata all'unità di calcolo e alla logica di controllo, con una larghezza di banda totale di 13 tb/s tra memoria centrale e calcolo. inoltre, ciascun core dispone di 4096 fili che si incrociano orizzontalmente e verticalmente per il passaggio di parametri, istruzioni, valori di attivazione e somme parziali attraverso quattro reti dedicate su un chip (noc).per evitare stalli, un frame buffer su chip è dotato di 32 mb di sram, disaccoppiando la comunicazione off-chip dei dati di input e output dal calcolo su chip dell'array principale.

figura 3: processore northpole: silicio (a sinistra), die (al centro), modulo confezionato (a destra).

attrezzatura

northpole ha prototipato il progetto in una scheda pcie gen3 × 8, mostrata nella figura 4, con 16 schede installate in un server 2u standard per formare un prototipo di dispositivo di inferenza di ricerca, mostrato nella figura 5. il server contiene due processori intel xeon gold 6438m, ciascuno con 32 core e 60 mb di cache, con clock a 2,2 ghz. il sistema è inoltre dotato di 512 gb di memoria ddr5 a 4800 mhz. due bus pcie gen5 × 16 sono collegati a ciascun processore del server, fornendo un totale di 256 gb/s di larghezza di banda pcie (bidirezionale). questi quattro bus vengono estesi ai 16 slot pcie del sistema tramite bridge pcie, con una scheda northpole installata in ciascuno slot. queste 16 schede northpole utilizzano fino alla metà della larghezza di banda pcie da 256 gb/s disponibile.

figura 4: scheda pcie northpole.

figura 5: vista esplosa del dispositivo prototipo di ricerca che mostra l'installazione di 16 schede pcie northpole. le schede northpole possono comunicare con l'host tramite il modello endpoint pcie standard o direttamente e in modo più efficiente tra loro attraverso funzionalità hardware aggiuntive su ciascuna scheda.

il sistema esegue red hat enterprise 8.9 e northpole utilizza un driver del kernel vfio integrato in modo che il software dello spazio utente possa gestire l'hardware. il sistema utilizza iommu per la gestione della traduzione degli indirizzi e abilita funzionalità di sicurezza come l'isolamento dei dispositivi e la virtualizzazione per eseguire applicazioni utilizzando macchine virtuali o tecnologia container.

ogni carta northpole riceve e trasmette dati tramite un motore dma che risiede su ciascuna carta. questi motori dma funzionano in modo indipendente e possono ricevere e trasmettere simultaneamente tensori in più modi. il primo metodo è il modello endpoint pcie standard, in cui il programma host legge l'input dalla memoria host tramite il motore dma e riscrive i tensori nella memoria host una volta completato il calcolo. il secondo approccio sfrutta funzionalità hardware aggiuntive su ciascuna scheda per consentire alle schede northpole di comunicare direttamente tra loro tramite pcie senza la necessità di trasferimenti tra memoria host o gestione software aggiuntiva in fase di runtime. la comunicazione diretta tra i northpole consente ai modelli più grandi di estendersi su più chip northpole riducendo al tempo stesso la latenza della comunicazione e il sovraccarico causati da un sistema di gestione puramente software.

mappatura degli llm sui dispositivi del polo nord

la strategia per la mappatura degli sll, illustrata nella figura 6, si ispira a tre osservazioni chiave. innanzitutto, per modelli sufficientemente grandi, l'intero strato del trasformatore può stare interamente nella memoria di un singolo chip northpole ("w4a4") utilizzando pesi, attivazioni e buffer kv in formato int4, mentre lo strato di uscita può stare su due sul chip. in secondo luogo, se le cache di peso e kv risiedono interamente su chip, il runtime deve solo trasferire piccoli tensori incorporati tra i livelli, che rientra nella larghezza di banda di pcie gen3 × 8. in terzo luogo, i prototipi dei dispositivi northpole possono essere facilmente assemblati installando 16 schede pcie northpole in un server standard.

ciò suggerisce una strategia di mappatura di ogni strato del trasformatore sulla rispettiva scheda northpole, utilizzando il parallelismo della pipeline in stile gpipe e suddividendo lo strato di output tra le due schede northpole, utilizzando il parallelismo del tensore, tramite pcie gen3 × 8 invia il tensore di incorporamento tra gli strati.durante l'inferenza, un piccolo batch di richieste utente (ad esempio, n richieste) viene diviso in m ​​micro-batch uguali e convogliato attraverso 16 carte northpole.

sebbene il parallelismo della pipeline sia stato sfruttato nell'addestramento degli llm (senza vincoli di latenza), il suo utilizzo nell'inferenza è stato limitato dalla dimensione del batch richiesta per ridurre il tempo di inattività di ciascuna fase della pipeline o delle bolle della pipeline. ad esempio, alcuni studi hanno scoperto che una formazione efficiente richiede che il numero di micro-lotti m sia circa quattro volte il numero di fasi della pipeline. la dimensione n del mini-batch è limitata da (a) la latenza per token richiesta dal sistema e (b) la memoria disponibile per la cache kv per archiviare l'intero mini-batch. il calcolo a bassa latenza e 13 tb/s di larghezza di banda della memoria su chip consentono a northpole di raggiungere una latenza per token estremamente bassa, quindi il fattore limitante quando si sceglie n è la memoria utilizzata per archiviare l'intera cache kv su chip. inoltre, troviamo che il numero di micro-lotti m pari al numero di stadi della pipeline è sufficiente a rendere trascurabile il tempo di inattività della pipeline.

negli esperimenti riportati in questo articolo, abbiamo scelto una dimensione di mini-batch di n = 28, divisa in m ​​= 14 micro-batch uguali, risultando in una dimensione di micro-batch di 2 per ogni calcolo della carta northpole. le nostre scelte di progettazione architetturale per un calcolo efficiente con batch di dimensioni così ridotte sono fondamentali per raggiungere le efficienze mostrate nella figura 1 e nella tabella i.

modello llm e metodo formativo

un

modello llm

il modello utilizzato per testare il nostro sistema si basa sul modello open source ibm granite-8b-code-base, che è un trasformatore-decodificatore da 8 miliardi di parametri contenente 36 strati del trasformatore con una dimensione dello strato nascosto di 4096 e una dimensione dello strato intermedio ffn è 14.336, il numero di intestazioni di attenzione è 32, il numero di intestazioni di valori-chiave che utilizzano grouped query attention (gqa) è 8 e la dimensione del vocabolario è 49.152. per adattarsi a un singolo server con 16 schede northpole, abbiamo utilizzato una versione del modello da 3 miliardi di parametri con 14 strati di trasformazione e uno strato di uscita, quantizzato con precisione w4a4, ma per il resto la struttura è rimasta invariata.

in particolare, questa configurazione del modello corrisponde a llama 3 8b [13] e mistral 7b [14] in base al livello, differendo solo per il numero di livelli, la dimensione del vocabolario del modello e i dati di addestramento utilizzati.

b

allenamento con la massima precisione

per ripristinare l'accuratezza del compito del modello originale dopo la quantizzazione, è stata adottata la seguente procedura per creare i pesi del modello. innanzitutto, viene addestrato da zero un modello di base basato su 1 trilione di token di codice in 116 lingue, utilizzando la massima precisione del 16° pq, seguendo la ricetta di [4]. successivamente, i pesi e gli input dello strato di output del modello di base e le attivazioni silu sono stati quantizzati int8, mentre tutti gli altri pesi, gli input dello strato lineare e gli input della moltiplicazione della matrice sono stati quantizzati int4. infine, l'accuratezza della quantificazione post-recupero è stata quantificata eseguendo un addestramento sensibile alla quantizzazione su ulteriori 8,5 miliardi di token dal sottoinsieme del linguaggio python dei dati di addestramento, con un tasso di apprendimento di 8×10⁻⁵ e una dimensione batch di 128, utilizzando l'algoritmo lsq. la dimensione del passo che attiva il quantizzatore viene addestrata utilizzando un avvio a caldo, che aumenta la velocità di apprendimento di un fattore 200 nei primi 250 passi dell'addestramento per aiutare ad adattarsi rapidamente ai dati.

il modello di base fp16 in esecuzione su gpu e il modello quantizzato in esecuzione su northpole hanno raggiunto una precisione pass@10 su humanevalsynthesize-python entro 0,01 (0,3001 gpu rispetto a 0,2922 northpole. paragonabile al modello granite-8b-code-base). quindi, l'addestramento complessivo è ridotto concentrarsi sulla caratterizzazione delle prestazioni dell'hardware piuttosto che oltrepassare i limiti dell'accuratezza delle attività.

applicazione runtime

durante l'inferenza, come mostrato nella figura 6, i token vengono generati da un'applicazione utente altamente pipeline in esecuzione sulla cpu host, che preelabora il testo in tensori di input utilizzando tokenizzatori e livelli di incorporamento e inserisce i tensori di input nella prima scheda northpole nel dispositivo , riceve il tensore di output risultante dall'ultima scheda northpole nel dispositivo, postelabora il tensore di output utilizzando un decodificatore e un detokenizzatore ed esegue il loop del token risultante come input successivo. l'applicazione utente è anche responsabile dell'interfaccia utente e di ottimizzazioni più avanzate come la precompilazione rapida.

per scaricare il carico di lavoro della rete neurale su northpole, l'applicazione utente chiama una libreria di runtime dello spazio utente con una semplice api, configura i pesi dei livelli della scheda northpole e la cache kv al momento dell'inizializzazione e invia e riceve tensori di input e output in fase di runtime.i pesi e la cache kv sono configurati per rimanere nella memoria su chip e non necessitano di essere trasmessi fuori dal chip in fase di runtime. la libreria runtime gestisce anche il frame buffer su chip per evitare che il core northpole si blocchi a causa della mancanza di dati di input o di ricevitori di dati di output. i tensori intermedi vengono passati tra le carte senza l'intervento dell'host, come descritto nella sezione 4.

risultati delle prestazioni

il dispositivo northpole a 16 schede ha raggiunto un throughput di 28.356 token/secondo su un llm da 3 miliardi di parametri. la lunghezza della sequenza di questo llm è configurata come 2048 (lunghezza del suggerimento 1024, token generati 1024) e il decodificatore utilizza il campionamento greedy.

per fare un confronto con le gpu, abbiamo misurato le prestazioni di una scheda singola di due gpu per l'inferenza a basso consumo (l4 e l40s) e di due gpu per l'addestramento ad alto throughput (a100 e h100).tutti i sistemi eseguono lo stesso modello e configurazione llm, con northpole che funziona con precisione w4a4 e la gpu con precisione w4a16 ottimale poiché, a nostra conoscenza, non sono disponibili core cuda w4a4.nei nostri esperimenti gpu, abbiamo sfruttato il modello di quantizzazione gptq e lo abbiamo confrontato utilizzando il core marlin vllm (versione 0.5.4) per il confronto con northpole. l'utilizzo della quantizzazione gptq fornisce prestazioni ottimali di inferenza del modello sulla gpu riducendo la precisione del peso mantenendo una precisione accettabile. inoltre, i nuclei marlin vengono utilizzati per ottimizzare le operazioni di matrice, soprattutto quando si ha a che fare con moltiplicazioni di matrici sparse e dense. il benchmarking del runtime vllm ci consente di valutare throughput e latenza, garantendo prestazioni ottimali del modello per una determinata configurazione hardware. negli esperimenti con più schede gpu, è stato utilizzato il parallelismo tensore pari al numero di schede disponibili per ottenere in modo efficace la minore latenza possibile su nvlink. i nostri esperimenti mostrano che, sebbene la tecnologia di sharding riduca la latenza, porta a una diminuzione del throughput della gpu per scheda. vale la pena notare che le prestazioni superiori di northpole derivano principalmente dall'enorme larghezza di banda della memoria su chip e, secondariamente, dalla sua minore precisione.

la tabella i mostra i risultati delle prestazioni misurate per i sistemi northpole e gpu per scheda. le metriche di base includono le metriche di throughput, latenza, spazio ed energia, definite di seguito.

il numero totale di token generati per piccoli batch di richieste di input è:

tra questi, mmm è il numero di micro batch e tok_seq_len è il numero di token di output generati da un singolo utente. la velocità effettiva del sistema è il numero totale di token generati in risposta alle richieste di input (generazione di token), diviso per il tempo totale richiesto per elaborare la richiesta, incluso il tempo di precompilazione del prompt (tempo di richiesta) e il tempo di generazione di token (tempo di generazione del token):

la produttività viene confrontata per carta dividendo la produttività del sistema per il numero di carte in elaborazione nel sistema:

la latenza è una misura del tempo medio tra i token di output generati da un utente specifico ed è la somma del tempo necessario affinché un token incorporato passi attraverso la pipeline di elaborazione, più il tempo di prepopolamento del prompt ammortizzato sul numero totale di token generati:

allo stesso modo, combinando le equazioni 1, 2 e 4:

dove dimensione mini-batch = dimensione mini-batch nota, questa è la latenza del sistema vista da ciascun utente.

normalizzati dal numero di carte nel sistema, estendiamo le metriche di spazio ed energia definite in [11] per poter confrontare sistemi con diversi numeri di carte. le misurazioni di spazio ed energia risultanti sono il throughput per scheda, normalizzato rispettivamente dal numero di transistor del processore per scheda e dalla potenza per scheda:

se il throughput del sistema aumenta proporzionalmente al numero di schede di pipeline nel sistema, la normalizzazione delle schede verrà compensata, lasciando le metriche di spazio ed energia costanti con il numero di schede nel sistema. in genere, la velocità effettiva del sistema scala in modo sublineare con il numero di schede a causa del sovraccarico di comunicazione e sincronizzazione.

insomma

forniamo i seguenti contributi:

abbiamo dimostrato un prototipo di ricerca del dispositivo doka northpole.

mostriamo che modelli di reti neurali di grandi dimensioni come llm possono essere suddivisi in modo efficiente su più processori northpole, estendendo il nostro lavoro precedente che mostrava che un singolo processore northpole funziona meglio nelle attività di inferenza visiva (resnet50, yolo-v4 supera le altre architetture).

dimostriamo che l'architettura unica di northpole è particolarmente adatta per l'inferenza llm, consentendole di sovraperformare significativamente le gpu edge e data center sul duplice obiettivo di bassa latenza ed elevata efficienza energetica.

poiché il dispositivo northpole deve essere utilizzato come unità, è più efficiente per le applicazioni ad alto rendimento.

questo documento preliminare fornisce un trampolino di lancio per ulteriori ricerche sull'ottimizzazione dell'efficienza energetica, la mappatura di llm più grandi su dispositivi northpole corrispondentemente più grandi, nuovi modelli llm co-ottimizzati con l'architettura northpole e future architetture di sistemi e chip.