informasi kontak saya
surat[email protected]
2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
ringkasan
untuk llm dengan parameter 3 miliar, prototipe alat inferensi penelitian dengan 16 prosesor ibm aiu northpole menghasilkan throughput sistem sebesar 28.356 token/detik dan latensi kurang dari 1 ms/token (per pengguna) dibandingkan dengan 16 setiap kartu northpole hanya mengonsumsi 672 w dalam faktor bentuk 2u yang kompak. berfokus pada latensi rendah dan efisiensi energi tinggi, northpole (12 nm) dibandingkan dengan serangkaian gpu (7/5/4 nm) pada berbagai konsumsi daya.pada latensi gpu terendah, northpole memberikan 72,7 metrik efisiensi energi (token/s/w) yang lebih baik sekaligus memberikan latensi yang lebih baik.
memperkenalkan
model bahasa besar (llm) telah mencapai tolok ukur kinerja yang signifikan dalam berbagai tugas ai, seperti membantu pemrograman dengan memberikan saran kode, berkinerja baik pada pengujian standar, dan membantu pembuatan konten artikel, blog, gambar, dan video.
dalam penerapan llm dalam skala besar, khususnya dalam penerapan kecerdasan buatan dalam skala besar, muncul dua tantangan utama dan saling bertentangan, yaitu: konsumsi energi dan latensi respons.
pertama, karena llm memerlukan sumber daya energi yang besar untuk pelatihan dan inferensi, infrastruktur komputasi masa depan yang berkelanjutan diperlukan untuk mencapai penerapannya yang efisien dan luas. seiring dengan meluasnya jejak karbon pusat data dan semakin terbatasnya energi, efisiensi energi pusat data menjadi semakin penting. menurut laporan dari forum ekonomi dunia:
“saat ini, jejak karbon lingkungan dari pusat data terbagi menjadi dua bagian: pelatihan menyumbang 20%, dan inferensi menyumbang 80%. seiring dengan berkembangnya model kecerdasan buatan di berbagai bidang, permintaan akan inferensi dan jejak lingkungannya akan meningkat. "
kedua, banyak aplikasi, seperti percakapan interaktif dan alur kerja otonom, memerlukan latensi yang sangat rendah. dalam arsitektur komputasi tertentu, pengurangan latensi dapat dicapai dengan mengurangi throughput, namun hal ini mengakibatkan berkurangnya efisiensi energi. untuk memparafrasekan pepatah sistem klasik:
"masalah throughput dapat diselesaikan dengan uang, namun masalah penundaan menjadi lebih rumit karena kecepatan cahaya tetap." (diparafrasekan dari [10], mengganti "bandwidth" dengan "throughput".)
gpu dapat mencapai latensi yang lebih rendah dengan menggunakan ukuran batch yang lebih kecil, namun dengan mengorbankan throughput dan efisiensi energi. selain itu, sharding gpu mengurangi latensi dengan menggunakan paralelisme data di beberapa gpu, namun sekali lagi mengorbankan efisiensi energi. sharding atau tidak, gpu tampaknya mencapai batas yang sulit dengan latensi yang lebih rendah. pertukaran gpu antara efisiensi energi dan latensi ditunjukkan pada gambar 1.
gambar 1: performa northpole (12 nm) dibandingkan dengan gpu tercanggih saat ini (7/5/4 nm) pada metrik latensi energi dan sistem, dengan latensi sistem adalah total latensi yang dialami setiap pengguna. pada latensi gpu terendah (h100, titik p2), northpole memberikan metrik efisiensi energi (token/detik/w) 72,7x lebih baik. pada indeks efisiensi energi gpu terbaik (l4, titik p1), northpole memberikan latensi 46,9 kali lebih rendah.
oleh karena itu, pertanyaan penelitian utama yang dieksplorasi dalam makalah ini adalah bagaimana mencapai dua tujuan yang saling bertentangan, yaitu latensi rendah dan efisiensi energi tinggi.
northpole adalah ekosistem chip akselerator inferensi dan perangkat lunak yang dirancang bersama berdasarkan prinsip pertama untuk memberikan efisiensi unggul untuk inferensi jaringan saraf. meskipun northpole tidak dirancang khusus untuk llm, yang mengejutkan, makalah ini menunjukkan bahwa arsitektur northpole yang baru dapat mencapai inferensi llm dengan latensi rendah dan hemat energi (gambar 1, gambar 2, dan tabel 1).
tabel i: pengukuran kinerja
mengukur kinerja sistem northpole dan gpu berdasarkan per kartu. untuk setiap metrik, # berarti lebih rendah lebih baik, sedangkan " berarti lebih tinggi lebih baik. untuk perangkat 16 kartu northpole, konsumsi daya diukur per kartu dan total throughput sistem dibagi 16 kartu. latensi northpole di seluruh 16 kartu untuk pengukuran. p1 , p2, p3, dan p4 masing-masing mengacu pada poin yang ditandai pada gambar 1 dan gambar 2, yang menunjukkan indeks efisiensi energi gpu tertinggi, latensi gpu keseluruhan terendah, indeks ruang gpu tertinggi, dan latensi gpu efisiensi energi terendah.
hasil penelitian utama artikel ini adalah sebagai berikut:
untuk model bahasa besar (llm) dengan ukuran parameter 3 miliar, yang struktur modelnya berasal dari model ibm granite-8b-code-base dan konsisten dengan llama 3 8b dan mistral 7b [14], makalah ini menunjukkan a konfigurasi perangkat inferensi prototipe penelitian dengan 16 prosesor northpole.
dalam hal kinerja absolut, perangkat ini memberikan throughput sistem 28,356 token/detik dan latensi pengguna tunggal kurang dari 1 milidetik, sekaligus mengonsumsi daya 672 watt di 16 kartu northpole dalam model 2u.
dalam hal kinerja relatif, membandingkan kutub utara 12nm dengan serangkaian gpu (masing-masing 7/5/5/4nm a100/l4/l40s/h100) pada konsumsi daya yang berbeda, dapat dilihat dari gambar 2(a) dan seperti dapat terlihat pada gambar 2(c): pada latensi gpu terendah (titik p2), northpole memberikan metrik efisiensi energi (token/detik/w) 72,7 kali lebih baik dan metrik ruang (token/detik/transistor) 15,9 kali lebih baik, sedangkan latensi masih kurang dari 2,5 kali; pada indikator efisiensi energi gpu terbaik (titik p1), northpole memberikan latensi 46,9 kali lebih rendah dan indikator ruang 2,1 kali lebih baik, namun tetap memberikan metrik efisiensi energi 2,2 kali lebih baik; titik p3), northpole memberikan latensi 20,3x lebih rendah dan metrik efisiensi energi 5,3x lebih baik, sekaligus tetap memberikan metrik ruang 1,4x lebih baik.
secara khusus, ketika membandingkan northpole 12nm dengan gpu l4 5nm untuk konsumsi daya yang sebanding, dapat dilihat dari gambar 2(e) bahwa pada throughput l4 tertinggi (kurang dari 50ms per token, titik p1) jam,northpole memberikan latensi 46,9 kali lebih rendah sekaligus meningkatkan throughput sebesar 1,3 kali; dan pada latensi l4 terendah (titik p4), northpole memberikan throughput (token/detik/kartu) 36,0 kali lebih tinggi sekaligus meningkatkan latensi masih di bawah 5,1x.
gambar 2: (a)–(d) panel menunjukkan performa northpole 12nm relatif terhadap gpu canggih saat ini (7/5/4nm) pada metrik efisiensi energi, ruang, dan latensi sistem, dengan latensi sistem per total latensi yang dialami pengguna.
panel (a) sama seperti gambar 1, dengan penambahan label titik p3. panel (a) dan (c) menggunakan satu gpu, sedangkan panel (b) dan (d) menggunakan teknologi sharding, yang dapat mengurangi latensi, namun hanya mengorbankan efisiensi energi dan ruang. pada latensi gpu terendah (h100, titik p2), northpole memberikan metrik efisiensi energi (token/detik/w) 72,7x lebih baik dan metrik ruang (token/detik/transistor) 15,9x lebih baik sambil tetap memiliki latensi rendah lebih dari 2,5 kali; pada indeks efisiensi energi gpu terbaik (l4, poin p1), northpole memberikan latensi 46,9 kali lebih rendah dan indeks ruang 2,1 kali lebih baik, namun tetap memberikan indeks efisiensi energi 2,2 kali lebih baik dalam hal metrik spasial gpu (a100, titik p3), northpole memberikan latensi 20,3x lebih rendah dan metrik efisiensi energi 5,3x lebih baik, namun tetap memberikan metrik spasial 1,4x lebih baik.
panel (e) menunjukkan performa northpole 12nm dibandingkan dengan gpu l4 5nm pada metrik throughput (token/detik/kartu) dan latensi sistem. pada latensi l4 terendah (titik p4), northpole memberikan throughput 36,0 kali lebih tinggi; pada throughput l4 tertinggi (kurang dari 50 milidetik per token, titik p1), northpole memberikan latensi 46,9 kali lebih rendah. konsumsi daya gpu yang digunakan untuk menghitung setiap metrik efisiensi energi ditunjukkan pada tabel i. karena tidak ada instrumentasi yang tersedia untuk mengukur konsumsi daya aktual untuk ukuran batch yang berbeda, daya yang sama digunakan untuk semua ukuran batch, yang mungkin meremehkan metrik efisiensi energi, namun hasil kualitatifnya tetap bertahan.
arsitektur kutub utara
seperti terlihat pada gambar 3, prosesor northpole diproduksi menggunakan teknologi proses 12 nanometer, memiliki 22 miliar transistor, dan memiliki luas 795 milimeter persegi. arsitekturnya terinspirasi oleh otak, dioptimalkan untuk silikon, dan berasal dari sepuluh aksioma desain pelengkap yang mencakup komputasi, penyimpanan, komunikasi, dan kontrol, memungkinkan northpole secara signifikan mengungguli arsitektur lain dalam tugas inferensi ai standar.ia berkinerja baik bahkan jika dibandingkan dengan prosesor yang diproduksi dengan teknologi proses yang lebih canggih.
untuk aksioma rinci arsitektur kutub utara, lihat [11], [12]. sederhananya, northpole menyusun 256 inti modular dalam susunan dua dimensi 16x16. setiap inti berisi pengganda matriks vektor (vmm) yang melakukan 2048, 4096, dan 8192 operasi per siklus pada presisi int8, int4, dan int2. komputasi inti juga mencakup unit vektor fp16 4 arah, 32 irisan, dan unit fungsi aktivasi 32 irisan. array inti memiliki total sram 192 mb, dengan masing-masing inti dilengkapi dengan sram 0,75 mb. memori dalam chip digabungkan erat dengan unit komputasi dan logika kontrol, dengan total bandwidth 13 tb/dtk antara memori inti dan komputasi. selain itu, setiap inti memiliki 4096 kabel yang bersilangan secara horizontal dan vertikal untuk meneruskan parameter, instruksi, nilai aktivasi, dan jumlah parsial melalui empat jaringan khusus pada sebuah chip (nocs).untuk mencegah terjadinya stall, frame buffer on-chip dilengkapi dengan sram sebesar 32 mb, yang memisahkan komunikasi off-chip data input dan output dari komputasi on-chip array inti.
gambar 3: prosesor northpole: silikon (kiri), die (tengah), modul yang dikemas (kanan).
peralatan
northpole telah membuat prototipe desain dalam kartu pcie gen3 × 8, yang ditunjukkan pada gambar 4, dengan 16 kartu dipasang di server 2u siap pakai untuk membentuk perangkat inferensi prototipe penelitian, yang ditunjukkan pada gambar 5. server berisi dua prosesor intel xeon gold 6438m, masing-masing dengan 32 core dan cache 60 mb, dengan clock 2,2 ghz. sistem ini juga dilengkapi dengan memori ddr5 512 gb 4800 mhz. dua bus pcie gen5 × 16 terhubung ke setiap prosesor server, menyediakan total bandwidth pcie (dua arah) sebesar 256 gb/dtk. keempat bus ini diperluas ke 16 slot pcie sistem melalui jembatan pcie, dengan kartu northpole dipasang di setiap slot. ke-16 kartu northpole ini menggunakan hingga setengah dari bandwidth pcie 256 gb/dtk yang tersedia.
gambar 4: kartu pcie kutub utara.
gambar 5: tampilan ledakan perangkat prototipe penelitian yang menunjukkan pemasangan 16 kartu pcie northpole. kartu northpole dapat berkomunikasi dengan host melalui model titik akhir pcie standar, atau secara langsung dan lebih efisien satu sama lain melalui kemampuan perangkat keras tambahan pada setiap kartu.
sistem ini menjalankan red hat enterprise 8.9, dan northpole menggunakan driver kernel vfio bawaan sehingga perangkat lunak ruang pengguna dapat mengelola perangkat keras. sistem ini menggunakan iommu untuk manajemen terjemahan alamat dan mengaktifkan fitur keamanan seperti isolasi perangkat dan virtualisasi untuk menjalankan aplikasi menggunakan mesin virtual atau teknologi kontainer.
setiap kartu northpole menerima dan mengirimkan data melalui mesin dma yang ada di setiap kartu. mesin dma ini bekerja secara independen dan secara bersamaan dapat menerima dan mengirimkan tensor dalam berbagai cara. metode pertama adalah model titik akhir pcie standar, di mana program host membaca masukan dari memori host melalui mesin dma dan menulis kembali tensor ke memori host setelah penghitungan selesai. pendekatan kedua memanfaatkan kemampuan perangkat keras tambahan pada setiap kartu untuk memungkinkan kartu northpole berkomunikasi langsung satu sama lain melalui pcie tanpa memerlukan transfer antara memori host atau manajemen perangkat lunak tambahan saat runtime. komunikasi langsung antar-kutub utara memungkinkan model yang lebih besar menjangkau beberapa chip kutub utara sekaligus mengurangi latensi komunikasi dan overhead yang disebabkan oleh sistem manajemen perangkat lunak murni.
memetakan llm ke perangkat northpole
strategi pemetaan llm, yang diilustrasikan pada gambar 6, terinspirasi oleh tiga pengamatan utama. pertama, untuk model yang cukup besar, seluruh lapisan transformator dapat ditampung seluruhnya dalam memori satu chip northpole ("w4a4") menggunakan bobot, aktivasi, dan buffer kv dalam format int4, sedangkan lapisan keluaran dapat ditampung pada dua chip. kedua, jika cache bobot dan kv sepenuhnya berada di dalam chip, runtime hanya perlu mentransfer tensor kecil yang tertanam antar lapisan, yang berada dalam bandwidth pcie gen3 × 8. ketiga, prototipe perangkat northpole dapat dirakit dengan mudah dengan memasang 16 kartu pcie northpole di server siap pakai.
hal ini menyarankan strategi untuk memetakan setiap lapisan transformator ke kartu northpole masing-masing, menggunakan paralelisme pipa gaya gpipe, dan membagi lapisan keluaran di dua kartu northpole, menggunakan paralelisme tensor, melalui pcie gen3 × 8 mengirimkan tensor penyematan antar lapisan.selama inferensi, sejumlah kecil permintaan pengguna (misalnya, n permintaan) dibagi menjadi m kumpulan mikro yang sama dan disalurkan melalui 16 kartu northpole.
meskipun paralelisme jalur pipa telah dieksploitasi dalam pelatihan llm (tanpa batasan latensi), penggunaannya dalam inferensi telah dibatasi oleh ukuran batch yang diperlukan untuk mengurangi waktu menganggur setiap tahapan jalur pipa atau gelembung jalur pipa. misalnya, beberapa penelitian menemukan bahwa pelatihan yang efisien memerlukan jumlah mikro-batch m kira-kira empat kali jumlah tahapan pipeline. ukuran mini-batch n dibatasi oleh (a) latensi per token yang diperlukan oleh sistem, dan (b) memori yang tersedia untuk cache kv untuk menyimpan seluruh mini-batch. komputasi latensi rendah dan bandwidth memori on-chip sebesar 13 tb/dtk memungkinkan northpole mencapai latensi per token yang sangat rendah, sehingga faktor pembatas saat memilih n adalah memori yang digunakan untuk menyimpan seluruh cache kv pada chip. lebih jauh lagi, kami menemukan bahwa jumlah micro-batch m yang sama dengan jumlah tahapan pipeline sudah cukup untuk membuat waktu idle pipeline dapat diabaikan.
dalam percobaan yang dilaporkan dalam makalah ini, kami memilih ukuran mini-batch n = 28, dibagi menjadi m = 14 mikro-batch yang sama, menghasilkan ukuran mikro-batch 2 untuk setiap penghitungan kartu northpole. pilihan desain arsitektur kami untuk komputasi yang efisien pada ukuran batch yang kecil adalah kunci untuk mencapai efisiensi yang ditunjukkan pada gambar 1 dan tabel i.
model llm dan metode pelatihan
a
model llm
model yang digunakan untuk menguji sistem kami didasarkan pada model open source ibm granite-8b-code-base, yang merupakan dekoder transformator 8 miliar parameter yang berisi 36 lapisan transformator dengan ukuran lapisan tersembunyi 4096 dan ukuran lapisan perantara ffn adalah 14.336, jumlah kepala perhatian adalah 32, jumlah kepala nilai kunci yang menggunakan grouped query attention (gqa) adalah 8, dan ukuran kosakata adalah 49.152. untuk masuk ke dalam satu server dengan 16 kartu northpole, kami menggunakan versi model 3 miliar parameter dengan 14 lapisan transformator dan lapisan keluaran, dikuantisasi dengan akurasi w4a4, tetapi strukturnya tetap tidak berubah.
khususnya, konfigurasi model ini cocok dengan llama 3 8b [13] dan mistral 7b [14] pada basis per lapisan, hanya berbeda dalam jumlah lapisan, ukuran kosakata model, dan data pelatihan yang digunakan.
b
pelatihan dengan akurasi penuh
untuk mengembalikan akurasi tugas model asli setelah kuantisasi, prosedur berikut diadopsi untuk membuat bobot model. pertama, model dasar dilatih dari awal berdasarkan 1 triliun token kode dalam 116 bahasa, menggunakan akurasi fp16 penuh, mengikuti resep [4]. selanjutnya, bobot lapisan keluaran dan masukan model dasar, dan aktivasi silu dikuantisasi int8, sementara semua bobot lainnya, masukan lapisan linier, dan masukan perkalian matriks dikuantisasi int4. terakhir, akurasi kuantifikasi pasca-pemulihan dikuantifikasi dengan melakukan pelatihan sadar kuantisasi pada 8,5 miliar token lebih lanjut dari subset bahasa python dari data pelatihan, dengan kecepatan pembelajaran 8×10⁻⁵ dan ukuran batch 128, menggunakan algoritma lsq. ukuran langkah yang mengaktifkan quantizer dilatih menggunakan awal yang hangat, yang meningkatkan kecepatan pembelajaran sebesar 200 kali lipat dalam 250 langkah pertama pelatihan untuk membantu beradaptasi dengan data dengan cepat.
model fp16 dasar yang berjalan pada gpu dan model terkuantisasi yang berjalan pada northpole mencapai akurasi pass@10 pada humanevalsynthesize-python dalam 0,01 (0,3001 gpu vs. 0,2922 northpole. sebanding dengan model granite-8b-code-base selain itu, pelatihan secara keseluruhan berkurang untuk berfokus pada karakterisasi kinerja perangkat keras daripada mendorong batasan akurasi tugas.
aplikasi waktu berjalan
selama inferensi, seperti yang ditunjukkan pada gambar 6, token dihasilkan oleh aplikasi pengguna yang berjalan pada cpu host, yang memproses teks terlebih dahulu menjadi tensor masukan dengan menggunakan tokenizer dan menyematkan lapisan, dan menempatkan tensor masukan ke dalam kartu northpole pertama di perangkat , menerima tensor keluaran yang dihasilkan dari kartu northpole terakhir di perangkat, pasca-proses tensor keluaran menggunakan dekoder dan detokenizer, dan mengulang token yang dihasilkan sebagai masukan berikutnya. aplikasi pengguna juga bertanggung jawab atas antarmuka pengguna serta pengoptimalan lebih lanjut seperti pra-populasi yang cepat.
untuk memindahkan beban kerja jaringan neural ke northpole, aplikasi pengguna memanggil pustaka runtime ruang pengguna dengan api sederhana, mengonfigurasi bobot lapisan kartu northpole dan cache kv pada waktu inisialisasi, serta mengirim dan menerima tensor input dan output pada waktu proses.bobot dan cache kv dikonfigurasi untuk tetap berada di memori on-chip dan tidak perlu dialirkan ke luar chip saat runtime. pustaka runtime juga mengelola buffer bingkai on-chip untuk mencegah inti northpole terhenti karena kurangnya data masukan atau penerima data keluaran. tensor perantara diteruskan antar kartu tanpa intervensi host, seperti yang dijelaskan di bagian 4.
hasil kinerja
perangkat 16 kartu northpole mencapai throughput 28,356 token/detik pada 3 miliar parameter llm. panjang urutan llm ini dikonfigurasi sebagai 2048 (1024 panjang petunjuk, 1024 token dihasilkan), dan dekoder menggunakan pengambilan sampel serakah.
sebagai perbandingan dengan gpu, kami mengukur performa kartu tunggal dari dua gpu untuk inferensi berdaya rendah (l4 dan l40s) dan dua gpu untuk pelatihan throughput tinggi (a100 dan h100).semua sistem menjalankan model dan konfigurasi llm yang sama, dengan northpole berjalan pada presisi w4a4 dan gpu berjalan pada presisi w4a16 yang optimal karena, sepengetahuan kami, tidak ada inti cuda w4a4 yang tersedia.dalam eksperimen gpu, kami memanfaatkan model kuantisasi gptq dan melakukan benchmark menggunakan inti marlin vllm (versi 0.5.4) untuk dibandingkan dengan northpole. penggunaan kuantisasi gptq memberikan performa inferensi model yang optimal pada gpu dengan mengurangi presisi bobot sekaligus mempertahankan akurasi yang dapat diterima. selain itu, inti marlin digunakan untuk mengoptimalkan operasi matriks, terutama ketika menangani perkalian matriks yang jarang dan padat. membandingkan runtime vllm memungkinkan kami mengevaluasi throughput dan latensi, memastikan performa model optimal untuk konfigurasi perangkat keras tertentu. dalam eksperimen dengan beberapa kartu gpu, paralelisme tensor yang sama dengan jumlah kartu yang tersedia digunakan untuk secara efektif mendapatkan latensi sekecil mungkin melalui nvlink. eksperimen kami menunjukkan bahwa meskipun teknologi sharding mengurangi latensi, hal ini menyebabkan penurunan throughput gpu per kartu. perlu dicatat bahwa kinerja superior northpole terutama berasal dari bandwidth memori on-chip yang besar, dan yang kedua dari akurasinya yang lebih rendah.
tabel i menunjukkan hasil kinerja yang diukur untuk sistem northpole dan gpu berdasarkan per kartu. metrik dasar mencakup metrik throughput, latensi, ruang, dan energi, yang dijelaskan di bawah.
jumlah total token yang dihasilkan untuk sejumlah kecil perintah masukan adalah:
diantaranya, mmm adalah jumlah batch mikro, dan tok_seq_len adalah jumlah token keluaran yang dihasilkan oleh satu pengguna. throughput sistem adalah jumlah total token yang dihasilkan sebagai respons terhadap permintaan masukan (gen token), dibagi dengan total waktu yang diperlukan untuk memproses permintaan, termasuk waktu pengisian awal (waktu prompt) dan waktu pembuatan token (waktu gen token):
throughput dibandingkan per kartu dengan membagi throughput sistem dengan jumlah kartu pemrosesan dalam sistem:
latensi adalah ukuran waktu rata-rata antara token keluaran yang dihasilkan oleh pengguna tertentu dan merupakan jumlah waktu yang diperlukan token yang tertanam untuk mengalir melalui pipa pemrosesan, ditambah waktu prapopulasi cepat yang diamortisasi terhadap jumlah total token yang dihasilkan:
begitu pula dengan menggabungkan persamaan 1, 2, dan 4:
di mana ukuran mini-batch = ukuran mini-batch catatan, ini adalah latensi sistem yang dilihat oleh setiap pengguna.
dinormalisasi dengan jumlah kartu dalam sistem, kami memperluas metrik ruang dan energi yang ditentukan dalam [11] agar dapat membandingkan sistem dengan jumlah kartu yang berbeda. metrik ruang dan energi yang dihasilkan adalah throughput per kartu, dinormalisasi dengan jumlah transistor prosesor per kartu dan daya per kartu:
jika throughput sistem berskala secara proporsional dengan jumlah kartu jalur pipa dalam sistem, normalisasi kartu akan diimbangi, sehingga metrik ruang dan energi tetap konstan dengan jumlah kartu dalam sistem. biasanya, throughput sistem berskala sublinear dengan jumlah kartu karena overhead komunikasi dan sinkronisasi.
sebagai kesimpulan
kami memberikan kontribusi berikut:
kami mendemonstrasikan prototipe penelitian perangkat doka northpole.
kami menunjukkan bahwa model jaringan saraf besar seperti llm dapat dibagi secara efisien ke beberapa prosesor northpole, memperluas penelitian kami sebelumnya yang menunjukkan bahwa satu prosesor northpole berkinerja lebih baik pada tugas inferensi visual (resnet50, yolo-v4 mengungguli arsitektur lain).
kami menunjukkan bahwa arsitektur unik northpole sangat cocok untuk inferensi llm, memungkinkannya mengungguli gpu edge dan pusat data secara signifikan dalam dua tujuan yaitu latensi rendah dan efisiensi energi tinggi.
karena perangkat northpole harus digunakan sebagai satu unit, perangkat ini paling efisien untuk aplikasi throughput tinggi.
makalah pendahuluan ini memberikan batu loncatan untuk penelitian lebih lanjut mengenai optimalisasi efisiensi energi, pemetaan llm yang lebih besar pada perangkat northpole yang lebih besar, model llm baru yang dioptimalkan bersama dengan arsitektur northpole, serta arsitektur sistem dan chip masa depan.