Yksi kortti käsittelee Llama 3.1 405B:tä, mikä mahdollistaa suurten mallien laihtumisen helposti! Superpakkaustyökalusarja on here

Yksi kortti käsittelee Llama 3.1 405B:tä, mikä mahdollistaa suurten mallien laihtumisen helposti!Superpakkaustyökalusarja on täällä

2024-08-02

Mallityökaluketjun tiimin panos
Qubits |. Julkinen tili QbitAI

Yksi kortti käsittelee Llama 3.1:tä (405B), uusin suuren mallin pakkaustyökalu on täällä!

Llama-3.1 on äskettäin saavuttanut avoimen lähdekoodin huipulle, mutta sen tehokkain 405B-versiomalli vaatii yli 900 Gt muistia, mikä on vaativampi haaste resursseille.

Beihangin yliopiston, SenseTimen, Nanyangin ammattikorkeakoulun ja muiden tiimien yhteisesti lanseeraama suuren mallin pakkaustyökalut ja vertailuarvotLLMC, voi ratkaista tämän ongelman erittäin hyvin.

Sen avulla yksi 80G A100 voi suorittaa Llama 3.1 405B:n kalibroinnin ja arvioinnin, mikä saavuttaa erittäin edullisia määrityksiä.

Se tukee useita pakkausalgoritmeja, malleja ja päättelytaustaohjelmia, joilla on vahva skaalautuvuus ja kattavat arviointiominaisuudet.

Tällä hetkellä tutkimusryhmä on laittanut käyttötavan GitHub-kotisivulle, joka löytyy klikkaamalla artikkelin lopussa olevaa linkkiä.

Llama3.1 on suurempi ja vaikeampi pakata

Matalabittinen kvantisointi on yksi yleisimmistä tekniikoista resurssien rajoittamien ongelmien ratkaisemiseksi. Tätä varten asiaankuuluvat tutkijat käyttivät LLMC:tä kvantisoidun pakkauksen suorittamiseen Llama 3.1:ssä.

Tulokset on esitetty taulukossa 1. Jotkut LLMC-algoritmit, kuten QuaRot ja AWQ, voivat tehokkaasti ylläpitää kvantisointitarkkuutta malleissa, joissa on 70B- ja 405B-parametrit. Yksinkertaisin "pyöristys" (naiivi) algoritmi osoittaa merkittävää tarkkuushäviötä näissä suurissa malleissa, varsinkin kun aktivaatiot kvantisoidaan.

Tutkimusryhmä havaitsi, että Llama 3.1 -sarjan mallin kvantifiointitarkkuuden heikkeneminen johtuu siitä, että sen aktivointitensorissa on joitakin poikkeamia tai poikkeavuuksia, jotka ovat merkittävämpiä kuin muut mallit. Kun Llama 3.1 -mallin koko kasvaa, näiden poikkeamien ilmiö tulee vakavammaksi. Poikkeavat arvot viittaavat tiedoissa oleviin kohtiin, joissa tietyt arvot poikkeavat merkittävästi muista arvoista ja ovat yksi keskeisistä kvantifioinnin tarkkuuteen vaikuttavista tekijöistä.

LLMC-työkalujen avulla tutkimusryhmä visualisoi Llama 3.1 -sarjan mallin ensimmäisen lohkon (8B, 70B, 405B) 4 kerroksen (q_proj, o_proj, gate_proj, down_proj) tuloaktivointitensorit (kuten kuvassa näkyy). 1-3). Kunkin alikuvan alareunassa näkyy tämän kerroksen aktivointiarvon kaikkien tokenien Kurtosis-arvojen keskimääräinen ja keskihajonta.

Kuvasta 1-3 voidaan havaita, että Llama 3.1 -malleissa joissakin aktivointitensorin kanavissa on poikkeavuuksia, ja tämä ilmiö on selvempi suuremmissa malleissa.

Tästä syystä voidaan perustellusti päätellä, että:Vaikka Llama 3.1 405B -mallista on tullut vahvempi, se on myös tullut "epänormaalimmaksi" ja vaikeammin määritettäväksi.。

LLMC-työkalu tukee sarjaa kvantisointialgoritmeja poikkeamien estämiseen suurissa malleissa, mukaan lukien AWQ, SmoothQuant, OS+, QuaRot jne. Kuten taulukosta 1 voidaan nähdä, nämä menetelmät parantavat suuresti Llama 3.1:n kvantisointitarkkuutta estämällä tehokkaasti poikkeavia arvoja. Esimerkiksi 405B-mallin W8A8 kvantisoinnissa SmoothQuant, OS+ ja QuaRot voivat saavuttaa lähes saman tarkkuuden kuin liukulukumalli.

LLMC: One-Stop Large Model Slimming Toolkit

△ LLMC-kehyskaavio

Tukee useita algoritmeja . LLMC tukee useita pakkausalgoritmeja, mukaan lukien 16 erilaista kvantisointimenetelmää, jotka kattavat vain paino-, paino-aktivoidun ja sekatarkkuuden kvantisoinnin. Tämä monimuotoisuus mahdollistaa reilun vertailun ja eri lähestymistapojen syvällisen analyysin. Luonnollisesti kvantisoinnin lisäksi tuetaan tällä hetkellä erilaisia harvalukuisia ja niihin liittyviä algoritmeja.

△ Joidenkin LLMC:n tällä hetkellä tukemien laitteistoystävällisten pakkausalgoritmien luokitus

Erittäin tarkka kohdistus . LLMC-tiimi suoritti useita kohdistuskokeita vertaamalla useita vakiintuneita kvantisointialgoritmeja (LLMC vs. alkuperäinen paperi/koodi).

Kokeelliset asetukset ovat samat kuin alkuperäisessä paperissa tai sen avoimen lähdekoodin oletusasetukset (näkyy taulukossa 3).

Näiden kokeiden tulokset on koottu taulukoihin 4-6. Taulukon tulokset osoittavat, että LLMC-työkalu on suorituskyvyltään lähes yhdenmukainen kirjallisuudessa raportoitujen alkuperäisten kvantisointialgoritmien kanssa. Näillä kokeilla osoitamme, että LLMC ei ole vain tehokas vaan myös luotettava olemassa olevien kvantifiointimenetelmien tulosten toistamisessa. Tämä varmistaa, että työkalun panos LLM-kvantitatiiviseen tutkimukseen on uskottava ja arvokas.

Määritä määrä erittäin alhaisilla kustannuksilla . LLMC-työkalupakki on suunniteltu resurssitehokkaaksi ja pystyy käyttämään suuria malleja minimaalisilla laitteistovaatimuksilla. Yhden lohkotason toimintamekanismin ansiosta tarvitaan vain yksi 80G A100 Llama 3.1 405B:n kalibroinnin ja arvioinnin suorittamiseen, mikä saavuttaa erittäin edullisen kvantifioinnin.

Useiden taustajärjestelmien yhteensopivuus . LLMC tukee useita kvantisointiasetuksia ja mallimuotoja, ja se on yhteensopiva useiden taustaohjelmien ja laitteistoalustojen kanssa, kuten LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM ja llama.cpp, mikä tekee siitä erittäin monipuolisen.

Korkea skaalautuvuus . Työkalusarja on erittäin modulaarinen ja laajennettava, ja se pystyy helposti mukautumaan kokonaislukukvantisoinnista liukulukukvantisointiin, tiheistä malleista asiantuntijoiden yhdistelmämalleihin (MoE), LLM:stä visuaaliseen kielimalleihin (VLM) ja kvantisoinnista hajaantumiseen. Tämä modulaarinen rakenne varmistaa, että käyttäjät voivat laajentaa ja mukauttaa työkalupakkia tarpeidensa mukaan.

monimuotoisuuden arviointi . LLMC pystyy arvioimaan kattavasti pakkausmalleja, tarjoamalla yksityiskohtaisia suorituskykyindikaattoreita ja analyyseja, kuten hämmennys (PPL), datan visualisointianalyysi, kurtoosi (Kurtosis), virhe- ja outlier-jakauma. Tämä kattava arviointiominaisuus varmistaa, että käyttäjät voivat tehdä tietoon perustuvia päätöksiä malleilleen parhaasta pakkausstrategiasta.

LLMC-tiimi on julkaissut LLMC:n, monitoimisen suuren mallien pakkaustyökalusarjan, joka tukee useita pakkausalgoritmeja, malleja ja päättelytaustaohjelmia ja jolla on vahva skaalautuvuus ja kattavat arviointiominaisuudet.

Tämän työkalupakin avulla käyttäjät voivat pakata 100 miljardin parametrin LLM:ää käyttämällä vain yhtä GPU:ta, mikä helpottaa suuresti LLM-kvantisoinnin soveltamista. Tällä tehokkaalla työkalusarjalla tulevaisuuden suuret mallitutkijat sekä tavalliset käyttäjät voivat tehokkaasti integroida vastaavien taustaalustojen vaatimia sopivia algoritmeja ja formaatteja sovelluksiinsa, mikä tekee suurista mallien pakkaussovelluksia suosituksi.

Työkalun osoite: https://github.com/ModelTC/llmc
Paperiosoite: https://arxiv.org/abs/2405.06001

uutiset

Yksi kortti käsittelee Llama 3.1 405B:tä, mikä mahdollistaa suurten mallien laihtumisen helposti!Superpakkaustyökalusarja on täällä

Johdanto

yhteystietoni