Uma única placa suporta o Llama 3.1 405B, permitindo que modelos grandes sejam reduzidos facilmente! O kit de ferramentas de supercompressão está aqui

Uma única placa suporta o Llama 3.1 405B, permitindo que modelos grandes sejam reduzidos facilmente!O kit de ferramentas de supercompressão está aqui

2024-08-02

Contribuição da equipe da cadeia de ferramentas do modelo
Qubits | Conta pública QbitAI

Uma única placa suporta o Llama 3.1 (405B), a mais recente ferramenta de compactação de modelos grandes está aqui!

Recentemente, o Llama-3.1 atingiu o topo do código aberto, mas seu modelo mais poderoso da versão 405B requer mais de 900 GB de memória, representando um desafio mais exigente aos recursos.

Ferramentas de compressão de modelos grandes e benchmarks lançados em conjunto pela Beihang University, SenseTime, Nanyang Polytechnic e outras equipesMestrado em Direito, pode resolver esse problema muito bem.

Ele permite que a calibração e avaliação do Llama 3.1 405B sejam concluídas com um único 80G A100, permitindo assim a quantificação a um custo ultrabaixo.

Ele oferece suporte a vários algoritmos de compactação, modelos e back-ends de inferência, com forte escalabilidade e recursos de avaliação abrangentes.

Atualmente, a equipe de pesquisa colocou o método de uso na página inicial do GitHub, que pode ser obtido clicando no link no final do artigo.

Llama3.1 é maior e mais difícil de compactar

A quantização de baixo bit é uma das técnicas comuns para resolver problemas com recursos limitados. Para tanto, pesquisadores relevantes utilizaram o LLMC para realizar compressão quantizada no Llama 3.1.

Os resultados são mostrados na Tabela 1. Alguns algoritmos no LLMC, como QuaRot e AWQ, podem efetivamente manter a precisão da quantização em modelos com parâmetros 70B e 405B. O algoritmo de "arredondamento" (Naive) mais simples mostra perda significativa de precisão nesses modelos de grande escala, especialmente quando as ativações são quantizadas.

A equipe de pesquisa descobriu que o declínio na precisão da quantificação do modelo da série Llama 3.1 se deve à presença de alguns valores discrepantes ou discrepantes em seu tensor de ativação que são mais significativos do que outros modelos. À medida que o tamanho do modelo Llama 3.1 aumenta, o fenômeno desses valores discrepantes torna-se mais sério. Outliers referem-se a pontos nos dados onde certos valores são significativamente diferentes de outros valores e são um dos principais fatores que afetam a precisão da quantificação.

Com a ajuda de ferramentas LLMC, a equipe de pesquisa visualizou os tensores de ativação de entrada das 4 camadas (q_proj, o_proj, gate_proj, down_proj) do primeiro bloco do modelo da série Llama 3.1 (8B, 70B, 405B) (conforme mostrado na Figura 1-3). A parte inferior de cada subfigura mostra a média e o desvio padrão dos valores de curtose de todos os tokens no valor de ativação desta camada.

Pode-se verificar na Figura 1-3 que na série de modelos Llama 3.1, existem valores discrepantes em alguns canais do tensor de ativação, e esse fenômeno é mais óbvio em modelos maiores.

Portanto, pode-se inferir razoavelmente que:Embora o modelo Llama 3.1 405B tenha se tornado mais forte, também se tornou mais “anormal” e mais difícil de quantificar.。

A ferramenta LLMC suporta uma série de algoritmos de quantização para suprimir outliers em modelos grandes, incluindo AWQ, SmoothQuant, OS+, QuaRot, etc. Como pode ser visto na Tabela 1, esses métodos melhoram muito a precisão da quantização do Llama 3.1, suprimindo efetivamente os valores discrepantes. Por exemplo, na quantização do modelo 405B W8A8, SmoothQuant, OS+ e QuaRot podem atingir quase a mesma precisão que o modelo de ponto flutuante.

LLMC: Kit de ferramentas completo para emagrecimento de modelos grandes

△ Diagrama da estrutura LLMC

Suporta vários algoritmos . O LLMC oferece suporte a vários algoritmos de compressão, incluindo 16 métodos de quantização diferentes, abrangendo quantização somente por peso, ativada por peso e de precisão mista. Esta diversidade permite uma comparação justa e uma análise aprofundada de diferentes abordagens. É claro que, além da quantização, vários tipos de algoritmos esparsos e relacionados são atualmente suportados.

△Classificação de alguns algoritmos de compressão compatíveis com hardware atualmente suportados pelo LLMC

Alinhamento altamente preciso . A equipe do LLMC conduziu vários experimentos de alinhamento comparando vários algoritmos de quantização estabelecidos (LLMC vs. artigo/código original).

As configurações experimentais são as mesmas do artigo original ou as configurações padrão de seu código-fonte aberto (mostradas na Tabela 3).

Os resultados destas experiências estão resumidos nas Tabelas 4-6. Os resultados na tabela mostram que a ferramenta LLMC é quase consistente em desempenho com os algoritmos de quantização originais relatados na literatura. Através destas experiências, demonstramos que o LLMC não é apenas eficaz, mas também confiável na reprodução dos resultados dos métodos de quantificação existentes. Isso garante que a contribuição da ferramenta para a pesquisa quantitativa do LLM seja confiável e valiosa.

Quantifique com custo ultrabaixo . O kit de ferramentas LLMC foi projetado para ser eficiente em termos de recursos e capaz de executar modelos grandes com requisitos mínimos de hardware. Graças ao mecanismo de operação em nível de bloco único, apenas um 80G A100 é necessário para completar a calibração e avaliação do Llama 3.1 405B, alcançando assim uma quantificação de custo ultrabaixo.

Compatibilidade de back-end múltiplo . O LLMC oferece suporte a uma variedade de configurações de quantização e formatos de modelo e é compatível com vários back-ends e plataformas de hardware, como LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM e llama.cpp, tornando-o altamente versátil.

Alta escalabilidade . O kit de ferramentas é altamente modular e extensível, capaz de se adaptar facilmente da quantização de inteiros à quantização de ponto flutuante, de modelos densos a modelos de mistura de especialistas (MoE), de LLM a modelos de linguagem visual (VLM) e de quantização a esparsificação. Esse design modular garante que os usuários possam expandir e personalizar o kit de ferramentas para atender às suas necessidades.

avaliação da diversidade . O LLMC é capaz de avaliação abrangente de modelos de compressão, fornecendo indicadores e análises de desempenho detalhados, como perplexidade (PPL), análise de visualização de dados, curtose (curtose), erro e distribuição de outliers. Esse recurso de avaliação abrangente garante que os usuários possam tomar decisões informadas sobre a melhor estratégia de compactação para seus modelos.

A equipe do LLMC lançou o LLMC, um kit de ferramentas multifuncional de compactação de grandes modelos, que oferece suporte a vários algoritmos de compactação, modelos e back-ends de inferência e possui forte escalabilidade e recursos de avaliação abrangentes.

Este kit de ferramentas permite aos usuários compactar LLM de 100 bilhões de parâmetros usando apenas uma única GPU, o que facilita muito a aplicação da quantização de LLM. Equipados com este poderoso kit de ferramentas, futuros pesquisadores de grandes modelos, bem como usuários comuns, podem integrar com eficácia algoritmos e formatos adequados exigidos pelas plataformas de back-end correspondentes para seus aplicativos, popularizando assim os aplicativos de compactação de grandes modelos.

Endereço da ferramenta: https://github.com/ModelTC/llmc
Endereço do artigo: https://arxiv.org/abs/2405.06001

notícias

Uma única placa suporta o Llama 3.1 405B, permitindo que modelos grandes sejam reduzidos facilmente!O kit de ferramentas de supercompressão está aqui

Introdução

minhas informações de contato