소식

하나의 카드로 Llama 3.1 405B를 처리할 수 있어 대형 모델을 쉽게 슬림화할 수 있습니다!슈퍼 압축 툴킷이 여기에 있습니다

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

모델 도구 체인 팀의 기여
Qubits 공개 계정 QbitAI

단일 카드로 Llama 3.1(405B)을 처리할 수 있는 최신 대형 모델 압축 도구가 출시되었습니다!

최근 Llama-3.1은 오픈 소스의 정상에 도달했지만 가장 강력한 405B 버전 모델에는 900GB 이상의 메모리가 필요하므로 리소스에 대한 요구가 더욱 까다로워집니다.

Beihang University, SenseTime, Nanyang Polytechnic 및 기타 팀이 공동으로 출시한 대형 모델 압축 도구 및 벤치마크영어: LLMMC(미국 법학 석사), 이 문제를 아주 잘 해결할 수 있습니다.

이를 통해 하나의 80G A100으로 Llama 3.1 405B의 교정 및 평가를 완료할 수 있어 초저가 정량화를 달성할 수 있습니다.

강력한 확장성과 포괄적인 평가 기능을 통해 여러 압축 알고리즘, 모델 및 추론 백엔드를 지원합니다.



현재 연구팀은 글 마지막에 있는 링크를 클릭하면 얻을 수 있는 깃허브(GitHub) 홈페이지에 사용법을 올려놨다.

Llama3.1은 더 크고 압축하기가 더 어렵습니다.

낮은 비트 양자화는 리소스가 제한된 문제를 해결하는 일반적인 기술 중 하나입니다. 이를 위해 관련 연구자들은 LLMC를 사용해 Llama 3.1에 대한 양자화 압축을 수행했습니다.

결과는 표 1에 나와 있습니다. QuaRot 및 AWQ와 같은 LLMC의 일부 알고리즘은 70B 및 405B 매개변수가 있는 모델에서 양자화 정확도를 효과적으로 유지할 수 있습니다. 가장 간단한 "반올림"(Naive) 알고리즘은 특히 활성화가 양자화될 때 이러한 대규모 모델에서 상당한 정확도 손실을 보여줍니다.



연구팀은 Llama 3.1 시리즈 모델의 정량화 정확도가 떨어지는 이유는 활성화 텐서에 다른 모델보다 더 중요한 일부 이상값 또는 이상값이 존재하기 때문이라는 것을 발견했습니다. Llama 3.1 모델의 크기가 커질수록 이러한 아웃라이어 현상은 더욱 심각해집니다. 이상값은 데이터에서 특정 값이 다른 값과 크게 다른 지점을 말하며, 정량 정확도에 영향을 미치는 주요 요소 중 하나입니다.

연구팀은 LLMC 도구의 도움으로 Llama 3.1 시리즈 모델의 첫 번째 블록(8B, 70B, 405B)의 4개 레이어(q_proj, o_proj,gate_proj, down_proj)의 입력 활성화 텐서를 시각화했습니다(그림 참조). 1-3). 각 하위 그림의 하단에는 이 레이어의 활성화 값에 있는 모든 토큰의 Kurtosis 값의 평균 및 표준 편차가 표시됩니다.







그림 1-3에서 볼 수 있듯이 Llama 3.1 모델 시리즈에서는 활성화 텐서의 일부 채널에 이상값이 있으며 이 현상은 더 큰 모델에서 더 분명하게 나타납니다.

따라서 다음과 같이 합리적으로 추론할 수 있습니다.Llama 3.1 405B 모델은 더욱 강력해졌지만, 더욱 "비정상적"이 되어 수량화하기 어려워졌습니다.

LLMC 도구는 AWQ, SmoothQuant, OS+, QuaRot 등을 포함하여 대규모 모델에서 이상값을 억제하기 위한 일련의 양자화 알고리즘을 지원합니다. 표 1에서 볼 수 있듯이 이러한 방법은 이상값을 효과적으로 억제하여 Llama 3.1의 양자화 정확도를 크게 향상시킵니다. 예를 들어 405B 모델 W8A8의 양자화에서 SmoothQuant, OS+ 및 QuaRot는 부동 소수점 모델과 거의 동일한 정확도를 달성할 수 있습니다.

LLMC: 원스톱 대형 모델 슬리밍 툴킷



△LLMC 프레임워크 다이어그램

다양한 알고리즘 지원 . LLMC는 가중치 전용, 가중치 활성화 및 혼합 정밀도 양자화를 포괄하는 16가지 양자화 방법을 포함한 여러 압축 알고리즘을 지원합니다. 이러한 다양성을 통해 다양한 접근 방식을 공정하게 비교하고 심층 분석할 수 있습니다. 물론, 현재는 양자화 외에도 다양한 유형의 희소 및 관련 알고리즘이 지원됩니다.



△현재 LLMC에서 지원하는 일부 하드웨어 친화적인 압축 알고리즘 분류

매우 정확한 정렬 . LLMC 팀은 여러 확립된 양자화 알고리즘(LLMC 대 원본 논문/코드)을 비교하는 몇 가지 정렬 실험을 수행했습니다.

실험 설정은 원본 논문의 설정이나 오픈 소스 코드의 기본 설정(표 3 참조)과 동일합니다.

이들 실험의 결과는 표 4-6에 요약되어 있다. 표의 결과는 LLMC 도구가 문헌에 보고된 원래 양자화 알고리즘과 성능이 거의 일치함을 보여줍니다. 이러한 실험을 통해 우리는 LLMC가 기존 정량 방법의 결과를 재현하는 데 효과적일 뿐만 아니라 신뢰할 수 있음을 입증합니다. 이는 LLM 정량적 연구에 대한 도구의 기여가 신뢰할 수 있고 가치 있음을 보장합니다.





매우 저렴한 비용으로 정량화 . LLMC 툴킷은 리소스 효율성을 높이고 최소한의 하드웨어 요구 사항으로 대규모 모델을 실행할 수 있도록 설계되었습니다. 단일 블록 수준 작동 메커니즘 덕분에 Llama 3.1 405B의 교정 및 평가를 완료하는 데 단 하나의 80G A100만 필요하므로 초저비용 정량화가 가능합니다.

다양한 백엔드 호환성 . LLMC는 다양한 양자화 설정 및 모델 형식을 지원하며 LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM 및 llama.cpp와 같은 여러 백엔드 및 하드웨어 플랫폼과 호환되므로 활용도가 매우 높습니다.



높은 확장성 . 이 툴킷은 모듈화 및 확장성이 뛰어나 정수 양자화에서 부동 소수점 양자화, 밀집 모델에서 MoE(혼합 전문가) 모델, LLM에서 VLM(시각 언어 모델), 양자화에서 희소화까지 쉽게 적응할 수 있습니다. 이 모듈식 설계를 통해 사용자는 자신의 필요에 맞게 툴킷을 확장하고 사용자 정의할 수 있습니다.





다양성 평가 . LLMC는 압축 모델을 종합적으로 평가할 수 있으며, Perplexity(PPL), 데이터 시각화 분석, 첨도(Kurtosis), 오류 및 이상치 분포와 같은 상세한 성능 지표 및 분석을 제공합니다. 이 포괄적인 평가 기능을 통해 사용자는 자신의 모델에 가장 적합한 압축 전략에 대해 정보를 바탕으로 결정을 내릴 수 있습니다.



LLMC 팀은 여러 압축 알고리즘, 모델 및 추론 백엔드를 지원하고 강력한 확장성과 포괄적인 평가 기능을 갖춘 다기능 대형 모델 압축 툴킷인 LLMC를 출시했습니다.

이 툴킷을 사용하면 사용자는 단일 GPU만 사용하여 1,000억 매개변수 LLM을 압축할 수 있으므로 LLM 양자화 적용이 크게 촉진됩니다. 이 강력한 툴킷을 갖춘 미래의 대형 모델 연구자는 물론 일반 사용자도 해당 백엔드 플랫폼에서 요구하는 적절한 알고리즘과 형식을 자신의 애플리케이션에 효과적으로 통합하여 대형 모델 압축 애플리케이션을 대중화할 수 있습니다.

도구 주소: https://github.com/ModelTC/llmc
논문 주소: https://arxiv.org/abs/2405.06001