소식

도전적인 확장 법칙, Meta는 7B LLaMA-v에 필적하는 성능을 갖춘 모바일 측면에서 350M 소형 모델인 MobileLLM을 출시합니다.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 양차오

[새로운 지혜 소개] 스케일링의 법칙은 아직 끝나지 않았고, '소형 모델'은 점점 기술 대기업들이 따라잡는 추세가 되었습니다. 최근 Meta가 출시한 MobileLLM 시리즈는 심지어 1B 미만으로 규모도 축소되었습니다. 두 버전은 각각 125M과 350M 매개변수만 가지고 있지만 대규모 모델보다 더 나은 성능을 달성했습니다.

지난 5월과 6월에 열린 여러 기술 대기업의 기자간담회를 통해 우리는 이미 클라우드 데이터센터에서 개인 사용자, 대형 서버에서 노트북 및 모바일 장치에 이르기까지 AI의 중요한 발전 추세를 막연하게 느낄 수 있습니다.

확장의 법칙을 따르는 것이 더 이상 유일한 방법이 아니며, "큰 승리를 위해 작은 것을 취하는" 모델의 이야기는 계속해서 펼쳐집니다.

먼저 Microsoft가 업데이트한 다음 Google이 사용했습니다.

하드웨어 측면에서는 AI 기능이 점차 전자 제품과 긴밀하게 통합되는 것을 보았습니다.

예를 들어, Microsoft의 악명 높은 Recall 기능은 그 중 중요한 부분입니다. Apple은 Apple Intelligence라는 이름으로 앱을 출시하여 iOS와 원활하게 통합하려고 노력했습니다.

요즘에는 LLM의 매개변수가 수백억에 달하는 경우가 많습니다. Apple 3B의 매개변수는 이미 매우 작지만 휴대폰과 같은 모바일 장치에는 여전히 높은 임계값이 있습니다.

2비트 및 4비트 혼합 정밀 압축 모델(무게당 평균 3.5비트)을 사용할 뿐만 아니라 실행하려면 최소 8G 메모리와 M1 칩이 필요합니다.

최근 Meta에서 발표한 논문에 따르면 새로 제안된 MobileLLM 모델의 매개변수 수는 10억개 미만이지만 성능은 여전히 ​​인상적입니다.


논문 주소: https://arxiv.org/abs/2402.14905

LeCun은 또한 이 연구를 지지하기 위해 개인적으로 트위터를 통해 매개변수 수를 줄인 일련의 작업을 칭찬했습니다.


이 논문은 ICML 2024에서 승인되었으며, 모델 훈련 코드는 GitHub에서 오픈 소스로 공개되었습니다.


GitHub 주소: https://github.com/facebookresearch/MobileLLM

소개

먼저 가설을 세워보겠습니다. GPT-4(약 1조 개의 매개변수 포함)가 50토큰/초의 추론 속도로 생활에 배포된다면 어떤 종류의 하드웨어가 필요합니까?

답은 1억 개의 H100 GPU입니다. 모바일 기기는커녕 집에 둘 수도 없습니다.

그렇다면 표준을 낮추고 LLaMA-v2 7B와 같은 모델을 8비트 양자화와 결합하여 사용한다면 어떨까요?

간단히 계산해 보면 모델 매개변수를 저장하는 데만 7GB 정도가 필요한데, 이는 저장 공간이 아니라 소중한 운영 메모리 공간(DRAM)이다.


더욱이 AI 모델은 운영체제와 기타 애플리케이션의 동작을 고려하면 DRAM을 완전히 차지할 수 없다. LLM 메모리 비율은 10%를 넘을 수 없다.

그림 2의 통계에 따르면, 최근 다양한 브랜드에서 출시되는 모바일 기기에는 일반적으로 6~12GB의 DRAM이 탑재됩니다. 이는 휴대폰에 성공적으로 배포하려면 모델의 매개변수 크기를 1B 미만으로 줄여야 함을 의미합니다.

저장공간뿐만 아니라 전력소모도 큰 문제다. 7B 모델의 에너지 소비량은 토큰당 약 0.7J이며, 완전히 충전된 iPhone의 낭비량은 약 50kJ입니다. 계산에 따르면 생성 속도가 10개 토큰/초인 경우 휴대폰을 완전히 충전하면 모델과 2시간 동안만 대화할 수 있습니다.

위의 고려 사항을 바탕으로 모바일 단말에 <1B 모델을 배포하는 것이 더 이상적인 선택입니다. 따라서 MobileLLM의 매개변수 크기는 Apple의 3B 모델보다 한 단계 작은 125M/350M에 위치합니다. 미니 중의 미니라고 할 수 있죠.

그러나 확장의 법칙에 얽매이지 마십시오. 매개변수가 작다고 해서 기능이 약한 것은 아닙니다.


MobileLLM은 동일한 크기의 모델에서 SOTA 성능을 달성할 뿐만 아니라 아키텍처의 너비보다 깊이가 더 중요하다고 제안합니다. "깊고 좁은" "가느다란" 작은 모델도 추상적인 개념을 배울 수 있습니다.

아키텍처 및 방법

125M/350M 매개변수만으로 제한된 범위 내에서 아키텍처 설계를 어떻게 최적화할 것인가가 중요한 문제가 되었습니다.

LLM <1B의 경우 저자는 4가지 효과적인 아키텍처 설계 기술을 탐색했습니다.

1) SwiGLU 피드포워드 네트워크 사용

2) 네트워크의 전체 모양을 "길고 좁게", 즉 깊고 좁게 만듭니다.

3) 임베딩 공유 방식 재사용

4) 그룹화된 쿼리 어텐션 메커니즘 사용(그룹화된 쿼리 어텐션)


이를 기반으로 저자는 추가 메모리 오버헤드를 도입하지 않고 모델 정확도를 더욱 향상시킬 수 있지만 디코딩 프로세스의 추론 지연을 증가시키는 블록 방식 레이어 공유 방법도 제안했습니다.

레이어 공유 메커니즘이 추가된 이 모델은 MobileLLM-LS로 표시됩니다.

반박 스케일링 법칙: 소형 모델의 건축 설계는 매우 중요합니다.

2020년 스케일링 법칙을 제안하는 논문에서는 훈련 데이터의 양, 매개변수의 양, 훈련 반복 횟수가 성능을 결정하는 핵심 요소이며, 모델 아키텍처의 영향은 거의 무시할 수 있다고 믿습니다.

그러나 본 논문의 저자는 비교 실험을 통해 이 법칙이 소형 모델에는 적용되지 않는다는 점을 제시했다.

모델 매개변수를 125M 또는 350M로 고정한 경우 30~42개 레이어로 구성된 '좁은' 모델이 12개 정도의 레이어로 구성된 '짧고 굵은' 모델(그림 4)보다 상식 추론, 질문 및 답변에서 훨씬 더 나은 성능을 보였습니다. , 독해력 등 8 모든 벤치마크에서 유사한 추세가 나타납니다.


이것은 실제로 매우 흥미로운 발견입니다. 과거에는 125M 정도의 소형 모델에 대한 아키텍처를 설계할 때 일반적으로 12개 이상의 레이어를 쌓지 않았기 때문입니다.

"코드 공유"로 돌아가는 이유

"임베딩 공유" 방법은 OPT와 같은 소형 모델에서 처음 제안되었는데, 이는 소형 ​​모델에서 코딩 계층의 매개변수가 상당한 비율을 차지하기 때문입니다.

예를 들어 125M 모델에서는 컨텍스트 길이가 32k이고 차원이 512인 인코딩이 사용됩니다. 입력 및 출력 인코딩 레이어에는 16M 매개변수가 포함되어 있으며 이는 20%를 차지합니다.

이에 비해 대형 모델의 코딩 계층 매개변수 수는 무시할 수 있습니다. 예를 들어 LLaMA-7B에서는 이 비율이 3.7%로 떨어졌고, LLaMA-70B에서는 0.7%에 불과했습니다. 따라서 LLM에는 공유 코딩이 필요하지 않습니다.

대형 모델 시대에 코드 공유가 노후화되었다고 해서 이 기술이 더 이상 소형 모델에 적합하지 않다는 의미는 아니며 모델 아키텍처를 더욱 컴팩트하고 효율적으로 만들 수 있습니다.

표 1에서 볼 수 있듯이, 코드 공유 후에도 모델은 전체 매개변수 양을 16M 줄이면서 전체적으로 원래 성능을 유지했으며 일부 벤치마크에서는 향상되었습니다.


레이어 공유 메커니즘

앞서 언급했듯이 논문의 실험 결과는 작은 모델을 '가늘게' 만드는 것이 성능 향상에 도움이 된다는 사실을 발견했습니다. 그래서 저자는 '레이어 공유 메커니즘을 도입하면 전체 매개변수 수를 변경하지 않고 모델의 깊이를 늘리는 것과 같지 않을까'라고 생각했습니다.

실험을 통해 이 방법이 실제로 성능을 향상시킬 수 있음이 입증되었으며, 논문에서는 다양한 계층 공유 방법도 비교했습니다(그림 6). 결국 장치 메모리, 성능 및 추론 지연 시간을 측정한 후 즉시 블록 단위 공유(즉시 블록 단위 공유)를 수행했습니다. , 그림 6b).


평가실험

저자는 125M 및 350M 매개변수를 사용하여 MobileLLM/MobileLLM-LS 모델을 구축하고 1T 데이터 세트에서 교육했습니다.

사전 훈련된 모델은 ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA 및 RACE와 같이 일반적으로 사용되는 벤치마크를 포함하여 샘플이 없는 여러 데이터 세트에서 테스트되었습니다.

표 3은 제로 샘플 상식 추론의 평가 결과를 보여줍니다. MobileLLM 시리즈는 기본적으로 포괄적인 SOTA를 달성했으며, 이전에 출시된 OPT 및 BLOOM과 같은 클래식 모델을 능가할 뿐만 아니라 최근 출시된 GPT-neo, Galactica보다 우수합니다. RWKV 및 기타 매개변수.


질문 응답 및 독해 측면에서 MobileLLM은 여전히 ​​좋은 성능을 발휘합니다(표 4). 다른 모델과 비교했을 때 125M과 325M MobileLLM은 TQA에서 각각 6.4포인트 이상, 10포인트 정도 향상되었습니다.

다운스트림 작업

벤치마크 테스트에서 점수를 실행하는 것 외에도 이 문서에서는 애플리케이션 시나리오를 배포할 때 모델에 대한 다양한 요구 사항을 고려하고 해당 평가를 수행합니다.

AlpacaEval과 MT-Bench는 각각 단일 라운드 및 다중 라운드 채팅 작업에서 모델의 성능을 테스트합니다. 다른 세 가지 기본 모델과 비교할 때 MobileLLM은 여전히 ​​최고의 성능을 가지며 350M 매개변수를 사용하여 다른 모델의 성능을 능가할 수도 있습니다. 매개변수 >1B 모델.


대화를 제외하고 API 호출 시나리오에서 MobileLLM의 EM 점수는 7B 매개변수를 사용하여 LLaMA-v2의 점수와 일치할 수 있습니다.


또한 MobileLLM은 양자화(PTQ)와도 매우 호환됩니다. W8A8 정량화 이후 모델의 성능은 0.5포인트 미만으로 떨어졌으며 여전히 레이어 공유 메커니즘과 호환되므로 보다 엄격한 하드웨어 조건에서 배포에 적응할 수 있습니다.


저자 소개

이 기사의 교신 저자인 Zechun Liu는 Meta Reality Labs의 연구 과학자입니다. 그녀는 Fudan University에서 학사 학위와 홍콩 과학 기술 대학에서 박사 학위를 취득했습니다. Meta에 합류하기 전에는 2년 이상 CMU에서 방문 학자로 근무했습니다.


Zechun의 연구 관심 분야는 네트워크 이진화 및 양자화, 네트워크 채널 가지치기, 아키텍처에 중점을 두고 부족한 리소스의 한계, 컴퓨팅 리소스와 정확도 간의 균형 등 실제 시나리오에 딥 러닝을 적용하는 것입니다. 디자인, 지식 증류 등.

참고자료:

https://x.com/yleun/status/1810035281472491665

https://arxiv.org/abs/2402.14905