소식

노출된! 아키텍처와 데이터부터 훈련과 최적화에 이르기까지 Apple의 지능을 해체하는 47페이지 분량의 문서

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

2024년 세계 개발자 컨퍼런스에서 Apple은 iPhone, iPad 및 Mac을 포괄하는 실용적인 지능형 서비스를 제공할 수 있고 iOS 18, iPadOS 18 및 macOS Sequoia에 긴밀하게 통합될 수 있는 새로운 맞춤형 지능형 시스템인 Apple Intelligence를 출시했습니다.

Cook은 Apple Intelligence가 Apple 혁신의 새로운 장이며 사용자가 제품을 사용하는 방식을 바꿀 것이라고 말한 적이 있습니다. 그는 Apple의 독특한 접근 방식이 생성 인공 지능과 사용자의 개인 정보를 결합하여 정말 유용한 지능형 서비스를 제공한다고 강조했습니다. 또한 Apple Intelligence는 정보에 대한 완전히 비공개적이고 안전한 접근을 제공하여 사용자가 자신에게 가장 중요한 일을 수행할 수 있도록 돕습니다. 이는 Apple만의 AI 경험입니다.

이제 Apple Intelligence가 공식 발표된 지 한 달이 넘었습니다. 드디어 이 기술이 스마트 기기에 구현되고, 관련 기술 문서가 드디어 공개되었습니다.

지난 며칠 동안 iPhone 15 Pro 또는 iPhone 15 Pro Max를 소유한 사용자는 iOS 18.1 개발 베타를 다운로드하고 Apple Intelligence의 기능을 경험할 수 있었습니다.

47페이지 분량의 이 기술 보고서를 통해 우리는 Apple Intelligence 뒤에 숨어 있는 비밀 무기에 대해 더 깊이 이해할 수 있게 되었습니다.



보고서 주소: https://machinelearning.apple.com/papers/apple_intelligence_foundation_언어_models.pdf

보고서에는 두 가지 모델이 자세히 설명되어 있습니다.AFM-on-deviceAFM은 Apple Foundation Model의 약자로 약 30억 개의 매개변수로 구성된 언어 모델이자 더 큰 규모의 서버 기반 언어 모델입니다.AFM 서버, 효율적이고 정확하며 책임감 있게 전문적인 작업을 수행할 수 있습니다(그림 1).

이 두 가지 기본 모델은 Apple의 대규모 생성 모델 제품군의 일부로 존재합니다.



구조 및 훈련

AFM 기본 모델은 Transformer 아키텍처를 기반으로 구축된 고밀도 디코더 모델이며 다음 설계를 채택합니다.

매개변수의 메모리 사용량을 줄이기 위해 입력/출력 임베딩 매트릭스를 공유합니다.

훈련 안정성을 향상하려면 사전 정규화에 RMSNorm을 사용하세요.

훈련 안정성을 향상시키기 위한 쿼리/키 정규화.

8개의 키-값 헤더가 있는 GQA(Grouped Query Attention)로 KV 캐시 메모리 공간을 줄입니다.

효율성 향상을 위해 SwiGLU가 활성화되었습니다.

RoPE 포지션 임베딩에서는 긴 컨텍스트를 지원하기 위해 기본 주파수(Base Frequency)를 500k로 설정했습니다.



AFM 사전 훈련 프로세스는 다양한 Apple Intelligence 기능을 지원하는 고성능 언어 모델을 개발하는 데 핵심적인 역할을 합니다. 연구팀은 고품질의 엔드 투 엔드 사용자 경험을 달성하기 위해 효율성과 데이터 품질에 중점을 둡니다.

사후 훈련 측면에서 연구팀은 일반적인 사후 훈련을 개선하면 모델이 지시를 따르고 추론하고 쓰는 능력이 더 강해지기 때문에 Apple Intelligence의 모든 기능의 성능이 향상될 수 있음을 발견했습니다.

이러한 모델 기능이 사용자 개인 정보 보호에 대한 Apple의 노력과 Apple의 Responsible AI 원칙에 부합하도록 하기 위해 훈련 후 작업에는 일련의 데이터 수집 및 생성, 지침 조정 및 정렬 혁신이 포함됩니다. 훈련 후 프로세스는 감독된 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)의 두 단계로 구성됩니다. 연구팀은 두 가지 새로운 사후 훈련 알고리즘을 제안했습니다. (1) 교사 위원회(iTeC)를 통한 거부 샘플링 미세 조정 알고리즘, (2) 미러 하강 정책 최적화를 통한 강화 학습 반복을 위한 RLHF 알고리즘( 미러 하강 정책 최적화) ) 및 MDLOO(Leave One-Out Advantage Estimator)를 사용하여 모델 품질을 크게 향상시킵니다.

Apple 인텔리전스 기능

기본 모델은 iPhone, iPad, Mac을 지원하는 개인 정보 시스템인 Apple Intelligence를 위해 특별히 설계되었습니다.

Apple은 특정 작업에 맞게 소형 모델의 성능을 동급 최고 수준으로 향상할 수 있다는 사실을 발견했습니다. 또한, 단일 기본 모델을 전문화할 수 있는 런타임 교체 가능 어댑터 기반 아키텍처를 개발했습니다. 수십 가지 작업에서. 그림 2는 높은 수준의 개요를 보여줍니다.



어댑터 아키텍처

Apple은 LoRA 어댑터를 사용하여 특정 작업에 맞게 모델을 미세 조정합니다. 각 작업에 대해 연구원들은 AFM self-attention 레이어의 모든 선형 투영 행렬과 포인트별 피드포워드 네트워크의 완전히 연결된 레이어를 조정합니다. 단순히 어댑터를 미세 조정하면 사전 훈련된 기본 모델의 원래 매개변수가 변경되지 않고 그대로 유지되므로 특정 작업을 지원하도록 어댑터를 조정하는 동시에 모델에 대한 일반적인 지식을 보존할 수 있습니다.

정량화하다

제한된 메모리 예산으로 에지 장치에 AFM을 통합하고 추론 비용을 줄이려면 양자화 기술을 고려해야 합니다. 이전 연구에서는 4비트 양자화 모델이 원시 32/16비트 부동 소수점에 비해 손실이 거의 없다는 것을 발견했습니다.

모델 용량과 추론 성능 간의 최상의 균형을 달성하기 위해 Apple은 최첨단 양자화 방법과 정확도 복구 어댑터를 활용하는 프레임워크를 개발했습니다. 이를 통해 모델은 각 가중치의 평균 가중치가 4비트 미만일 때 거의 무손실 양자화를 달성할 수 있으며 유연한 양자화 방식 선택을 제공합니다.

방법

훈련 후 모델은 압축되고 양자화되어 평균 4비트 미만의 가중치를 얻습니다. 정량적 모델은 일반적으로 중간 정도의 품질 손실을 나타냅니다. 따라서 Apple은 기능 개발에 양자화 모델을 직접 사용하지 않고 품질 복구를 위해 매개변수 효율적인 LoRA 어댑터 세트를 부착할 예정입니다.

훈련 정확도-복구 어댑터는 표본 효율적이며 훈련 기본 모델의 미니 버전으로 생각할 수 있다는 점은 주목할 가치가 있습니다. 어댑터의 사전 훈련 단계에서는 양자화 모델의 능력을 완전히 복원하기 위해 약 100억 개의 토큰(기본 모델 훈련의 약 0.15%)만 필요합니다.

애플리케이션 어댑터는 이러한 정확도 복구 어댑터에서 미세 조정되므로 추가 메모리 사용량이나 추론 비용이 발생하지 않습니다. 어댑터 크기와 관련하여 Apple은 어댑터 순위 16이 모델 용량과 추론 성능 간의 최상의 균형을 제공한다는 사실을 발견했습니다.

그러나 유연성을 위해 Apple은 애플리케이션 팀이 선택할 수 있는 다양한 순위 {8, 16, 32}의 정확도 복구 어댑터 세트를 제공합니다.

혼합 정밀도 양자화

AFM의 모든 변압기 블록과 모든 레이어에는 잔여 연결이 존재합니다. 따라서 모든 계층이 동일한 중요성을 가질 가능성은 없습니다. 이러한 직관에 따라 Apple은 특정 레이어에 2비트 양자화(기본값은 4비트)를 사용하도록 푸시하여 메모리 사용량을 더욱 줄였습니다. 평균적으로 AFM-on-device는 상당한 품질 손실 없이 약 3.5bpw(중량당 비트)로 압축할 수 있습니다.

평가하다

연구팀은 일반적인 오픈 소스 평가 도구와 벤치마크를 사용하여 AFM 사전 훈련된 모델을 평가합니다. 표 2는 HELM MMLU v1.5.0의 AFM-on-device 및 AFM-server 결과를 보여줍니다.



이러한 벤치마크는 AFM 사전 훈련된 모델이 강력한 언어 및 추론 기능을 갖추고 있어 사후 훈련 및 기능 미세 조정을 위한 견고한 기반을 제공한다는 것을 보여줍니다.





AFM과 오픈 소스 모델(Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) 및 상용 모델(GPT3.5 및 GPT-4)의 비교 결과는 아래 그림 3에 나와 있습니다. 인간 평가자는 다른 모델에 비해 AFM 모델을 선호합니다. 특히, Phi-3-mini와 비교하여 AFM-on-device는 25% 더 작은 모델 크기에도 불구하고 47.7%의 승률을 달성했는데, 이는 오픈 소스의 강력한 베이스라인인 Gemma-7B 및 Mistral-7B보다 훨씬 더 나은 수치입니다.



프롬프트의 지침을 따르는 응답을 생성하는 모델의 능력을 측정하기 위해 연구팀은 IFEval 벤치마크에서 AFM-on-device 및 AFM-서버를 평가했습니다. 결과는 아래 그림 4에 나와 있습니다.



그림 5에서 볼 수 있듯이 AFM 서버는 Gemini-1.5-Pro-Preview-0514 및 GPT-4보다 우수한 전체 정확도를 달성합니다.



Apple은 AFM을 일부 최고의 모델 및 소형 오픈 소스 모델과 비교했습니다. 그림 6에서 볼 수 있듯이 AFM-on-device는 Gemma-7B 및 Mistral-7B와 비교하여 동등하거나 더 나은 성능을 달성할 수 있습니다. AFM 서버의 성능은 DBRX-Instruct 및 GPT3.5보다 훨씬 뛰어나며 GPT4와 비슷합니다.



그림 7은 수학적 벤치마크에서 사후 훈련된 AFM의 성능을 비교합니다. AFM-on-device는 크기가 절반 미만임에도 불구하고 Mistral-7B 및 Gemma-7B보다 훨씬 더 나은 성능을 발휘하는 것으로 나타났습니다.



아래 그림은 요약 작업에서 AFM-on-device 어댑터, Phi-3-mini, Llama-3-8B 및 Gemma-7B의 품질을 평가하는 인간 평가자를 보여줍니다. 그림 8은 AFM-on-device-adapter가 일반적으로 다른 모델보다 성능이 우수하다는 것을 보여줍니다.



책임감 있는 AI

Apple Intelligence는 사용자 개인 정보 보호를 염두에 두고 개발 및 설계되었습니다.

그림 9는 다양한 모델에 대해 인간 평가자가 제공한 위반률을 요약한 것으로, 낮을수록 좋습니다. AFM 온 디바이스와 AFM 서버는 모두 오픈 소스 및 상용 모델보다 위반률이 훨씬 낮기 때문에 적대적인 메시지에 강력합니다.



그림 10은 AFM 모델이 다른 모델에 비해 인간 평가자가 더 선호한다는 것을 보여줍니다.