소식

Apple Intelligence는 어떻게 개발됩니까?가장 완벽한 해석은 여기에 있습니다

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

작성자: 마쉐웨이

Siri가 마침내 "AI Siri"로 변신했고, 많은 기대를 모았던 Apple Intelligence가 여기에 있습니다.

애플은 iOS 18, 아이패드OS 18, macOS 세쿼이아용 애플 인텔리전스 출시와 함께 자체 대형 모델에 대한 기술 보고서도 공개해 기술적인 세부 사항을 대거 공개해 업계의 큰 관심을 끌었다.

보고서에 따르면 Apple Intelligence에는 빠르고 효율적이며 사용자의 일상 작업을 위해 설계되었으며 사용자의 현재 활동에 즉시 적응할 수 있는 여러 고성능 생성 모델이 포함되어 있습니다. Apple Intelligence에 내장된 기본 모델은 텍스트 작성 및 다듬기, 알림 우선 순위 지정 및 요약, 가족 및 친구와의 대화를 위한 흥미로운 이미지 생성, 앱 간 상호 작용을 간소화하기 위한 앱 내 작업 실행과 같은 사용자 경험에 이미 최적화되어 있습니다.

기술 보고서에서 Apple 팀은 약 30억 개의 매개변수를 포함하는 언어 모델 AFM(Apple Foundation Model)과 더 큰 서버 기반 AFM 서버 언어 모델이라는 두 가지 모델이 어떻게 구성되고 작동하도록 조정되었는지 자세히 설명했습니다. 전문적인 업무를 효율적이고 정확하게 수행합니다.

그림 | AFM 모델 개요

이 두 가지 기본 모델은 사용자와 개발자를 지원하기 위해 Apple이 만든 대규모 생성 모델 제품군의 일부입니다. 여기에는 Xcode에서 인텔리전스를 구축하기 위한 AFM 언어 모델 기반의 프로그래밍 모델과 사용자가 시각적으로 표현하는 데 도움이 되는 확산 모델이 포함됩니다. 메시징 애플리케이션과 같은 것입니다.

AFM은 어떻게 작동하나요?

AFM은 개발 과정에서 엄격한 평가를 거쳤으며, 평가 결과 모델이 사전 훈련, 사후 훈련 및 특정 작업에서 좋은 성능을 발휘했으며 Apple의 핵심 가치와 책임 있는 AI 원칙에 부합하는 것으로 나타났습니다.

1. 사전 훈련 평가

Apple 팀은 HELM MMLU, HELMLite 및 OpenLLM과 같은 공개 평가 벤치마크를 사용하여 AFM 모델의 언어 이해 및 추론 기능을 평가했습니다. 결과는 AFM 모델이 여러 평가 지표에서 탁월한 결과를 달성하고, 강력한 언어 이해 및 추론 능력을 입증했으며, 후속 교육 및 특정 작업 적용을 위한 기반을 마련했음을 보여줍니다.

2. 훈련 후 평가

Apple 팀은 인간 평가와 자동 평가 벤치마크를 결합하여 지침 따르기, 도구 사용 및 쓰기와 같은 AFM 모델의 일반 기능과 특정 기능을 평가했습니다.평가 결과는 다음과 같습니다.

  • 인간 평가:AFM 모델은 여러 작업에서 다른 오픈 소스 및 상용 모델과 비슷하거나 더 뛰어나며, 모델이 복잡한 지침을 이해하고 따르며 고품질 텍스트를 생성할 수 있음을 보여줍니다.

그림 | AFM 모델을 다른 오픈 소스 모델 및 상용 모델과 비교하면 인간 평가자는 AFM 모델을 선호합니다.

연구팀은 뉴런 설명 패러다임에 대해 MAIA를 평가했는데, 이 연구는 MAIA가 기본 방법보다 우수하고 인간 전문가와 비교할 수 있는 예측 기능을 통해 실제 모델과 합성 뉴런 데이터 세트 모두에서 탁월한 설명 효과를 달성했음을 보여주었습니다.

  • 지침 준수 평가:AFM 모델은 IFEval 및 AlpacaEval 2.0 LC와 같은 벤치마크에서 탁월한 결과를 얻었으며 모델이 지침을 효과적으로 이해하고 따를 수 있음을 입증했습니다.

그림 | IFEval을 사용하여 측정한 AFM 모델과 관련 모델의 명령 준수 성능 비교. 값이 높을수록 성능이 우수합니다.

  • 도구 사용 평가:AFM 모델은 Berkeley Function Calling Leaderboard 벤치마크에서 최고의 전체 정확도를 달성하여 모델이 도구를 효과적으로 사용할 수 있음을 나타냅니다.

그림 | AFM 서버는 Gemini-1.5-Pro-Preview-0514 및 GPT-4보다 우수한 전체 정확도를 달성합니다.

  • 작문 평가:AFM 모델은 내부 요약 및 작성 벤치마크에서 좋은 성능을 발휘하여 유창하고 고품질의 텍스트를 생성하는 모델의 능력을 입증했습니다.

그림 | AFM은 가장 유명한 일부 모델 및 소규모 오픈 소스 모델과 비교됩니다. Gemma-7B 및 Mistral-7B와 비교하여 AFM-on-device는 동등하거나 더 나은 성능을 달성할 수 있습니다. AFM 서버는 dbrx 지시어보다 성능이 훨씬 뛰어나며 GPT-3.5 및 GPT-4와 비슷합니다.

  • 수학 평가:AFM 모델은 GSM8K 및 MATH와 같은 벤치마크에서 탁월한 결과를 얻었으며, 이는 모델이 수학적 문제를 효과적으로 해결할 수 있음을 나타냅니다.

그림 | 연구팀은 훈련 후 GSM8K와 수학을 포함한 수학적 벤치마크에서 AFM의 성능을 비교했습니다. AFM-on-device의 성능은 Mistral-7B 및 Gemma-7B보다 훨씬 뛰어납니다.

또한 연구팀은 모델에 대한 작업별 평가와 안전성 평가를 실시했다. 그들은 인간 평가와 작업별 평가 벤치마크를 사용하여 이메일 요약, 메시지 요약, 알림 요약과 같은 특정 작업에 대한 AFM 모델의 성능을 평가했습니다. 평가 결과에 따르면 이메일 요약, 메시지 요약, 알림 요약에서 AFM 모델의 성능은 정확성, 완전성, 가독성 등 여러 측면에서 다른 모델보다 우수합니다.

보안 측면에서 연구팀은 유해한 콘텐츠와 민감한 주제에 대한 AFM 모델의 저항성을 평가하기 위해 적대적 데이터 세트와 인간 평가를 사용했습니다. 평가 결과에 따르면 AFM 모델은 적대적인 데이터와 민감한 주제에 대해 좋은 저항력을 보여 유해하거나 부적절한 반응을 어느 정도 피하는 것으로 나타났습니다.

AFM은 어떻게 "실천"됩니까?

건축학

대부분의 주류 모델과 마찬가지로 AFM 모델은 다음을 기반으로 합니다. 변신 로봇 아키텍처뿐만 아니라 효율성과 성능을 향상시키기 위해 몇 가지 특정 설계 선택도 사용합니다.주요 구성 요소는 다음과 같습니다.

  • 변압기 모듈: AFM은 다중 헤드 주의 메커니즘 및 피드포워드를 포함한 표준 변압기 모듈을 사용합니다.신경망

  • 공유 입력/출력 임베딩 매트릭스: 이 설계는 모델 매개변수 수를 줄이고 메모리 효율성을 향상시킵니다.

  • 사전 정규화 및 RMSNorm: 이러한 기술은 훈련의 안정성을 향상시키고 모델이 더 복잡한 패턴을 학습하는 데 도움이 됩니다.

  • 쿼리/키 정규화: 이 기술은 훈련의 안정성을 더욱 향상시킵니다.

  • GQA(Grouped Query Attention): GQA 메커니즘은 메모리 사용량을 줄이고 계산 효율성을 향상시킵니다.

  • SwiGLU 활성화 함수: 이 활성화 함수는 모델의 효율성을 향상시킵니다.

  • RoPE 위치 임베딩: RoPE 메커니즘은 긴 텍스트의 인코딩을 지원하고 모델의 컨텍스트 표현 기능을 향상시킵니다.

그림 | AFM-on-device에는 3072개의 매개변수가 있으며 장치에 대한 추론에 적합합니다. 26개의 Transformer 레이어를 사용하며 각 레이어에는 128개의 헤더, 8개의 쿼리/키 헤더 및 24개의 쿼리 헤더가 포함되어 있습니다.

사전 훈련

AFM 모델 사전 훈련 프로세스는 Apple Intelligence 시스템의 다양한 기능을 지원하기 위해 강력한 언어 모델을 훈련하도록 설계되었습니다. AFM 모델은 대규모 모델 및 시퀀스 길이의 학습을 지원하고 효율적인 학습 및 추론 성능을 제공하는 AXLearn 프레임워크를 사용하여 Cloud TPU 클러스터에서 학습됩니다.

AFM 사전 훈련 데이터 세트는 다음을 포함한 여러 유형의 고품질 데이터로 구성됩니다.

  • 웹 콘텐츠: Applebot을 사용하여 크롤링되고 필터링된 공개적으로 사용 가능한 정보입니다.

  • 라이선스 데이터세트: 다양한 장문 데이터를 제공하는 출판사로부터 얻은 고품질 데이터세트입니다.

  • 코드: 여러 프로그래밍 언어를 다루는 GitHub에서 얻은 오픈 소스 코드 데이터입니다.

  • 수학: 수학 질문, 포럼, 블로그, 튜토리얼, 세미나 등 수학적 콘텐츠가 포함된 웹 데이터입니다.

  • 공개 데이터 세트: 평가 및 선별을 거쳐 공개적으로 사용 가능한 데이터 세트입니다.

AFM 사전 훈련은 세 단계로 나뉩니다.

  • 핵심 단계: 훈련을 위해 가장 큰 데이터 세트를 사용합니다. 주요 목표는 기본적인 언어 지식과 패턴을 배우는 것입니다.

  • 연속단계 : 핵심단계를 기반으로 코드와 수학적 데이터를 추가하고, 웹페이지 데이터의 비중을 줄여 모델의 지식 범위를 더욱 확장한다.

  • 컨텍스트 확장 단계: 연속 단계를 기반으로 더 긴 시퀀스 길이와 합성 긴 텍스트 데이터를 사용하여 긴 텍스트에 대한 모델의 처리 기능을 향상시킵니다.

훈련 후

AFM은 사전 훈련 단계에서 강력한 언어 이해 능력을 습득하지만, 이를 이메일 요약, 메시지 요약, 알림 요약 등 특정 작업에 적용하기 위해서는 사후 교육이 필요합니다.포함하다:

  • 감독형 미세 조정(SFT):

    • 데이터 수집: 사람이 주석을 추가한 데이터와 합성 데이터를 사용하여 데이터 품질이 다양하고 다양한 자연어 사용 시나리오를 포괄하는지 확인합니다.

    • 데이터 혼합: 인간 데이터와 합성 데이터를 신중하게 선택하고 결합하여 고품질 데이터 혼합을 형성합니다.

    • 미세 조정 방법: LoRA 어댑터를 사용하여 모델을 미세 조정하고 어댑터 매개변수만 조정하며 모델에 대한 일반적인 지식을 유지합니다.

  • 인간 피드백 기반 강화 학습(RLHF):

    • 보상 모델: 인간의 선호도 데이터를 사용하여 보상 모델을 훈련하고 모델 응답의 품질을 평가합니다.

    • iTeC(반복 교육 위원회): 거부 샘플링, 직접 선호도 최적화 및 온라인 강화 학습을 포함한 다중 선호도 최적화 알고리즘을 사용하여 모델을 반복적으로 개선합니다.

    • 온라인 RLHF 알고리즘(MDLOO): Mirror Descent 정책 최적화 및 Leave-One-Out 이점 추정기를 사용하여 보상을 극대화하고 모델 품질을 향상시킵니다.

사후 훈련의 장점:

  • 모델 품질 개선: 사후 교육을 통해 AFM 모델의 품질과 성능이 크게 향상되어 특정 작업에서 좋은 성능을 발휘하게 됩니다.

  • Apple의 핵심 가치와 책임 있는 AI 원칙 준수: 모델이 Apple의 핵심 가치와 책임 있는 AI 원칙을 준수하는지 확인하기 위해 훈련 후 프로세스에서는 데이터 품질, 보안 및 유해 콘텐츠 필터링을 완전히 고려합니다.

  • 확장성: 사후 훈련 방법은 다른 작업으로 확장 가능하므로 AFM 모델이 더 많은 Apple Intelligence 기능을 지원할 수 있습니다.

추론 최적화

AFM은 강력한 언어 이해 기능을 갖추어야 할 뿐만 아니라 iPhone, iPad, Mac과 같은 장치와 Apple 실리콘 서버의 프라이빗 클라우드 컴퓨팅에서 효율적으로 실행할 수 있어야 합니다. 이 목표를 달성하기 위해 Apple은 AFM 모델이 전체 모델 품질을 유지하면서 특정 작업에서 효율적으로 실행되도록 보장하는 일련의 최적화 기술을 개발했습니다.

최적화:

  • 모델 양자화: 4비트 양자화 기술을 사용하여 AFM 모델을 양자화하여 모델 크기와 추론 비용을 크게 줄입니다.

  • 정확도 복구 어댑터: LoRA 어댑터를 사용하여 양자화되지 않은 모델의 성능에 가깝도록 양자화된 모델의 정확도를 복원합니다.

  • 혼합 정밀도 양자화: 4비트 및 2비트 양자화 정밀도를 사용하여 모델의 각 레이어를 양자화하여 모델 품질을 유지하면서 메모리 사용량을 더욱 줄입니다.

  • 대화형 모델 분석: Talaria 도구를 사용하여 모델의 대기 시간 및 전력 소비를 분석하고, 비트 전송률 선택을 안내하고, 모델 성능을 최적화합니다.

  • 런타임 교체 가능 어댑터: LoRA 어댑터를 사용하여 모델에 대한 일반적인 지식을 유지하면서 특정 작업에 맞게 조정할 수 있도록 모델을 미세 조정합니다.

최적화 사례-이메일 요약:

  • 데이터 수집: 이메일, 메시지, 알림의 발췌문이 포함된 입력 데이터를 수집하고 데이터 정리 및 중복 제거를 수행합니다.

  • 종합 요약 생성: AFM 서버를 사용하여 제품 요구 사항을 충족하는 종합 요약을 생성하고 필터링 규칙과 모델을 사용하여 데이터 품질을 보장합니다.

  • 힌트 주입: AFM 서버에서 생성된 요약을 훈련 데이터에 추가하여 AFM 장치 모델이 요약을 더 잘 이해하고 생성할 수 있도록 돕습니다.

또한 Apple Intelligence는 사용자 권한 부여, 사용자 대표, 세심한 디자인, 개인 정보 보호 등 일련의 책임감 있는 AI 원칙을 따릅니다. 기술 보고서에서 Apple은 특정 모델을 훈련하기 위해 윤리적으로 의심스러운 방법을 사용한다는 비난을 반박하고 개인 사용자 데이터를 사용하지 않고 대신 Apple Intelligence 목적으로 공개적으로 사용 가능한 데이터와 라이선스가 부여된 데이터를 조합하여 사용한다는 점을 반복했습니다. 그들은 AFM 모델에 대한 훈련 데이터가 "책임 있는" 방식으로 획득되었음을 강조했습니다.