소식

Apple의 AI가 iPhone에 충격적으로 출시되었지만 Siri의 진화 버전에는 ChatGPT가 없습니다! 47페이지 분량의 기술 보고서에 자체 개발 모델 공개

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] 오늘 아침, 갑작스러운 iOS 18.1 베타 버전에 모든 개발자들이 깜짝 놀랐습니다! 의외로 이제 얼리 어답터도 Apple AI를 사용할 수 있게 되었고 수많은 리뷰가 인터넷 전체에 넘쳐났습니다. 더욱 놀라운 점은 애플 AI의 기본 모델에 관한 47페이지 분량의 기술 보고서도 온라인에 있다는 점이다.

이른 아침, 오랫동안 기다려온 "Apple AI"의 첫 번째 미리보기 버전이 공식적으로 개발자들에게 푸시되었습니다!


Apple AI의 최신 기능은 iOS 18.1, iPadOS 18.1 및 macOS Sequoia 15.1의 세 가지 주요 시스템에 내장되어 있습니다.

iOS 18.1 베타 버전을 받은 첫 번째 사용자들은 이미 기쁨에 넘쳐 환호하고 있으며, 실제 테스트 공유의 물결이 연이어 전체 네트워크에 퍼졌습니다.


최신 미리보기 버전에는 많은 놀라운 기능이 포함되어 있습니다(빠른 미리보기 버전).

  • 새로운 Siri: 깨어나면 화면 가장자리에서 부드럽게 불이 들어오며, 스피커가 실수를 해도 Apple 제품 문제 해결에 대한 질문에 답할 수 있습니다.

  • 쓰기 도구: 어떤 시나리오에서든 텍스트를 다시 작성하고, 교정하고, 요약할 수 있습니다. (메모, 서류, 타사 앱 모두 가능)

  • 집중 모드(방해 최소화): 즉시 확인해야 하는 알림만 표시

  • 사진 기능: 자연어를 이용해 사진을 검색하고 동영상을 제작합니다.

  • 이메일, 메시지, 음성 메일 녹취록에 대한 AI 요약 생성


또한 ChatGPT 통합, 이미지/이모지 생성, 자동 사진 정리, 화면 인식 기능을 갖춘 초강력 Siri 등 Apple이 내년에 출시할 것이라고 밝힌 몇 가지 기능이 있습니다.

그런데 현재 iOS 18.1 베타 버전(iPadOS 및 macOS 포함)은 미국에서만 사용할 수 있으며 중국에서는 아직 출시되지 않았습니다.

또한, 휴대폰 중 아이폰15 프로와 아이폰15 프로 맥스만 새로운 시스템을 지원한다.



시스템 소개에 따르면 iOS18.1 베타 버전은 총 15.44GB의 메모리 공간을 차지하며, 그 중 iOS 시스템 용량은 12.58GB인 반면, 애플 AI는 2.86GB만 차지한다.

이는 Apple이 최종 장치에 사용하는 모델의 매개변수가 30억 개에 불과하기 때문입니다.


모델에 대한 더 자세한 소개는 새로 출시된 Apple AI 기술 보고서에 모두 숨겨져 있습니다.

48페이지 분량의 긴 논문은 아키텍처, 데이터 관리, 사전 훈련 및 사후 훈련 레시피, 최적화, 기능적 적응 및 평가 결과를 포함하여 Apple LLM의 설계 및 평가를 다루고 있습니다.


논문 주소: https://machinelearning.apple.com/papers/apple_intelligence_foundation_언어_models.pdf

특히 Apple은 Apple AI의 핵심을 구성하는 두 가지 새로운 기본 언어 모델을 개발했습니다.

하나는 약 30억 개의 매개변수를 갖는 최종 모델 AFM-on-device입니다. 최적화 후 더 높은 효율성과 응답성을 바탕으로 iPhone 및 기타 단말 장치에서 실행할 수 있습니다.

다른 하나는 AFM 서버라고 불리는 Apple의 클라우드 서버에서 실행할 수 있는 더 큰 매개변수 모델로, 집중적인 작업을 위해 설계되었으며 프라이빗 클라우드 컴퓨팅(Private Cloud Compute) 시스템을 사용하여 사용자 데이터를 보호합니다.


지난달 WWDC 컨퍼런스에서 Cook이 Apple AI의 강력한 기능을 전 세계에 발표하여 Apple의 패밀리 버킷을 획기적으로 업그레이드했던 일이 아직도 기억납니다.

인터넷 전체는 AI가 더 이상 전혀 좋지 않다고 생각하고 있으며 여전히 Apple AI를 살펴봐야 합니다.


일반적으로 Apple은 일반적으로 iOS18 메인 시스템을 먼저 출시합니다.

하지만 이번에는 Apple이 그렇게 짧은 시간 안에 첫 번째 개발자에게 베타 버전을 제공할 것이라고는 예상하지 못했습니다.

이와 관련해 블룸버그의 최근 보고서는 애플 AI가 아직 테스트 시간이 더 필요하기 때문에 애플이 일반적인 소프트웨어 출시 리듬을 깨뜨렸다고 지적했다.


최초의 얼리 어답터들이 어떤 신대륙을 발견했는지 궁금합니다.

네티즌들의 실제 테스트

Apple 기술 블로거 Brandon Butch는 즉시 iOS 18.1 베타 버전에서 가장 포괄적인 Apple AI 기능을 보여주는 비디오 설명을 제작했습니다.


아무리 가혹하더라도 언제나 부드럽고 달콤할 것입니다.

그는 Apple AI가 자신이 말하고 싶은 것을 더 잘 표현하는 방법을 찾는 데 도움이 되었다고 말했습니다.


메시지 인터페이스의 입력 상자에 말하고 싶은 내용을 적습니다.

그런 다음 모두 선택하고 Apple AI 버튼을 클릭하여 쓰기 도구에서 "친숙함"을 사용하면 AI가 즉시 이 단락의 어조를 더욱 재치 있게 만들어 줍니다.


AI가 다시 쓴 후 훨씬 편해진 욕설을 구체적으로 쓴 또 다른 네티즌을 다시 살펴보자.


문법 오타 수정

게다가 Butch는 Grammarly가 죽었고 이것이 진짜 Apple AI라고 외쳤습니다.


다음 구절을 보십시오. Informative의 철자가 잘못되었고 첫 글자가 대문자로 표시되지 않았으며 마침표 대신 물음표로 끝나야 한다고 생각하십니까?

Apple AI가 모든 것을 수정한 것을 볼 수 있습니다.


이메일에도 Apple의 AI 기능이 있어서 사람들이 들으면 미치게 만듭니다.


또한 교정, 다시 쓰기 등 메모 및 메시지 작성 도구 기능도 지원합니다.


이메일 요약이 상단에 표시됩니다.


Apple의 AI 글쓰기 도구의 애니메이션 효과는 "매우 Apple"입니다. 모델이 응답할 때 토큰의 촘촘한 흐름과 비교하면 모든 것이 매우 부드러워 보입니다.



새로운 Siri, 매우 부드러운 반응

Siri를 부를 때 화면의 엣지 효과를 보면 디자인은 Apple이 가장 잘 안다고 해야 할까요.



iPad 버전의 Siri를 살펴보겠습니다.


Humane의 AI 엔지니어와 전직 Apple 엔지니어가 Siri를 테스트한 후 Apple의 AI가 매우 빠르다고 칭찬했습니다.


Siri를 깨워 에펠탑의 높이가 얼마나 되는지 물어보세요. 어디에 위치해 있나요?


그건 그렇고, 파리 올림픽에 관한 최근 뉴스와 올림픽 경기를 시청하는 방법을 알려드리겠습니다.

짧은 시간 안에 Apple AI가 답을 얻었습니다.


AI 전사 요약, 중요한 전화 내용은 놓칠 염려가 없습니다

또한 Apple AI는 전화 통화를 메모로 기록하고 대화 내용을 녹음하는 데도 도움이 됩니다.


녹음 버튼을 누르면 발신자와 수신자 모두에게 통화가 녹음된다는 신호음이 울립니다.


녹화가 완료되면 알림 팝업창으로 바로 진입하여 녹화 내용을 확인할 수 있습니다.


집중 모드

Apple AI를 사용하여 알림 내용을 자동으로 분석하고 중요한 알림을 감지하세요!


중요한 사람들의 알림은 화면 하단에 고정됩니다.


사진검색, 불만이 많아

물론, iOS 18.1이 먼저 출시된 이유는 개발자들이 더 많은 테스트를 하고, 보고된 문제를 발견하고, Apple의 AI 기능을 더 잘 향상시킬 수 있도록 하기 위한 것입니다.

아니요, 한 YouTube 블로거가 사진 기능을 테스트할 때 Siri가 여전히 "정신적 장애"가 있다는 사실을 발견했습니다.


해당 블로거는 먼저 "2022년 추수감사절 여행 사진을 시리에게 보여달라"고 요청했다. Siri가 대답했습니다. 건강 앱이 열린 횟수입니다....

이어 "시리야, 추수감사절 사진을 사진에서 찾아줘"라고 다시 질문을 반복했다.


재미있게도 Siri는 인터넷에서 직접 추수감사절 관련 이미지를 검색했습니다.

그가 다시 “시리야, 대만 여행 사진 보여줘”라고 묻자 시리는 원문을 키워드로 듣고 인터넷에서 “나의 대만 여행”을 검색했다.

그런 다음 그는 계속해서 물었고 Siri는 여전히 혼란스러워했습니다.

완고한 블로거, 망가진 시리, 웃을 수밖에 없어…

서두에서 언급했듯이 Apple AI를 단말 장치에 탑재하는 기능은 팀이 자체 개발한 기본 모델을 기반으로 하여 빛을 발하고 있습니다.

iPhone의 AI 혁명: 주머니 속 30억 개의 매개변수

특히 AFM은 Transformer 아키텍처를 기반으로 하는 디코더 전용 밀도 모델입니다.


그 디자인 아이디어는 다음과 같습니다.

  • 매개변수 메모리 사용량을 줄이기 위한 공유 입력/출력 임베딩 매트릭스

  • RMSNorm의 사전 정규화를 사용하여 훈련 안정성 향상

  • 훈련 안정성을 향상시키기 위한 쿼리/키 정규화

  • KV 캐시의 메모리 공간을 줄이기 위해 8개의 키-값 헤더가 있는 GQA(Grouped Query Attention)

  • 보다 효율적인 SwiGLU 활성화

  • 기본 주파수 500k의 RoPE 위치 임베딩, 긴 컨텍스트 지원


어댑터 아키텍처

LoRA 어댑터를 사용하면 Apple의 기본 모델이 현재 작업을 기반으로 즉석에서 동적으로 특화될 수 있습니다.

이러한 작은 신경망 모듈은 기본 모델의 다양한 계층에 연결될 수 있으며 특정 작업에 맞게 모델을 미세 조정하는 데 사용할 수 있습니다.

어댑터 교육을 용이하게 하기 위해 Apple은 기본 모델이나 교육 데이터가 업데이트되거나 새로운 기능이 필요할 때 어댑터를 신속하게 추가, 재교육, 테스트 및 배포할 수 있는 효율적인 인프라도 만들었습니다.

최적화

사용자의 일상적인 사용을 충족해야 하기 때문에 팀은 모델 품질을 유지하면서 메모리 사용량, 대기 시간 및 전력 소비를 크게 줄이기 위해 다양한 최적화 및 정량화 기술을 채택했습니다.


방법

훈련 후 단계에서 Apple은 모델을 무게당 평균 4비트 미만으로 압축하고 양자화했습니다.

양자화된 모델은 일반적으로 어느 정도 품질 손실을 겪습니다. 따라서 R&D팀에서는 기능 개발을 위해 정량적 모델을 응용팀에 직접 넘겨주는 것이 아니라, 모델 품질을 복원하기 위해 매개변수 효율적인 LoRA 어댑터 세트를 부착합니다.

그런 다음 각 제품 팀은 양자화된 기본 모델을 변경하지 않고 유지하면서 정확도 복구 어댑터에서 어댑터 가중치를 초기화하여 기능별 LoRA 어댑터를 미세 조정합니다.

훈련 정확도 복구 어댑터는 샘플 효율적이며 훈련 기본 모델의 미니 버전으로 간주될 수 있다는 점은 주목할 가치가 있습니다.

그 중 어댑터의 사전 훈련 단계에서는 양자화 모델의 능력을 완전히 복원하기 위해 약 100억 개의 토큰(기본 모델 훈련의 약 0.15%)만 필요합니다.

애플리케이션 어댑터는 이러한 정밀 복구 어댑터에서 미세 조정되므로 추가 메모리 사용량이나 추론 비용이 발생하지 않습니다.

어댑터 크기와 관련하여 팀은 순위 16의 어댑터가 모델 용량과 추론 성능 간의 최상의 균형을 제공한다는 사실을 발견했습니다.

그러나 더 많은 유연성을 제공하기 위해 Apple은 애플리케이션 팀이 선택할 수 있는 다양한 등급의 정밀 복구 어댑터 세트를 제공합니다.

정량화하다

정밀 복구 어댑터가 제공하는 또 다른 이점은 양자화 방식을 보다 유연하게 선택할 수 있다는 것입니다.

과거에는 대규모 언어 모델을 양자화할 때 가중치를 작은 덩어리로 나누고 각 덩어리를 해당 최대 절대값으로 정규화하여 이상값을 필터링한 다음 덩어리 단위로 양자화 알고리즘을 적용하는 것이 일반적이었습니다.

블록 크기가 클수록 가중치당 유효 비트 수가 줄어들고 처리량이 늘어나지만 양자화 손실도 증가합니다. 이러한 균형을 맞추기 위해 블록 크기는 일반적으로 64 또는 32와 같이 더 작은 값으로 설정됩니다.

그러나 Apple의 실험에서 팀은 정확도 복구 어댑터가 이러한 절충안의 파레토 전선을 크게 향상시킬 수 있음을 발견했습니다.

보다 공격적인 양자화 방식의 경우 더 많은 오류가 복구됩니다. 결과적으로 Apple은 모델 용량 손실에 대한 걱정 없이 AFM에 효율적인 양자화 방식을 사용할 수 있습니다.

혼합 정밀도 양자화

각 변환기 블록과 AFM의 각 레이어에는 잔여 연결이 있습니다. 따라서 모든 계층이 동일한 중요성을 가질 가능성은 없습니다.

이러한 직관을 바탕으로 Apple은 특정 레이어를 2비트 양자화(기본값은 4비트)로 푸시하여 메모리 사용량을 더욱 줄였습니다.

평균적으로 AFM 장치의 모델은 품질 저하 없이 약 3.5bpw(중량당 비트)로 압축할 수 있습니다.

프로덕션에서 Apple은 3.7bpw를 사용하기로 결정했습니다. 이는 이미 메모리 요구 사항을 충족하기 때문입니다.

평가 결과

사전 훈련

표 2는 57개 과목에서 5샘플 객관식 문제를 테스트한 HELM MMLU v1.5.0의 AFM-on-device 및 AFM-server 결과를 보여줍니다.


표 3과 4는 각각 HuggingFace OpenLLM 순위 V1 및 HELM-Lite v1.5.0 벤치마크에 대한 AFM 서버의 결과를 보여줍니다.



AFM 사전 훈련 모델은 강력한 언어 및 추론 기능을 갖추고 있어 사후 훈련 및 기능 미세 조정을 위한 견고한 기반을 제공한다는 것을 알 수 있습니다.

훈련 후 인간 평가

Apple AI 애플리케이션 시나리오의 경우 인간 평가는 사용자 경험에 더 가깝습니다.

모델의 일반적인 기능을 평가하기 위해 팀은 1,393개의 힌트로 구성된 포괄적인 세트를 수집했습니다.

프롬프트는 모든 것이 포함되어 있으며 분석 추론, 브레인스토밍, 챗봇, 분류, 폐쇄형 질문 답변, 코딩, 추출, 수학적 추론, 공개 질문 답변, 재작성, 보안, 요약 및 작성을 포함한 다양한 카테고리와 난이도를 다룹니다.

그림 3은 AFM과 오픈 소스 모델(Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) 및 상용 모델(GPT-3.5 및 GPT-4)을 비교한 것입니다.


인간 평가자들은 경쟁사 모델보다 AFM 모델을 선호하는 것으로 나타났습니다.

특히, AFM-on-device의 모델 크기는 25% 작지만 승률은 Phi-3-mini 대비 47.7%로, 오픈소스의 강력한 기준인 Gemma-7B와 Mistral-을 2배 이상 뛰어넘는 수준입니다. 매개변수 수 7B.

AFM 서버 역시 비공개 소스 모델에 비해 GPT-3.5 대비 50% 이상의 승률, 27.4%의 무승부율을 기록하는 등 확실한 경쟁력을 보였다.

설명을 따르세요

지침 따르기(IF)는 실제 프롬프트나 지침이 복잡한 경우가 많기 때문에 Apple 팀이 언어 모델에 큰 기대를 걸고 있는 핵심 기능입니다.

여기에서 팀은 공개 IFEval 벤치마크를 사용하여 대규모 언어 모델이 응답을 생성할 때 프롬프트의 지침을 정확하게 따를 수 있는지 여부를 평가했습니다. 여기에는 응답의 길이, 형식, 내용에 대한 특정 요구 사항이 포함되는 경우가 많습니다.

그림 4에서 볼 수 있듯이 AFM-on-device와 AFM-server는 명령 수준과 프롬프트 수준 정확도 모두에서 우수한 성능을 발휘합니다.


또한, Apple 팀은 AFM 모델을 AlpacaEval 2.0 LC 벤치마크에서 벤치마킹하여 일반적인 지시 따르기 기능도 측정한 결과 해당 모델의 경쟁력이 매우 높은 것으로 나타났습니다.

도구 사용법

도구 사용 시나리오에서 모델은 사용자 요청과 설명이 포함된 잠재적 도구 목록을 받은 후 구조화된 출력을 제공하고 도구 이름과 매개변수 값을 지정하여 특정 도구를 호출하도록 선택할 수 있습니다.

팀은 함수 호출을 기본적으로 지원하는 AST 측정항목을 사용하여 공개 Berkeley Function Calling Leaderboard 벤치마크에서 모델을 평가했습니다.

그림 5에서 볼 수 있듯이 AFM 서버는 전반적인 정확도에서 Gemini-1.5-Pro-Preview-0514 및 GPT-4를 능가하여 최고의 성능을 발휘합니다.


글쓰기

쓰기는 어조 변경, 다시 쓰기, 요약과 같은 다양한 다운스트림 애플리케이션을 지원하므로 대규모 언어 모델의 가장 중요한 기능 중 하나입니다.

팀은 내부 요약 및 작문 벤치마크 테스트를 통해 AFM의 작문 기술을 평가합니다. 그리고 판사로서의 LLM 접근 방식에 따라 각 요약 및 작문 작업에 대한 채점 지침이 설계되었으며 GPT-4 Turbo는 모델 응답을 1~10점 척도로 점수를 매기도록 요청되었습니다.

그림 6에서 볼 수 있듯이 AFM-on-device는 Gemma-7B 및 Mistral-7B와 비교하여 비슷하거나 더 나은 성능을 보여줍니다. AFM 서버는 DBRX-Instruct 및 GPT-3.5보다 훨씬 우수하며 GPT-4와도 비교할 수 있습니다.

길이 편향과 같은 LLM 채점 사용에는 몇 가지 제한 사항과 편향이 있다는 점은 주목할 가치가 있습니다.


수학

그림 7에서 팀은 수학적 벤치마크에서 AFM의 성능을 비교합니다.

그 중 연구진은 GSM8K에는 8샷 CoT 팁을, MATH에는 4샷 CoT 팁을 사용했습니다.

결과는 AFM-on-device가 Mistral-7B와 Gemma-7B의 절반 미만 크기에서도 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.


요약 기능

제품 팀은 다양한 오픈 소스, 라이센스 및 독점 데이터 세트를 사용하여 요약 품질을 평가하기 위해 이메일, 메시지 및 알림 요약을 위한 맞춤형 지침, 지표 및 특수 채점 기준 세트를 개발했습니다.

사전 정의된 제품 사양에 따라 하위 측정기준이 "나쁨"으로 평가된 경우 요약은 "나쁨"으로 분류됩니다. 마찬가지로 요약은 모든 하위 측정기준이 "양호"로 평가된 경우에만 "양호"로 분류됩니다.

그림 8은 AFM-on-device+ 어댑터의 전반적인 성능이 Phi-3-mini, Llama-3-8B 및 Gemma-7B보다 우수함을 보여줍니다.


안전성을 평가하다

그림 9는 모델 위반에 대한 인간 검토자의 평가 결과를 보여줍니다. 값이 낮을수록 좋습니다.

AFM-on-device와 AFM-server는 적대적 프롬프트 처리에 강력한 견고성을 보여주며, 오픈 소스 및 상용 모델에 비해 위반률이 현저히 낮다는 것을 알 수 있습니다.


그림 10은 보안 평가 프롬프트에 대한 인간 검토자의 선호도를 보여줍니다.

AFM 모델은 더 안전하고 유용한 대응을 제공할 수 있었기 때문에 다시 한 번 라운드에서 승리했습니다.


위의 내용은 Apple의 AI 모델을 엿볼 수 있는 주요 내용입니다.

언제 모든 사람이 Apple의 AI 기능을 사용할 수 있게 될까요?

Apple은 매년 가을 컨퍼런스에서 신제품을 출시하며, iOS 18의 초기 버전은 iPhone 16과 동시에 출시됩니다.


그러나 모든 사람이 이를 경험하려면 10월까지 기다려야 합니다.

참고자료:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_언어_models.pdf

https://x.com/BrandonButch/status/1817982978540404776