소식

Google이 가장 큰 승자입니다!쿡은 애플 휴대폰에 AI를 활용하기 위해 실제로 반대자들에게 고개를 숙였다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


지난 이틀 동안 Apple Intelligence의 출시는 가장 큰 기술 뉴스 중 하나가 되었습니다.

한 달 전에 발표된 Apple Intelligence 정식 버전과 비교하면 Apple iOS 18.1 베타 1에 도입된 Apple Intelligence 기능은 Image Playground, Genmoji, 우선순위 알림, 화면 인식 기능이 있는 Siri 및 ChatGPT 통합 등이 완벽하지 않습니다. 별말씀을요.

그러나 일반적으로 Apple은 여전히 ​​쓰기 도구(작성 도구), 통화 녹음(녹취 포함) 및 새로 디자인된 Siri를 제공합니다.

그 중 쓰기 도구는 재작성, 전문화, 약어 및 기타 기능을 지원하며 채팅, Moments 게시, Xiaohongshu 메모 및 텍스트 쓰기와 같은 시나리오에서 사용할 수 있으며 통화를 녹음할 수 있을 뿐만 아니라 자동으로 녹음할 수도 있습니다. 사용자에게 편리한 텍스트입니다.

또한 Siri도 "업그레이드"되었지만 불행하게도 현재는 새로운 "마키" 특수 효과 및 키보드 입력 지원을 포함하여 디자인으로 제한됩니다.

그러나 놀라운 점은 Apple이 "Apple Intelligence Foundation Language Models"라는 논문에서 다음과 같은 내용을 공개했다는 것입니다.Apple은 일반적인 NVIDIA H100 및 기타 GPU를 사용하지 않고 Apple Intelligence의 기본 모델을 교육하기 위해 "오래된 라이벌"인 Google의 TPU를 선택했습니다.


사진/사과

Google TPU를 사용하여 Apple Intelligence 만들기

우리 모두 알고 있듯이 Apple Intelligence는 세 가지 계층으로 나뉩니다. 하나는 Apple 기기에서 로컬로 실행되는 온디바이스 AI이고, 다른 하나는 "프라이빗 클라우드 컴퓨팅" 기술을 기반으로 Apple 자체 데이터 센터에서 실행되는 클라우드 AI입니다. 공급망 소식에 따르면 애플은 M2 울트라를 양산해 자체 데이터센터를 구축할 예정이다.

또한 GPT-4o 등과 같은 타사 클라우드 대형 모델에 연결하는 또 다른 레이어가 있습니다.

그러나 이는 추론 측면입니다. Apple이 자체 AI 모델을 훈련하는 방법은 항상 업계에서 관심의 초점 중 하나였습니다. Apple의 공식 문서에 따르면 Apple은 TPUv4 및 TPUv5p 클러스터의 하드웨어에 대해 두 가지 기본 모델을 교육했습니다.

하나는 매개변수 규모가 3억인 기기측 모델 AFM-on-device이며, 이는 TPU v5p의 2048개 블록을 사용하여 훈련되고 Apple 기기에서 로컬로 실행됩니다. 다른 하나는 더 큰 규모의 서버측 모델 AFM 서버입니다. 8192 블록을 사용하는 매개변수 규모. TPU v4 칩 훈련은 궁극적으로 Apple 자체 데이터 센터에서 실행됩니다.


사진/사과

결국, 우리 모두는 Nvidia H100과 같은 GPU가 현재 AI 훈련을 위한 주류 선택이라는 것을 알고 있습니다. 심지어 "AI 훈련에는 Nvidia GPU만 사용된다"는 말도 있습니다.

이에 비해 Google의 TPU는 다소 '알려지지 않은' 것처럼 보입니다.

그러나 실제로 Google의 TPU는 머신러닝 및 딥러닝 작업을 위해 특별히 설계된 가속기이므로 탁월한 성능 이점을 제공할 수 있습니다. 효율적인 컴퓨팅 성능과 짧은 지연 시간의 네트워크 연결을 갖춘 Google의 TPU는 대규모 모델 학습 작업을 처리할 때 탁월한 성능을 발휘합니다.

예를 들어 TPU v4는 칩당 최대 275TFLOPS의 최고 컴퓨팅 성능을 제공할 수 있으며, 초고속 상호 연결을 통해 4096개의 TPUv4 칩을 대규모 TPU 슈퍼컴퓨터에 연결해 컴퓨팅 성능 규모를 두 배로 늘릴 수 있다.

그리고 Apple뿐만 아니라 다른 대형 모델 회사들도 Google의 TPU를 채택하여 대형 모델을 훈련시켰습니다.Anthropic의 Claude가 전형적인 예입니다.


챗봇 아레나 랭킹, 사진/LMSYS

Claude는 이제 OpenAI GPT 모델의 가장 강력한 경쟁자라고 할 수 있습니다. LMSYS 채팅 로봇 분야에서 Claude 3.5 Sonnet과 GPT-4o는 항상 "웅크린 용과 불사조 병아리"였습니다. 공개된 내용에 따르면 Anthropic은 슈퍼컴퓨팅 구축을 위해 Nvidia GPU를 구입한 적이 없으며 대신 훈련 및 추론을 위해 Google Cloud의 TPU 클러스터를 사용합니다.

작년 말 Anthropic은 Google Cloud에서 처음으로 TPU v5e 클러스터를 사용하여 Claude를 교육할 것이라고 공식 발표했습니다.

Anthropic의 장기간 사용과 Claude가 달성한 결과는 AI 훈련에서 Google TPU의 효율성과 신뢰성을 충분히 보여줍니다.

또한 Google의 Gemini도 훈련을 위해 자체 개발한 TPU 칩에 전적으로 의존합니다. Gemini 모델은 자연어 처리 및 생성 기술의 최첨단을 발전시키는 것을 목표로 하며, 훈련 과정에는 대량의 텍스트 데이터를 처리하고 복잡한 모델 계산을 수행해야 합니다.

TPU의 강력한 컴퓨팅 성능과 효율적인 분산 학습 아키텍처를 통해 Gemini는 상대적으로 짧은 시간 내에 학습을 완료하고 성능 면에서 획기적인 발전을 이룰 수 있습니다.

하지만 Gemini가 이해할 수 있다면 Anthropic에서 Apple에 이르기까지 사람들이 Nvidia GPU 대신 Google TPU를 선택하는 이유는 무엇입니까?

TPU와 GPU, 구글과 엔비디아의 비밀 대결

월요일에 개최된 최고의 컴퓨터 그래픽 컨퍼런스인 SIGGRAPH 2024에서 NVIDIA 창립자이자 CEO인 Jensen Huang은 NVIDIA의 최신 세대 GPU 아키텍처인 Blackwell 아키텍처 샘플을 이번 주에 보낼 것이라고 밝혔습니다.

2024년 3월 18일, NVIDIA는 GTC 컨퍼런스에서 최신 세대 GPU 아키텍처인 Blackwell과 최신 세대 B200 GPU를 출시했습니다. 성능 측면에서 B200 GPU는 FP8과 신형 FP6에서 20페타플롭스(초당 1000조 부동 소수점 연산)의 컴퓨팅 성능을 발휘할 수 있어 복잡한 AI 모델 처리에 탁월합니다.

블랙웰 출시 두 달 만에 구글도 6세대 TPU(트릴리움 TPU)를 출시했다.각 칩은 BF16에서 거의 1,000 TFLOPS(초당 수조)에 달하는 최대 컴퓨팅 성능을 제공할 수 있으며, 구글도 이를 "현재까지 가장 성능이 뛰어나고 가장 에너지를 절약하는 TPU"라고 평가했습니다.


사진/구글

Google의 Trillium TPU와 비교할 때 NVIDIA Blackwell GPU는 고대역폭 메모리(HBM3) 및 CUDA 생태계 지원을 통해 고성능 컴퓨팅에서 여전히 특정 이점을 가지고 있습니다. 단일 시스템에서 Blackwell은 최대 576개의 GPU를 병렬로 연결하여 강력한 컴퓨팅 성능과 유연한 확장성을 달성할 수 있습니다.

이에 비해 Google의 Trillium TPU는 대규모 분산 학습에서 효율성과 낮은 지연 시간에 중점을 둡니다. TPU는 초고속 네트워크 상호 연결을 통해 통신 지연 시간을 줄여 대규모 모델 학습의 효율성을 유지하고 전반적인 컴퓨팅 효율성을 향상시키도록 설계되었습니다.

그리고 최신 세대의 AI 칩뿐만 아니라구글과 엔비디아의 '비밀 전쟁'은 실제로 구글이 자체 AI 칩 TPU를 개발한 2016년부터 8년 동안 이어져 왔다.

현재까지 NVIDIA의 H100 GPU는 현재 주류 시장에서 가장 인기 있는 AI 칩입니다. 최대 80GB의 고대역폭 메모리를 제공할 뿐만 아니라 HBM3 메모리를 지원하고 NVLink 상호 연결을 통해 여러 GPU의 효율적인 통신을 실현합니다. Tensor Core 기술을 기반으로 하는 H100 GPU는 딥 러닝 및 추론 작업에서 매우 높은 계산 효율성을 제공합니다.

그러나 동시에 TPUv5e는 비용 대비 성능 면에서 상당한 이점을 갖고 있으며 특히 중소 규모 모델 교육에 적합합니다. TPUv5e의 장점은 강력한 분산 컴퓨팅 성능과 최적화된 에너지 소비 비율로 인해 대규모 데이터 처리 시 뛰어난 성능을 발휘합니다. 또한 TPUv5e는 Google Cloud Platform을 통해서도 제공되므로 사용자는 유연한 클라우드 교육 및 배포를 수행할 수 있습니다.


구글 데이터센터, 사진/구글

전반적으로 NVIDIA와 Google은 AI 칩에 대해 서로 다른 전략을 가지고 있습니다. NVIDIA는 강력한 컴퓨팅 성능과 광범위한 개발자 지원을 제공하여 AI 모델의 성능 한계를 뛰어넘는 반면, Google은 대규모 AI 모델 훈련의 효율성을 통해 AI 칩 성능을 향상시킵니다. . 이 두 가지 다른 경로 선택을 통해 해당 응용 분야에서 고유한 이점을 보여줄 수 있습니다.

그러나 더 중요한 것은 Nvidia를 이길 수 있는 유일한 것은 소프트웨어와 하드웨어 공동 설계 전략을 채택하고 강력한 칩 기능과 소프트웨어 기능을 갖춘 회사라는 것입니다.

구글은 그러한 상대 중 하나이다.

엔비디아 패권에 대한 가장 강력한 도전자

Blackwell은 Hopper 이후 NVIDIA의 또 다른 주요 업그레이드입니다. 강력한 컴퓨팅 기능을 갖추고 있으며 LLM(대규모 언어 모델) 및 생성 AI용으로 설계되었습니다.

보고서에 따르면 B200 GPU는 TSMC의 N4P 프로세스를 사용하여 제조되었으며 최대 2,080억 개의 트랜지스터를 보유하고 상호 연결 기술을 사용하여 2개의 GPU 칩으로 "구성"되었으며 최대 192GB의 HBM3e(고대역폭 메모리)를 갖추고 있습니다. 최대 8TB/s의 대역폭.

성능면에서 Google의 Trillium TPU는 이전 세대 TPU v5e에 비해 BF16에서 4.7배 향상되었으며, HBM 용량과 대역폭은 물론 칩 상호 연결 대역폭도 2배 증가했습니다. 또한 Trillium TPU에는 3세대 SparseCore도 탑재되어 있어 지연 시간과 비용을 낮추면서 차세대 기본 모델의 학습을 가속화할 수 있습니다.

Trillium TPU는 특히 대규모 언어 모델 학습 및 추천 시스템에 적합합니다. 초당 PB 수준의 네트워크 상호 연결 기술을 통해 수백 세트로 확장하고 수만 개의 칩을 연결할 수 있어 또 다른 수준의 슈퍼 컴퓨터를 구현합니다. " , 컴퓨팅 효율성을 크게 향상시키고 네트워크 대기 시간을 줄입니다.


사진/구글

올해 하반기부터 구글 클라우드 사용자들이 이 칩을 가장 먼저 채택할 예정이다.

일반적으로 Google TPU의 하드웨어 장점은 효율적인 컴퓨팅 성능과 지연 시간이 짧은 분산 학습 아키텍처에 있습니다. 이로 인해 TPU는 대규모 언어 모델 및 추천 시스템 교육에 탁월합니다. 그러나 Google TPU의 장점은 CUDA와 독립적인 또 다른 완전한 생태계와 더 깊은 수직적 통합에 있습니다.

Google Cloud 플랫폼을 통해 사용자는 클라우드에서 유연하게 교육하고 배포할 수 있습니다. 이 클라우드 서비스 모델은 기업의 하드웨어 투자를 줄일 뿐만 아니라 AI 모델의 훈련 효율성도 향상시킵니다. 또한 Google과 Cloud는 TensorFlow, Jupyter Notebook 등 AI 개발을 지원하는 일련의 도구와 서비스를 제공하여 개발자가 모델을 더 쉽게 훈련하고 테스트할 수 있도록 해줍니다.


Apple에서 사용하는 Google TPU v5p, 사진/Google

Google의 AI 생태계에는 TPU의 하드웨어 가속 기능을 완벽하게 활용할 수 있는 널리 사용되는 오픈소스 머신러닝 프레임워크인 TensorFlow와 같은 다양한 개발 도구 및 프레임워크도 포함되어 있습니다. Google은 또한 TPU Estimator 및 Keras와 같은 AI 개발을 지원하는 다른 도구도 제공합니다. 이러한 도구의 원활한 통합은 개발 프로세스를 크게 단순화합니다.

또한 Google의 장점은 Google 자체가 TPU 컴퓨팅 성능에 대한 수요가 가장 큰 고객이라는 것입니다. YouTube의 대규모 비디오 콘텐츠 처리부터 Gemini의 모든 훈련 및 추론에 이르기까지 TPU는 오랫동안 Google의 비즈니스 시스템에 통합되어 왔으며 Google의 엄청난 컴퓨팅 성능 요구 사항도 충족했습니다.

Google의 수직적 통합은 Nvidia보다 훨씬 더 철저하다고 할 수 있으며, 모델 교육부터 애플리케이션, 사용자 경험에 이르기까지 핵심 노드를 거의 완벽하게 마스터했습니다. 이는 실제로 Google이 기술과 측면에서 바닥부터 시작할 수 있는 더 큰 가능성을 제공합니다. 시장 동향 효율성 최적화를 시작하세요.

따라서 Trillium TPU는 칩 성능 지표 측면에서 여전히 Blackwell GPU와 경쟁하기 어렵지만, 대형 모델 교육과 관련하여 Google은 NVIDIA의 CUDA 생태계와 경쟁하거나 능가할 수 있도록 체계적으로 효율성을 최적화할 수 있습니다.

Google Cloud에서 TPU를 사용하는 것이 Apple의 최선의 선택입니다.

간단히 말해서, Google TPU 클러스터의 성능, 비용, 생태학적 이점은 대규모 AI 모델 교육에 이상적인 선택입니다. 결과적으로 Google Cloud에서 TPU를 사용하는 것도 현 단계에서 Apple의 최선의 선택입니다.


TPU v4 기반의 슈퍼 컴퓨팅은 Apple에서도 사용됩니다.사진/구글

한편으로는 성능과 비용이 있습니다. TPU는 AI 모델 교육에 대한 Apple의 요구 사항을 충족하는 효율적이고 지연 시간이 짧은 컴퓨팅 기능을 제공하여 대규모 분산 교육 작업을 효과적으로 처리합니다. Apple은 Google Cloud 플랫폼을 사용하여 하드웨어 비용을 절감하고 컴퓨팅 리소스를 유연하게 조정하며 AI 개발의 전체 비용을 최적화할 수 있습니다.

다른 측면은 생태학입니다.또한 Google의 AI 개발 생태계는 Apple이 AI 모델을 보다 효율적으로 개발하고 배포할 수 있도록 다양한 도구와 지원을 제공하며, Google Cloud의 강력한 인프라 및 기술 지원과 결합되어 Apple의 AI 프로젝트를 위한 견고한 기반도 제공합니다.

올해 3월에는 Nvidia, IBM, Google에서 근무했던 Sumit Gupta가 Apple에 합류하여 클라우드 인프라를 주도했습니다. 보도에 따르면 수미트 굽타(Sumit Gupta)는 2021년 Google의 AI 인프라 팀에 합류했으며 결국 Google의 TPU, 자체 개발 Arm CPU 및 기타 인프라의 제품 관리자가 되었습니다.

Sumit Gupta는 Apple 내부의 대부분의 사람들보다 Google TPU의 장점을 더 잘 이해하고 있습니다.

2024년 상반기, 기술계는 격동적이다.
대형 모델의 구현이 가속화되고 있으며 AI 휴대폰, AI PC, AI 가전제품, AI 검색, AI 전자상거래... AI 애플리케이션이 끝없이 등장하고 있습니다.
Vision Pro는 판매를 시작하고 중국 시장에 상륙하며 XR 공간 컴퓨팅의 또 다른 물결을 일으켰습니다.
HarmonyOS NEXT가 공식 출시되어 모바일 OS 생태계를 변화시켰습니다.
자동차는 완전히 '하반기'에 진입했으며 지능이 최우선 과제가 되었습니다.
전자상거래 경쟁은 가격이 낮아지고 서비스가 향상되면서 점점 치열해지고 있습니다.
해외 진출의 물결이 거세지고 중국 브랜드가 세계화의 여정을 시작하고 있습니다.

7월에는 레이테크놀로지·중간리뷰 주제가 온라인으로 올라와 기술업계에서 2024년 상반기에 기록할 가치가 있는 브랜드와 기술, 제품을 정리하고 과거를 기록하고 미래를 기대하고 있으니 많은 관심 부탁드립니다.