2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
이후채팅GPT폭발 이후 대형 AI 모델의 연구개발이 속속 등장했다. 이번 '100모드 전쟁'이 본격화되는 동안 미국의 칩 기업 엔비디아는 대형 모델 연산에서 GPU의 뛰어난 성능으로 많은 돈을 벌었다. .
그러나 최근 Apple의 움직임으로 인해 Nvidia의 열정이 약간 식었습니다.
AI 모델 훈련, 애플은 GPU 대신 TPU를 선택
NVIDIA는 AI 컴퓨팅 인프라 분야에서 항상 선두 자리를 지켜왔습니다. 특히 AI 교육 분야에서는 NVIDIA GPU가 Amazon, Microsoft에서 항상 선두 자리를 지켜왔습니다. , 메타,오픈AI AI 및 기계 학습 분야의 많은 거대 기술 기업이 선호하는 컴퓨팅 성능 솔루션입니다.
따라서 Nvidia는 업계에서 계속해서 다양한 도전에 직면하고 있습니다. 경쟁사 중에는 GPU의 독립적인 연구 및 개발에 있어 강력한 플레이어가 많을 뿐만 아니라 혁신적인 아키텍처를 탐구하는 선구자들도 있습니다. 구글의 TPU 역시 특유의 장점으로 인해 엔비디아가 무시할 수 없는 강력한 상대가 됐다.
7월 30일, 애플은 연구 논문을 발표했습니다. 논문에서 Apple은 Apple Intelligence-AFM-on-device(AFM은 Apple Basic Model의 약자)와 AFM-server(대형 서버 기반 언어 모델)를 지원하는 두 가지 모델을 소개했습니다. 1억 개의 매개변수 언어 모델이 있는데, 후자는 서버 기반 언어 모델입니다.
Apple은 AI 모델을 훈련하기 위해 Google의 두 가지 유형의 텐서 프로세서(TPU)를 사용했으며 이러한 장치는 대형 칩 클러스터로 구성되었다고 논문에서 밝혔습니다. iPhone 및 기타 장치에서 실행할 수 있는 AI 모델인 AFM-on-device를 구축하기 위해 Apple은 2048 TPUv5p 칩을 사용합니다. 서버 AI 모델 AFM 서버의 경우 Apple은 8192 TPUv4 프로세서를 배포했습니다.
Nvidia GPU를 포기하고 Google TPU로 전환하려는 Apple의 전략적 선택은 기술 세계에 충격 폭탄을 떨어뜨렸습니다. 그날 Nvidia의 주가는 7% 이상 하락해 3개월 만에 최대 하락폭을 기록했고 시장 가치는 1,930억 달러나 증발했습니다.
업계 관계자는 애플의 결정은 일부 대형 기술 기업이 인공지능 훈련과 관련하여 엔비디아의 그래픽 처리 장치에 대한 대안을 찾고 있을 수 있음을 시사한다고 말했습니다.
TPU VS GPU, 어느 것이 대형 모델에 더 적합할까요?
대형 모델에 TPU와 GPU 중 어느 것이 더 적합한지 논의하기 전에 둘에 대한 사전 이해가 필요합니다.
TPU와 GPU의 비교
Tensor Processor Unit의 전체 이름인 TPU는 기계 학습 작업 부하를 가속화하기 위해 Google이 설계한 특수 칩으로 주로 딥 러닝 모델의 훈련 및 추론에 사용됩니다. TPU도 ASIC 칩 범주에 속하며 ASIC은 특정 특정 요구에 맞게 특별히 맞춤화된 칩이라는 점은 주목할 가치가 있습니다.
GPU는 원래 그래픽 렌더링용으로 설계되었으며 나중에 병렬 컴퓨팅 및 딥 러닝에 널리 사용되는 프로세서입니다. 강력한 병렬 처리 능력을 갖추고 있으며, 최적화된 GPU는 딥러닝, 과학 컴퓨팅 등 병렬 작업에도 매우 적합합니다.
이 두 개의 서로 다른 칩은 초기 설계에서 서로 다른 목표를 갖고 있음을 알 수 있습니다.
기존 CPU와 비교할 때 GPU의 병렬 컴퓨팅 기능은 대규모 데이터 세트 및 복잡한 컴퓨팅 작업을 처리하는 데 특히 적합합니다. 따라서 최근 몇 년 동안 대규모 AI 모델이 폭발적으로 증가함에 따라 GPU는 한때 컴퓨팅 하드웨어의 첫 번째 선택이 되었습니다. AI 훈련.
그러나 대규모 AI 모델이 지속적으로 개발되면서 컴퓨팅 작업이 기하급수적으로 커지고 복잡해지면서 컴퓨팅 성능과 컴퓨팅 리소스에 대한 새로운 요구 사항이 제시되었습니다. GPU를 AI 컴퓨팅에 사용할 경우 컴퓨팅 성능 활용률이 낮습니다. 높은 에너지 효율의 에너지 소비 병목 현상, NVIDIA GPU 제품의 높은 가격 및 공급 부족으로 인해 원래 딥 러닝 및 머신 러닝용으로 설계된 TPU 아키텍처에 더 많은 관심이 집중되었습니다. 이 분야에서 GPU의 지배력은 도전에 직면하기 시작했습니다.
구글은 이르면 2013년부터 AI 머신러닝 알고리즘 전용 칩 개발을 내부적으로 시작한 것으로 전해지고 있으며, TPU라는 자체 개발 칩이 공식적으로 공개된 것은 2016년이 되어서였다. 2016년 3월 이세돌, 2017년 5월 커제를 이겼다. 알파고, Google의 TPU 시리즈 칩을 사용하여 학습되었습니다.
TPU가 AI 대형 모델 훈련에 더 적합하다고 하면 그 '기술'을 자세히 설명하지 않고는 모두를 설득하기 어려울 수도 있다.
TPU는 대규모 모델 훈련에 어떻게 적합합니까?
첫째, TPU는 컴퓨팅 효율성을 향상시키기 위해 다차원 컴퓨팅 장치를 갖추고 있습니다.CPU의 스칼라 컴퓨팅 장치 및 GPU의 벡터 컴퓨팅 장치와 비교하여 TPU는 2차원 또는 더 높은 차원의 컴퓨팅 장치를 사용하여 컴퓨팅 작업을 완료하고 컨볼루션 연산 루프를 확장하여 데이터 재사용을 최대화하고 데이터를 줄입니다. 전송 비용을 절감하고 가속 효율성을 향상시킵니다.
둘째, TPU는 더 많은 시간을 절약해 주는 데이터 전송과 고효율 제어 장치를 갖추고 있습니다.폰 노이만 아키텍처로 인해 발생하는 메모리 벽 문제는 딥 러닝 작업에서 특히 두드러지며 TPU는 데이터 전송을 설계하기 위해 보다 급진적인 전략을 채택하고 제어 장치는 더 작아져 온칩 메모리와 컴퓨팅 장치를 위한 더 많은 공간을 확보합니다.
마지막으로 TPU는 AI를 가속화하고 AI/ML 컴퓨팅 기능을 향상하도록 설계되었습니다.정확한 위치 지정, 간단한 아키텍처, 단일 스레드 제어 및 맞춤형 명령 세트를 갖춘 TPU 아키텍처는 딥 러닝 작업에서 매우 효율적이고 확장이 용이하여 초대형 AI 훈련 계산에 더 적합합니다.
Google TPUv4는 NVIDIA A100보다 전력 소비가 1.3~1.9배 낮은 것으로 보고되었으며, Bert 및 ResNet과 같은 다양한 작업 모델에서는 효율성이 A100보다 1.2~1.9배 더 높습니다. NVIDIA A100보다 1.3~1.9배 더 낮은 전력 소비를 달성할 수 있으며, 컴퓨팅 성능을 2배/10배 가까이 향상시킬 수 있습니다. Google TPU 제품은 NVIDIA 제품보다 비용 및 전력 소비 측면에서 더 많은 이점을 갖고 있음을 알 수 있습니다.
올해 5월 I/O 2024 개발자 컨퍼런스에서 알파벳 CEO 순다르 피차이(Sundar Pichai)는 6세대 데이터센터 AI 칩 텐서 프로세서 유닛(TPU)-트릴리움(Trillium)을 발표하며, 이 제품은 이전 제품보다 거의 5배 빠르며, 올해 말에 배송이 가능할 것이라고 합니다.
구글은 6세대 트릴리움 칩의 컴퓨팅 성능은 TPU v5e 칩보다 4.7배, 에너지 효율은 v5e보다 67% 높다고 밝혔다. 이 칩은 대형 모델에서 텍스트와 기타 콘텐츠를 생성하는 기술을 구동하도록 설계되었습니다. 구글은 또한 올해 말까지 6세대 트릴리움 칩을 클라우드 고객에게 제공할 것이라고 밝혔습니다.
Google 엔지니어들은 고대역폭 메모리 용량과 전체 대역폭을 늘려 추가적인 성능 향상을 달성했습니다. AI 모델에는 대량의 고급 메모리가 필요하며, 이는 성능을 더욱 향상시키는 데 병목 현상이 되어 왔습니다.
구글은 자체 TPU 칩을 별도로 독립 제품으로 판매하지 않고, 구글 클라우드 플랫폼(GCP)을 통해 외부 고객에게 TPU 기반 컴퓨팅 서비스를 제공할 예정이라는 점은 주목할 만하다.
이 계획에서도 Google의 영리함을 볼 수 있습니다. 하드웨어 판매에는 직접적으로 높은 비용과 복잡한 공급망 관리가 필요합니다. Google은 클라우드 서비스를 통해 TPU를 제공함으로써 설치, 배포, 관리 프로세스를 단순화하고 불확실성과 추가 오버헤드를 줄일 수 있습니다. 또한 이 모델은 판매 프로세스를 단순화하므로 추가 하드웨어 판매 팀을 구성할 필요가 없습니다. 또한 Google은 생성 AI를 위해 OpenAI와 치열한 경쟁을 벌이고 있습니다. Google이 TPU 판매를 시작하면 Nvidia 및 OpenAI라는 두 강력한 상대와 동시에 경쟁하게 될 것입니다. 이는 현재로서는 가장 현명한 전략이 아닐 수 있습니다.
기사의 이 시점에서 일부 사람들은 다음과 같이 질문할 수 있습니다. TPU가 이렇게 뛰어난 성능 이점을 갖고 있는데 가까운 시일 내에 GPU가 GPU를 대체하게 될까요?
이제 GPU 교체에 대해 이야기하고 있습니까? 어쩌면 너무 이르지 않을까
이 문제는 그렇게 간단하지 않습니다.
GPU의 장점을 말하지 않고 TPU의 장점만을 이야기하는 것은 눈을 멀게 하는 것입니다. 다음으로 TPU와 비교하여 GPU가 현재 AI 대형 모델 훈련에 어떻게 적합한지 이해해야 합니다.
TPU의 장점은 뛰어난 에너지 효율 비율과 단위 비용 컴퓨팅 성능 지표에 있지만 ASIC 칩으로서 높은 시행착오 비용이라는 단점도 상대적으로 분명합니다.
또한 생태계의 성숙도 측면에서도 그렇습니다. 수년간의 개발 끝에 GPU는 크고 성숙한 소프트웨어 및 개발 도구 생태계를 보유하게 되었습니다. 많은 개발자와 연구기관에서는 오랫동안 GPU를 기반으로 개발과 최적화를 진행해 왔으며, 풍부한 라이브러리와 프레임워크, 알고리즘을 축적해 왔습니다. TPU 생태계는 상대적으로 새롭고 사용 가능한 리소스와 도구가 GPU만큼 풍부하지 않을 수 있으므로 개발자의 적응과 최적화가 더 어려울 수 있습니다.
다양성 측면에서. GPU는 원래 그래픽 렌더링용으로 설계되었지만 아키텍처는 매우 유연하며 딥 러닝뿐만 아니라 다양한 유형의 컴퓨팅 작업에도 적응할 수 있습니다. 이를 통해 다양한 애플리케이션 시나리오에 직면할 때 GPU의 적응성이 향상됩니다. 이와 대조적으로 TPU는 머신러닝 워크로드를 위해 맞춤 설계되었으며 머신러닝과 관련되지 않은 다른 컴퓨팅 작업을 GPU만큼 효율적으로 처리하지 못할 수도 있습니다.
마지막으로, GPU 시장의 경쟁은 치열합니다. 다양한 제조업체가 계속해서 기술 혁신과 제품 업데이트를 추진하고 있으며, 새로운 아키텍처와 성능 개선이 더 자주 이루어지고 있습니다. TPU의 개발은 주로 Google이 주도하므로 업데이트 및 진화 속도가 상대적으로 느릴 수 있습니다.
전반적으로 NVIDIA와 Google은 AI 칩에 대해 서로 다른 전략을 가지고 있습니다. NVIDIA는 강력한 컴퓨팅 성능과 광범위한 개발자 지원을 제공하여 AI 모델의 성능 한계를 뛰어넘는 반면, Google은 대규모 AI 모델 훈련의 효율성을 통해 AI 칩 성능을 향상시킵니다. . 이 두 가지 다른 경로 선택을 통해 해당 응용 분야에서 고유한 이점을 보여줄 수 있습니다.
Apple이 Google TPU를 선택한 이유는 다음과 같은 점 때문일 수 있습니다. 첫째, TPU는 대규모 분산 학습 작업을 처리할 때 성능이 뛰어나고 효율적이고 지연 시간이 짧은 컴퓨팅 기능을 제공합니다. 둘째, Google Cloud 플랫폼을 사용하면 Apple이 하드웨어를 줄일 수 있습니다. 비용을 절감하고 유연성을 확보하여 AI 개발의 전체 비용을 최적화하세요. 또한 Google의 AI 개발 생태계는 Apple이 AI 모델을 보다 효율적으로 개발하고 배포할 수 있도록 풍부한 도구와 지원도 제공합니다.
Apple의 예는 대규모 모델 훈련에서 TPU의 기능을 입증합니다. 그러나 NVIDIA에 비해 TPU는 여전히 대형 모델 분야에서 거의 사용되지 않습니다. OpenAI, Tesla 및 ByteDance와 같은 거대 기업을 포함하여 여전히 NVIDIA GPU를 사용하는 경우가 많습니다.
따라서 Google의 TPU가 Nvidia의 GPU를 이길 수 있다고 말하기는 이르지만 TPU는 매우 도전적인 플레이어임에 틀림없습니다.
GPU의 도전자는 TPU만이 아니다
중국에도 TPU 칩에 투자하고 있는 회사가 있는데 바로 Zhonghao Xinying입니다. Zhonghao Xinying의 창립자인 Yang Gongyifan은 한때 Google에서 핵심 칩 R&D 직원으로 근무했으며 Google TPU 2/3/4의 설계 및 R&D에 깊이 관여했습니다. 그의 견해로는 TPU는 대형 AI 모델에 유리한 아키텍처입니다. .
2023년, Zhonghao Xinying의 'Snap' 칩이 공식적으로 탄생했습니다. 1,024개 칩의 고유한 고속 칩 간 상호 연결 기능을 갖춘 "Snap" 칩은 "Taize"라는 대규모 지능형 컴퓨팅 클러스터를 구축했으며, 시스템 클러스터 성능은 기존 GPU보다 수십 배 더 높습니다. 1000억 개가 넘는 매개변수를 갖춘 AIGC입니다. 대규모 모델의 훈련과 추론은 전례 없는 컴퓨팅 성능을 보장합니다. 이 성과는 Zhonghao Xinying이 AI 컴퓨팅 성능 기술 분야에서 심오한 축적을 보여줄 뿐만 아니라 국제 무대에서 국내 칩의 귀중한 위치를 차지하게 되었습니다.
그러나 오늘날의 인공 지능 골드러시에서 NVIDIA H100 칩은 공급이 부족하고 가격이 비쌉니다. 크고 작은 기업은 기존 GPU 경로를 사용하는 기업과 기업의 새로운 아키텍처를 탐색하는 등 NVIDIA의 AI 칩 제품을 대체하려고 합니다.
GPU가 직면한 과제는 TPU를 훨씬 넘어서는 것입니다.
GPU 경로 연구 및 개발에서 Nvidia의 가장 큰 경쟁자는(주)에스디에이치디(주), 올해 1월 연구원들은 Frontier 슈퍼컴퓨팅 클러스터의 GPU 중 약 8%를 사용하여 GPT 3.5 수준에서 대규모 모델을 훈련했습니다. Frontier 슈퍼컴퓨팅 클러스터는 37,888개의 MI250X GPU와 9,472개의 Epyc 7A53 CPU로 구성된 AMD 하드웨어를 기반으로 하며, AMD 하드웨어에서 고급 분산 교육 모델의 어려움을 극복하여 AMD 플랫폼을 위한 대규모 교육 플랫폼을 제공합니다. 타당성.
동시에 CUDA 생태계는 점차 무너지고 있습니다. 올해 7월 영국 회사인 Spectral Compute는 AMD GPU용 CUDA 소스 코드를 기본적으로 컴파일할 수 있는 솔루션을 출시하여 AMD GPU와 CUDA의 호환성 효율성을 크게 향상시켰습니다.
인텔가우디3도 출시 당시 엔비디아 H100을 직접 벤치마킹한 바 있다. 인텔은 올해 4월 딥러닝과 대규모 생성 AI 모델을 위한 가우디 3(Gaudi 3)를 출시했다. 인텔은 이전 세대에 비해 가우디 3가 부동 소수점 형식 BF16 AI 컴퓨팅 성능은 4배, 메모리 대역폭은 1.5배 증가했다고 밝혔다. 대규모 시스템 확장을 위한 네트워크 대역폭이 2배로 늘어납니다. 엔비디아 칩 H100과 비교해 7B, 13B 매개변수를 갖는 Meta Llama2 모델과 175B 매개변수를 갖는 OpenAI GPT-3 모델에 Gaudi 3를 적용하면 이들 모델의 훈련 시간을 평균 50% 단축할 수 있을 것으로 예상된다.
또한 매개변수가 7B, 70B인 Llama와 매개변수가 180B인 오픈소스 Falcon 모델에 적용하면 Gaudi 3의 추론 처리량은 H100보다 평균 50%, 추론 효율은 평균 40% 높아질 것으로 예상된다. 또한 Gaudi 3는 더 긴 입력 및 출력 시퀀스에서 더 큰 추론 성능 이점을 제공합니다.
매개변수가 7B와 70B인 Llama와 매개변수가 180B인 Falcon 모델에 적용하면 NVIDIA H200에 비해 Gaudi 3의 추론 속도가 30% 향상됩니다.
인텔은 Gaudi 3가 올해 3분기에 고객에게 출시될 예정이며 2분기에는 Dell, HPE, Lenovo 및 Supermicro를 포함한 OEM이 출시될 것이라고 밝혔지만 Gaudi 3의 가격대는 발표되지 않았습니다.
지난 11월,마이크로소프트이번 Ignite Technology Conference에서는 자체 개발한 AI 칩인 Azure Maia 100과 클라우드 소프트웨어 서비스에 사용되는 칩인 Azure Cobalt를 공개했습니다. 두 칩은 TSMC에서 제조되며 5nm 공정 기술을 사용합니다.
엔비디아의 고급 제품은 개당 3만~4만 달러에 팔릴 때도 있는 것으로 전해진다. ChatGPT에 사용되는 칩은 1만 개 정도 필요한 것으로 알려져 있는데, 이는 AI 기업들에게는 엄청난 비용이다. AI 칩 수요가 많은 주요 기술 기업들은 대체 공급원을 필사적으로 찾고 있으며, 마이크로소프트는 비용을 줄이면서 ChatGPT와 같은 생성 AI 제품의 성능을 향상시키기 위해 자체 제품 개발을 선택했습니다.
Cobalt는 128개 코어를 갖춘 Arm 아키텍처 기반의 범용 칩입니다. Maia 100은 Azure 클라우드 서비스 및 AI 워크로드용으로 특별히 설계된 ASIC 칩으로, 트랜지스터 수는 1,050억 개에 이릅니다. 이 두 칩은 Microsoft Azure 데이터 센터로 가져와 OpenAI 및 Copilot과 같은 서비스를 지원합니다.
Azure 칩 부서 담당 부사장인 Rani Borkar는 Microsoft가 Bing 및 Office AI 제품과 함께 Maia 100 칩 테스트를 시작했다고 말했습니다. Microsoft의 주요 AI 파트너인 ChatGPT 개발자 OpenAI도 테스트를 진행 중입니다. 일부 시장에서는 마이크로소프트, 오픈AI(OpenAI) 등 기업이 육성한 대규모 언어 모델이 본격화되기 시작한 것과 마찬가지로 마이크로소프트의 AI 칩 프로젝트 시기도 우연이라고 본다.
그러나 마이크로소프트는 자사의 AI 칩이 엔비디아 제품을 광범위하게 대체할 수 있다고 믿지 않습니다. 일부 분석가들은 Microsoft의 노력이 성공한다면 향후 Nvidia와의 협상에서 이점을 얻는 데 도움이 될 수도 있다고 믿습니다.
칩 대기업 외에도 스타트업 기업의 영향력도 부족하지 않습니다. 예를 들어 Groq이 출시한 LPU, Cerebras가 출시한 Wafer Scale Engine 3, Etched가 출시한 Sohu 등이 있습니다.
현재 Nvidia는 인공 지능 데이터 센터 칩 시장의 약 80%를 통제하고 있으며 나머지 20%의 대부분은 Google TPU의 다른 버전에 의해 통제되고 있습니다. TPU의 시장점유율은 앞으로도 계속 상승할 것인가? 얼마나 성장할 것인가? 기존 시장 구조를 3개로 나눌 AI 칩의 다른 아키텍처가 있을까요? 이러한 서스펜스는 앞으로 몇 년 안에 점차 드러날 것으로 예상된다.