2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
ChatGPT가 탄생하기 전, 구글은 단독으로 전 세계 인공지능 발전에 중요한 물결을 일으켰습니다. 전 세계적으로 떠들썩했던 것은 구글 알파고가 '인간-기계 전쟁'에서 한국의 바둑기사 이세돌을 꺾었다는 것입니다. 2016년에. 그 이면에는 알파고의 '가장 강력한 두뇌'의 작동을 뒷받침하는 TPU 칩이 중요하며, 지금도 계속해서 개선되고 있다.
TPU는 원래 내부 워크로드용으로 만들어졌지만 여러 장점으로 인해 Google 내에서 널리 사용되고 AI의 중추가 될 뿐만 아니라 Apple과 같은 거대 기술 기업과 많은 대형 모델에서 선호하고 경쟁적으로 적용했습니다. 스타트업. 돌이켜보면 TPU 칩은 탄생한 지 10년 만에 점차 AI 산업의 가장자리에서 무대의 중심으로 옮겨갔다. 하지만 TPU 인프라는 주로 TensorFlow와 JAX를 중심으로 구축되기 때문에 Google도 어느 정도 '기술적 섬'과 같은 과제에 직면해 있습니다.
10년 동안 인공지능 혁신을 '따라가기'
머신러닝과 딥러닝 알고리즘의 심층적인 발전으로 고성능, 저전력 전용 AI 컴퓨팅 칩에 대한 업계의 수요가 급증하고 있습니다. 그러나 그래픽 가속, 비디오 렌더링 등 복잡한 작업에 특화된 기존 범용 CPU와 GPU는 딥러닝 워크로드의 막대한 요구를 충족할 수 없는 동시에 효율성이 낮고 전용 컴퓨팅이 제한되는 등의 문제도 있습니다.
구글의 최고과학자인 제프 딘(Jeff Dean)은 “매일 수억 명의 사람들이 구글과 3분씩 대화를 나눈다면 얼마나 많은 컴퓨팅 파워가 필요할지 대략적으로 계산해봤다”고 말했다. 즉, 이러한 새로운 기능을 지원하려면 Google 데이터 센터의 컴퓨터 수가 두 배로 늘어나야 합니다."
이에 구글은 보다 비용 효율적이고 에너지 절약적인 머신러닝 솔루션을 모색하는 데 전념했고, 즉시 TPU 프로젝트를 시작했으며, 2015년 1세대 TPU 칩(TPU v1)이 내부적으로 온라인화됐다고 발표했다. TPU는 AI 모델을 구축하는 데 필요한 고유한 매트릭스 및 벡터 기반 수학 연산 실행을 포함하여 단일 특정 목적을 위해 설계된 ASIC(응용프로그램별 집적 회로)입니다. GPU의 행렬 연산과 달리 PU의 대표적인 특징은 MXU(행렬 곱셈 장치)입니다.
Google 부사장 겸 엔지니어링 학자 Norm Jouppi에 따르면 TPU의 출현으로 Google은 15개의 데이터 센터를 절약할 수 있었습니다. TPU가 더 비용 효율적인 중요한 이유는 Google의 소프트웨어 스택이 GPU보다 수직적으로 통합되어 있기 때문입니다. Google은 모델 구현(Vertex Model Garden)부터 딥 러닝 프레임워크(Keras, JAX, TensorFlow), TPU에 최적화된 컴파일러(XLA)에 이르기까지 전체 소프트웨어 스택을 구축하는 전담 엔지니어링 팀을 보유하고 있습니다.
성능 측면에서 TPU v1은 65536 8비트 MAC(Matrix Multiplication Unit), 92 TOPS의 최고 성능 및 28MiB의 온칩 메모리 공간을 갖추고 있습니다. CPU 및 GPU와 비교할 때 TPU v1은 응답 시간과 에너지 효율성 측면에서 우수한 성능을 발휘하며 신경망의 추론 속도를 크게 향상시킬 수 있습니다. TPU v1의 성공으로 Google은 머신러닝 칩의 개발 전망이 넓다는 사실을 깨닫고 TPU v1을 기반으로 더욱 발전된 성능과 효율성을 갖춘 제품을 계속해서 업그레이드하고 출시하고 있습니다.
예를 들어 TPU v2 및 TPU v3은 보다 복잡한 AI 작업을 지원하기 위한 서버 측 AI 추론 및 교육 칩으로 설계되었습니다. TPU v4는 확장성과 유연성을 더욱 향상하고 대규모 AI 컴퓨팅 클러스터 구축을 지원합니다. 그중 TPU v2는 최초로 단일 칩 설계를 더 큰 슈퍼컴퓨팅 시스템으로 확장하여 256개의 TPU 칩으로 구성된 TPU Pod를 구축합니다. 또한 TPU v3에는 액체 냉각 기술이 추가되고, TPU v4에는 광회로 스위치가 도입되어 성능과 효율성이 더욱 향상됩니다.
2023년 TPU v5 칩이 직면한 '과장된' 의심과 논란을 고려하여 Google은 TPU v5e 버전으로 직접 뛰어올랐습니다. TPU v5e는 단일 TensorCore 아키텍처를 사용하여 아키텍처에서 조정되었습니다. INT8의 최대 컴퓨팅 성능은 v4의 275 TFLOPS를 초과하는 393 TFLOPS입니다. 그러나 BF16의 최대 컴퓨팅 성능은 197 TFLOPS에 불과합니다. 이전 세대 v4 수준. 이는 TPU v5e가 추론 작업에 더 적합하고 AI 컴퓨팅 파워 서비스 시장에 대한 Google의 전략적 선택을 반영할 수도 있음을 보여줍니다.
구글은 올해 5월 I/O 개발자 컨퍼런스에서 6세대 TPU 트릴리움을 출시했다. Google Cloud Machine Learning, Systems 및 Cloud AI 부사장 겸 총괄 관리자인 Amin Vadhat은 Trillium TPU의 최고 컴퓨팅 성능이 이전 세대 TPU v5e보다 4.7배 이상 높으며 에너지 효율성은 67% 이상이라고 말했습니다. TPU v5e보다 높은 동시에 고대역폭 메모리 용량과 대역폭이 두 배로 늘어나고, 고급 AI 시스템의 요구 사항을 충족하기 위해 칩 간 상호 연결 대역폭도 두 배로 늘어납니다.
Trillium은 고대역폭, 지연 시간이 짧은 단일 Pod에서 TPU를 최대 256개까지 확장할 수 있다는 점을 언급할 가치가 있습니다. Google의 고급 포드 수준 확장성, 멀티 슬라이스 기술, 티타늄 지능형 처리 장치를 활용하면 사용자는 수백 개의 Trillium TPU 개별 포드를 연결하여 페타바이트 규모의 슈퍼컴퓨터와 데이터 센터 네트워크를 구축할 수 있습니다.
전반적으로 TPU 기술 솔루션의 장점은 보다 중앙 집중화된 아키텍처 설계에 있습니다. 동일한 보드에 여러 개의 GPU를 연결하는 것과 달리 TPU를 큐브 형태로 구성해 칩 간 통신이 더욱 빨라졌으며, 브로드컴과의 심층적인 협력을 통해 통신 전송 속도도 대폭 향상됐다. 또한 전용 시나리오 및 사용 사례 요구 사항에 따라 제품 최적화 및 반복을 보다 빠르게 촉진할 수 있습니다. 그러나 TPU 인프라는 주로 TensorFlow와 JAX를 중심으로 구축되고, 업계에서는 혁신을 위해 HuggingFace 모델과 PyTorch를 사용하는 것이 더 주류이기 때문에 Google도 어느 정도 '기술적 섬' 문제에 직면해 있습니다.
Apple 및 다수의 AI 스타트업이 채택
애플리케이션 측면에서 Google TPU 프로젝트는 원래 특정 내부 요구를 위해 만들어졌으며 다양한 부서에서 빠르게 널리 사용되었으며 AI 분야에서 가장 성숙하고 진보된 맞춤형 칩 중 하나가 되었습니다. Google 기계 학습 하드웨어 시스템의 수석 엔지니어인 Andy Swing에 따르면 원래는 TPU v1을 10,000개 미만으로 생산할 것으로 예상했지만 결국 광고, 검색, 음성, AlphaGo, 심지어 자율 주행까지 포함하는 애플리케이션을 포함하여 100,000개 이상을 생산했습니다. 다른 분야.
성능과 효율성이 지속적으로 향상되면서 TPU 칩은 점차 Google의 AI 인프라이자 거의 모든 제품의 AI 백본이 되었습니다. 예를 들어 Google Cloud Platform은 AI 인프라를 지원하기 위해 TPU 칩을 광범위하게 사용합니다. 이러한 칩은 기계 학습 모델의 학습 및 추론 프로세스를 가속화하고 고성능의 효율적인 컴퓨팅 기능을 제공하는 데 사용됩니다. Google Cloud Platform을 통해 사용자는 TPU 칩 기반의 가상 머신 인스턴스(VM)에 액세스하여 자체 머신러닝 모델을 학습하고 배포할 수 있습니다.
클라우드 서비스에 대한 좋은 사용자 기반을 확보했지만 Google은 하드웨어를 사용자에게 직접 판매하지 않습니다. 업계 분석가들은 구글이 TPU를 팔면 엔비디아에 직접 도전하는 것이 OpenAI와 치열하게 경쟁하고 있다는 점을 지적한다. 동시에 하드웨어 판매에는 높은 오버헤드와 복잡한 공급망 관리가 직접적으로 수반되는 반면, 클라우드 서비스를 통해 TPU를 제공하면 설치, 배포 및 관리 프로세스가 단순화되어 불확실성과 추가 오버헤드가 줄어듭니다.
한편, 구글 클라우드와 엔비디아 간의 긴밀한 협력도 고려해야 한다. Google은 내부적으로 NVIDIA GPU를 사용할 뿐만 아니라 고성능 컴퓨팅 및 AI 애플리케이션에 대한 고객 요구를 충족하기 위해 클라우드 서비스 플랫폼에서 NVIDIA GPU 기반 서비스도 제공합니다.
Nvidia의 AI 칩이 거대 기술 기업의 "필수 경쟁"이 된 것은 사실이지만 업계에서는 더욱 다양한 옵션도 모색하고 있습니다. 내부적으로는 널리 활용됐지만, 구글도 TPU를 활용해 인공지능 혁신에 발맞춰 더 많은 고객에게 AI 서비스를 제공하려고 노력하고 있다. Andy Swing은 “우리의 TPU 및 Pod 설정은 현재 데이터 센터 기능에 가장 잘 맞는 위치에 있지만 요구 사항을 더 잘 충족하기 위해 데이터 센터 설계를 변경하고 있습니다. 따라서 오늘 준비한 솔루션은 솔루션과 매우 다를 것입니다. 내일은 TPU로 가득 찬 글로벌 데이터 센터 네트워크를 구축할 예정입니다.”
현재 전 세계의 많은 기술 회사들이 Google의 TPU 칩을 사용하고 있습니다. 예를 들어, Apple은 "이 시스템을 사용하면 AFM 장치, AFM 서버 및 대형 모델을 포함한 AFM 모델을 효율적이고 확장 가능하게 훈련할 수 있습니다"라고 말하면서 인공 지능 모델을 훈련하기 위해 Google TPU를 사용한다고 인정했습니다. 6조 3천억 개의 토큰 훈련을 수행하기 위해 시퀀스 길이 4096과 배치 크기 4096 시퀀스를 사용하여 8192 TPUv4 칩에서 서버 AFM을 처음부터 훈련했습니다. 또한 기기측 AFM은 2048 Google TPUv5p 칩에서 학습되었습니다.
다른 데이터에 따르면 자금을 지원받은 생성 AI 스타트업의 60% 이상이, 생성 AI 유니콘의 약 90%가 Google Cloud의 AI 인프라와 Cloud TPU 서비스를 사용하고 있으며 다양한 사회경제 분야에서 널리 사용되고 있는 것으로 나타났습니다.
예를 들어 Anthropic, Midjourney, Salesforce, Hugging Face, AssemblyAI 등 잘 알려진 AI 스타트업에서는 Cloud TPU를 광범위하게 사용하고 있습니다. 그중 'OpenAI 라이벌'인 Anthropic은 Google Cloud TPU v5e 칩을 사용하여 대규모 언어 모델 Claude에 대한 하드웨어 지원을 제공하여 모델 훈련 및 추론 프로세스를 가속화합니다. 또한 많은 과학 연구 및 교육 기관에서도 AI 관련 연구 프로젝트를 지원하기 위해 Google TPU 칩을 사용하고 있습니다. 이러한 기관은 TPU 칩의 고성능 컴퓨팅 성능을 사용하여 실험 프로세스를 가속화함으로써 최첨단 과학 연구 및 교육 진행을 촉진할 수 있습니다.
구글의 공식 정보에 따르면 최신 TPU의 운영 비용은 시간당 2달러 미만이지만, 고객이 이를 사용하려면 3년 전에 미리 예약해야 한다는 점은 주목할 만하다. 이는 빠르게 변화하는 업계에서 대형 모델 회사에 중요한 과제를 안겨줄 수 있습니다.
어쨌든 TPU의 10년 여정은 업계가 CPU와 GPU 외에도 AI에 필요한 컴퓨팅 성능을 추구하는 데 있어 새로운 길을 가고 있음을 성공적으로 입증했습니다. TPU는 거의 모든 Google 제품과 제품에서 AI 기능의 핵심이 되었습니다. Google DeepMind의 고급 기본 모델은 물론 대형 모델 산업 전체의 급속한 발전을 지원합니다. 앞으로 AI 기술이 계속 발전하고 시장이 계속 확장됨에 따라 더 많은 기업이 AI 컴퓨팅 요구 사항을 충족하기 위해 Google TPU 칩을 사용할 수 있습니다. 그러나 AI 하드웨어는 더욱 전문화되어 하드웨어와 모델이 더욱 긴밀하게 통합되어 프레임워크 외부에서 새로운 혁신 가능성을 찾는 것이 어려워질 수도 있습니다.