noticias

Diez años de arduo trabajo: ¿Por qué el chip TPU de Google puede “comerse” a Apple?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Antes del nacimiento de ChatGPT, Google había desencadenado por sí solo una ola importante en el desarrollo de la inteligencia artificial en el mundo. Lo que resonó en todo el mundo fue que Google AlphaGo derrotó al jugador coreano de Go Lee Sedol en la "Guerra Hombre-Máquina". en 2016. Detrás de esto, el chip TPU que respalda el funcionamiento del "cerebro más poderoso" de AlphaGo es crucial y todavía se está mejorando de forma iterativa.

Aunque TPU se creó originalmente para cargas de trabajo internas, debido a sus múltiples ventajas, no solo ha sido ampliamente utilizado dentro de Google y se ha convertido en la columna vertebral de la IA, sino que también ha sido favorecido y aplicado de manera competitiva por gigantes tecnológicos como Apple y muchos modelos grandes. startups. Mirando hacia atrás, en los diez años transcurridos desde su nacimiento, los chips de TPU han pasado gradualmente del borde de la industria de la IA al centro del escenario. Sin embargo, dado que la infraestructura de TPU se basa principalmente en TensorFlow y JAX, Google también enfrenta desafíos como las "islas técnicas" hasta cierto punto.



Diez años de “mantenerse al día” con la innovación en inteligencia artificial

Con el profundo desarrollo del aprendizaje automático y los algoritmos de aprendizaje profundo, la demanda de la industria de chips informáticos de IA dedicados de alto rendimiento y bajo consumo está creciendo rápidamente. Sin embargo, las CPU y GPU tradicionales de uso general que se especializan en tareas complejas como la aceleración de gráficos y la representación de video no pueden satisfacer las enormes demandas de las cargas de trabajo de aprendizaje profundo. Al mismo tiempo, existen problemas como una baja eficiencia y una computación dedicada limitada.

Jeff Dean, científico jefe de Google, dijo: "Hicimos algunos cálculos aproximados sobre cuánta potencia informática se necesitaría si cientos de millones de personas tuvieran una conversación de tres minutos con Google todos los días. Rápidamente nos dimos cuenta en ese momento de que esto requeriría básicamente consumiendo todas las computadoras implementadas por Google. En otras palabras, la cantidad de computadoras en los centros de datos de Google deberá duplicarse para admitir estas nuevas capacidades.

Como resultado, Google se comprometió a explorar soluciones de aprendizaje automático más rentables y que ahorren energía, e inmediatamente lanzó el proyecto TPU y anunció en 2015 que el chip TPU de primera generación (TPU v1) estaba en línea internamente. Una TPU es un circuito integrado de aplicación específica (ASIC) diseñado para un único propósito específico, incluida la ejecución de operaciones matemáticas únicas basadas en matrices y vectores necesarias para construir modelos de IA. A diferencia de las operaciones matriciales de GPU, la característica icónica de PU es su unidad de multiplicación matricial (MXU).

Según el vicepresidente de Google y académico de ingeniería Norm Jouppi, la aparición de TPU ha permitido a Google salvar 15 centros de datos. Una razón importante por la que la TPU es más rentable es que la pila de software de Google está más integrada verticalmente que la GPU. Google cuenta con un equipo de ingeniería dedicado a construir toda su pila de software, desde la implementación del modelo (Vertex Model Garden) hasta los marcos de aprendizaje profundo (Keras, JAX y TensorFlow) y los compiladores optimizados para TPU (XLA).

En términos de rendimiento, TPU v1 tiene 65536 MAC (Unidad de multiplicación de matriz) de 8 bits, un rendimiento máximo de 92 TOPS y 28 MiB de espacio de memoria en el chip. En comparación con la CPU y la GPU, TPU v1 tiene un buen rendimiento en tiempo de respuesta y relación de eficiencia energética, y puede mejorar significativamente la velocidad de inferencia de las redes neuronales. El éxito de TPU v1 hizo que Google se diera cuenta de que los chips de aprendizaje automático tienen amplias perspectivas de desarrollo, por lo que continúa actualizando y lanzando de forma iterativa productos con un rendimiento más avanzado y mayor eficiencia basados ​​en TPU v1.

Por ejemplo, TPU v2 y TPU v3 están diseñados como chips de entrenamiento e inferencia de IA del lado del servidor para admitir tareas de IA más complejas. TPU v4 mejora aún más la escalabilidad y la flexibilidad y admite la construcción de clústeres informáticos de IA a gran escala. Entre ellos, TPU v2 extiende por primera vez el diseño de un solo chip a un sistema de supercomputación más grande, construyendo un Pod de TPU compuesto por 256 chips de TPU. Además, TPU v3 agrega tecnología de refrigeración líquida y TPU v4 introduce interruptores de circuito óptico para mejorar aún más el rendimiento y la eficiencia.

En 2023, ante las dudas y controversias "exageradas" que enfrenta el chip TPU v5, Google saltó directamente a la versión TPU v5e. La arquitectura de TPU v5e se ha ajustado y utiliza una única arquitectura TensorCore. La potencia informática máxima de INT8 alcanza los 393 TFLOPS, lo que supera los 275 TFLOPS de v4. Sin embargo, la potencia informática máxima de BF16 es de solo 197 TFLOPS, que es inferior a la de v4. el nivel de la generación anterior v4. Esto muestra que TPU v5e es más adecuado para tareas de razonamiento y también puede reflejar la elección estratégica de Google para el mercado de servicios de potencia de computación de IA.

En la Conferencia de desarrolladores de E/S celebrada en mayo de este año, Google lanzó el TPU Trillium de sexta generación. Amin Vadhat, vicepresidente y director general de Google Cloud Machine Learning, Systems and Cloud AI, dijo que el rendimiento informático máximo de Trillium TPU es más de 4,7 veces mayor que el de la generación anterior TPU v5e, y la eficiencia energética es superior al 67%. más alto que TPU v5e Al mismo tiempo, la memoria de alto ancho de banda La capacidad y el ancho de banda se duplican, y el ancho de banda de interconexión entre chips también se duplica para satisfacer las necesidades de sistemas de inteligencia artificial más avanzados.



Vale la pena mencionar que Trillium puede escalar hasta 256 TPU en un único Pod de baja latencia y alto ancho de banda. Al aprovechar los avances de Google en escalabilidad a nivel de pod, tecnología de múltiples cortes y unidades de procesamiento inteligente Titanium, los usuarios podrán vincular cientos de pods individuales de Trillium TPU para construir redes de centros de datos y supercomputadoras a escala de petabytes.

En general, la ventaja de la solución de tecnología TPU radica en su diseño de arquitectura más centralizada. A diferencia de varias GPU conectadas a la misma placa, las TPU están organizadas en forma de cubo, lo que permite una comunicación entre chips más rápida, y la cooperación profunda con Broadcom ha mejorado enormemente la velocidad de transmisión de la comunicación. Además, en escenarios dedicados y requisitos de casos de uso, puede promover más rápidamente la optimización y la iteración del producto. Sin embargo, dado que la infraestructura de TPU se basa principalmente en TensorFlow y JAX, y la industria utiliza más el modelo HuggingFace y PyTorch para la innovación, Google también enfrenta el problema de la "isla técnica" hasta cierto punto.

Adoptado por Apple y una gran cantidad de nuevas empresas de IA

En términos de aplicaciones, el proyecto Google TPU se creó originalmente para necesidades internas específicas y rápidamente se utilizó ampliamente en varios departamentos y se ha convertido en uno de los chips personalizados más maduros y avanzados en el campo de la IA. Según Andy Swing, ingeniero jefe del sistema de hardware de aprendizaje automático de Google, originalmente esperaban fabricar menos de 10.000 TPU v1, pero finalmente produjeron más de 100.000, con aplicaciones que cubrían publicidad, búsqueda, voz, AlphaGo e incluso conducción autónoma y muchas más. otros campos.

A medida que el rendimiento y la eficiencia continúan mejorando, los chips TPU se han convertido gradualmente en la infraestructura de inteligencia artificial de Google y en la columna vertebral de inteligencia artificial de casi todos los productos. Por ejemplo, Google Cloud Platform utiliza ampliamente chips TPU para respaldar su infraestructura de inteligencia artificial. Estos chips se utilizan para acelerar el proceso de entrenamiento e inferencia de modelos de aprendizaje automático y proporcionar capacidades informáticas eficientes y de alto rendimiento. A través de Google Cloud Platform, los usuarios pueden acceder a instancias de máquinas virtuales (VM) basadas en chips TPU para entrenar e implementar sus propios modelos de aprendizaje automático.

Aunque ha ganado una buena base de usuarios para los servicios en la nube, Google no vende hardware directamente a los usuarios. Los analistas de la industria señalan que Google está compitiendo ferozmente con OpenAI por la IA generativa. Si vende TPU, desafiará directamente a Nvidia. "Luchar desde ambos lados" puede no ser la estrategia más inteligente en este momento. Al mismo tiempo, vender hardware directamente implica altos gastos generales y una gestión compleja de la cadena de suministro, mientras que proporcionar TPU a través de servicios en la nube puede simplificar el proceso de instalación, implementación y gestión, reduciendo la incertidumbre y los gastos generales adicionales.

Por otro lado, también hay que considerar la estrecha colaboración entre Google Cloud y Nvidia. Google no solo utiliza las GPU NVIDIA internamente, sino que también proporciona servicios basados ​​en GPU NVIDIA en su plataforma de servicios en la nube para satisfacer las necesidades de los clientes en materia de informática de alto rendimiento y aplicaciones de inteligencia artificial.

Es cierto que los chips de IA de Nvidia se han convertido en una "competición obligada" para los gigantes tecnológicos, pero la industria también está explorando opciones más diversificadas. Si bien se ha utilizado ampliamente internamente, Google también está intentando utilizar TPU para mantenerse al día con la innovación en inteligencia artificial y brindar servicios de inteligencia artificial a más clientes. Andy Swing dijo: “Nuestra configuración de TPU y pod se encuentra en la ubicación que mejor se adapta a las capacidades actuales del centro de datos, pero estamos cambiando el diseño del centro de datos para satisfacer mejor las necesidades. Por lo tanto, la solución preparada hoy será muy diferente de la solución. mañana. De manera diferente, estamos construyendo una red global de centros de datos llena de TPU”.



Actualmente, muchas empresas de tecnología de todo el mundo utilizan los chips TPU de Google. Por ejemplo, Apple admitió que utiliza Google TPU para entrenar su modelo de inteligencia artificial y dijo que "este sistema nos permite entrenar modelos AFM de manera eficiente y escalable, incluidos dispositivos AFM, servidores AFM y modelos más grandes". entrenó el servidor AFM desde cero en 8192 chips TPUv4, utilizando una longitud de secuencia de 4096 y un tamaño de lote de 4096 secuencias para realizar un entrenamiento de 6,3 billones de tokens. Además, el AFM del extremo está entrenado en chips 2048 Google TPUv5p.

Otros datos muestran que más del 60% de las nuevas empresas de IA generativa que han recibido financiación y casi el 90% de los unicornios de IA generativa están utilizando la infraestructura de IA de Google Cloud y los servicios Cloud TPU, y se utilizan ampliamente en diversos campos socioeconómicos.

Por ejemplo, empresas emergentes de inteligencia artificial conocidas como Anthropic, Midjourney, Salesforce, Hugging Face y AssemblyAI están utilizando Cloud TPU ampliamente. Entre ellos, como "rival de OpenAI", Anthropic utiliza el chip Google Cloud TPU v5e para proporcionar soporte de hardware para su modelo de lenguaje grande Claude para acelerar el proceso de inferencia y entrenamiento del modelo. Además, muchas instituciones educativas y de investigación científica también están utilizando chips TPU de Google para respaldar sus proyectos de investigación relacionados con la IA. Estas instituciones pueden utilizar la potencia informática de alto rendimiento de los chips de TPU para acelerar los procesos experimentales, promoviendo así la investigación científica de vanguardia y el progreso educativo.

Vale la pena señalar que, según la información oficial de Google, el costo operativo de su último TPU es de menos de 2 dólares por hora, pero los clientes deben reservarlo con tres años de anticipación para garantizar su uso. Esto puede plantear importantes desafíos para las grandes empresas modelo en una industria que cambia rápidamente.

En cualquier caso, el viaje de diez años de TPU ha demostrado con éxito que, además de la CPU y la GPU, la industria tiene un nuevo camino para buscar la potencia informática necesaria para la IA y se ha convertido en el núcleo de las funciones de IA en casi todos los productos de Google. admite el rápido desarrollo avanzado de Google DeepMind de modelos básicos e incluso toda la industria de modelos grandes. En el futuro, a medida que la tecnología de IA continúe desarrollándose y el mercado continúe expandiéndose, más empresas podrán optar por utilizar los chips TPU de Google para satisfacer sus necesidades informáticas de IA. Pero el hardware de IA también puede volverse más especializado, lo que hará que el hardware y los modelos se integren más estrechamente, lo que dificultará buscar fuera del marco nuevas posibilidades de innovación.