Mi información de contacto
Correo[email protected]
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
DesdeChatGPTDespués de la explosión, la investigación y el desarrollo de grandes modelos de IA surgieron uno tras otro. Mientras esta "Batalla de los 100 modelos" estaba en pleno apogeo, la empresa estadounidense de chips NVIDIA ganó mucho dinero con el excelente rendimiento de su GPU en el cálculo de modelos grandes.
Sin embargo, una reciente medida de Apple ha enfriado ligeramente el entusiasmo de Nvidia.
Entrenamiento de modelos de IA, Apple elige TPU en lugar de GPU
NVIDIA siempre ha sido líder en el campo de la infraestructura informática de IA. En el mercado de hardware de IA, especialmente en el campo de la capacitación en IA, su participación de mercado es más del 80%. La GPU NVIDIA siempre ha sido líder en Amazon y Microsoft. , meta,IA abierta Es la solución de potencia informática preferida por muchos gigantes tecnológicos en los campos de la inteligencia artificial y el aprendizaje automático.
Por lo tanto, Nvidia continúa enfrentando diversos desafíos en la industria. Entre sus competidores, hay muchos actores fuertes en la investigación y el desarrollo independientes de GPU, así como pioneros en la exploración de arquitecturas innovadoras. La TPU de Google también se ha convertido en un poderoso oponente que Nvidia no puede ignorar debido a sus ventajas únicas.
El 30 de julio, Apple publicó un artículo de investigación. En el documento, Apple presentó dos modelos que brindan soporte para Apple Intelligence-AFM-on-device (AFM es la abreviatura de Apple Basic Model) y AFM-server (un modelo de lenguaje grande basado en servidor). Modelo de lenguaje de 100 millones de parámetros de un año de antigüedad, este último es un modelo de lenguaje basado en servidor.
Apple afirmó en el documento que para entrenar su modelo de IA, utilizó dos procesadores tensoriales (TPU) de Google, y estas unidades se organizaron en grandes grupos de chips. Para construir AFM en el dispositivo, un modelo de IA que puede ejecutarse en iPhones y otros dispositivos, Apple utiliza chips 2048 TPUv5p. Para su servidor AI modelo AFM-server, Apple implementó procesadores 8192 TPUv4.
La decisión estratégica de Apple de abandonar las GPU de Nvidia y cambiar a las TPU de Google envió una bomba de choque al mundo de la tecnología. El precio de las acciones de Nvidia cayó más del 7% ese día, la mayor caída en tres meses, y su valor de mercado se evaporó en 193 mil millones de dólares.
Los conocedores de la industria dijeron que la decisión de Apple indica que algunas grandes empresas de tecnología pueden estar buscando alternativas a las unidades de procesamiento de gráficos de Nvidia cuando se trata de capacitación en inteligencia artificial.
TPU VS GPU, ¿cuál es más adecuado para modelos grandes?
Antes de discutir si TPU o GPU es más adecuado para modelos grandes, debemos tener una comprensión preliminar de ambos.
Comparación entre TPU y GPU
TPU, el nombre completo de Tensor Processing Unit, es un chip especial diseñado por Google para acelerar las cargas de trabajo de aprendizaje automático. Se utiliza principalmente para el entrenamiento y el razonamiento de modelos de aprendizaje profundo. Vale la pena señalar que TPU también pertenece a una categoría de chips ASIC, y ASIC es un chip especialmente personalizado para ciertas necesidades específicas.
Todo el mundo está familiarizado con la GPU, que es un procesador diseñado originalmente para la representación de gráficos y luego ampliamente utilizado en computación paralela y aprendizaje profundo. Tiene potentes capacidades de procesamiento paralelo y la GPU optimizada también es muy adecuada para tareas paralelas como el aprendizaje profundo y la informática científica.
Se puede ver que estos dos chips diferentes tienen objetivos diferentes en su diseño inicial.
En comparación con las CPU tradicionales, las capacidades de computación paralela de las GPU las hacen particularmente adecuadas para procesar conjuntos de datos a gran escala y tareas informáticas complejas. Por lo tanto, con la explosión de grandes modelos de IA en los últimos años, las GPU alguna vez se convirtieron en la primera opción de hardware informático. Entrenamiento de IA.
Sin embargo, con el desarrollo continuo de grandes modelos de IA, las tareas informáticas se están volviendo exponencialmente más grandes y complejas, lo que ha planteado nuevos requisitos para la potencia informática y los recursos informáticos. Cuando se utiliza GPU para la informática de IA, la tasa de utilización de la potencia informática es baja. El cuello de botella de alta eficiencia energética del consumo de energía, así como el alto precio y la escasez de oferta de productos GPU NVIDIA, han atraído más atención a la arquitectura TPU, que fue diseñada originalmente para el aprendizaje profundo y el aprendizaje automático. El dominio de la GPU en este campo está empezando a enfrentar desafíos.
Se informa que Google comenzó a desarrollar internamente chips dedicados a algoritmos de aprendizaje automático de IA ya en 2013, y no fue hasta 2016 que este chip de desarrollo propio llamado TPU se hizo público oficialmente. Derrotó a Lee Sedol en marzo de 2016 y a Ke Jie en mayo de 2017. AlfaGo, que se entrena utilizando los chips de la serie TPU de Google.
Si se dice que TPU es más adecuado para el entrenamiento de modelos grandes de IA, puede ser difícil convencer a todos sin explicar sus "habilidades" en detalle.
¿Cómo es adecuado el TPU para el entrenamiento de modelos grandes?
Primero, TPU tiene unidades informáticas multidimensionales para mejorar la eficiencia informática.En comparación con la unidad de computación escalar en la CPU y la unidad de computación vectorial en la GPU, la TPU utiliza unidades de computación bidimensionales o incluso de dimensiones superiores para completar tareas informáticas y expande el ciclo de operación de convolución para lograr la máxima reutilización de datos y reducir los datos. costos de transmisión y mejorar la eficiencia de aceleración.
En segundo lugar, TPU tiene una transmisión de datos que ahorra más tiempo y una unidad de control de alta eficiencia.El problema del muro de memoria causado por la arquitectura von Neumann es particularmente prominente en las tareas de aprendizaje profundo, y TPU adopta una estrategia más radical para diseñar la transmisión de datos, y la unidad de control es más pequeña, lo que deja más espacio para la memoria en el chip y las unidades informáticas.
Finalmente, TPU está diseñado para acelerar la IA y mejorar las capacidades informáticas de IA/ML.Con un posicionamiento preciso, una arquitectura simple, control de un solo subproceso y un conjunto de instrucciones personalizadas, la arquitectura TPU es extremadamente eficiente en operaciones de aprendizaje profundo y fácil de expandir, lo que la hace más adecuada para cálculos de entrenamiento de IA a gran escala.
Se informa que Google TPUv4 tiene un consumo de energía entre 1,3 y 1,9 veces menor que el NVIDIA A100. En varios modelos de trabajo, como Bert y ResNet, la eficiencia es entre 1,2 y 1,9 veces mayor que la del A100. Al mismo tiempo, sus productos TPUv5/TPU Trillium. puede lograr un mayor consumo de energía que TPUv4 en comparación con TPUv4. Mejora aún más el rendimiento informático 2 veces/casi 10 veces. Se puede ver que los productos Google TPU tienen más ventajas en costo y consumo de energía que los productos NVIDIA.
En la conferencia de desarrolladores I/O 2024 en mayo de este año, el CEO de Alphabet, Sundar Pichai, anunció la Unidad de Procesador Tensor (TPU)-Trillium del chip AI del centro de datos de sexta generación, diciendo que el producto es casi cinco veces más rápido que su predecesor, y Dice que las entregas estarán disponibles a finales de este año.
Google dijo que el rendimiento informático del chip Trillium de sexta generación es 4,7 veces mayor que el del chip TPU v5e, y la eficiencia energética es un 67% mayor que la del v5e. El chip está diseñado para impulsar la tecnología que genera texto y otros contenidos a partir de modelos grandes. Google también dijo que los chips Trillium de sexta generación estarán disponibles para sus clientes de la nube a finales de año.
Los ingenieros de Google lograron mejoras de rendimiento adicionales al aumentar la capacidad de memoria de alto ancho de banda y el ancho de banda general. Los modelos de IA requieren grandes cantidades de memoria avanzada, lo que ha sido un cuello de botella para seguir mejorando el rendimiento.
Vale la pena señalar que Google no venderá sus propios chips TPU por separado como productos independientes, sino que proporcionará servicios informáticos basados en TPU a clientes externos a través de Google Cloud Platform (GCP).
La astucia de Google también se puede ver en este plan: vender hardware directamente implica altos gastos y una compleja gestión de la cadena de suministro. Al proporcionar TPU a través de servicios en la nube, Google puede simplificar el proceso de instalación, implementación y gestión, reduciendo la incertidumbre y los gastos generales adicionales. Este modelo también simplifica el proceso de ventas, eliminando la necesidad de establecer un equipo de ventas de hardware adicional. Además, Google está en una feroz competencia con OpenAI por la IA generativa. Si Google comienza a vender TPU, competirá con dos poderosos oponentes al mismo tiempo: Nvidia y OpenAI, lo que puede no ser la estrategia más inteligente en este momento.
En este punto del artículo, alguien puede preguntar: dado que la TPU tiene ventajas de rendimiento tan excelentes, ¿reemplazará a la GPU en un futuro próximo?
¿Ahora hablando de reemplazar la GPU? Tal vez sea demasiado pronto
Este problema no es tan simple.
Hablar simplemente de las ventajas de TPU sin hablar de las ventajas de GPU es hacer la vista gorda. A continuación, también debemos comprender cómo la GPU es adecuada para el entrenamiento actual de modelos grandes de IA en comparación con la TPU.
Vemos que las ventajas del TPU radican en su excelente relación de eficiencia energética y sus indicadores de potencia de cálculo de costo unitario. Sin embargo, como chip ASIC, su desventaja de alto costo de prueba y error también es relativamente clara.
También, en términos de madurez del ecosistema. Después de años de desarrollo, GPU tiene un ecosistema grande y maduro de software y herramientas de desarrollo. Muchos desarrolladores e instituciones de investigación han estado desarrollando y optimizando en función de GPU durante mucho tiempo y han acumulado una gran cantidad de bibliotecas, marcos y algoritmos. El ecosistema de TPU es relativamente nuevo y los recursos y herramientas disponibles pueden no ser tan ricos como los de las GPU, lo que puede dificultar la adaptación y optimización para los desarrolladores.
En términos de versatilidad. Las GPU se diseñaron originalmente para la representación de gráficos, pero su arquitectura es muy flexible y puede adaptarse a muchos tipos diferentes de tareas informáticas, no solo al aprendizaje profundo. Esto hace que la GPU sea más adaptable cuando se enfrenta a diversos escenarios de aplicaciones. Por el contrario, las TPU están diseñadas a medida para cargas de trabajo de aprendizaje automático y es posible que no puedan manejar otras tareas informáticas no relacionadas con el aprendizaje automático con tanta eficiencia como las GPU.
Finalmente, la competencia en el mercado de GPU es feroz. Varios fabricantes continúan promoviendo la innovación tecnológica y las actualizaciones de productos, y las nuevas arquitecturas y mejoras de rendimiento son cada vez más frecuentes. El desarrollo de TPU está liderado principalmente por Google, y su ritmo de actualización y evolución puede ser relativamente lento.
En general, NVIDIA y Google tienen diferentes estrategias para los chips de IA: NVIDIA supera los límites de rendimiento de los modelos de IA al proporcionar una potencia informática potente y un amplio soporte para desarrolladores, mientras que Google mejora el rendimiento de los chips de IA mediante una arquitectura informática distribuida eficiente y eficiente a gran escala. . Estas dos opciones de camino diferentes les permiten mostrar ventajas únicas en sus respectivos campos de aplicación.
La razón por la que Apple eligió Google TPU puede deberse a los siguientes puntos: en primer lugar, TPU funciona bien al procesar tareas de capacitación distribuidas a gran escala y proporciona capacidades informáticas eficientes y de baja latencia. En segundo lugar, al utilizar la plataforma Google Cloud, Apple puede reducir el hardware; costos y ser flexible. Ajustar los recursos informáticos para optimizar el costo general del desarrollo de la IA. Además, el ecosistema de desarrollo de IA de Google también proporciona una gran cantidad de herramientas y soporte, lo que permite a Apple desarrollar e implementar sus modelos de IA de manera más eficiente.
El ejemplo de Apple demuestra la capacidad de TPU en el entrenamiento de modelos grandes. Sin embargo, en comparación con NVIDIA, TPU todavía se usa raramente en el campo de los modelos grandes. Hay más empresas de modelos grandes detrás de él, incluidos gigantes como OpenAI, Tesla y ByteDance. Los principales centros de datos de IA todavía usan GPU NVIDIA.
Por lo tanto, puede que sea demasiado pronto para decir que la TPU de Google puede vencer a la GPU de Nvidia, pero la TPU debe ser un jugador muy desafiante.
El desafío de la GPU no es solo el TPU
China también tiene una empresa que apuesta por los chips de TPU: Zhonghao Xinying. Yang Gongyifan, fundador de Zhonghao Xinying, trabajó una vez como miembro del personal de I+D de chips centrales en Google y estuvo profundamente involucrado en el diseño y la I+D de Google TPU 2/3/4. En su opinión, TPU es una arquitectura ventajosa para grandes modelos de IA. .
En 2023, nació oficialmente el chip "Snap" de Zhonghao Xinying. Con sus capacidades únicas de interconexión entre chips de alta velocidad de 1.024 chips, el chip "Snap" ha construido un clúster informático inteligente a gran escala llamado "Taize". El rendimiento del clúster de su sistema es decenas de veces mayor que el de las GPU tradicionales. es un AIGC con más de 100 mil millones de parámetros. El entrenamiento y la inferencia de modelos grandes brindan una garantía de potencia informática sin precedentes. Este logro no solo demuestra la profunda acumulación de Zhonghao Xinying en el campo de la tecnología de potencia informática de IA, sino que también gana un lugar valioso para los chips nacionales en el escenario internacional.
Sin embargo, en la actual fiebre del oro de la inteligencia artificial, pero el chip H100 de NVIDIA es escaso y caro, las empresas grandes y pequeñas están buscando reemplazar los productos de chips de IA de NVIDIA, incluidas las empresas que toman la ruta tradicional de GPU, además de explorar nuevas arquitecturas empresariales.
Los desafíos que enfrenta la GPU van mucho más allá del TPU.
En la investigación y el desarrollo de GPU, el mayor rival de Nvidia esAMDEn enero de este año, los investigadores utilizaron alrededor del 8% de las GPU del clúster de supercomputación Frontier para entrenar un modelo grande en el nivel GPT 3.5. El clúster de supercomputación Frontier se basa completamente en hardware AMD y consta de 37,888 GPU MI250X y 9,472 CPU Epyc 7A53. Esta investigación también superó las dificultades de los modelos de entrenamiento distribuido avanzado en hardware AMD, proporcionando una gran base de entrenamiento para la plataforma AMD. verificado la viabilidad.
Al mismo tiempo, el ecosistema CUDA también se está abriendo paso gradualmente. En julio de este año, la empresa británica Spectral Compute lanzó una solución que puede compilar de forma nativa el código fuente CUDA para las GPU AMD, lo que mejoró en gran medida la eficiencia de compatibilidad de las GPU AMD con CUDA.
IntelGaudi 3 también comparó directamente la Nvidia H100 cuando fue lanzada. En abril de este año, Intel lanzó Gaudi 3 para modelos de inteligencia artificial generativa y de aprendizaje profundo a gran escala. Intel dijo que, en comparación con la generación anterior, Gaudi 3 puede proporcionar cuatro veces la potencia informática de IA BF16 en formato de punto flotante y el ancho de banda de la memoria aumentó en 1,5. tiempos y servicio El ancho de banda de la red para la expansión del sistema a gran escala se duplica. En comparación con el chip H100 de NVIDIA, si se aplica al modelo Meta Llama2 con parámetros 7B y 13B y al modelo OpenAI GPT-3 con parámetros 175B, se espera que Gaudi 3 acorte el tiempo de entrenamiento de estos modelos en un promedio del 50%.
Además, cuando se aplica a Llama con parámetros 7B y 70B y al modelo Falcon de código abierto con parámetros 180B, se espera que el rendimiento de inferencia de Gaudi 3 sea un 50% mayor en promedio que el H100, y la eficiencia de inferencia sea un 40% mayor en promedio. Además, Gaudi 3 tiene una mayor ventaja en el rendimiento de inferencia en secuencias de entrada y salida más largas.
Cuando se aplica a Llama con parámetros 7B y 70B y al modelo Falcon con parámetros 180B, la velocidad de inferencia de Gaudi 3 aumenta en un 30% en comparación con NVIDIA H200.
Intel dijo que Gaudi 3 estará disponible para los clientes en el tercer trimestre de este año y para fabricantes de equipos originales, incluidos Dell, HPE, Lenovo y Supermicro, en el segundo trimestre, pero no se anunció el rango de precios de Gaudi 3.
El pasado mes de noviembre,microsoftEn la Conferencia de Tecnología Ignite, lanzó su primer chip de IA de desarrollo propio, Azure Maia 100, así como Azure Cobalt, un chip utilizado en servicios de software en la nube. Los dos chips serán fabricados por TSMC y utilizarán tecnología de proceso de 5 nm.
Se informa que los productos de alta gama de Nvidia a veces pueden venderse entre 30.000 y 40.000 dólares estadounidenses cada uno. Se cree que los chips utilizados para ChatGPT requieren alrededor de 10.000, lo que supone un coste enorme para las empresas de inteligencia artificial. Las principales empresas de tecnología con una gran demanda de chips de IA están buscando desesperadamente fuentes alternativas de suministro. Microsoft optó por desarrollar sus propios productos con la esperanza de mejorar el rendimiento de los productos de IA generativa como ChatGPT y al mismo tiempo reducir los costos.
Cobalt es un chip de uso general basado en la arquitectura Arm con 128 núcleos. Maia 100 es un chip ASIC especialmente diseñado para servicios en la nube de Azure y cargas de trabajo de inteligencia artificial. Se utiliza para entrenamiento y razonamiento en la nube, y la cantidad de transistores alcanza los 105 mil millones. Estos dos chips se importarán al centro de datos de Microsoft Azure y a servicios de soporte como OpenAI y Copilot.
Rani Borkar, vicepresidente a cargo del departamento de chips de Azure, dijo que Microsoft ha comenzado a probar el chip Maia 100 con los productos de inteligencia artificial de Bing y Office, el principal socio de inteligencia artificial de Microsoft, el desarrollador de ChatGPT, OpenAI, también se está sometiendo a pruebas. Algunos comentaristas del mercado creen que el momento del proyecto de chip de IA de Microsoft es una coincidencia, justo cuando los modelos de lenguaje a gran escala cultivados por Microsoft, OpenAI y otras empresas han comenzado a despegar.
Sin embargo, Microsoft no cree que sus chips de IA puedan reemplazar ampliamente a los productos de Nvidia. Algunos analistas creen que si los esfuerzos de Microsoft tienen éxito, también podrían ayudarle a obtener una ventaja en futuras negociaciones con Nvidia.
Además de los gigantes de los chips, también influyen las empresas de nueva creación. Por ejemplo, LPU lanzado por Groq, Wafer Scale Engine 3 lanzado por Cerebras, Sohu lanzado por Etched, etc.
Actualmente, Nvidia controla aproximadamente el 80% del mercado de chips de centros de datos de inteligencia artificial, mientras que la mayor parte del 20% restante está controlado por diferentes versiones de Google TPU. ¿Seguirá aumentando la cuota de mercado de TPU en el futuro? ¿Cuánto crecerá? ¿Habrá otras arquitecturas de chips de IA que dividirán la estructura del mercado existente en tres? Se espera que este suspenso se vaya revelando gradualmente en los próximos años.