¡Google es el mayor ganador! Para utilizar la IA en los teléfonos móviles de Apple, Cook se inclinó ante sus oponentes

¡Google es el mayor ganador!Para utilizar la IA en los teléfonos móviles de Apple, Cook se inclinó ante sus oponentes

2024-07-31

En los últimos dos días, el lanzamiento de Apple Intelligence se ha convertido en una de las mayores novedades tecnológicas.

Aunque en comparación con la versión completa de Apple Intelligence anunciada hace más de un mes, las funciones de Apple Intelligence introducidas en Apple iOS 18.1 beta 1 no están completas Image Playground, Genmoji, notificaciones prioritarias, Siri con reconocimiento de pantalla e integración ChatGPT... estas. De nada.

Pero en general, Apple todavía trae herramientas de escritura (herramientas de escritura), grabación de llamadas (incluida la transcripción) y un Siri de nuevo diseño.

Entre ellas, las herramientas de escritura admiten reescritura, especialización, abreviatura y otras funciones, y se pueden usar en escenarios como chatear, publicar en Momentos, notas de Xiaohongshu y escribir llamadas de texto, no solo pueden grabar llamadas, sino también transcribirlas automáticamente; texto, que es conveniente para los usuarios.

Además, Siri también ha sido "actualizado", pero desafortunadamente actualmente se limita al diseño, incluidos nuevos efectos especiales "marquesina" y soporte de entrada de teclado.

Pero lo sorprendente es que Apple reveló en un documento llamado "Apple Intelligence Foundation Language Models" queApple no utilizó la NVIDIA H100 común ni otras GPU, sino que eligió el TPU de su "viejo rival" Google para entrenar el modelo básico de Apple Intelligence.

Imagen/manzana

Utilice Google TPU para crear Apple Intelligence

Como todos sabemos, la inteligencia de Apple se divide en tres capas: una es la IA en el dispositivo que se ejecuta localmente en dispositivos Apple y la otra es la IA en la nube que se ejecuta en los propios centros de datos de Apple basados en la tecnología de "computación en la nube privada". Según noticias de la cadena de suministro, Apple construirá su propio centro de datos mediante la fabricación en masa del M2 Ultra.

Además, existe otra capa que se conecta a modelos grandes de nube de terceros, como GPT-4o, etc.

Pero este es el lado de la inferencia. La forma en que Apple entrena su propio modelo de IA siempre ha sido uno de los focos de atención en la industria. A juzgar por el documento oficial de Apple, Apple entrenó dos modelos básicos en el hardware de los clústeres TPUv4 y TPUv5p:

Uno es el modelo AFM-on-device del lado del dispositivo con una escala de parámetros de 300 millones, que se entrena utilizando 2048 bloques de TPU v5p y se ejecuta localmente en dispositivos Apple; el otro es un modelo de servidor AFM del lado del servidor con un tamaño más grande; escala de parámetros, utilizando 8192 bloques, el entrenamiento del chip TPU v4 finalmente se ejecuta en el propio centro de datos de Apple.

Imagen/manzana

Después de todo, todos sabemos que las GPU como Nvidia H100 son actualmente la opción principal para el entrenamiento de IA. Incluso hay un dicho que dice que "solo se utilizan GPU de Nvidia para el entrenamiento de IA".

Por el contrario, la TPU de Google parece algo "desconocida".

Pero, de hecho, la TPU de Google es un acelerador especialmente diseñado para tareas de aprendizaje automático y aprendizaje profundo, que puede proporcionar excelentes ventajas de rendimiento. Con su potencia informática eficiente y conexiones de red de baja latencia, la TPU de Google funciona bien cuando se manejan grandes tareas de entrenamiento de modelos.

Por ejemplo, TPU v4 puede proporcionar una potencia informática máxima de hasta 275 TFLOPS por chip y conectar 4096 chips TPUv4 a una supercomputadora TPU a gran escala a través de una interconexión de velocidad ultraalta, duplicando así la escala de la potencia informática.

Y no sólo Apple, sino que otras grandes empresas de modelos también han adoptado el TPU de Google para entrenar sus modelos de gran tamaño.Claude de Anthropic es un ejemplo típico.

Clasificación de Chatbot Arena, Foto/LMSYS

Ahora se puede decir que Claude es el competidor más poderoso del modelo OpenAI GPT. En el campo de los robots de chat LMSYS, Claude 3.5 Sonnet y GPT-4o siempre han sido "dragones agazapados y polluelos fénix" (elogio). Según las revelaciones, Anthropic nunca compró GPU de Nvidia para crear supercomputación, sino que utiliza clústeres de TPU en Google Cloud para entrenamiento e inferencia.

A finales del año pasado, Anthropic anunció oficialmente que sería el primero en utilizar clústeres TPU v5e en Google Cloud para entrenar a Claude.

El uso a largo plazo de Anthropic y los resultados logrados por Claude demuestran plenamente la eficiencia y confiabilidad de Google TPU en el entrenamiento de IA.

Además, Gemini de Google también depende completamente de chips TPU de desarrollo propio para su entrenamiento. El modelo Gemini tiene como objetivo avanzar en la frontera de la tecnología de generación y procesamiento del lenguaje natural, y su proceso de capacitación requiere procesar grandes cantidades de datos de texto y realizar cálculos de modelos complejos.

La poderosa potencia informática de TPU y la eficiente arquitectura de capacitación distribuida permiten a Gemini completar la capacitación en un período de tiempo relativamente corto y lograr avances significativos en el rendimiento.

Pero si Gemini es comprensible, ¿por qué la gente desde Anthropic hasta Apple elige Google TPU en lugar de Nvidia GPU?

TPU y GPU, la batalla secreta entre Google y Nvidia

En SIGGRAPH 2024, la principal conferencia de gráficos por computadora celebrada el lunes, el fundador y director ejecutivo de NVIDIA, Jensen Huang, reveló que NVIDIA enviará muestras de la arquitectura Blackwell esta semana, que es la arquitectura de GPU de última generación de NVIDIA.

El 18 de marzo de 2024, NVIDIA lanzó su arquitectura de GPU de última generación: Blackwell y la GPU B200 de última generación en la conferencia GTC. En términos de rendimiento, la GPU B200 puede alcanzar 20 petaflops (un cuatrillón de operaciones de punto flotante por segundo) de potencia informática en el FP8 y el nuevo FP6, lo que la hace excelente para procesar modelos complejos de IA.

Dos meses después del lanzamiento de Blackwell, Google también lanzó su TPU de sexta generación (Trillium TPU), cada chip puede proporcionar una potencia informática máxima de casi 1000 TFLOPS (billones por segundo) según BF16, y Google también lo evaluó como "el TPU de mayor rendimiento y mayor ahorro de energía hasta la fecha".

Imagen/Google

En comparación con la TPU Trillium de Google, la GPU NVIDIA Blackwell todavía tiene ciertas ventajas en informática de alto rendimiento con el soporte de memoria de gran ancho de banda (HBM3) y el ecosistema CUDA. En un solo sistema, Blackwell puede conectar hasta 576 GPU en paralelo para lograr una potente potencia informática y una escalabilidad flexible.

Por el contrario, Trillium TPU de Google se centra en la eficiencia y la baja latencia en la formación distribuida a gran escala. La TPU está diseñada para seguir siendo eficiente en el entrenamiento de modelos a gran escala y mejorar la eficiencia informática general al reducir la latencia de la comunicación a través de interconexiones de red de ultra alta velocidad.

Y no sólo en la última generación de chips de IA,La "guerra secreta" entre Google y Nvidia ha existido durante ocho años, comenzando en 2016, cuando Google desarrolló su propio chip AI TPU.

Hasta el día de hoy, la GPU H100 de NVIDIA es actualmente el chip de IA más popular en el mercado principal. No solo proporciona memoria de gran ancho de banda de hasta 80 GB, sino que también admite memoria HBM3 y realiza una comunicación eficiente de múltiples GPU a través de la interconexión NVLink. Basada en la tecnología Tensor Core, la GPU H100 tiene una eficiencia computacional extremadamente alta en tareas de inferencia y aprendizaje profundo.

Pero al mismo tiempo, TPUv5e tiene importantes ventajas en cuanto a rentabilidad y es especialmente adecuado para entrenar modelos pequeños y medianos. La ventaja de TPUv5e radica en su potente potencia informática distribuida y su relación de consumo de energía optimizada, lo que le permite funcionar bien al procesar datos a gran escala. Además, TPUv5e también está disponible a través de Google Cloud Platform, lo que permite a los usuarios realizar capacitación e implementación flexibles en la nube.

Centro de datos de Google, foto/Google

En general, NVIDIA y Google tienen diferentes estrategias para los chips de IA: NVIDIA supera los límites de rendimiento de los modelos de IA al proporcionar una potencia informática potente y un amplio soporte para desarrolladores, mientras que Google mejora el rendimiento de los chips de IA mediante una arquitectura informática distribuida eficiente y eficiente a gran escala. . Estas dos opciones de camino diferentes les permiten mostrar ventajas únicas en sus respectivos campos de aplicación.

Pero lo más importante es que los únicos que pueden derrotar a Nvidia son aquellos que adoptan estrategias de codiseño de software y hardware y tienen sólidas capacidades de chip y software.

Google es uno de esos oponentes.

El rival más fuerte a la hegemonía de Nvidia

Blackwell es otra actualización importante de NVIDIA después de Hopper. Tiene potentes capacidades informáticas y está diseñado para modelos de lenguaje a gran escala (LLM) e IA generativa.

Según los informes, la GPU B200 se fabrica utilizando el proceso N4P de TSMC, tiene hasta 208 mil millones de transistores, está "compuesta" por dos chips GPU que utilizan tecnología de interconexión y está equipada con hasta 192 GB de HBM3e (memoria de alto ancho de banda), con un ancho de banda de hasta 8TB/s.

En términos de rendimiento, Trillium TPU de Google ha mejorado 4,7 veces con BF16 en comparación con la generación anterior TPU v5e, y la capacidad y el ancho de banda de HBM, así como el ancho de banda de interconexión de chips, también se han duplicado. Además, Trillium TPU también está equipado con SparseCore de tercera generación, que puede acelerar el entrenamiento de una nueva generación de modelos básicos, con menor latencia y menor costo.

Trillium TPU es particularmente adecuado para el entrenamiento de modelos de lenguaje y sistemas de recomendación a gran escala. Puede expandirse a cientos de conjuntos y conectar decenas de miles de chips por segundo a través de tecnología de interconexión de red de nivel PB, logrando otro nivel de súper "computadora". ", mejorando enormemente la eficiencia informática y reduciendo la latencia de la red.

Imagen/Google

A partir de la segunda mitad de este año, los usuarios de Google Cloud serán los primeros en adoptar este chip.

En general, la ventaja del hardware de Google TPU radica en su potencia informática eficiente y su arquitectura de entrenamiento distribuida de baja latencia. Esto hace que TPU tenga un buen desempeño en la capacitación de modelos de lenguaje y sistemas de recomendación a gran escala. Sin embargo, la ventaja de Google TPU radica en otro ecosistema completo independiente de CUDA y una integración vertical más profunda.

A través de la plataforma Google Cloud, los usuarios pueden capacitarse e implementar de manera flexible en la nube. Este modelo de servicio en la nube no solo reduce la inversión de las empresas en hardware, sino que también mejora la eficiencia de la capacitación de los modelos de IA. Google y Cloud también proporcionan una serie de herramientas y servicios que respaldan el desarrollo de IA, como TensorFlow y Jupyter Notebook, lo que facilita a los desarrolladores entrenar y probar modelos.

Google TPU v5p utilizado por Apple, foto/Google

El ecosistema de inteligencia artificial de Google también incluye una variedad de marcos y herramientas de desarrollo, como TensorFlow, un marco de aprendizaje automático de código abierto ampliamente utilizado que puede utilizar plenamente las capacidades de aceleración de hardware de las TPU. Google también proporciona otras herramientas para respaldar el desarrollo de IA, como TPU Estimator y Keras. La perfecta integración de estas herramientas simplifica enormemente el proceso de desarrollo.

Además, la ventaja de Google es que el propio Google es el cliente con mayor demanda de potencia informática de TPU. Desde el procesamiento del contenido de video masivo de YouTube hasta cada capacitación e inferencia de Gemini, TPU se ha integrado durante mucho tiempo en el sistema comercial de Google y también ha satisfecho las enormes necesidades de potencia informática de Google.

Se puede decir que la integración vertical de Google es mucho más completa que la de Nvidia y ha dominado casi por completo los nodos clave, desde la capacitación del modelo hasta la aplicación y la experiencia del usuario. tendencias del mercado. Comenzar a optimizar la eficiencia.

Por lo tanto, aunque Trillium TPU todavía es difícil competir con Blackwell GPU en términos de indicadores de rendimiento del chip, cuando se trata de entrenar modelos grandes, Google aún puede optimizar sistemáticamente la eficiencia para rivalizar o incluso superar el ecosistema CUDA de NVIDIA.

Usar TPU en Google Cloud es la mejor opción de Apple

En resumen, el rendimiento, el costo y las ventajas ecológicas del clúster TPU de Google lo convierten en una opción ideal para el entrenamiento de modelos de IA a gran escala. A su vez, usar TPU en Google Cloud también es la mejor opción de Apple en esta etapa.

Apple también utiliza la supercomputación basada en TPU v4.Imagen/Google

Por un lado están el rendimiento y el coste. TPU funciona bien en el manejo de tareas de capacitación distribuidas a gran escala, proporcionando capacidades informáticas eficientes y de baja latencia para satisfacer las necesidades de Apple en la capacitación de modelos de IA. Al utilizar la plataforma Google Cloud, Apple puede reducir los costos de hardware, ajustar de manera flexible los recursos informáticos y optimizar el costo general del desarrollo de la IA.

El otro aspecto es la ecología.El ecosistema de desarrollo de IA de Google también proporciona una gran cantidad de herramientas y soporte, lo que permite a Apple desarrollar e implementar sus modelos de IA de manera más eficiente. Junto con la poderosa infraestructura y el soporte técnico de Google Cloud, también proporciona una base sólida para los proyectos de IA de Apple.

En marzo de este año, Sumit Gupta, que había trabajado para Nvidia, IBM y Google, se unió a Apple para liderar la infraestructura de la nube. Según los informes, Sumit Gupta se unió al equipo de infraestructura de inteligencia artificial de Google en 2021 y finalmente se convirtió en el gerente de producto de TPU de Google, CPU Arm de desarrollo propio y otra infraestructura.

Sumit Gupta comprende las ventajas de la TPU de Google mejor que la mayoría de las personas dentro de Apple.

En el primer semestre de 2024, el círculo tecnológico está turbulento.
La implementación de modelos grandes se está acelerando: teléfonos móviles con IA, PC con IA, electrodomésticos con IA, búsqueda con IA, comercio electrónico con IA... Las aplicaciones de IA están surgiendo sin cesar;
Vision Pro sale a la venta y aterriza en el mercado chino, lo que desencadena otra ola de computación espacial XR;
Se lanza oficialmente HarmonyOS NEXT, cambiando el ecosistema del sistema operativo móvil;
Los coches han entrado de lleno en la "segunda mitad" y la inteligencia se ha convertido en una máxima prioridad;
La competencia en el comercio electrónico es cada vez más feroz, con precios más bajos y mejores servicios;
La ola de expansión en el extranjero está aumentando y las marcas chinas se están embarcando en el viaje de la globalización;

En julio, se lanza el tema de revisión de mitad de año de Lei Technology·, que resume las marcas, tecnologías y productos que vale la pena registrar en la primera mitad de 2024 en la industria de la tecnología, registra el pasado y mira hacia el futuro, así que estad atentos.

noticias