noticias

El gigante de los chips ha vuelto a surgir, ¿quién está detrás?

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

El 30 de julio, el precio de las acciones de Nvidia cayó un 7%, lo que supuso la mayor caída de la empresa en tres meses. Su valor de mercado evaporó 193.400 millones de dólares de la noche a la mañana, cayendo a 2,55 billones de dólares.

Del 10 al 30 de julio, el precio de las acciones de NVIDIA se desplomó un 23%, de 134,91 dólares por acción a 103,73 dólares. Anteriormente, el continuo impulso creciente de la empresa parecía hacer que los inversores ignoraran los riesgos.

Durante las últimas dos semanas, los inversores han retirado dinero de grandes acciones tecnológicas como Nvidia a medida que les preocupaba que las grandes empresas estuvieran luchando por generar retornos sobre su gasto en IA.

Los analistas técnicos señalaron que tal cambio deja espacio para que el precio de las acciones de Nvidia caiga aún más.

01

¿Culpa de Apple?

La fuerte caída del precio de las acciones de Nvidia puede estar relacionada con Apple.

El 29 de julio, Apple declaró en un documento técnico que dos modelos de su sistema de inteligencia artificial (IA) Apple Intelligence fueron entrenados en chips en la nube diseñados por Google y detalló el procesamiento tensorial utilizado para el entrenamiento. Además, Apple también lanzó una versión preliminar de Apple Intelligence para algunos dispositivos.

Apple no menciona a Google ni a Nvidia en su documento de 47 páginas, pero señala que su Apple Foundation Model (AFM) y sus servidores AFM están entrenados en clústeres de TPU en la nube. El documento afirma que el sistema permite a Apple entrenar de manera eficiente y escalable modelos AFM, incluidos AFM en el dispositivo, AFM en el servidor y modelos más grandes.

Apple dice que AFM-on-device está entrenado en una sola porción de chips 2048 TPU v5p, el TPU más avanzado disponible en diciembre de 2023. El servidor AFM está entrenado en chips 8192 TPU v4, que están configurados para funcionar juntos como 8 segmentos en la red del centro de datos.

Google ha implementado TPU en grandes cantidades en centros de datos durante mucho tiempo para acelerar el entrenamiento y la inferencia del modelo de IA. Además, no solo para su propio uso, Google también considera TPU.computación en la nubeLos servicios se proporcionan a terceros para su uso, convirtiéndolos en productos para la venta.

El último TPU de Google cuesta menos de 2 dólares la hora y el chip requiere un pedido anticipado con tres años de antelación para poder utilizarlo. Google lanzó por primera vez TPU para cargas de trabajo internas en 2015 y las puso a disposición del público en 2017. Ahora son los chips personalizados más sofisticados diseñados para inteligencia artificial.

Aun así, Google sigue siendo uno de los principales clientes de Nvidia y vende acceso a la tecnología de Nvidia en su plataforma en la nube.

Apple ha dicho anteriormente que la inferencia, que consiste en tomar un modelo de IA previamente entrenado y ejecutarlo para generar contenido o hacer predicciones, se realizará en parte en chips en los propios centros de datos de Apple.

Apple publicó documentos técnicos relevantes durante la WWDC 2024 en junio, que muestran que además de usar hardware como los propios procesadores de Apple y su propio marco de software en Apple Intelligence, los ingenieros también usaron sus propias GPU combinadas con Google TPU para acelerar el entrenamiento del modelo de inteligencia artificial.

Nvidia se enfrenta a una presión competitiva cada vez mayor. Tomando como ejemplo a Google, el gigante tecnológico sigue ampliando su cuota de mercado a través de chips de IA de desarrollo propio. Los datos de TechInsights muestran que en el mercado de aceleradores de centros de datos en 2023, los envíos de TPU de Google alcanzarán los 2 millones de unidades, aunque ligeramente inferiores a los 3,8 millones de unidades de NVIDIA, ocupan firmemente el tercer lugar en la industria y tienen un fuerte impulso de crecimiento. . Al mismo tiempo, gigantes tecnológicos como Microsoft están reduciendo gradualmente su dependencia de Nvidia y cambiando a chips de otras marcas competidoras.

02

Las GPU son demasiado caras

Además del riesgo de dependencia única, el alto precio de las GPU de Nvidia también asusta a muchos fabricantes.

Los informes muestran que los servidores de IA equipados con la GPU Blackwell de próxima generación de Nvidia cuestan entre 2 y 3 millones de dólares cada uno.

Nvidia ha lanzado dos conjuntos de diseños de referencia basados ​​​​en la arquitectura Blackwell. Entre ellos, el NVL36 está equipado con 36 tarjetas aceleradoras GPU B200. Se esperaba que el precio fuera de 2 millones de dólares. Anteriormente se esperaba que fuera de 1,8 millones de dólares. el precio ha aumentado. NVL72 ha duplicado su tamaño y está equipado con 72 tarjetas aceleradoras B200. Se espera que el precio inicial sea de 3 millones de dólares.

NVIDIA predice que en 2025, se espera que los envíos de servidores B200 alcancen entre 60.000 y 70.000 unidades, con un precio total de entre 120.000 y 210.000 millones de dólares.

Actualmente, AWS, Dell, Google, Meta, Microsoft, etc. están interesados ​​en comprar servidores B200 y la escala supera las expectativas.

Los servidores de IA se componen principalmente de CPU, GPU, FPGA y otros procesadores, que se utilizan para manejar una gran cantidad de tareas informáticas. En comparación con los servidores tradicionales, los servidores de IA generalmente requieren hardware de mayor rendimiento para satisfacer las necesidades del procesamiento de datos a gran escala. y cálculos complejos. Debido al mayor precio de este hardware, representan la mayor parte del costo de los servidores de IA. Entre ellos, la GPU representa el mayor coste entre varios procesadores.

En el proceso de entrenamiento e inferencia de IA, la GPU suele ser el hardware más caro. Esto se debe a que la GPU tiene una gran potencia informática y capacidades de procesamiento paralelo, que pueden acelerar el proceso de entrenamiento e inferencia del modelo de IA. La mayoría de los servidores de IA están equipados con múltiples GPU para satisfacer las necesidades de la informática de alto rendimiento.

Dado que la GPU tiene una potencia informática potente, su consumo de energía también es alto. Para satisfacer las necesidades informáticas de los modelos de IA, normalmente es necesario configurar varias GPU, lo que aumentará aún más el consumo de energía del servidor. El alto consumo de energía significa que el servidor requiere una mayor fuente de alimentación cuando está en funcionamiento y genera facturas de electricidad más altas.

En comparación con las CPU, las GPU tienen una arquitectura más compleja y más componentes, lo que significa que el mantenimiento de la GPU es más tedioso y complejo y requiere más técnicos profesionales para su mantenimiento y gestión. Además, debido al alto consumo de energía de la GPU, sus requisitos de refrigeración también son mayores, lo que requiere equipos de refrigeración adicionales y costes de mantenimiento.

Con el rápido desarrollo de la tecnología de inteligencia artificial, el rendimiento de la GPU también mejora constantemente. Para seguir siendo competitivas, muchas empresas necesitan comprar con frecuencia nuevas versiones de GPU, lo que aumentará el coste de los servidores.

Con la promoción de aplicaciones de IA, cada vez más empresas están comenzando a utilizar servidores de IA, lo que ha provocado una creciente demanda de GPU. Cuando la oferta supera la demanda, el precio de las GPU también aumentará.

03

Presión de los competidores

Todos los competidores de NVIDIA se están preparando y, entre ellos, AMD, el más llamativo, ha tenido un buen desempeño recientemente.

El 30 de julio, AMD publicó su informe financiero del segundo trimestre de 2024. Las ganancias netas aumentaron un 881% interanual, los ingresos del negocio de centros de datos se duplicaron y le quitaron muchos negocios a Nvidia.

Los ingresos totales de AMD para este trimestre alcanzaron los 5.835 millones de dólares, lo que no solo superó la expectativa anterior de 5.720 millones de dólares, sino que también logró un crecimiento interanual del 9% y un crecimiento mensual del 7%. La utilidad neta alcanzó los 265 millones de dólares, un aumento interanual del 881% y un aumento intermensual del 115%.

Las ventas de MI300, un chip GPU utilizado en centros de datos, superaron los mil millones de dólares en un solo trimestre, lo que impulsó un aumento significativo en los ingresos de la división de centros de datos.

La serie MI300 es una GPU de IA lanzada por AMD a finales de 2023, que incluye MI300X, así como el núcleo de CPU integrado y el acelerador de GPU MI300A. Entre ellos, los puntos de referencia de MI300X frente a la H100 de Nvidia. Según AMD, el rendimiento del MI300X está a la par del de NVIDIA H100 cuando se utiliza para el entrenamiento de IA. En términos de razonamiento, su rendimiento supera al de los productos de la competencia. Tomando como ejemplo un solo servidor compuesto por 8 GPU, cuando se ejecuta el modelo BLOOM con 176 mil millones de parámetros y el modelo Llama2 con 70 mil millones de parámetros, el rendimiento de la plataforma MI300X es de 1,4 a 1,6 veces mayor que el de la plataforma H100.

El director ejecutivo de AMD, Su Zifeng, dijo que las ventas de chips de IA de la compañía son "más altas de lo esperado" y que Microsoft está aumentando el uso de chips MI300 como soporte de potencia informática para GPT-4 Turbo y para admitir múltiples servicios Copilot de Microsoft Word, Teams, etc. Hugging Face es uno de los primeros clientes en adoptar la nueva nube de Microsoft Azure, que permite a los clientes empresariales y de IA implementar cientos de miles de modelos en el MI300 con un solo clic.

En junio de este año, AMD anunció una hoja de ruta de iteración, planeando lanzar el MI325X en el cuarto trimestre de este año y lanzar las series MI350 y MI400 en los próximos dos años. Entre ellas, M1300X y MI325X adoptarán CDNA3. arquitectura, y el M1350 adoptará la estructura CDNA4. MI400 adoptará la arquitectura CDNA de próxima generación. AMD lanzará nuevas series de productos cada año. Desde la perspectiva de la industria, esta velocidad está en línea con el plan publicado por Nvidia.

Además, Su Zifeng dijo que la demanda de razonamiento de IA será mayor que la de entrenamiento. AI PC es una parte muy importante de la categoría de PC y el mercado de PC es una buena oportunidad de crecimiento de ingresos para el negocio de AMD.

Este año, AMD está acelerando su implementación de IA mediante inversiones. En julio, la compañía gastó 665 millones de dólares para adquirir Silo AI, el laboratorio de inteligencia artificial más grande de Europa, que ofrece soluciones integrales impulsadas por IA. Esta adquisición se considera un paso importante para que AMD alcance a Nvidia.

Su Zifeng dijo que, además de adquirir Silo AI, AMD ha invertido más de 125 millones de dólares en más de una docena de empresas de inteligencia artificial en los últimos 12 meses para expandir el ecosistema de AMD y mantener la posición de liderazgo de las plataformas informáticas de AMD. AMD seguirá invirtiendo en software, dijo, lo que fue una de las razones para invertir en Silo AI.

Basado en hardware GPU de calidad, desarrollo de software y ecosistema, AMD está compitiendo de la misma manera que Nvidia ha tenido éxito.

04

NVIDIA también tiene debilidades

Para competir con NVIDIA, la mejor estrategia es aprovechar sus fortalezas y evitar las debilidades, es decir, utilizar sus propias fortalezas para atacar las debilidades de NVIDIA.

Aunque las capacidades de procesamiento paralelo de la GPU son muy sólidas, esta es la razón fundamental por la que es buena en el entrenamiento de IA. Pero cuando los datos se mueven de un lado a otro, la GPU no los procesa tan rápido. Cuando se ejecutan grandes modelos de IA, a menudo requieren una gran cantidad de GPU y una gran cantidad de chips de memoria, que están conectados entre sí. Cuanto más rápido se mueven los datos entre la GPU y la memoria, mejor será el rendimiento. Al entrenar grandes modelos de IA, algunos núcleos de GPU permanecen inactivos esperando datos casi la mitad del tiempo.

Si se pueden combinar una gran cantidad de núcleos de procesador y una memoria masiva para formar computación en memoria, la complejidad de las conexiones entre múltiples chips se puede reducir considerablemente y la velocidad de transmisión de datos se puede mejorar considerablemente. Una gran cantidad de núcleos de procesador están conectados entre sí dentro del chip y pueden funcionar cientos de veces más rápido que una combinación de GPU independientes. Actualmente, varias startups están haciendo este tipo de cosas y el desarrollo es digno de atención.

Además, debes estar preparado para una guerra prolongada en el ecosistema de software y hardware para poder lidiar con NVIDIA. En este sentido, necesitas una sólida experiencia en recursos para luchar por tu vida. AMD e Intel están haciendo esto.

Además, además del chip en sí, se pueden hacer más esfuerzos en la interconexión de chip a chip. NVIDIA no es líder en este aspecto, sino Broadcom.

Broadcom resuelve el problema de interconexión entre chips y no compite directamente con las GPU de Nvidia. Aunque Nvidia también tiene su propia tecnología de interconexión de chip a chip, desde la perspectiva de toda la industria, la tecnología y los productos de Broadcom son superiores. Entre los ocho sistemas de servidores de IA más grandes del mundo, 7 han implementado infraestructura Ethernet respaldada por la tecnología de Broadcom. Se espera que para 2025, todos los sistemas de servidores de IA a gran escala funcionen con Ethernet.

Broadcom es mejor para resolver problemas de ancho de banda de comunicaciones. En el mercado global de SerDes de 50 GB/s, Broadcom ocupa el 76% de la participación. Su interfaz SerDes convierte datos paralelos de baja velocidad en datos en serie de alta velocidad y luego los convierte nuevamente en datos paralelos. el extremo receptor. Mediante estas operaciones, los datos se pueden transferir de una TPU a otra a alta velocidad, lo que mejora enormemente la eficiencia de la transmisión.

Beneficiándose también del crecimiento de la IA, los ingresos por productos Netcom de Broadcom están creciendo a una tasa de crecimiento interanual del 40%. El informe financiero de la compañía muestra que en el segundo trimestre fiscal a partir de mayo de este año, los ingresos por IA aumentaron un 280% interanual a 3.100 millones de dólares, y se espera que esta cifra supere los 11.000 millones de dólares antes de que finalice este año fiscal. .

05

Una gran caída seguida por un gran aumento nuevamente.

Varios competidores presionan a Nvidia, lo que es una razón importante para la caída del precio de las acciones de la empresa. Sin embargo, el mercado cambia tan rápido que la gente no puede reaccionar a tiempo.

En la noche del 31 de julio, el precio de las acciones de Nvidia subió repentinamente, con un aumento de más del 14% en un momento, y su valor de mercado aumentó en 326,9 mil millones de dólares en un solo día.

Nvidia se convirtió en la primera acción en tener un aumento de capitalización de mercado en un solo día de más de 300 mil millones de dólares. Actualmente, NVIDIA ocupa los tres primeros puestos en la lista de aumento del valor de mercado de un solo día de las acciones estadounidenses. El 22 de febrero y el 23 de mayo de este año, el valor de mercado de un solo día de NVIDIA aumentó en 276,6 mil millones de dólares y 217,7 mil millones de dólares respectivamente.

Morgan Stanley publicó un informe de investigación que afirma que, considerando que el mercado vendió Nvidia recientemente, aunque se desconocen las razones específicas, cree que puede brindar buenas oportunidades de entrada al mercado a los inversores interesados, por lo que la ha vuelto a incluir como una de las principales. acciones y ganancias obtenidas El pronóstico y el precio objetivo no han cambiado, con una calificación de "sobreponderado" y un precio objetivo de 144 dólares.

En solo dos días, el precio de las acciones de Nvidia cayó bruscamente y luego subió bruscamente. Esto puede estar relacionado con la escasez de oferta de Blackwell y la dificultad para entregar todos los productos a tiempo.

Morgan Stanley dijo que los productos Blackwell han despertado un gran interés en el mercado, especialmente la mejora significativa en su rendimiento de razonamiento, lo que impulsa aún más el deseo de compra de los clientes.

Sin embargo, hay noticias en la industria de que el chip Blackwell GPU puede retrasarse o los productos de servidor equipados con el chip pueden retrasarse.

Aunque el rendimiento de las tecnologías y productos de muchos competidores es cada vez mejor, lo que ejerce presión sobre Nvidia, en la actualidad y en el corto y mediano plazo, los productos GPU de la compañía siguen siendo la fuerza principal en el mercado de servidores de IA y, en general, la oferta supera la demanda. Como las GPU Blackwell que muchos clientes esperan con ansias están a punto de enviarse, la noticia de que la entrega se retrasará definitivamente abrirá el apetito del mercado y ayudará a que el precio de las acciones suba.