¿quién puede reemplazar a nvidia?

2024-09-23

autor: barry

editor: guan ju.

fuente de la imagen 丨midjourney

en el campo de las gpu para centros de datos, los envíos de nvidia alcanzarán los 3,76 millones de unidades en 2023, lo que representa casi el 98% de la cuota de mercado global, lo que se puede decir que no tiene rival.

los chips de ia, también conocidos como aceleradores de ia o tarjetas informáticas, son módulos que se utilizan específicamente para manejar una gran cantidad de tareas informáticas en aplicaciones de inteligencia artificial. incluyen principalmente procesadores gráficos (gpu), matrices de puertas programables en campo (fpga) y aplicaciones específicas. circuitos integrados (asic), etc.

según gartner, el mercado de chips de ia alcanzará los 53.400 millones de dólares en 2023, un aumento del 20,9% con respecto a 2022, y aumentará un 25,6% hasta los 67.100 millones de dólares en 2024. para 2027, se espera que los ingresos por chips de ia dupliquen con creces el tamaño del mercado en 2023, alcanzando los 119.400 millones de dólares.

la carrera armamentista de potencia informática protagonizada por grandes empresas gigantes se ha convertido sin duda en una fuerte fuerza impulsora para el mercado de chips de ia.

a partir de 2024, casi todos los modelos grandes convencionales tendrán más de 100 mil millones de parámetros, llama3 tiene 400 mil millones de parámetros y gpt4 tiene 1,8 billones de parámetros. un modelo grande con billones de parámetros corresponde a un grupo de potencia informática supergrande con una escala de más de 10.000 kilobytes.

openai tiene al menos 50.000 gpu nvidia de gama alta, meta ha construido su propio clúster de super10.000 tarjetas compuesto por 24.576 h100 y google tiene una supercomputadora a3 compuesta por 26.000 h100... más de 40.000 empresas han comprado gpu nvidia, empresas como meta, microsoft, amazon y google contribuyeron con un total del 40% de sus ingresos.

el informe financiero muestra que el margen de beneficio bruto de nvidia alcanzó el 71%, del cual el margen de beneficio bruto de las series a100 y h100 llegó al 90%. como empresa de hardware, nvidia tiene un margen de beneficio bruto mayor que las empresas de internet.

se informa que los chips de inteligencia artificial de nvidia para centros de datos tienen un precio de entre 25.000 y 40.000 dólares por pieza, que es entre 7 y 8 veces mayor que el de los productos tradicionales. kazuhiro sugiyama, director de consultoría de la firma de investigación omdia, dijo que los altos precios de los productos nvidia son una carga para las empresas que quieren invertir en ia.

el elevado precio de venta también ha provocado que muchos grandes clientes empiecen a buscar alternativas. el 30 de julio, apple anunció que su modelo de ia se entrenó utilizando 8.000 tpu de google. el primer chip de openai también se presentó hoy. utilizará el proceso de nivel de angstrom a16 más avanzado de tsmc y está especialmente diseñado para aplicaciones de video de sora.

en todo el mundo, las nuevas empresas estrella de chips de ia y los unicornios han surgido uno tras otro, tratando de robarle comida a nvidia. entre ellos, se encuentran los unicornios respaldados por china, sambanova y el recién emergente etched, así como cerebras systems, un unicornio invertido por el ceo de openai, altman, que está corriendo hacia una oferta pública inicial (ipo), el presidente del grupo softbank, masayoshi son, después de cotizar con éxito en arm el año pasado. en julio de este año, adquirió la empresa británica de chips de ia graphcore en un intento de construir la próxima nvidia.

sambanova, un chip unicornio de ia construido por chinos en stanford

el 27 de agosto, la startup estadounidense de chips de ia sambanova presentó en detalle por primera vez su primer sistema de chip de ia del mundo recientemente lanzado para modelos de inteligencia artificial (ia) a escala de billones de parámetros, basado en el chip de ia sn40l de la unidad de flujo de datos reconfigurable (rdu). .

según los informes, el sistema de 8 chips basado en el sn40l de sambanova puede brindar soporte para 5 billones de modelos de parámetros, y la longitud de secuencia en un solo nodo del sistema puede alcanzar 256k+. en comparación con el chip h100 de yingwei, sn40l no solo logra 3,1 veces el rendimiento de inferencia del h100, sino que también duplica el rendimiento de entrenamiento y el costo total de propiedad es solo 1/10.

rodrigo liang, director ejecutivo de sambanova

los tres cofundadores de la empresa tienen experiencia en stanford. entre ellos, el director ejecutivo rodrigo liang es el ex vicepresidente de ingeniería de sun/oracle. los otros dos cofundadores son profesores de stanford. además, hay muchos ingenieros chinos en el equipo.

sambanova está valorada actualmente en 5 mil millones de dólares (aproximadamente 36,5 mil millones de yuanes) y ha completado 6 rondas de financiación por un total de 1,1 mil millones de dólares. los inversores incluyen intel, softbank, samsung, google venture, etc.

no sólo desafían a nvidia en chips, sino que también van más allá en términos de modelo de negocio: participan directamente en ayudar a las empresas a entrenar grandes modelos privados. y los chips no se venden solos, sino sus pilas de tecnología personalizadas, desde chips hasta sistemas de servidores e incluso el despliegue de modelos grandes.

sus ambiciones para los clientes objetivo son aún mayores: apuntan a las 2.000 empresas más grandes del mundo. en la actualidad, los chips y sistemas de sambanova han conquistado muchos grandes clientes, incluidos los laboratorios de supercomputación más importantes del mundo, el fugaku de japón, el laboratorio nacional argonne de los estados unidos, el laboratorio nacional lawrence y la empresa consultora accenture.

rodrigo liang cree que el próximo campo de batalla para la comercialización de grandes modelos y la ia generativa son los datos privados de las empresas, especialmente las grandes. en última instancia, en lugar de ejecutar un modelo muy grande como gpt-4 o google gemini, la empresa creará 150 modelos únicos basados en diferentes subconjuntos de datos, con más de un billón de parámetros agregados.

esta estrategia contrasta marcadamente con enfoques como gpt-4 y google gemini, donde la mayoría de los gigantes esperan crear un modelo gigante que pueda generalizarse a millones de tareas.

etched, una empresa de chips de ia fundada por dos desertores de harvard nacidos en la década de 2000

los fundadores de etched son dos desertores de harvard nacidos en 2000. gavin uberti ha ocupado puestos de alto nivel en octoml y xnor.ai, mientras que chris zhu es chino. además de trabajar como investigador docente en informática en la universidad de harvard, también tiene experiencia como pasante en empresas como amazon.

eran optimistas sobre la dirección de los modelos grandes antes del lanzamiento de chatgpt, por lo que abandonaron la universidad de harvard en 2022 y fundaron etched conjuntamente con robert wachen y el ex director de tecnología de cypress semiconductor, mark ross, para crear grandes modelos de chips dedicados a la ia.

gavin uberti (izquierda) y chris zhu (derecha)

tomaron un camino único: solo podían ejecutar el chip de ia de transformer y adoptaron un diseño asic. en la actualidad, casi todas las soluciones del mercado admiten ampliamente los modelos de ia y han determinado que el modelo transformer dominará todo el mercado a partir de finales de 2022. creen que las actualizaciones de rendimiento de la gpu son demasiado lentas y la única forma es utilizar chips asic especializados. sólo así podremos conseguir un salto de rendimiento.

después de dos años, el 27 de junio de este año, etched lanzó su primer chip de ia, sohu, convirtiéndose en el primer chip del mundo dedicado a la informática transformer.

ejecuta modelos grandes 20 veces más rápido que nvidia h100 y más de 10 veces más rápido que el chip b200 de primera línea, que se lanzó en marzo de este año. un servidor equipado con ocho chips sohu puede reemplazar 160 gpu nvidia h100. si bien se reducen considerablemente los costos, no habrá pérdida de rendimiento.

dado que sohu solo admite un algoritmo, la mayoría de los módulos de flujo de control se pueden eliminar. el chip puede integrar más unidades de cálculo matemático y la utilización de la potencia informática puede alcanzar más del 90%, mientras que la gpu solo puede hacer el 30%. para un equipo de diseño pequeño, mantener una pila de software de arquitectura única es obviamente menos estresante.

al mismo tiempo que se lanzó el chip sohu, etched también anunció que había completado una financiación serie a de 120 millones de dólares, codirigida por primary venture partners y positive sum ventures.

los principales inversores en esta ronda de financiación incluyen al conocido inversor de silicon valley, peter thiel, el ex director de tecnología de la plataforma de comercio de criptomonedas coinbase y el ex socio general de a16z, balaji srinivasan, el director ejecutivo de github, thomas dohmke, el cofundador de cruise, kyle vogt, y el fundador conjunto de quora, charlie cheever. más.

cerebras systems, el unicornio de chips de ia invertido por ultraman, planea apresurarse para salir a bolsa

lo más singular de cerebras systems, fundada en 2015, es que sus chips son muy diferentes de las gpu convencionales de nvidia. en el pasado, los chips se han vuelto cada vez más pequeños bajo la guía de la ley de moore. tomando como ejemplo la nvidia h100, tiene 80 mil millones de transistores en un área central de 814 milímetros cuadrados.

el chip de ia de cerebras opta por hacer que todo el chip sea cada vez más grande, afirmando haber "creado el chip de área más grande del mundo". según los informes, el chip wse 3 desarrollado por cerebras se corta a partir de una oblea entera, que es más grande que un plato y requiere que una persona lo sostenga con ambas manos. un chip wse 3 tiene 4.000 millones de transistores (50 veces más que el h100) en una superficie central de más de 46.000 milímetros cuadrados.

las virutas más grandes que el plato requieren ambas manos para sostenerlas. fuente: ars technica

cerebras afirma que el tamaño del modelo grande de ia que su chip puede entrenar es 10 veces mayor que el de los modelos grandes más importantes de la industria actual (como el gpt-4 de openai o el gemini de google).

el 27 de agosto de este año, cerebras systems anunció el lanzamiento del servicio de inferencia de inteligencia artificial cerebras inference, considerado "el más rápido del mundo". según el sitio web oficial, este servicio de inferencia es 20 veces más rápido que el servicio de nvidia y al mismo tiempo garantiza la precisión del ancho de banda de la memoria de su procesador es 7.000 veces mayor que el de nvidia, mientras que el precio es sólo 1/5 del de la gpu y la relación precio/rendimiento ha aumentado; aumentado en 100 veces. cerebras inference también proporciona múltiples niveles de servicio, incluidos niveles gratuitos, de desarrollador y empresariales, para satisfacer diferentes necesidades, desde el desarrollo a pequeña escala hasta la implementación empresarial a gran escala.

el cofundador y director ejecutivo, andrew feldman, tiene un mba de la universidad de stanford y el director de tecnología, gary lauterbach, es reconocido como uno de los mejores arquitectos informáticos de la industria. en 2007, los dos cofundaron la empresa de microservidores seamicro, que fue adquirida por amd por 334 millones de dólares en 2012, y posteriormente los dos se unieron a amd.

según informes de medios extranjeros, cerebras systems ha solicitado en secreto una oferta pública inicial en los estados unidos y cotizará en bolsa en octubre de 2024. actualmente, la empresa ha recaudado 720 millones de dólares y está valorada en aproximadamente entre 4.200 y 5.000 millones de dólares. uno de los mayores inversores individuales es el director ejecutivo de openai, sam altman. altman supuestamente participó en la financiación serie d de 81 millones de dólares de cerebras.

tenstorrent, junto con el legendario chip master, se convertirá en el "reemplazo" de nvidia

antes de 2021, tenstorrent todavía era una empresa desconocida. sin embargo, la empresa se hizo famosa durante un tiempo cuando jim keller, una gran figura de la industria de los semiconductores conocida como "silicon immortal", anunció que se uniría a la empresa como director de tecnología y presidente.

la carrera de jim keller puede considerarse la historia de la industria informática. de 1998 a 1999, jim keller trabajó en la arquitectura k7/k8 que soportaba athlon en amd, de 2008 a 2012, tomó la iniciativa en el desarrollo de los procesadores a4 y a5 en apple de 2012 a 2015, presidió el k12 arm; proyecto en amd, proyecto de arquitectura zen de 2016 a 2018, desarrolló chips de piloto automático fsd en tesla, y de 2018 a 2020 participó en proyectos misteriosos en intel.

jim keller se une a tenstorrent con la esperanza de proporcionar un "reemplazo" para las costosas gpu de nvidia. él cree que nvidia no está sirviendo bien a ciertos mercados, y estos mercados son exactamente lo que tenstorrent está tratando de capturar.

tenstorrent dice que su sistema galaxy es tres veces más eficiente y un 33% menos costoso que nvidia dgx, el servidor de inteligencia artificial más popular del mundo.

según los informes, se espera que tenstorrent lance su procesador de ia multipropósito de segunda generación antes de finales de este año. según la última hoja de ruta de tenstorrent del otoño pasado, la compañía tiene la intención de lanzar su procesador de ia independiente black hole y chiplets quasar de bajo consumo y bajo costo para soluciones de ia de múltiples chips.

la compañía afirma que sus próximos procesadores ofrecen eficiencias de rendimiento comparables a las gpu con inteligencia artificial de nvidia. al mismo tiempo, tenstorrent afirma que su arquitectura consume menos ancho de banda de memoria que sus competidores, lo cual es una razón clave para su mayor eficiencia y menores costos.

la característica principal del chip tentorrent es que cada uno de sus más de 100 núcleos tiene una pequeña cpu, un "cerebro dentro del cerebro". los núcleos podrán "pensar" por sí solos, decidiendo qué datos procesar primero, o qué datos procesar. si se deben descartar ciertos datos que se consideran tareas necesarias indeseables, aumentando así la eficiencia general.

hasta el momento, tentorrent ha completado al menos 6 rondas de financiación. anteriormente, los inversores de tentorrent eran principalmente capital de riesgo, es decir, después de que jim keller se uniera, la compañía completó una nueva ronda de financiación de 100 millones de dólares en agosto de 2023, y el capital industrial comenzó a aparecer entre los inversores: hyundai automotive group y samsung catalyst fund. , una rama de capital riesgo de samsung.

softbank adquiere graphcore con descuento para crear un competidor para nvidia

graphcore fue fundada en 2016 por el cto simon knowles y el ceo nigel toon. la empresa se compromete a desarrollar la unidad de procesamiento de inteligencia (ipu), un procesador diseñado específicamente para inteligencia artificial y aprendizaje automático, con una arquitectura y ventajas únicas, como una arquitectura mimd masivamente paralela, un alto ancho de banda de memoria y sram distribuida local estrechamente acoplada, etc.

graphcore ha lanzado sucesivamente una serie de productos basados en ipu, como el procesador ipu gc200, ipu bow, etc., y continúa realizando actualizaciones y mejoras técnicas.

sin embargo, en julio de este año, softbank adquirió esta empresa británica de chips de ia en dificultades.

según el acuerdo, graphcore se convertirá en una subsidiaria de propiedad total de softbank y continuará operando bajo su nombre actual. según los informes, el valor total de la transacción puede alcanzar unos 400 millones de libras (unos 500 millones de dólares estadounidenses, 3.560 millones de yuanes), lo que es aproximadamente un 82% menor que la valoración de la última ronda de financiación de graphcore de 2.800 millones de dólares estadounidenses. softbank sólo lo compró con un 20% de descuento.

graphcore alguna vez fue considerada la "versión británica de nvidia". sin embargo, desde 2020, la empresa no ha recibido nuevas inversiones y también ha perdido importantes pedidos de microsoft, lo que la ha dejado en dificultades financieras y operativas, y no ha podido seguir el ritmo general en el campo de los chips de ia. al mismo tiempo, estados unidos continúa endureciendo los controles de exportación de semiconductores de inteligencia artificial de china, lo que también afecta el desarrollo de graphcore en china. al final, tuvo que optar por retirarse del mercado chino y perder una cuarta parte de sus ingresos totales.

esta adquisición de graphcore no sólo consolida la posición de softbank en el campo de los chips de ia, sino que también es un paso importante en la estrategia de ia de son.

ex ingenieros de google fundaron groq para crear una nueva especie de lpu

en agosto de este año, groq anunció la finalización de una financiación serie d de 640 millones de dólares. los inversores incluyen blackrock, cisco investments, samsung catalyst fund, etc., con una valoración de 2.800 millones de dólares.

la compañía, fundada en 2016 por el ex ingeniero de google jonathan ross, afirma que su unidad de procesamiento de lenguaje lpu puede ejecutar modelos genai existentes, como gpt-4, diez veces más rápido y consume solo una décima parte de la energía. la empresa estableció un nuevo récord de rendimiento del modelo de lenguaje grande (llm) utilizando llama 2 de meta, a 300 tokens por segundo por usuario.

en comparación con la versatilidad de la gpu, aunque la lpu tiene un buen rendimiento en el procesamiento de lenguaje, su rango de aplicación es limitado. esto limita su generalización a una gama más amplia de tareas de ia. además, como tecnología emergente, la lpu aún no ha recibido un apoyo generalizado de la comunidad y la usabilidad también enfrenta desafíos.

groq planea implementar más de 108.000 lpu para fines del primer trimestre de 2025, el mayor despliegue de inferencia de inteligencia artificial fuera de los principales gigantes tecnológicos.

noticias

¿quién puede reemplazar a nvidia?

introducción

mi información de contacto