mi información de contacto
correo[email protected]
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
el 25 de septiembre, en la conferencia baidu cloud intelligence 2024, shen dou, vicepresidente ejecutivo de baidu group y presidente de baidu intelligent cloud business group, dijo en la cloud intelligence conference que el año pasado fue la clave para que los grandes modelos pasaran de la tecnología. un año después, los modelos grandes están estrechamente integrados con la computación en la nube y se están convirtiendo en un nuevo tipo de infraestructura. "los modelos grandes y sus sistemas relacionados se están convirtiendo rápidamente en una nueva generación de infraestructura en solo unos pocos años. este cambio no tiene precedentes".
con respecto a la potencia informática de los modelos grandes, shen dou dijo que cuando se trata de potencia informática, muchas personas han oído hablar del "clúster wanka". en pocas palabras, el clúster de gpu tiene tres características: escala extrema, densidad extremadamente alta e interconexión extrema.
y estos "extremos" plantean varios desafíos serios. shen dou presentó que el primero son los enormes costos de construcción y operación para construir un clúster wanka, el costo de compra de gpu por sí solo alcanza varios miles de millones de yuanes. en segundo lugar, en un clúster de tan gran escala, la complejidad de la operación y el mantenimiento aumenta drásticamente. señaló que el hardware inevitablemente fallará y cuanto mayor sea la escala, mayor será la probabilidad de falla. "cuando meta entrenó a llama3, un clúster que utilizaba 16.000 tarjetas gpu experimentó una falla promedio cada 3 horas".
shen dou dijo además que entre estas fallas, la gran mayoría son causadas por la gpu. de hecho, la gpu es un hardware muy sensible e incluso las fluctuaciones en la temperatura del clima al mediodía afectarán la tasa de falla de la gpu. estos dos desafíos obligaron a baidu a repensar cómo construir, administrar y mantener clústeres de gpu grandes y complejos, proteger la complejidad de la capa de hardware y proporcionar una plataforma informática simple y fácil de usar para todo el proceso de implementación de modelos grandes, permitiendo es más fácil para los usuarios administrar la potencia informática de la gpu y hacer un buen uso de la potencia informática a bajo costo. “en el último año, sentimos que las necesidades de capacitación de modelos de los clientes se han disparado y el tamaño del grupo requerido se ha vuelto cada vez mayor. al mismo tiempo, las expectativas de todos sobre la disminución continua de los costos de inferencia de modelos también se han vuelto cada vez más altas. todo esto tiene un gran impacto en las gpu. la estabilidad y la eficacia de la gestión han planteado requisitos más altos”.
en base a esto, baidu intelligent cloud anunció que actualizará completamente la plataforma informática heterogénea baige ai a la versión 4.0. centrándose en las necesidades de potencia informática de todo el proceso de implementación de modelos grandes, proporcionará a las empresas cuatro aspectos principales: creación de clústeres. experimentos de desarrollo, entrenamiento de modelos e inferencia de modelos proporcionar una infraestructura de ia "múltiple, rápida, estable y económica".
entre ellos, para resolver el problema de la escasez de recursos informáticos, baige 4.0 ha realizado actualizaciones clave en la capacidad de "entrenamiento mixto multinúcleo", logrando una eficiencia de entrenamiento mixto multinúcleo del 95% en clústeres de escala wanka, alcanzando la máxima nivel avanzado en el negocio. en el proceso de implementación del clúster, el baige actualizado puede lograr una implementación de segundo nivel a nivel de herramienta, reduciendo el tiempo de preparación para las operaciones del clúster wanka de semanas a una hora como máximo, mejorando en gran medida la eficiencia de la implementación y acortando el ciclo de lanzamiento comercial. en respuesta al problema de las fallas frecuentes durante el entrenamiento de modelos grandes, baige 4.0 ha actualizado integralmente los métodos de detección de fallas y los mecanismos automáticos de tolerancia a fallas, lo que puede reducir efectivamente la frecuencia de fallas y reducir significativamente el tiempo de manejo de fallas del clúster. % sobre la duración efectiva del entrenamiento del grupo wanka.
además, baidu intelligent cloud también anunció el último "boletín de calificaciones" de la plataforma de modelo grande qianfan. en la plataforma de modelo grande qianfan, el modelo grande wenxin tiene un volumen de llamadas diario promedio de más de 700 millones de veces y ha ayudado a los usuarios a mejorar. -tune un total de 30.000 modelos grandes y desarrolló más de 700.000 aplicaciones de nivel empresarial. el año pasado, el precio del modelo grande insignia de wenxin cayó más del 90%.
noticias económicas diarias