noticias

¡Llama3.1 no se puede vender en absoluto! Expertos de la industria: el costo de los modelos de código abierto es mayor

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Yunzhong vino del templo de Aofei.
Qubits | Cuenta pública QbitAI

El modelo grande de código abierto Llama 3 de Meta ha estado lento en el mercado, intensificando aún más el enfoque en el debate entre código abierto y código cerrado para modelos grandes.

Según el medio extranjero The Information, al gran modelo de código abierto Llama 3 de Meta le ha resultado difícil captar la atención de AWS de Amazon, el mayor proveedor de nube del mundo de AWS.Prefiere utilizar el modelo grande de código cerrado de Anthropic, Claude

Según los expertos de Microsoft,Llama tampoco es la principal opción de ventas de Microsoft, es más probable que recomienden Llama a empresas con experiencia en datos, como empresas con ingenieros y científicos de datos internos.

Meta ahora enfrenta desafíos que pueden inspirar a Meta a crear su propio equipo de ventas de productos de inteligencia artificial para satisfacer las necesidades de las empresas. Esta serie de problemas también pone de relieve las dificultades en el proceso de comercialización de grandes modelos de código abierto. Desde la perspectiva de la selección del mercado, es posible que los efectos reales y los retornos comerciales del modelo de código abierto no cumplan con las expectativas de los clientes empresariales.

rostro"Código abierto o código cerrado" Sobre este tema, los principales fabricantes de modelos nacionales han formado posiciones completamente diferentes basándose en sus propias rutas técnicas y estrategias comerciales. Entonces, ¿cómo deberían las empresas elegir modelos grandes y cómo encontrar el mejor equilibrio entre los dos?

En este contexto,Xin Zhou, director general de Baidu Intelligent Cloud AI y plataforma de modelos grandesFue entrevistado por los medios y analizó en detalle la lógica subyacente, las estrategias comerciales y las predicciones del mercado futuro en el debate entre código abierto y código cerrado.

Xinzhou cree que,Existe una diferencia esencial entre el código abierto de modelos grandes y el código abierto de software——Debido a que el modelo de código abierto no abre el código fuente de entrenamiento, los datos de preentrenamiento y ajuste y otra información clave que afecta el efecto del modelo, no puede depender de la participación de desarrolladores de la comunidad para mejorar el efecto y el rendimiento como el software de código abierto. Sin embargo, la formación del modelo base sólo puede estar en manos de los propios fabricantes.

Cuando se habla de "¿quién es más caro, el modelo de código abierto o el modelo de código cerrado?", Xin Zhou dijo que el modelo de código abierto es gratuito y da a la gente la impresión de bajo coste, pero.La aplicación de modelos grandes no es solo una tecnología única, sino una solución completa que cubre "tecnología + servicios", y las empresas deben calcular el "libro mayor". Cuando el negocio esté realmente implementado, si el modelo de código abierto quiere lograr el mismo efecto que el modelo de código cerrado, requerirá una gran inversión posterior en mano de obra, dinero y tiempo, y el costo general será mayor.

¿Para qué escenarios son adecuados los modelos de código abierto y de código cerrado? Xinzhou cree que,El modelo de código abierto es más adecuado para la investigación académica, pero no es adecuado para proyectos comerciales a gran escala que brindan servicios al mundo exterior. En algunos proyectos serios con inversiones millones o incluso decenas de millones, el modelo de código cerrado sigue siendo. el protagonista.

“El modelo de código abierto no es barato”

El siguiente es el texto completo editado de la entrevista:

1. En el mercado de modelos grandes, ¿qué papel desempeña cada fabricante de modelos? ¿Cuál es el modelo de negocio?

Xin Zhou: En esta fiesta de grandes modelos, el posicionamiento y el modelo de negocio de cada fabricante son diferentes y se pueden dividir a grandes rasgos en tres categorías:

Para el primer tipo de función, para los proveedores de nube, el modelo de negocio es en realidad vender recursos informáticos. Reducir los costos y mejorar la elasticidad de los recursos a través de la escala para lograr rentabilidad. Este es el modelo duradero de los proveedores de nube. Independientemente de si se trata de un modelo de código abierto o de un modelo de código cerrado, siempre que esté alojado por el proveedor de la nube, el proveedor de la nube puede ganar dinero.

El segundo tipo de rol es tanto de proveedor de nube como de proveedor de modelos. Esperan impulsar el negocio hacia la nube mediante el uso de modelos. En la actualidad, el beneficio de depender únicamente de las llamadas API modelo sigue siendo muy bajo. Actualmente esperan ocupar una parte favorable del mercado y continúan buscando nuevas oportunidades de expansión en la mesa de modelos grandes.

El tercer tipo de función, para los fabricantes de modelos empresariales, después de que los principales proveedores de la nube anunciaran recortes de precios de los modelos, su volumen de llamadas cayó drásticamente. El campo de los modelos grandes pronto se convertirá en una batalla entre varios proveedores importantes de la nube. Las nuevas empresas de modelos grandes se centrarán en industrias específicas, privatizarán proyectos toB o se transformarán en productos toC.

2. ¿Por qué se dice que "el modelo de código abierto no es barato y la tecnología estará cada vez más atrasada"?

Xin Zhou: Hablemos primero del problema de la tecnología atrasada.

En primer lugar, el código abierto de modelos grandes no puede mejorar el rendimiento del modelo.

contrastesoftware de código abierto, como el sistema operativo móvil Android y el software de base de datos MySQL. Todos los códigos fuente de este software de código abierto son abiertos y los desarrolladores de toda la sociedad pueden participar en el desarrollo del código. Esto no solo puede reducir los costos de desarrollo de software, sino también acelerar la iteración del software y mejorar la seguridad del software. Este es el valor del código abierto para el software.

El modelo de código abierto es mucho más complejo, que puede ser de código abierto, incluido el código fuente de entrenamiento del modelo, pesos de parámetros, datos de entrenamiento, etc.Sin embargo, los fabricantes de modelos actuales generalmente solo tienen pesos de parámetros de código abierto, pero el código fuente de entrenamiento, los datos de entrenamiento, etc. no son de código abierto, lo que hace que los desarrolladores no puedan mejorarlo y contribuir a la efectividad del modelo de código abierto.

Por ejemplo, para Llama, cada mejora en el rendimiento del modelo es en realidad el resultado de la propia capacitación de Meta, no el resultado de la participación del desarrollador. No hay mucha diferencia entre Llama2 y Llama3 en términos de estructura de red. ¿Qué optimiza? Por un lado, se optimiza el proceso de la fase de entrenamiento, como el entrenamiento de múltiples etapas, por otro lado, se agregan muchos datos. Los datos de Llama2 y Llama3 son un orden de magnitud diferentes. el tiempo aporta mejores resultados al modelo.

Pero todos estos buenos efectos son creados por el propio Meta, y no hay forma de utilizar el poder de los desarrolladores, y mucho menos el proceso de comentarios de la comunidad como el software de código abierto.

En segundo lugar, el modelo de código abierto se quedará cada vez más atrás porque no existe un buen modelo de negocio que garantice la iteración continua del modelo.

La capacitación de modelos y la anotación de datos son muy costosas. A menos que existan recursos empresariales sólidos como Meta para respaldar el desarrollo sostenible de modelos de código abierto, si se trata de una empresa de nueva creación con modelos de código abierto, no podrá formar un negocio cerrado. bucle. Al mismo tiempo, los desarrolladores no pueden contribuir a la eficacia de su modelo, por lo que las startups deben quedarse cada vez más atrás en esto. A juzgar por los resultados, el mejor modelo es en realidad Open AI, y los modelos que encabezan la lista de evaluación actual son todos modelos de código cerrado.

Hablemos de por qué el modelo de código abierto no es barato.La aplicación de modelos grandes es una solución completa que cubre "tecnología + servicios". Las empresas que aplican modelos grandes necesitan "calcular el libro mayor".. ¿Cómo calcular el libro mayor?

El primer nivel es calcular el costo de los recursos de hardware.. Debido a que los modelos comerciales de código cerrado estarán equipados con las cadenas de herramientas correspondientes, incluidas las cadenas de herramientas de capacitación y las cadenas de herramientas de inferencia, el rendimiento de estas cadenas de herramientas es mejor que el de las de código abierto. Para los clientes, la capacitación puede ahorrar entre un 10% y un 20% de los costos de hardware. Al razonar, ahorra más y cuanto mayor es la escala del negocio, más ahorra.

El segundo nivel es observar los beneficios comerciales que aporta el modelo.. Para modelos con la misma escala de parámetros, los resultados de código cerrado son mejores. Algunos clientes no son tan sensibles a una precisión del 90% o 95%. Pero hay algunos negocios, como la publicidad comercial, en los que el CPM y el CTR están separados por sólo un punto. Para las plataformas publicitarias, puede haber decenas de millones de discrepancias en un día. En este momento, las empresas que requieren efectos de modelo más altos. más dispuestos a comprar un modelo de código cerrado que funcione mejor.

El tercer nivel incluye el costo de oportunidad y el costo laboral.. Si utiliza un modelo de negocio de código cerrado para converger más rápido, podrá lanzar nuevos productos más rápido que sus competidores. En un modelo de negocio de código cerrado, el fabricante ha adaptado el modelo y el hardware al estado óptimo y los clientes pueden simplemente copiar la experiencia madura. Pero si usa código abierto, tendrá que adaptarlo usted mismo y el costo de la potencia informática y de los ingenieros será mayor.

Por lo tanto, decimos que los modelos de aplicaciones empresariales necesitan "calcular el libro mayor", y el cálculo de este libro mayor será muy diferente.

3. ¿Por qué el código abierto es mucho más caro que el código cerrado en términos de coste de hardware?
Xin Zhou: La mayoría de los clientes empresariales comprarán dos o más tipos de hardware porque deben considerar la seguridad y flexibilidad de la cadena de suministro. Si es necesario adaptar el modelo de código abierto en cada pieza de hardware, el costo será muy alto.

Esto refleja las ventajas del modelo de negocio de código cerrado, porque puede compartir el costo de la adaptación de software y hardware a través de ventas a gran escala. Además, la adaptación de múltiples núcleos es un asunto muy técnico de Baidu.Plataforma informática heterogénea BaigeSe han realizado muchas optimizaciones específicamente para la heterogeneidad de múltiples núcleos y es adecuado para varios hardware. El propio Baige puede proteger varias diferencias en la capa de hardware. Hay muchas bibliotecas de aceleración, bibliotecas de inferencia y bibliotecas de entrenamiento. Baige también proporciona optimización de un extremo a otro para el modelo grande de Wenxin.

La ventaja de esto para los clientes es que pueden ejecutar rápidamente sin importar qué hardware utilicen, y el ahorro de tiempo y mano de obra es muy alto.

4. ¿En qué escenarios son adecuados el modelo de código abierto y el modelo de código cerrado respectivamente?

Xin Zhou: La idea general es: si desea probar y verificar en escenarios comerciales individuales, primero puede ejecutarlo con un modelo de código cerrado, ejecutarlo de fábrica y verificarlo rápidamente en algunas empresas serias que cuestan millones o; Decenas de millones de dólares. En proyectos que requieren gran escala y precisión, los modelos de negocio de código cerrado siguen siendo la mejor opción para las empresas. Solo en algunos escenarios comerciales que no tienen altos requisitos de efectos y rendimiento, pero requieren una implementación privada y son particularmente sensibles al precio, considere utilizar el modelo de código abierto.

El código abierto es valioso para promover la investigación académica y la investigación, como la optimización del rendimiento de la inferencia en ingeniería, el impacto del preentrenamiento y el ajuste de datos en los resultados, etc. Si puede abrir más cosas, como código de entrenamiento, datos de entrenamiento, y ajuste de la instrucción Los datos, etc., también están abiertos, y su valor para la investigación académica y el desarrollo tecnológico será mayor. Incluso si solo se abren los pesos del modelo, proporciona a los investigadores un buen modelo base.

5. Algunos fabricantes esperan que se puedan implementar tanto el código abierto como el código cerrado al mismo tiempo, es decir, el modelo de código abierto atrae a los usuarios para expandir el ecosistema, mientras que el modelo de código cerrado es responsable de la comercialización.

Xin Zhou: Si no lo has practicado, parece factible. Pero la realidad es:

En la nube pública, entre las convocatorias anunciadas por varios fabricantes, el volumen de llamadas del modelo de código cerrado es mucho mayor que el del modelo de código abierto, lo que demuestra que el modelo de código abierto en realidad no juega un papel en la atracción. usuarios para expandir el ecosistema en la nube pública.. Además, para realizar ajustes en la nube pública, se pueden implementar modelos de código abierto y de código cerrado, de modo que los clientes elegirán directamente el mejor modelo en la nube pública.

En términos de implementación privatizada, esta lógica tiene sentido hasta cierto punto.. Muchas empresas primero comienzan con modelos de código abierto para realizar pruebas y luego descubren que los resultados son buenos y quieren comprarlos. Elegirán el modelo de código abierto que corresponda al modelo de código cerrado del fabricante, porque el mismo modelo de código fuente es más adaptable. indicaciones. En este caso, esta lógica es cierta.Pero este valor se está reduciendo gradualmente.. Debido a que las capacidades generales de los modelos de cada fabricante están mejorando rápidamente, los costos de cambio son cada vez más bajos, eliminando gradualmente la herencia de este modelo.

También hay algunos fabricantes que lanzan modelos de código abierto para promocionar el hardware. Por ejemplo, Nvidia lanza un modelo de código abierto. Su lógica de negocio es muy simple y es necesario comprar una tarjeta para utilizar el modelo.

6. ¿Por qué Baidu no ha lanzado un modelo de código abierto?

Xin Zhou: A partir del volumen de implementación de varios fabricantes se ve claramente que los modelos comerciales de código cerrado con el mayor volumen de implementaciones en la nube pública no tienen mucho impacto en la nube pública.

En el mercado privatizado, a medida que el conocimiento de los clientes sobre los modelos grandes continúa mejorando, el código abierto y el código cerrado gradualmente ya no se convierten en un factor clave.. Después de comunicarme con muchos clientes de grandes empresas, descubrí que hay muchos factores que determinan si los líderes empresariales deben utilizar un modelo. El orden de prioridad suele ser: efecto, rendimiento, seguridad y precio. Que un modelo sea de código abierto o de código cerrado no es un factor decisivo.

7. Mencionó que lo más importante para las empresas al elegir modelos es el efecto, el rendimiento, la seguridad y el precio. ¿La "Máquina todo en uno de modelo grande Qianfan" lanzada por Baidu Cloud está probando un nuevo modelo de negocio que integra software y? ¿hardware?

Xin Zhou: En la actualidad, el uso de modelos grandes por parte de las empresas aún se encuentra en la etapa de exploración y existe una gran necesidad de productos listos para usar de bajo costo para verificar rápidamente los escenarios de uso y los efectos de los modelos grandes. La "Máquina todo en uno de modelo grande Qianfan" es muy adecuada para la etapa actual, porque hay muchas demandas de implementación privatizada en China. Nuestra máquina todo en uno es abierta y se puede adaptar a una variedad de hardware, integrándose. Todos los productos principales del mercado. La máquina todo en uno Qianfan de modelo grande de Baidu Smart Cloud ofrece dos capacidades:

Primero, proporcionar una plataforma integrada para la adaptación de software y hardware.Esta plataforma tiene modelos grandes Wenxin integrados y salas de muestra de aplicaciones de escenarios y modelos grandes de código abierto convencionales de la industria. También se han adaptado y optimizado modelos populares de código abierto. Los usuarios pueden ejecutarlos directamente en la máquina todo en uno sin tener que ajustar los modelos ellos mismos. Al mismo tiempo, la máquina todo en uno de modelo grande de Qianfan puede proporcionar soluciones integradas de software y hardware para modelos grandes desde gestión y control básicos, marco de inteligencia artificial, entrenamiento de modelos, razonamiento predictivo y aplicación de escenarios, brindando a los clientes software de proceso completo y servicios de hardware.

segundoLa máquina todo en uno de modelo grande de Qianfan es muy rentable debido a la optimización del rendimiento de extremo a extremo y la capacidad de exprimir todo el rendimiento del hardware. Los clientes pueden utilizarlo rápidamente y a un costo menor.

En términos de precio general, el precio de la máquina todo en uno Qianfan es mucho más bajo que comprar el servidor, el modelo grande y la plataforma por separado. Para los clientes, se puede usar nada más sacarlo de la caja.

8. Hoy en día, muchas personas sienten que no basta con utilizar modelos grandes básicos, todavía necesitamos construir modelos industriales para lograr realmente la implementación industrial de modelos grandes. Entonces, ¿cuánto le cuesta actualmente a una empresa formar un modelo industrial por sí misma?

Xin Zhou: El costo es muy alto. Primero, este costo aumenta linealmente según el tamaño del parámetro del modelo a entrenar. En segundo lugar, depende del tamaño del volumen de datos. Finalmente, está el costo del etiquetado de datos.

Si desea entrenar un modelo 70b desde cero, es posible que necesite 30 millones en recursos elásticos de la nube. Si desea entrenar un modelo con una mayor cantidad de parámetros, el costo puede ser de cientos de millones. Esto debe ser capacitado por personas experimentadas. Si no tienes experiencia y tomas algunos desvíos en el proceso, el costo será mayor.

9. Con un costo tan alto, ¿cómo puede una empresa determinar si necesita construir un modelo industrial?

Xin Zhou: No recomendamos que los clientes simplemente construyan un modelo base industrial desde el principio, independientemente de las ganancias. El costo debe ser muy alto, independientemente de los beneficios. Ayudaremos a los clientes a analizar sus necesidades primero.

Por ejemplo, si dibuja un sistema de coordenadas, la abscisa es la sensibilidad de la tarea y la ordenada es la demanda de datos de la industria. La llamada sensibilidad de la tarea se refiere a si el escenario está fuertemente relacionado con la industria y los negocios. Por ejemplo, en el campo médico, se trata de cuestiones bastante profesionales. El eje vertical es la demanda de datos de la industria. Cuanto más cerrada es la industria y menos datos hay en la red pública, más capacitación previa se necesita. Por ejemplo, en el campo médico, parte de la información de los registros médicos insensibilizados debe entrenarse previamente en el modelo.

A través del análisis, en este eje de coordenadas, la esquina inferior izquierda no tiene características de la industria y no requiere datos de la industria, por lo que el modelo general se puede usar directamente, pero la esquina superior derecha es sensible a los atributos comerciales de esta industria y requiere mucho de datos de la industria. Este es el momento de construir un modelo de industria.

Normalmente recomendamos que las empresas sigan tres pasos.

El primer paso es la verificación del valor.. Construya preliminarmente una infraestructura modelo de software y hardware a gran escala y construya un modelo industrial preliminar a gran escala. Combinado con la aplicación de IA generativa relativamente madura, los resultados se pueden ver rápidamente. Por ejemplo, a través de la versión liviana de la plataforma de modelo grande Qianfan, se agregan aplicaciones maduras como servicio al cliente inteligente, gestión del conocimiento empresarial y humanos digitales.

El segundo paso es conectar profundamente varias aplicaciones de la empresa.. La infraestructura de modelos grandes se ha mejorado y actualizado aún más a Qianfan Large Model Ultimate Edition. Además de la capacitación y el ajuste relacionados con modelos grandes, también incluye una plataforma para la construcción de aplicaciones. Baidu y sus socios ecológicos están profundamente involucrados en la capacitación y operación de modelos a gran escala dentro de la empresa, creando una atmósfera técnica, capacitando talentos relevantes y trabajando con la empresa para resolver problemas comerciales difíciles y aportar más valor a la empresa.

El tercer paso es la innovación integral y la controlabilidad independiente.. Las empresas han dominado las tecnologías relevantes para el desarrollo de grandes modelos y aplicaciones, y también cuentan con los niveles de talento correspondientes, que pueden permitir mejor un desarrollo independiente y controlable e iniciar una innovación integral. Baidu actuará como consultor y soporte técnico a largo plazo para ayudar en el desarrollo y continuar aportando nuevas tecnologías y soluciones a la empresa.

10. ¿Cómo juzga el mercado de modelos grandes el próximo año?

Xin Zhou: Tengo tres juicios sobre la tendencia de desarrollo del próximo año:

En primer lugar, la multimodalidad se convertirá en un nuevo punto caliente del mercado.

En segundo lugar, habrá una gran explosión de aplicaciones basadas en modelos grandes, y una dirección muy importante es Agent.. Si un modelo grande solo realiza las acciones prescritas de "entrada y salida", limitará en gran medida su valor. Debería parecerse más a un ser humano, capaz de utilizar herramientas, colaborar entre sí, planificar, pensar, reflexionar e iterar. . Debe combinarse con una variedad de componentes y complementos para satisfacer las necesidades de escenarios comerciales específicos, por lo que Agent se convertirá en la clave para la producción de cada fabricante de modelos en el futuro.

En tercer lugar, habrá más oportunidades para aplicaciones empresariales, como bases de conocimientos, servicio al cliente, personas digitales, escritura de códigos auxiliares y otros escenarios.Por ejemplo, utilizando modelos grandes para escribir código, Baidu tiene un producto llamado "Wenxin Quick Code", que se ha utilizado ampliamente en Baidu. La tasa de adopción puede alcanzar el 46% y la proporción de código nuevo generado ha alcanzado el 30%. Puede ayudar a las empresas a mejorar enormemente la eficiencia del desarrollo. Al mismo tiempo, surgirán una gran cantidad de empresas dedicadas al desarrollo de aplicaciones de IA. Estas empresas pueden reducir los costos de implementación y copia de aplicaciones a un nivel suficientemente bajo, siempre que la eficiencia operativa sea lo suficientemente alta.