¿Cuál es el debate sobre el código abierto y cerrado de modelos grandes?

2024-08-14

Las disputas no pueden negar el valor de mercado de la otra. Las dos necesidades del mercado coexistirán durante mucho tiempo.

Texto |

Editor｜Xie Lilong

Desde este año, empresarios, inversores y emprendedores de la industria de la IA (inteligencia artificial) en China y Estados Unidos han iniciado simultáneamente un debate: si los modelos grandes deberían ser de código abierto o de código cerrado.

En China, la figura en el centro de la controversia es el fundador de Baidu, Robin Li. En abril de este año, declaró públicamente: "Todos solían usar código abierto y pensaban que el código abierto era barato. De hecho, en escenarios de modelos a gran escala, el código abierto es el más caro. El modelo de código abierto se volverá cada vez más atrasado. ." No falta oposición a esta opinión. Los oponentes incluyen al CTO (director de tecnología) de Alibaba Cloud, Zhou Jingren,Inteligencia de BaichuanEl director ejecutivo Wang Xiaochuan y el director ejecutivo de Cheetah Mobile, Fu Sheng. En mayo de este año, Zhou Jingren dijo sin rodeos en una entrevista con los medios: "No hay duda de que el código abierto contribuye a la tecnología y la ecología globales. Esto se ha demostrado muchas veces en todo el mundo y no hay necesidad de discutirlo más".

En Estados Unidos, el debate es aún más acalorado. El fundador de Tesla, Musk, demandó una vez a las nuevas empresas de inteligencia artificialIA abierta. Musk fue uno de los principales fundadores e inversores de OpenAI en 2015. Cree que OpenAI, liderada por el actual CEO Altman, ha violado su compromiso de "operar como una organización sin fines de lucro y hacer que la IA sea de código abierto y de código abierto". Dos inversores famosos de Silicon Valley, Andreessen, el fundador de a16z, y Kosla, el fundador de Kleiner Perkins Caufield & Byers, han tenido muchas rondas de confrontación en las redes sociales. El primero cree que el modelo de código cerrado conducirá al monopolio de gigantes y socavará la investigación académica. Este último cree que los modelos grandes son armas económicas y no deberían ser de código abierto.

El código abierto es un modelo de desarrollo de software: el código fuente se publica de forma gratuita y sobrevive gracias a las donaciones de la comunidad. Los desarrolladores pueden descargar, modificar, distribuir, informar errores de software (defectos o errores de software) libremente y hacer sugerencias de optimización. Esta innovación colectiva acelerará la iteración del software.Los modelos de código abierto se refieren a modelos que son de uso gratuito y tienen detalles técnicos publicados, como parámetros del modelo; los modelos de código cerrado se refieren a modelos que requieren pago y no publican detalles técnicos.Simplemente comprenda que el código abierto es gratuito, pero debe comprar y cocinar su propia comida; el código cerrado implica pagar, lo que equivale a ir a un restaurante a comer y puede obtener mejores servicios.

¿Los modelos grandes deberían ser de código abierto o de código cerrado? Se han mezclado intereses comerciales, opiniones técnicas y otros factores, de modo que muchos hechos se han confundido, pero hay algunos hechos ciertos detrás de este debate.

En primer lugar, las diferentes estrategias comerciales permiten a las empresas elegir diferentes rutas técnicas.Empresas como Baidu y OpenAI que esperan comercializar rápidamente grandes modelos de negocio han elegido el código cerrado en el que confían Alibaba Cloud, Meta y otras empresas;computación en la nubeO las empresas con negocios publicitarios rentables eligen el código abierto para agrandar el pastel.

En segundo lugar, las demandas del mercado de código abierto y código cerrado coexistirán durante mucho tiempo, y es imposible juzgar simplemente cuál es mejor.Los modelos de código abierto y cerrado tienen sus propios escenarios aplicables y el modelo a elegir está relacionado con la demanda del mercado. Esto no cambia por voluntad del fabricante del modelo.

En tercer lugar, existen diferencias esenciales entre los modelos de código abierto y el software de código abierto.El software de código abierto publica el código fuente y la mayoría de los detalles técnicos. El modelo de código abierto se parece más a una caja negra técnica gratuita: los parámetros del modelo están abiertos, pero el código fuente, los datos de entrenamiento, el proceso de entrenamiento y otros detalles técnicos rara vez están abiertos.

Además, la batalla entre fuentes abiertas y cerradas en la industria de la IA de China tiene más que ver con la competencia comercial.El código abierto no tiene fronteras, este concepto ha sido generalmente reconocido. Sin embargo, en el contexto de la intensificación de la competencia entre China y Estados Unidos en la industria de la IA, la oposición de la industria estadounidense al código abierto es cada vez más fuerte.

¿Quién es de código abierto y quién de código cerrado?

El desarrollo de modelos de gran tamaño se encuentra todavía en sus primeras etapas y todavía requiere prueba y error.El código abierto y el código cerrado no son distintos. Cuando las empresas se enfrentan a la cuestión de opción múltiple del código abierto y del código cerrado, toman tres caminos diferentes.

Lo más extremo es hacer sólo modelos de código abierto. Hay relativamente pocas empresas que siguen este camino y Meta es una de las pocas. La ventaja es que atraerá a más usuarios. El problema es que no existe un modelo de rentabilidad y sólo las grandes empresas pueden permitírselo.

Llama 3, propiedad de Meta, es el modelo de código abierto con más usuarios del mundo. El principal negocio de Meta son las redes sociales (como Facebook, Instagram), con un beneficio neto en 2023 que alcanzará los 39.000 millones de dólares. Meta tiene la necesidad de explorar nuevos negocios, pero no hay presión para ganar dinero a través de modelos. Por lo tanto, solo puede utilizar el modelo de código abierto y no considerar cuestiones de rentabilidad por el momento.

Un camino intermedio es el código abierto y el código cerrado en paralelo, lo cual es muy flexible. Las empresas no solo pueden obtener usuarios a través de código abierto, sino también obtener ingresos a través de código cerrado. Esto no solo da a los desarrolladores espacio para elegir, sino que también permite que las propias empresas tengan margen de error.

Las empresas que eligen este camino incluyen a Microsoft, Google, Alibaba Cloud, Tencent Cloud, así como nuevas empresas de inteligencia artificial como Mistral Al, Zhipu AI y Baichuan Intelligence. Una práctica común para paralelizar el código abierto y el código cerrado es utilizar modelos de código abierto gratuitos para atraer usuarios y guiarlos para que utilicen modelos de código cerrado que sean de mayor tamaño y tengan un mayor rendimiento. Por ejemplo, el principal modelo comercial de Microsoft es la serie GPT-4 de OpenAI, pero también abrió el modelo pequeño Phi-3 Mini; Alibaba Cloud abrió más de diez modelos con parámetros que van desde 500 millones a 110 mil millones, y también proporcionó un modelo cerrado. base de código fuente, modelos grandes, modelos industriales; Google ha abierto la serie Gemma de modelos pequeños, y también proporciona la serie Gemini de código cerrado de modelos grandes básicos como Mistral Al, que tiene modelos de código abierto con rendimiento atrasado en la generación anterior; y guió a los usuarios a pagar para usar modelos con mayor rendimiento en esta generación.

El problema con el código abierto y el código cerrado es que la comercialización a veces implica esfuerzos competitivos. Algunos clientes han utilizado modelos gratuitos de código abierto y ya no utilizarán modelos pagos de código cerrado. Como resultado, los fabricantes de modelos perderán parte de sus ingresos.

Un técnico de un proveedor chino de servicios de software de inteligencia artificial le dijo a Caijing en julio de este año que recientemente utilizaron el modelo de código abierto Tongyi Qianwen (Qwen2) de Alibaba Cloud para capacitación secundaria y ajuste para servir a una oficina de turismo de la ciudad local. Este pedido supera los 10 millones de yuanes y ellos son los beneficiarios, pero Alibaba Cloud no tiene ingresos. "Caijing" preguntó sobre el acuerdo de licencia de Qwen2 en Github (la plataforma de alojamiento de código más grande del mundo). El acuerdo dice "No se requiere solicitud de uso comercial". En otras palabras, no hay necesidad de pagar por el uso comercial una vez que Qwen2 esté entrenado y ajustado.

El valor a largo plazo del código abierto es hacer que el mercado de modelos sea más grande. Una persona de Alibaba Cloud le dijo a Caijing que es normal que los usuarios modifiquen el modelo de código abierto para uso comercial, y que deben estar preparados para esto cuando trabajen con código abierto. Aunque Alibaba Cloud aún no se ha comido todo el pastel, ha hecho que el pastel de la industria sea más grande. A la larga, en última instancia, se beneficiará. Las reacciones químicas solo ocurrirán cuando diferentes clientes, como gobiernos, grandes y medianas empresas y desarrolladores, utilicen ampliamente modelos grandes. Las grandes industrias modelo necesitan establecer una ecología y formar un volante de crecimiento. Esta tendencia se puede ver en ModelScope, una comunidad de IA de código abierto propiedad de Alibaba Cloud. En julio de este año, la comunidad Moda cuenta con más de 5,6 millones de desarrolladores, más de 5.500 modelos de alta calidad y miles de conjuntos de datos, lo que la convierte en la comunidad de modelos de código abierto más grande de China.

Una visión más optimista es que el código abierto y el código cerrado pueden incluso formar una relación ascendente y descendente. El código abierto está en la fase inicial de la tecnología y es responsable de la participación de la comunidad, la iteración de la tecnología, la atracción de clientes y garantizar que la tecnología lidere a sus pares. El código cerrado es posterior y es responsable de la realización comercial.

Lanzhou Technology es una gran empresa emergente modelo en China. Li Jingmei, socio y codirector ejecutivo de Lanzhou Technology, dijo a Caijing que el código abierto es tanto una estrategia técnica como una estrategia comercial. Puede afectar a la comunidad de desarrolladores, así como a la psique del equipo técnico de los clientes potenciales. El código abierto y el código cerrado no son contradictorios. El ciclo de comentarios de los clientes para los modelos de código cerrado es relativamente largo, pero los desarrolladores de la comunidad de modelos de código abierto brindarán comentarios rápidamente. Esto puede ayudar a las empresas a iterar productos rápidamente.

Un planificador estratégico de IA de una importante empresa de tecnología china cree que para los principales proveedores de nube, como Alibaba Cloud, es mejor ser de código abierto y cerrado en paralelo que ser solo de código cerrado. Los ingresos de Alibaba Cloud provienen principalmente de los cuatro componentes principales de la nube pública (informática, almacenamiento, red y base de datos). El modelo gratuito de código abierto promoverá el consumo de datos comerciales de los clientes, impulsando así las ventas de los productos básicos en la nube antes mencionados.

Crear únicamente modelos de código cerrado es un enfoque simple, directo y lógico. Las grandes empresas que optan por este camino creen que si se quieren comercializar modelos grandes, deben ser de código cerrado, de lo contrario no se puede cerrar el circuito comercial.

Las startups de IA OpenAI (sus modelos de la serie GPT-4), Amazon (invirtió en la startup de IA Anthropic, que incluye los modelos de la serie Claude 3.5), Huawei (modelo grande Pangu), Baidu (modelo grande Wenxin) y otras empresas han elegido esta camino. Las empresas que utilizan modelos grandes a menudo pagan por llamada API (interfaz de programación de aplicaciones), que es como pagar por el agua, la electricidad y el gas según el uso. El modelo de negocio del modelo de código cerrado es teóricamente el más saludable. Las tasas de crecimiento de los ingresos de Microsoft Azure, Amazon AWS y Google Cloud aumentaron aproximadamente 5 puntos porcentuales el año pasado, y sus niveles de ganancias también aumentaron ligeramente. Se cree que esto es el resultado de una gran atracción de modelos.

Pero en China es difícil que el modelo de código cerrado sea realmente rentable en el corto plazo. En mayo de este año, el mercado de modelos chino inició una guerra de precios. El propósito de la reducción de precios es estimular la demanda de los clientes y ampliar el tamaño del mercado. Los servicios en la nube de ByteDance, Volcano Engine, Alibaba Cloud, Tencent Cloud y Baidu Smart Cloud, han reducido sucesivamente el precio de las llamadas de modelos grandes en más del 90%. El margen de beneficio bruto de las llamadas de modelos grandes cayó de más del 60% a menos del 0%.

Un responsable del negocio de grandes modelos de un proveedor chino de nube cree que las llamadas de grandes modelos han entrado en la "era de las ganancias brutas negativas". Cuanto más lo uses, mayores serán tus pérdidas. La diferencia es que las grandes empresas como Alibaba, ByteDance y Baidu pueden permitirse el lujo de perder dinero, pero las pequeñas y medianas empresas y las nuevas empresas no pueden hacerlo.

Él y un gran ejecutivo de una startup modelo expresaron una opinión similar: diferentes empresas tienen diferentes genes y diferentes modelos de estrategias comerciales. La nube es el negocio principal de Alibaba Cloud y el objetivo final de los modelos de código abierto es vender más nubes. Volcano Engine cuenta con el respaldo de ByteDance y el negocio de publicidad de la empresa matriz se puede transfundir. La participación de mercado de la computación en la nube de Volcano Engine es mucho menor que la de Alibaba Cloud. "Está descalzo y no tiene miedo de usar zapatos", y espera apoderarse de una mayor participación de mercado mediante guerras de precios. La IA es el negocio principal de Baidu. Baidu espera ganar dinero con modelos grandes, por lo que enfatiza el valor de los modelos de código cerrado.

¿Cuál es el argumento? ¿Cuál es el consenso?

Hay varios enfoques en el debate de China sobre el código abierto y el código cerrado para modelos grandes: en primer lugar, ¿existe alguna diferencia entre los modelos de código abierto y el software de código abierto? En segundo lugar, ¿cuál es más fuerte, el modelo de código abierto o el modelo de código cerrado? En tercer lugar, ¿cuál es más caro, el modelo de código abierto o el modelo de código cerrado?

El primer debate es: ¿existe alguna diferencia entre los modelos de código abierto y el software de código abierto? La respuesta es que hay una gran diferencia. La gran mayoría de los modelos de código abierto no son completamente de código abierto. Se parecen más a cajas negras de uso gratuito que a cajas transparentes como el software de código abierto.

El software de código abierto publicará el código fuente y los desarrolladores podrán dominar la mayoría de los detalles técnicos del software a través del código fuente. La lógica central del software gratuito de código abierto es que los desarrolladores de toda la sociedad pueden ayudar a los fabricantes de software a encontrar errores en los productos y brindar sugerencias de optimización. El desarrollo social no sólo puede reducir los costos de investigación y desarrollo de software, sino también acelerar la iteración del software. Tanto el sistema operativo móvil Android como el software de base de datos MySQL han logrado este éxito.

La complejidad de los modelos de código abierto supera con creces la del software de código abierto. Los proyectos de código abierto incluyen código fuente, pesos de parámetros, estructura del modelo, datos de entrenamiento, proceso de entrenamiento, etc. Dos académicos de la Universidad de Radboud en los Países Bajos, Lisenfeld y Dingemans, publicaron un artículo en marzo de este año comparando el grado de código abierto en modelos de código abierto. El documento muestra que los modelos de código abierto de mayor rendimiento generalmente solo tienen ponderaciones de parámetros de código abierto. Una explicación es que, para garantizar el rendimiento líder del modelo, los fabricantes de modelos no pueden revelar todas las "recetas". Tomemos como ejemplo el modelo de código abierto más poderoso del mundo, Llama3. Solo ha abierto parcialmente sus pesos de parámetros y la estructura del modelo. El código fuente, los datos de entrenamiento y el proceso de entrenamiento no han sido de código abierto.

No hay duda sobre el valor del concepto de código abierto para la ecología industrial.Xin Zhou, director general de Baidu Smart Cloud AI y plataforma de modelos grandes, dijo a Caijing en julio de este año que los modelos de código abierto enriquecerán las aplicaciones modelo y los modelos industriales. Pero se opone a combinar el modelo de código abierto con el software de código abierto.Porque existe una diferencia esencial entre los dos: el modelo de código abierto no puede depender de la participación de desarrolladores sociales para mejorar el rendimiento del producto y reducir los costos de I+D como el software de código abierto. El modelo base solo puede mejorarse mediante la capacitación del propio fabricante del modelo. El ajuste fino y la optimización de la inferencia del modelo de código abierto no son tan buenos como los del modelo comercial. Tiene altos requisitos técnicos para los desarrolladores y el costo real de uso no lo es. bajo.

El segundo debate es ¿cuál es más fuerte, el modelo de código abierto o el modelo de código cerrado? El hecho es que los modelos de código cerrado generalmente funcionan mejor que los modelos de código abierto, pero la brecha de rendimiento entre los modelos de código abierto y los de código cerrado se está reduciendo.

El Centro de Investigación sobre Modelos Fundamentales (CRFM) de la Universidad de Stanford lleva mucho tiempo realizando clasificaciones globales de pruebas de modelos grandes. A partir del 24 de julio, las clasificaciones de pruebas de comprensión de lenguajes multitarea a gran escala (MMLU) publicadas muestran que entre los diez mejores modelos de rendimiento, solo Llama3.1 es un modelo de código abierto, incluido Claude3.5 (invertido por Amazon), GPT. -4o (con inversión de Microsoft) y Gemini1. 5 Pro (desarrollado por Google) y otros son modelos de código cerrado.

Li Jingmei cree que el modelo de código cerrado de la misma empresa debe tener un mejor rendimiento que el modelo de código abierto. Sin embargo, en comparación horizontal en la industria, los modelos de código cerrado no son necesariamente mejores que los modelos de código abierto. Debido a que los modelos grandes se repiten cada 6 a 12 meses, algunos modelos de código abierto pueden evolucionar más rápido.

Las clasificaciones de las organizaciones de revisión ilustran esta tendencia. La organización LMSYS (Large Model System Research Organization) fue iniciada por la Universidad de California, Berkeley. La organización también evaluará y clasificará el rendimiento del modelo global durante mucho tiempo. Llama3.1 de Meta y Qwen2 de Alibaba Cloud están mejorando rápidamente en las clasificaciones de esta evaluación. Llama3.1 incluso supera a la mayoría de modelos de código cerrado.

Una persona a cargo del negocio de modelos grandes de un proveedor de nube chino analizó que hay dos razones por las que la brecha de rendimiento entre los modelos de código abierto y los modelos de código cerrado se ha reducido en el último año, los modelos básicos grandes generalmente han entrado en un período de cuello de botella. mejora del rendimiento. El modelo de código abierto atrae a un gran número de desarrolladores. Aunque no pueden mejorar directamente el rendimiento del modelo a través de la retroalimentación del código, mejoran el nivel general de investigación del modelo, lo que indirectamente ayuda a los modelos de código abierto a mejorar el rendimiento del modelo.

El tercer debate es, modelo de código abierto o modelo de código cerrado, ¿cuál es más caro? La conclusión es que el rendimiento es el factor decisivo. Los costos de uso del modelo están directamente relacionados con el rendimiento del modelo. Cuanto mayor sea el rendimiento, menor será el costo de uso a largo plazo porque se necesitan menos llamadas para completar la tarea.

Los modelos de código abierto son gratuitos y a menudo dan la impresión de ser más baratos y de menor coste. Xin Zhou explicó que la aplicación del modelo grande es una solución integral que incluye "tecnología + servicio", y la empresa necesita calcular el "libro mayor". Además de proporcionar modelos completos y cadenas de herramientas, los fabricantes de modelos de código cerrado también brindan servicios técnicos y de capacitación para ayudar a las empresas a comenzar rápidamente. El modelo de código abierto parece ser gratuito, pero para lograr el mismo efecto que el de código cerrado, se requiere una gran inversión posterior en mano de obra, dinero y tiempo, y el costo total es aún mayor.

A largo plazo, el factor decisivo en el costo de la aplicación de los modelos de código abierto y cerrado es el costo de la inferencia. Los modelos de código cerrado con la misma magnitud de parámetros generalmente funcionan mejor que los modelos de código abierto y tienen costos integrales más bajos. Xin Zhou calculó que si una empresa implementa un modelo de código abierto de forma gratuita, implementar un modelo de código cerrado cuesta 500.000 yuanes. En la etapa de inversión inicial, el modelo de código abierto es más económico. En la etapa posterior de uso, si el rendimiento integral del modelo de código cerrado es un 20% mejor que el del modelo de código abierto, el modelo de código cerrado puede ahorrar decenas de miles de yuanes por día en algunas empresas de gran volumen. . En última instancia, el coste de uso a largo plazo debe ser mucho menor que el del modelo de código abierto.

¿Quién utiliza el modelo de código abierto? ¿Quién utiliza el modelo de código cerrado?

¿Es mejor el modelo de código abierto o el modelo de código cerrado? Esta cuestión no la deciden los fabricantes de modelos del lado de la oferta, sino los clientes empresariales del lado de la demanda.

En público, las guerras corporativas de palabras continúan. Sin embargo, muchos técnicos de proveedores de nube le dijeron a Caijing que estos argumentos no pueden negar el valor de mercado de cada uno. Estas dos necesidades coexistirán durante mucho tiempo. Visto desde otra perspectiva, una guerra de palabras facilita aumentar conjuntamente la visibilidad del mercado.

De hecho, a la mayoría de los clientes empresariales no les importa si el modelo debe ser de código abierto. Xin Zhou concluyó que después de comunicarse con muchos clientes de grandes empresas, descubrió que si el jefe del departamento de TI debería utilizar un modelo depende de muchos factores. La clasificación en orden de prioridad suele ser: efecto, rendimiento, precio y seguridad. El código abierto o el código cerrado no son un factor decisivo.

En la "caja de herramientas" de la mayoría de las empresas, los modelos de código abierto y los modelos de código cerrado son complementarios. La implementación de grandes modelos por parte de grandes empresas suele dividirse en diferentes etapas.

En la etapa inicial, el departamento de TI clasificará el rendimiento y las características de los modelos de código abierto y cerrado en el mercado. Los diferentes modelos tienen diferentes ventajas. Algunos tienen sólidas capacidades de pronunciación del idioma y otros tienen sólidas capacidades de estadística de datos. Pruebas POC (prueba de concepto) gratuitas en las primeras etapas del modelo de código abierto para verificar los efectos comerciales.

En el mediano plazo comenzaremos con la primera fase de proyectos en escenarios de negocios de baja dificultad y rápidos resultados, como marketing, servicio al cliente y base de conocimientos. No solo necesita comprar un modelo de código cerrado, sino que también necesita entrenar y ajustar su propio modelo de código abierto. Deje que los modelos internos y externos "compitan caballos", compare los efectos y costos de diferentes modelos y cambie de uso en cualquier momento.

En la etapa posterior, con base en los resultados de la implementación, planificaremos gradualmente los proyectos de la segunda y tercera fase en escenarios comerciales que son difíciles y lentos para producir resultados. En este momento, a menudo incluso es necesario gastar decenas de millones de yuanes para establecer un conjunto de grandes modelos básicos o grandes modelos industriales independientes y controlables.

El modelo de código abierto es gratuito, pero no se puede utilizar de inmediato, requiere tiempo y esfuerzo y nadie es responsable de los detalles. El modelo de código cerrado puede obtener directamente productos maduros y brindar servicios completos antes, durante y después de la venta. Para entenderlo simplemente, el modelo de código abierto es como comprar comida y cocinar usted mismo, mientras que el modelo de código cerrado es como gastar dinero para comer en un restaurante.

El punto de vista de Xin Zhou es que el modelo de código abierto es adecuado para la investigación académica, para algunas pequeñas y medianas empresas con presupuestos de TI extremadamente limitados y para algunas grandes empresas para proyectos de autoinvestigación internos independientes y controlables, pero no lo es. Adecuado para proyectos comerciales externos de gran escala. En algunos proyectos comerciales serios que cuestan millones o decenas de millones de dólares, el modelo de código cerrado sigue siendo la mejor opción.

El modelo de código abierto no es un almuerzo gratis. Hay muchos costos ocultos para las grandes empresas que utilizan el modelo de código abierto. Por ejemplo, compra de potencia informática, adaptación de software, etc. Un director técnico de un proveedor chino de servicios de marketing inteligente en el extranjero le dijo a Caijing en julio de este año que su empresa depende en gran medida de los servicios en la nube y gasta más de 80 millones de yuanes en investigación y desarrollo cada año. En los últimos dos años, la empresa ha estado utilizando más de diez modelos de código cerrado al mismo tiempo, pero entre ellos no hay ningún modelo de código abierto. En su opinión, el modelo de código abierto requiere tiempo y mano de obra para trabajar en él. La mayoría de los modelos de código abierto no se pueden utilizar de inmediato, nadie conoce los detalles y solo pueden considerarse "juguetes". Tiende a gestionar más de una docena de modelos de código cerrado y alternar entre ellos en cualquier momento según el precio y el rendimiento. Este es el más rentable.

Un director de TI de un gran banco comercial por acciones cree que no es un gran problema que el modelo de código abierto no se pueda utilizar de inmediato. Le dijo a Caijing en diciembre de 2023 que su equipo también utilizó Alibaba (modelo de código abierto Tongyi), Meta (modelo de código abierto Llama), Baidu (serie Wenxin) y Zhipu (serie GLM) para aplicaciones de auditoría de informes de cumplimiento de investigación de autoservicio. El modelo de código abierto es adecuado para proyectos tan pequeños, ya que permite realizar pruebas POC gratuitas y puede modificarse según sea necesario. Su equipo de TI cuenta con decenas de personas, además de una empresa de servicios de TI subcontratada, con suficiente personal para hacer frente a estos problemas. Pero también cree que en proyectos a gran escala por valor de un millón o diez millones de yuanes, el modelo de código cerrado es más adecuado. Debido a que el modelo de código cerrado es estable y confiable, también puede encontrar una empresa modelo que se encargue de cuidarlo.

Cuesta decenas de millones de yuanes entrenar completamente un conjunto de modelos industriales utilizando modelos de código abierto, y también requiere la compra de chips de inteligencia artificial para construir una sala de computadoras de construcción propia. Los técnicos proveedores de servicios de software de IA antes mencionados concluyeron que el modelo de código abierto es adecuado para algunas empresas estatales centrales que tienen altos requisitos de seguridad, autonomía y control de los datos, y no son tan sensibles a los costos. Utilizarán modelos de código abierto para entrenar sus propios modelos industriales. Porque el "modelo de código abierto + nube privada" satisface las demandas de seguridad de los datos y control independiente de muchas empresas centrales y estatales.

¿Cuál es el futuro?

El debate entre fuentes abiertas y cerradas de modelos grandes en el mercado chino es una cuestión puramente comercial. Sin embargo, en el mercado internacional, la disputa entre los grandes modelos de fuentes abiertas y cerradas involucra más factores como la antimonopolio y los intereses nacionales.

Después de la guerra de precios de mayo de este año, las llamadas de modelos grandes de China han entrado en la "era de ganancias brutas negativas". Tanto los modelos de código abierto como los de código cerrado enfrentan un problema: los modelos grandes no pueden generar ganancias directas.

"La competencia eliminatoria en el mercado de modelos grandes ha comenzado". Un responsable del negocio de modelos grandes de un proveedor de nube chino analizó que el beneficio bruto negativo de las llamadas de modelos grandes significa que cuantas más llamadas se realicen en el corto plazo, mayor será el número de llamadas. mayores serán las pérdidas para los proveedores de nube. Los proveedores chinos de nube están apostando a que después de que el precio de las llamadas de modelos grandes se reduzca en un 90%, el número de llamadas de modelos grandes aumentará exponencialmente en los próximos uno o dos años. A largo plazo, los costos de potencia informática de los proveedores de nube se diluirán a medida que crezca la demanda de los clientes, y al final aún podrán lograr ganancias positivas. Incluso si esta apuesta no se cumple, un grupo de fabricantes de modelos morirá en la guerra de precios y los fabricantes supervivientes recogerán los pedazos.

Muchos expertos de la industria expresaron la misma opinión a Caijing. Esta ronda de eliminación durará de 1 a 2 años y solo de 3 a 5 empresas de modelos básicos podrán seguir sobreviviendo.

An Xiaopeng, miembro del comité ejecutivo de China Informatization Baihui y director del Centro de Investigación de Tecnología Inteligente de Alibaba Cloud, dijo a Caijing en julio de este año que no hay una guerra de cientos de modelos en China, ni siquiera una guerra de diez modelos. Los modelos grandes requieren una inversión continua, tienen capacidad de 10.000 o incluso 100.000 tarjetas y requieren rentabilidad comercial. Muchas empresas no tienen esas capacidades. En el futuro, sólo habrá tres o cinco fabricantes de modelos básicos en el mercado chino.

¿Quién se beneficia de la guerra de precios? ¿Quién reirá el último? Los planificadores estratégicos de IA de las principales empresas de tecnología de China antes mencionados creen que en esta ronda de guerra de precios, el Volcano Engine de Alibaba Cloud y ByteDance tiene la mayor sangre. Alibaba Cloud puede ganar dinero con la nube y Volcano Engine tiene el negocio publicitario de ByteDance como transfusión de sangre. En una guerra de precios, Baidu no es tan bueno como Alibaba y ByteDance. Sin embargo, el modelo grande Wenxin de Baidu tiene una tecnología sólida y tendrá un grupo de clientes dispuestos a pagar por la tecnología. Esto ayudará a Baidu a sobrevivir a la guerra de precios. Explicó además que estas grandes empresas emergentes de modelos en el mercado chino enfrentarán duras pruebas en los próximos uno o dos años. Las grandes empresas emergentes de modelos pueden optar por convertirse en empresas de desarrollo de modelos basadas en proyectos o pasar a modelos industriales verticales.

La competencia general en el mercado de modelos grandes de China es mucho más importante que la competencia local entre los modelos de código abierto y de código cerrado. La dirección de la competencia global determinará directamente el resultado de la competencia local.

Una persona de Alibaba Cloud dijo sin rodeos que tanto el modelo de código abierto como el de código cerrado tienen sus propios beneficios, y Alibaba Cloud espera hacer que la IA sea más inclusiva. Independientemente de si es de código abierto o cerrado, el objetivo principal es brindar a los desarrolladores más opciones. Alibaba Cloud ha optado por caminar sobre dos patas: código abierto y código cerrado. Tiene modelos de código abierto de tamaño completo y modalidades completas y modelos de código cerrado. Otro responsable del gran modelo de negocio de un proveedor chino de nube cree que el código abierto no tiene modelo de negocio. En el mercado modelo chino, sólo las empresas líderes o un número muy pequeño de nuevas empresas que puedan recaudar fondos de manera sostenible pueden insistir en el código abierto. Al final, es posible que solo queden uno o dos modelos de código abierto en el mercado chino.

Los fabricantes de modelos entrenan una nueva generación de modelos casi cada 6 a 12 meses. En el mercado de modelos chino, a medida que aumenta la presión para obtener ganancias, los modelos de código abierto pueden volverse cada vez más "estratégicos": las empresas tenderán a abrir modelos de código abierto con tecnología atrasada y parámetros más pequeños en la generación anterior, y guiarán a los usuarios a pagar por Utilice actualizaciones y parámetros de tecnología. Modelo de código cerrado más grande.

La competencia entre los modelos de código abierto y de código cerrado no terminará pronto. Algunas empresas pueden incluso ejecutar código abierto y cerrado al mismo tiempo.En la industria de TI, esto no carece de precedentes. La base de datos nació hace más de 60 años y la primera base de datos de código abierto nació hace más de 50 años. El mercado de bases de datos está actualmente activo con diferentes bases de datos de código cerrado y de código abierto, y todavía están surgiendo nuevas marcas de bases de datos sin cesar. El gigante de las bases de datos Oracle incluso tiene una base de datos RDBMS de código cerrado y una base de datos MySQL de código abierto.

Muchos técnicos de proveedores de nube creen que los modelos de código abierto y los modelos de código cerrado coexistirán durante mucho tiempo. El mercado de modelos grandes crecerá gradualmente en medio de la competencia de diferentes vías técnicas.

Editor｜Zhang Yufei

noticias

¿Cuál es el debate sobre el código abierto y cerrado de modelos grandes?

Introducción

Mi información de contacto