el discurso interno de robin li expuesto: al discutir tres malentendidos cognitivos importantes sobre modelos grandes, la brecha entre modelos se hará más amplia en el futuro

el discurso interno de robin li expuesto: al discutir tres malentendidos cognitivos importantes sobre modelos grandes, la brecha entre modelos se ampliará en el futuro

2024-09-16

"el mundo exterior tiene muchos malentendidos sobre los modelos grandes", según informes recientes de los medios de comunicación, se reveló un discurso interno de robin li. en una comunicación reciente con los empleados, robin li habló sobre tres malentendidos sobre los modelos grandes, que abarcan la competencia de modelos grandes, la eficiencia del modelo de código abierto y el agente inteligente.tendenciaespere temas candentes.

robin li dijo que la brecha entre los modelos grandes puede ser cada vez mayor en el futuro. dijo que el techo de los modelos grandes es muy alto y todavía está lejos de la situación ideal. por lo tanto, el modelo debe continuar iterando, actualizándose y actualizándose rápidamente y debe poder invertir continuamente durante varios años o más; diez años para satisfacer continuamente las necesidades de los usuarios y reducir costes.

el siguiente es el contenido del discurso interno.

pregunta: ¿algunas personas piensan que no existen barreras entre las capacidades de los modelos grandes?

robin li:no estoy de acuerdo con esta afirmación. creo que el mundo exterior tiene muchos malentendidos sobre los modelos grandes. cada vez que se lanza un nuevo modelo, definitivamente quieren decir lo bueno que es y seguirlo en todo momento.para comparar con gpt-4o, hago conjuntos de prueba o hago algunas listas y digo que mi puntuación es casi la misma, o incluso la supera en algunos elementos individuales, pero esto no prueba que estos modelos recién lanzados sean los más avanzados. con openal, no existe una brecha tan grande con el modelo.

la brecha entre modelos es multidimensional. una dimensión es la capacidad, ya sea la brecha en habilidades básicas como la capacidad de comprensión, la capacidad de generación, la capacidad de razonamiento lógico o la capacidad de memoria; la otra dimensión es el costo.，si quieres tener esta habilidad o responder estas preguntas, ¿cuánto te costará? algunos modelos pueden tener velocidades de inferencia muy lentas. aunque logran el mismo efecto, en realidad su experiencia no es tan buena como la de los modelos más avanzados. y para el conjunto de pruebasobreajuste, cada modelo que quiera demostrar su capacidad irá a las clasificaciones. al hacer las clasificaciones, tiene que adivinar qué están probando otros, qué preguntas puedo usar y qué técnicas puedo acertar, por lo que a partir de las clasificaciones. o conjuntos de prueba por lo que parece, cree que las capacidades están muy cerca, pero en la aplicación real todavía hay una brecha clara.

parte de la exageración de los medios, junto con la motivación por la publicidad cuando se lanza cada nuevo modelo, da a todos la impresión de que la diferencia en capacidades entre los modelos es relativamente pequeña. en el proceso de uso real, no permito que nuestro personal técnico haga clasificaciones. lo que realmente mide las capacidades del modelo grande de wenxin es si puede satisfacer las necesidades de los usuarios en escenarios de aplicación específicos y si puede generar ganancias de valor. lo que realmente nos importa.

necesitamos ver que, por un lado, existe una brecha relativamente obvia entre las capacidades del modelo y, por otro, el techo es muy alto. lo que se hace hoy todavía está lejos de lo que realmente se quiere hacer y del objetivo. estado ideal, por lo que el modelo también debe iterarse, actualizarse y actualizarse de forma continua y rápida.incluso si ve que la brecha no es tan grande hoy, ¿verá si la brecha se ha ampliado dentro de un año? ¿quién puede seguir invirtiendo en esta dirección durante varios años o incluso más de diez años, para que pueda satisfacer cada vez más las necesidades de los usuarios, cumplir escenarios y satisfacer las necesidades de mejorar la eficiencia o reducir costos?la brecha entre los diferentes modelos no se hace cada vez más pequeña, sino que se hace cada vez más grande. sin embargo, cuando no conocen las necesidades reales, pueden sentir que es casi suficiente simplemente hacer las preguntas del conjunto de pruebas.

llamado líderdoce o 18 meses de retraso, no creo que importe mucho. cada una de nuestras empresas se encuentra en un entorno de mercado completamente competitivo. no importa la dirección que tome, habrá muchos competidores. si siempre puede asegurarse de estar entre 12 y 18 meses por delante de sus competidores, será invencible. piensa que te adelantan entre 12 y 18 personas. un mes es muy poco tiempo.incluso si puedes garantizar que siempre estarás por delante de tus competidores.6 meses, luego gana, su cuota de mercado podría serel 70%, mientras que el oponente sólo puede tener una participación del 20% o incluso del 10%.

p: algunas personas dicen que el modelo de código abierto está cerrando la brecha con el modelo de código cerrado. ¿destruirá esto el modelo de negocio de las grandes empresas del modelo de código cerrado?

robin li:esta pregunta está muy relacionada con la pregunta anterior. acabo de decir que, además de las capacidades o efectos, un modelo también debe ser eficiente en términos de eficiencia, los modelos de código abierto no son buenos. para ser precisos, el modelo de código cerrado debería llamarse modelo de negocio. un modelo comercial es aquel en el que innumerables usuarios o clientes comparten los mismos recursos y comparten los costos de i+d, los recursos de las máquinas y los recursos de razonamiento.gpu y el modelo de código abierto requieren que usted mismo implemente un conjunto de cosas. ¿cuál es la tasa de uso de la gpu después de la implementación? nuestrowenxin modelo grande3.5、4no importa .0, la tasa de uso es superior al 90%. ¿cuántas personas utilizan un modelo de código abierto que usted implementa? le decimos al público que el modelo wenxin se llama más de 600 millones de veces al día y que la cantidad de tokens generados cada día supera el billón. ¿qué modelo de código abierto puede decir cuántas llamadas realiza en un día y cuántos tokens genera? ¿cómo se compartirá el costo si nadie lo usa? ¿cómo se puede comparar el costo de la inferencia con los modelos comerciales?

antes de la era de los grandes modelos, todo el mundo estaba acostumbrado al código abierto, es decir, gratuito y de bajo coste. en aquella época, para los productos comerciales que había en el mercado, había que pagar por cada versión, como por ejemplo comprar una instalación informática.windows, microsoft puede tener que cobrar una gran cantidad de dinero por ello, pero usted no tiene que gastar ese dinero si ejecuta linux. dado que linux es de código abierto, todos los programadores pueden ver el código. si algo no se hace bien, puedo actualizarlo y comprobarlo. todos echan leña al fuego y pueden continuar progresando. de gigantes. pero estas cosas no son ciertas en la era de los modelos grandes, la gente suele hablar de lo caras que son las gpu y de que la potencia informática es un factor clave que determina el éxito o el fracaso de los modelos grandes.¿el modelo de código abierto le proporciona potencia informática? si no proporciona potencia informática, ¿cómo se puede utilizar de manera eficiente? el modelo de código abierto no puede resolver este problema.

en el pasado, ya había pagado por la potencia informática cuando compraba una computadora, pero este no es el caso de la inferencia de modelos grandes. esta inferencia es realmente muy costosa. por lo tanto, el valor de los modelos grandes de código abierto está en los campos de la enseñanza y la investigación. si desea comprender cómo funcionan los modelos grandes, si no conoce el código fuente, definitivamente habrá desventajas en el negocio real. en el campo, cuando se busca eficiencia, efecto, cuando la búsqueda es el costo más bajo, el modelo de código abierto no tiene ninguna ventaja.

preguntar:¿cómo evolucionarán las aplicaciones de ia? ¿por qué el énfasis en la inteligencia?

robin li: el proceso de desarrollo de modelos grandes debe pasar por estas etapas. al principio, se ayuda a las personas y, finalmente, cuando sale algo, las personas deben pasar la verificación final. estamos seguros de que su efecto es.bien, se dejará salir sólo si es bueno en todos los aspectos. esta es la etapa de copiloto; más abajo está la inteligencia del agente. el mundo exterior tiene varias definiciones diferentes de agente. de autonomía, con la capacidad de utilizar herramientas de forma independiente, reflexionar, evolucionar, etc., si este grado de automatización va más allá, se convertirá en el llamado al worker, capaz de realizar una variedad de trabajos físicos y mentales. un ser humano, y todos los aspectos del trabajo se pueden completar de forma independiente. debe existir tal proceso.

la opinión de que "los agentes inteligentes son la dirección de desarrollo más importante de los grandes modelos" en realidad no es un consenso. en la conferencia baidu create, lanzamos tres productos, agentbuilder, appbuilder, modelbuilder y appbuilder. uno tiene un umbral más bajo y el otro tiene funciones más poderosas. después de que lo explicamos, algunas personas finalmente comenzaron a comprender que esto es realmente interesante, puede producir valor y puede fabricarse con un umbral relativamente bajo que todos consideren utilizable. desde entonces, la popularidad de los agentes inteligentes ha aumentado gradualmente y muchas personas han comenzado a ser optimistas sobre la dirección del desarrollo de los agentes inteligentes.pero a día de hoy, la inteligencia no es un consenso. no hay muchas empresas como baidu que consideren la inteligencia como la estrategia más importante y la dirección de desarrollo más importante de los modelos grandes.

¿por qué ponemos tanto énfasis en los agentes? porque el umbral para los agentes inteligentes es realmente muy bajo. el año pasado dijimos que deberíamos implementar aplicaciones y que todos deberían crear aplicaciones. de hecho, muchas personas todavía dicen que no saben cómo hacerlo o si pueden hacerlo. en esta dirección, ¿qué habilidades necesito usar? hay innumerables incertidumbres sobre la capacidad de generar valor en este escenario, y no todos saben cómo pasar del modelo a la aplicación.pero el agente proporciona una forma muy directa, muy eficiente y muy sencilla. es muy conveniente crear un agente sobre el modelo., razón por la cual cada semana se crean decenas de miles de nuevos agentes en la plataforma wenxin.

en términos de agentes, ya hemos visto la tendencia y tenemos requisitos previos relativamente buenos. además de las sólidas capacidades del modelo en sí, también tenemos buenos canales de distribución. baidu'sapp, especialmente la búsqueda de baidu tienemiles de millones de personasen uso, los usuarios nos expresan activamente sus necesidades, qué agente inteligente puede responder mejor a sus preguntas y satisfacer sus necesidades. este es un proceso de coincidencia natural, por lo que podemos ayudar mejor a estos desarrolladores a distribuirlos.

informe/comentarios

noticias

el discurso interno de robin li expuesto: al discutir tres malentendidos cognitivos importantes sobre modelos grandes, la brecha entre modelos se ampliará en el futuro

introducción

mi información de contacto