robin li expone la ilusión de "correr puntuaciones" de modelos grandes: la lista no representa todas las fortalezas y la brecha entre modelos se ampliará en el futuro

2024-09-12

cada vez que se lanza una nueva versión de un modelo grande, la industria siempre está dispuesta a citar datos de listas de terceros, "realizar una puntuación" con su propio modelo grande y gpt-4, afirmando que ha superado ciertos indicadores. demostrar su fortaleza técnica en modelos grandes.

pero en un reciente intercambio entre el presidente de baidu, robin li, y los empleados internos, este perforó el "papel de ventana" que obstaculiza la evaluación comparativa en la industria de los grandes modelos. "cada vez que se lanza un nuevo modelo, hay que compararlo con el gpt-4o. se dice que mi puntuación es casi la misma, e incluso la supera en algunos ítems individuales, pero eso no significa que no haya diferencia". con los modelos más avanzados".

explicó además que las brechas entre los modelos son multidimensionales. una dimensión es el aspecto de la capacidad, ya sea la brecha en las habilidades básicas como la capacidad de comprensión, la capacidad de generación, la capacidad de razonamiento lógico o la capacidad de memoria. aunque algunos modelos pueden lograr el mismo efecto, el costo es. alto y la velocidad de razonamiento es lenta, de hecho, sigue siendo inferior a los modelos avanzados.

"también está el sobreajuste del conjunto de pruebas. cada modelo que quiera demostrar su capacidad irá a las clasificaciones. al hacer las clasificaciones, tendrá que adivinar qué están probando otros y qué técnicas puedo utilizar para conseguirlo. "así que, a juzgar por la lista o el conjunto de pruebas, crees que las capacidades están muy cerca, pero todavía hay una brecha clara en las aplicaciones reales", dijo robin li.

un gran practicante de modelos dijo a los periodistas que el sobreajuste del conjunto de pruebas mencionado por robin li se refiere principalmente al hecho de que durante el proceso de entrenamiento del modelo, el modelo aprende los datos de entrenamiento con demasiado cuidado, por lo que el modelo no no funciona bien con los datos de entrenamiento. el rendimiento es muy bueno, pero el rendimiento es pobre con los datos de prueba invisibles. esto generalmente significa que el modelo es tan complejo que es capaz de "recordar" el ruido y los detalles en los datos de entrenamiento, pero estos detalles y el ruido no son generales y, por lo tanto, el modelo no se generaliza bien a más datos nuevos.

las personas mencionadas anteriormente creen que, de hecho, existen limitaciones para clasificar y ejecutar puntuaciones. por ejemplo, debido a la apertura del conjunto de datos de evaluación, el modelo se puede entrenar de manera específica para mejorar la clasificación, lo que resulta en el fenómeno de ". deslizar el ranking ". sin embargo, no carece completamente de sentido. el ranking sigue siendo relativamente proporciona un estándar de evaluación cuantitativa para ayudar a las personas a comprender rápidamente el rendimiento de diferentes modelos grandes, incita a todos a optimizar continuamente el nivel técnico de los modelos grandes a través de la competencia. y también juega un cierto papel en la publicidad y promoción.

en opinión de robin li, "parte de la exageración de los medios, junto con la motivación de la publicidad cuando se lanza cada nuevo modelo, da a todos la impresión de que la diferencia en capacidades entre los modelos es relativamente pequeña. de hecho, este no es el caso. " robin li dijo que en el uso real, baidu no permite que el personal técnico haga clasificaciones. la medición real de las capacidades de los modelos grandes debe realizarse en escenarios de aplicación específicos para ver si pueden satisfacer las necesidades del usuario y generar ganancias de valor.

en cuanto a los "12 meses por delante o 18 meses por detrás" que se mencionan a menudo en la industria de los grandes modelos, cree que no es tan importante. debido a que cada empresa se encuentra en un entorno de mercado completamente competitivo, hay muchos competidores sin importar la dirección que tome. "si siempre puedes garantizar que estarás entre 12 y 18 meses por delante de tus competidores, serás invencible. no creas que 12 a 18 meses es un período de tiempo corto. incluso si puedes garantizar que siempre estarás 6 meses por delante de tus competidores, ganarás. tu cuota de mercado puede ser del 70%, mientras que tu oponente puede tener sólo el 20% o incluso el 10%".

consideró que la brecha entre los modelos grandes puede ampliarse en el futuro. debido a que el techo de los modelos grandes es muy alto, todavía está lejos de la situación ideal. por lo tanto, el modelo debe iterarse, actualizarse y actualizarse continuamente y debe poder invertirse continuamente durante varios años o más de diez años; para satisfacer continuamente las necesidades de los usuarios, reducir costos y aumentar la eficiencia.

además de discutir si existen barreras a la competencia en los modelos grandes, durante el intercambio, robin li también mencionó que existen bastantes malentendidos sobre los modelos grandes, incluidos temas como la eficiencia de los modelos de código abierto y cerrado, y la ia. agente.

robin li es un firme partidario de los modelos grandes de código cerrado. "antes de la era de los modelos grandes, todo el mundo estaba acostumbrado a que el código abierto significara gratuito y de bajo costo. explicó que, por ejemplo, linux de código abierto, porque las computadoras ya existen". se utiliza linux. es gratis. pero esto no es cierto en la era de los modelos grandes. la inferencia de modelos grandes es muy costosa y los modelos de código abierto no proporcionan potencia informática. debe comprar su propio equipo, lo que no puede lograr una utilización eficiente de la potencia informática.

"el modelo de código abierto no es eficiente en términos de eficiencia". dijo: "para ser precisos, el modelo de código cerrado debería llamarse modelo de negocio. permite a innumerables usuarios compartir los costos de i + d y los recursos de la máquina y las gpu utilizadas para razonamiento la eficiencia de uso de la gpu es la más alta. artículo de baidu el uso de gpu de los modelos xinda 3.5 y 4.0 ha alcanzado más del 90%.

robin li analizó que en campos como la enseñanza y la investigación científica, el modelo de código abierto es valioso, pero en el campo comercial, cuando se busca eficiencia, eficacia y el menor costo, el modelo de código abierto no tiene ventajas;

también expresó su opinión sobre la evolución de las aplicaciones de modelos grandes. el primero es copilot, que ayuda a las personas; el siguiente es la inteligencia del agente, que tiene cierto grado de autonomía y puede utilizar herramientas de forma independiente, reflexionar y autoevolucionar; si este nivel de automatización se desarrolla aún más, se convertirá en un trabajador de ia que podrá completar todos los aspectos del trabajo de forma independiente.

actualmente, los agentes inteligentes han atraído cada vez más la atención de las grandes empresas modelo y de los clientes. robin li cree que aunque muchas personas son optimistas sobre esta dirección de desarrollo, a día de hoy, los agentes inteligentes no son un consenso.

"el umbral para los agentes inteligentes es realmente muy bajo". dijo que muchas personas no saben cómo convertir modelos grandes en aplicaciones, pero los agentes inteligentes son una forma muy directa, eficiente y sencilla de construir inteligencia. agentes encima de modelos.

(este artículo proviene de china business news)

informe/comentarios

noticias

robin li expone la ilusión de "correr puntuaciones" de modelos grandes: la lista no representa todas las fortalezas y la brecha entre modelos se ampliará en el futuro

introducción

mi información de contacto