noticias

El modelo de código abierto supera al modelo de código cerrado más potente. ¿Puede Llama 3.1 subvertir el ecosistema de IA? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Zuckerberg promete perseguir el código abierto hasta el final.

Autor|Sukhoi

Editor|Zhao Jian

Llama 3.1 finalmente está aquí.

El 23 de julio, hora local de Estados Unidos, Meta lanzó oficialmente Llama 3.1. Incluye tres tamaños: 8B, 70B y 405B, y el contexto máximo aumenta a 128k. Llama es actualmente una de las grandes series de modelos con más usuarios y mayor rendimiento en el campo del código abierto.

Los puntos principales de esta Llama 3.1 son:

1. Hay tres versiones: 8B, 70B y 405B, de las cuales la versión 405B es actualmente uno de los modelos de código abierto más grandes. 2. El modelo tiene 405 mil millones de parámetros, superando en rendimiento a los mejores modelos de IA existentes; Una ventana de contexto más larga (hasta 128 000 tokens), capaz de manejar tareas y conversaciones más complejas. 4. Admite entrada y salida en varios idiomas, lo que mejora la versatilidad y aplicabilidad del modelo. 5. Capacidades de razonamiento mejoradas, especialmente sobresalientes en la resolución; problemas matemáticos complejos y generar contenido sobre la marcha.

Meta escribió en su blog oficial: "Hoy en día, todavía es normal que el rendimiento de los grandes modelos de lenguaje de código abierto quede por detrás del de los modelos de código cerrado. Pero ahora, estamos marcando el comienzo de una nueva era liderada por el código abierto. Nuestro lanzamiento público de Meta Llama 3.1 405B es el primer modelo base de código abierto más grande y potente del mundo, con más de 300 millones de descargas acumuladas de todas las versiones de Llama hasta la fecha, esto es solo el comienzo”.

El debate entre código abierto y código cerrado siempre ha sido un tema candente en el campo de la tecnología.

El software de código abierto es más transparente y flexible, lo que permite a los desarrolladores de todo el mundo revisar, modificar y mejorar el código de forma conjunta, promoviendo así una rápida innovación y progreso en la tecnología. Los modelos de código cerrado suelen ser desarrollados y mantenidos por una única empresa u organización, que puede proporcionar soporte y servicios profesionales para garantizar la seguridad y estabilidad del software. Pero este modelo también limita las capacidades de personalización y control del usuario.

Hasta ahora, el modelo de código cerrado siempre ha sido ligeramente mejor. Hasta el lanzamiento de Llama 3.1, el feroz debate en curso sobre el código abierto y el código cerrado ha estado marcado: el modelo de código abierto finalmente puede competir con el modelo de código cerrado.

Según los datos de referencia proporcionados por Meta, la versión más popular del 405B ya es comparable al GPT-4 y al Claude 3 en términos de rendimiento. Entre ellos, la evaluación humana se utiliza principalmente para evaluar la capacidad del modelo para comprender y generar código y resolver problemas de lógica abstracta. En competencia con otros modelos grandes, el Llama 3.1 405B parece ser ligeramente mejor.


Llama 3.1 está a la par con GPT-4 y Claude 3.5 Fuente: Meta.

Andrew Ng, profesor asociado de informática e ingeniería eléctrica y director del Laboratorio de Inteligencia Artificial de la Universidad de Stanford, elogió "a los equipos de Meta y Llama por su tremenda contribución al código abierto" en las redes sociales. "Con su mayor longitud de contexto y funcionalidad mejorada, Llama 3.1 es un regalo fantástico para todos", dijo, y esperaba que "regulaciones tontas como la propuesta SB1047 de California no impidan innovaciones como esta".


Redes sociales de Ng Enda, fuente: X

Yann LeCun, ganador del Premio Turing y científico jefe de inteligencia artificial de Meta, citó la descripción del rendimiento de Llama 3.1 de The Verge: Meta ha lanzado el modelo de inteligencia artificial de código abierto más grande y mejor hasta la fecha: Llama 3.1 funciona bien en ciertos puntos de referencia. En las pruebas, superó OpenAI y otros competidores.


Redes sociales de Yang Likun, fuente: X

Curiosamente, se sospecha que la versión 405B de Llama 3.1 fue "robada" ayer en HugginFace y GitHub. Los datos de evaluación enviados por el denunciante son básicamente consistentes con la información de la versión publicada oficialmente hoy.

Mark Zuckerberg, fundador y director ejecutivo de Meta, escribió personalmente un largo artículo titulado "La IA de código abierto es el camino a seguir", que detalla los beneficios del código abierto para los desarrolladores y Meta y por qué es importante a nivel mundial.

Predice que para finales de este año, Meta AI superará a ChatGPT como el asistente más utilizado.

También dijo:Prometo llevar a cabo el código abierto hasta el final.


Fragmento del artículo de "La IA de código abierto es el camino a seguir", fuente Meta

1.La creación de Llama 3.1

En términos de arquitectura del modelo, Llama 3.1, el modelo más grande de Meta hasta la fecha, se entrena con datos de más de 15 billones de tokens y los datos previos al entrenamiento están disponibles hasta diciembre de 2023.

Para implementar el entrenamiento a una escala tan grande en un tiempo razonable y lograr los resultados deseados, Meta optimizó toda la pila de entrenamiento, utilizando más de 16,000 bloques de H100 405B, el primer modelo Llama entrenado a esta escala.


Arquitectura del modelo de transformador en el proceso de generación de texto de Llama 3.1, fuente: Meta

Para maximizar la estabilidad y la conveniencia del entrenamiento, Meta eligió la arquitectura del modelo Transformer estándar solo decodificador para realizar ajustes finos, en lugar de la arquitectura actualmente popular del Modelo Experto Mixto (MoE).

Esta decisión permite a Llama 3.1 seguir garantizando una salida de texto corto de alta calidad cuando admite longitudes de contexto de hasta 128 K, lo que permite un procesamiento flexible de texto largo y corto, en lugar de centrarse únicamente en el texto largo.

Al mismo tiempo, el equipo de investigación implementó un método iterativo posterior al entrenamiento para generar datos sintéticos de alta calidad y mejorar las diversas funciones del modelo a través de cada ronda de ajuste fino supervisado y optimización de preferencias directas. En comparación con versiones anteriores, Llama 3.1 aumenta la cantidad y calidad de los datos previos y posteriores al entrenamiento, introduce procesos de gestión y preprocesamiento más detallados, y tecnologías de filtrado y control de calidad más estrictas.

De acuerdo con la ley de expansión de los modelos de lenguaje, Llama 3.1 supera a los modelos pequeños anteriores utilizando el mismo procedimiento de entrenamiento en rendimiento.

Para hacer frente a los requisitos de ejecución de los modelos 405B a gran escala, Meta cuantizó los datos del modelo de 16 bits (BF16) a 8 bits (FP8), lo que redujo en gran medida la demanda de recursos informáticos y permitió que el modelo se ejecutara en un único nodo de servidor.

En términos de ajuste de comandos y chat del modelo Llama 3.1 405B, el equipo de desarrollo se compromete a mejorar la capacidad de respuesta, la practicidad y la calidad del modelo a los comandos del usuario, garantizando al mismo tiempo un alto grado de seguridad.

En la fase posterior al entrenamiento, el equipo realizó varias rondas de ajustes basados ​​en el entrenamiento previo. Cada ronda incluye ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización de preferencia directa (DPO).Además, el equipo utilizó generación de datos sintéticos para generar la gran mayoría de ejemplos de SFT, lo que significa que no se basaron únicamente en datos del mundo real sino en datos generados algorítmicamente para entrenar el modelo.

Al mismo tiempo, el equipo también utiliza una variedad de métodos de procesamiento de datos para filtrar estos datos para garantizar la más alta calidad y ampliar la gama de aplicaciones de datos ajustados.

Meta también está explorando una nueva estrategia, que consiste en utilizar el modelo 405B como "modelo maestro" para los modelos 70B y 8B, extrayendo así pequeños modelos personalizados de modelos grandes que se adapten a las necesidades de diversas industrias. Este enfoque coincide con la estrategia de GPT-4o mini.Es decir, "primero hazlo grande y luego hazlo pequeño".

Andrej Karpathy, uno de los ex miembros fundadores de OpenAI, comentó una vez sobre GPT-4o Mini: "El modelo primero debe hacerse más grande antes de que pueda volverse más pequeño. Debido a que necesitamos que nos ayuden (automáticamente) a reconstruir los datos de entrenamiento para hacerlo ideal, formato sintético." Señaló que este método puede transferir efectivamente la profundidad y amplitud del conocimiento de modelos grandes a modelos más pequeños que son más prácticos y menos costosos.

Como líder en la ruta del modelo de código abierto, Meta también ha mostrado sinceridad en el soporte de instalaciones para el modelo Llama.

El sistema Llama está diseñado como un marco integral que puede integrar múltiples componentes, incluida la llamada a herramientas externas. El objetivo de Meta es proporcionar un sistema más amplio que permita a los desarrolladores diseñar y crear de manera flexible productos personalizados que satisfagan sus necesidades.

Para hacer evolucionar responsablemente la IA más allá de la capa del modelo, el equipo de investigación lanzó un sistema de referencia completo con múltiples aplicaciones de ejemplo y nuevos componentes, como el modelo de seguridad multilingüe Llama Guard 3 y el filtro de inyección rápida Prompt Guard. Estas aplicaciones son de código abierto y están disponibles para un mayor desarrollo por parte de la comunidad.

Para definir mejor las interfaces de los componentes y promover su estandarización en la industria, los investigadores colaboraron con la industria, las nuevas empresas y la comunidad en general y publicaron la propuesta "Llama Stack" en GitHub. Se trata de un conjunto de interfaces estandarizadas que simplifican la construcción de componentes de la cadena de herramientas (como el ajuste fino y la generación de datos sintéticos) y aplicaciones de agentes.

Según los datos de las pruebas de referencia proporcionados por Meta, Llama 3.1 405B obtuvo una puntuación de 98,1 en la prueba de referencia NIH/Multi-needle, que es comparable a GPT-4 y Claude 3.5 en términos de puntuaciones de rendimiento. La versión 405B tiene una excelente capacidad para integrar información de texto masiva y obtuvo una puntuación de 95,2 en la prueba comparativa ZeroSCROLLS/QuALITY. Es muy amigable para los desarrolladores de aplicaciones de IA que están preocupados por el rendimiento de RAG.


Llama 3.1 en comparación con modelos de código cerrado como GPT4, fuente: Meta


Llama 3.1 en comparación con modelos de código abierto como Mistral 7B Instruct, fuente: Meta

La versión Llama 3.1 8B es significativamente mejor que Gemma 2 9B 1T y Mistral 7B Instruct, y su rendimiento ha mejorado significativamente en comparación con la generación anterior Llama 3 8B. Al mismo tiempo, la versión Llama 3.1 70B incluso superó al GPT-3.5 Turbo.

Según el informe oficial del equipo de Llama, llevaron a cabo una evaluación de rendimiento en profundidad y pruebas manuales exhaustivas de estos modelos en más de 150 conjuntos de datos de referencia en varios idiomas. Los resultados muestran que el modelo superior de Llama es comparable en diversas tareas a los modelos básicos superiores del mercado, como GPT-4, GPT-4o y Claude 3.5 Sonnet. Al mismo tiempo, en comparación con los modelos de código abierto y cerrado con escalas de parámetros similares, la versión pequeña de Llama también mostró una fuerte competitividad.


2.El debate entre modelos de código abierto y código cerrado

¿Puede el modelo de código abierto superar al modelo de código cerrado?

Este tema ha sido controvertido desde el año pasado. Las rutas de desarrollo de los dos modelos representan diferentes filosofías técnicas y cada una tiene sus propios méritos para promover el progreso tecnológico y satisfacer las necesidades comerciales.

Por ejemplo, Llama 3.1 es un gran modelo de código abierto que permite a investigadores y desarrolladores acceder a su código fuente, y las personas pueden estudiar, modificar e incluso mejorar el modelo libremente. Esta apertura fomenta una amplia colaboración e innovación, lo que permite a los desarrolladores de diversos orígenes trabajar juntos para resolver problemas.

Por el contrario, ChatGPT es un modelo de código cerrado desarrollado por OpenAI. Aunque proporciona acceso a API, su algoritmo central y sus datos de entrenamiento no se divulgan en su totalidad. La naturaleza de código cerrado de GPT-3 lo hace más sólido en el camino de la comercialización. Al mismo tiempo, su controlabilidad garantiza la estabilidad y seguridad del producto, lo que lo hace más confiable para las empresas cuando manejan información confidencial. Sin embargo, este carácter cerrado también limita la capacidad de los investigadores externos para comprender e innovar completamente el modelo.

En mayo del año pasado, medios extranjeros informaron que Google había filtrado un documento con el tema: "No tenemos foso, ni OpenAI tampoco. Mientras todavía estamos discutiendo, el código abierto nos ha robado silenciosamente nuestros puestos de trabajo". Después de que Meta lanzó el modelo grande de código abierto Llama 2 ese mismo año, Yang Likun dijo que Llama 2 cambiaría la estructura del mercado de los modelos de lenguaje grandes.

La gente espera con ansias la comunidad de código abierto liderada por la serie de modelos Llama. Anteriormente, el modelo de código cerrado más avanzado, GPT-4, siempre era ligeramente mejor, aunque la brecha entre Llama 3 en ese momento ya era muy pequeña.

La lista más autorizada en el campo de los modelos grandes es el Large Model Arena (LLM Arena), que ha adoptado el sistema de puntos ELO del ajedrez. Su regla básica es permitir a los usuarios hacer cualquier pregunta a dos modelos anónimos (por ejemplo, ChatGPT, Claude, Llama) y votar por el que tenga la mejor respuesta. El modelo con mejores respuestas recibirá puntos, y la clasificación final está determinada por los puntos acumulados. Arean ELO recopiló datos de votación de 500.000 personas.


Una visión general de las clasificaciones de modelos grandes, fuente: LLM Arena

En la clasificación de LLM Arena, GPT-4o de OpenAI ocupa actualmente el primer lugar. Los diez mejores modelos son todos de código cerrado. Aunque el modelo de código cerrado todavía está muy por delante en la clasificación, la brecha entre los modelos de código abierto y de código cerrado no está creciendo, como dijo Robin Li en la Conferencia de Desarrolladores de IA de Baidu de 2024, sino que en realidad se está reduciendo gradualmente.


Durante WAIC, Robin Li dijo: "El código abierto es en realidad una especie de impuesto al coeficiente intelectual".Fuente: Baidu

Con el lanzamiento de Llama 3.1 hoy, el modelo de código abierto finalmente puede competir con el modelo de código cerrado.

En cuanto a qué modelo de código abierto o de código cerrado es mejor, "Jiazi Guangnian" lo ha discutido con muchos profesionales de la industria de la IA. La industria generalmente cree que:A menudo depende de la postura personal de cada uno y no es una simple cuestión de blanco y negro.

La cuestión del código abierto y el código cerrado no es puramente una diferencia técnica, sino más bien la elección del modelo de negocio. En la actualidad, ya sea un modelo grande de código abierto o de código cerrado, aún no se ha encontrado un modelo de negocio completamente exitoso.

Entonces, ¿qué factores influyen en las diferencias de capacidad entre los modelos de código abierto y de código cerrado?

Zhang Junlin, jefe de investigación y desarrollo de nuevas tecnologías de Weibo, señaló que la tasa de crecimiento de las capacidades del modelo es un factor clave. Si la capacidad del modelo crece rápidamente, significa que se requieren una gran cantidad de recursos informáticos en un corto período de tiempo. En este caso, el modelo de código cerrado tiene más ventajas debido a sus ventajas de recursos. Por el contrario, si las capacidades del modelo crecen lentamente, la brecha entre el código abierto y el código cerrado disminuirá y la velocidad de recuperación se acelerará.

Él cree que en los próximos años, la diferencia de capacidades entre los modelos de código abierto y cerrado dependerá del desarrollo de la tecnología de "datos sintéticos". Si la tecnología de "datos sintéticos" logra avances significativos en los próximos dos años, la brecha entre las dos puede aumentar; si no hay avances, las capacidades de las dos tenderán a ser similares;

En general, los "datos sintéticos" se convertirán en una tecnología clave para el desarrollo de grandes modelos lingüísticos en el futuro.

El código abierto o el código cerrado no determinan por sí solos el rendimiento del modelo. Los modelos de código cerrado no lideran porque son de código cerrado, y los modelos de código abierto no se quedan atrás porque son de código abierto. Por el contrario, el modelo elige el código cerrado porque es líder y tiene que elegir el código abierto porque no es lo suficientemente líder.

Si una empresa fabrica un modelo de alto rendimiento, es posible que ya no sea de código abierto.

Por ejemplo, la startup estrella francesa Mistral, su modelo 7B de código abierto más potente, Mistral-7B, y el primer modelo MoE de código abierto 8x7B (MMLU 70) son uno de los modelos más populares en la comunidad de código abierto. Sin embargo, Mistral-Medium (MMLU-75) y Mistral-Large (MMLU-81) entrenados posteriormente por Mistral son modelos de código cerrado.

Actualmente, el modelo de código cerrado de mejor rendimiento y el modelo de código abierto de mejor rendimiento están dominados por grandes empresas, y entre las grandes empresas, Meta tiene la mayor determinación de código abierto.Si OpenAI no es de código abierto desde la perspectiva de los beneficios comerciales, entonces ¿cuál es el propósito de que Meta elija ser de código abierto y permita a los usuarios probarlo de forma gratuita?

En el informe financiero del último trimestre, la respuesta de Zuckerberg a este asunto fue que el código abierto de su tecnología de inteligencia artificial de Meta tenía como objetivo promover la innovación tecnológica, mejorar la calidad de los modelos, establecer estándares de la industria, atraer talentos, aumentar la transparencia y respaldar la consideración de estrategias a largo plazo.

Esta vez, Zuckerberg explicó en detalle "por qué la IA de código abierto es buena para los desarrolladores" en "La IA de código abierto es el camino a seguir":

En conversaciones con desarrolladores, directores ejecutivos y funcionarios gubernamentales de todo el mundo, a menudo los escucho enfatizar la necesidad de entrenar, ajustar y optimizar sus propios modelos.

Cada organización tiene necesidades únicas y se pueden optimizar modelos de diferentes tamaños para esas necesidades, entrenarlos o ajustarlos con datos específicos. Las tareas simples en el dispositivo y las tareas de clasificación pueden requerir modelos más pequeños, mientras que las tareas más complejas requieren modelos más grandes.

Ahora puede utilizar modelos Llama de última generación y continuar entrenándolos con sus propios datos, para luego optimizarlos a su escala ideal, sin que nosotros ni nadie más tenga acceso a sus datos.

Necesitamos controlar nuestro propio destino, no estar en deuda con un proveedor de código cerrado.

Muchas organizaciones no quieren depender de un modelo que no pueden ejecutar y controlar por sí mismas. Les preocupa que los proveedores de modelos de código cerrado puedan cambiar el modelo, los términos de uso o incluso suspender los servicios por completo. Tampoco quieren quedar atrapados en una única plataforma en la nube que tenga derechos exclusivos sobre un determinado modelo. El código abierto proporciona a muchas empresas una cadena de herramientas compatible, lo que facilita el cambio entre diferentes sistemas.

Necesitamos proteger nuestros datos.

Muchas organizaciones manejan datos confidenciales y necesitan protegerlos para que no se envíen a través de API en la nube a modelos de código cerrado. Otras organizaciones simplemente no confían en el enfoque del proveedor de modelos de código cerrado para el procesamiento de datos. El código abierto resuelve estos problemas al permitirle ejecutar modelos donde quiera y, en general, se considera más seguro debido a la transparencia del proceso de desarrollo.

Necesitamos una manera eficiente y económica de operar.

Los desarrolladores pueden ejecutar modelos Llama 3.1 405B para realizar inferencias en su propia infraestructura a aproximadamente la mitad del costo de utilizar modelos de código cerrado como GPT-4o, adecuados para tareas de inferencia presenciales y fuera de línea.

Apostamos por un ecosistema que promete convertirse en el estándar a largo plazo.

Mucha gente ve que los modelos de código abierto evolucionan más rápido que los modelos de código cerrado y esperan que la arquitectura del sistema que construyan brinde las mayores ventajas a largo plazo.

(Imagen de portada de la cuenta Meta X)