Lanzamiento oficial de Llama 3.1: modelo de 405 mil millones de parámetros de código abierto Xiao Zha: lleve a cabo el código abierto hasta el final

Llama 3.1 lanzado oficialmente: modelo de 405 mil millones de parámetros de código abierto Xiao Zha: lleve a cabo el código abierto hasta el final

2024-07-24

Texto | Deng Yongyi y Zhou Xinyu

Editor｜Su Jianxun

El trono de GPT-4o aún no está caliente, Xiao Zha lideró el ejército de código abierto y corrió allí——

Como se rumoreaba anteriormente, Meta lanzó oficialmente Llama 3.1 el 23 de julio, hora del Pacífico en los Estados Unidos. Esta es la serie de modelos grandes más utilizada y de mayor rendimiento en el campo del código abierto en la actualidad.

Casualmente, el día antes de su lanzamiento, Llama 3.1 se "filtró" en la comunidad de desarrolladores, además de información sobre el modelo, también incluía un enlace magnético al modelo 405B. Los desarrolladores ya estaban jugando con él con entusiasmo.

La información publicada oficialmente sobre Llama 3.1 también coincide con la noticia: hay tres tamaños: 8B, 70B y 405B, y la longitud del contexto se ha aumentado a 128K.

Según los datos de las pruebas comparativas proporcionados por Meta, el 405B más popular (405 mil millones de parámetros) ya es comparable en rendimiento al GPT-4 y Claude 3.5.

△Comparación con GPT-4 y Claude 3.5

Frente a los mejores modelos actuales de Yishui, Llama 3.1 no tiene miedo:

△Comparación con el modelo de código cerrado

△Comparación con el modelo de código abierto

Se puede decir que el lanzamiento de Llama 3.1 ha marcado un hito en la reciente y feroz batalla entre las rutas de código abierto y de código cerrado: los principales modelos de código abierto realmente han unido fuerzas con los principales modelos de código cerrado.

"Hasta ahora, los modelos de lenguaje de código abierto a gran escala se han quedado rezagados con respecto a los modelos cerrados en términos de funcionalidad y rendimiento. Ahora, estamos marcando el comienzo de una nueva era liderada por el código abierto", dijo Meta.

△Una imagen que se ha vuelto popular recientemente en el círculo de la IA: el modelo de código abierto se pone al día con el modelo de código cerrado

Meta también adjuntó un documento de 92 páginas a su comunicado oficial, que revela detalles de la capacitación:

Llama 3.1 se entrenó con datos de más de 15 billones de tokens, utilizando 16.000 bloques H100. Los datos previos al entrenamiento utilizados son de diciembre de 2023. Para garantizar la estabilidad del entrenamiento, solo se utiliza la arquitectura del modelo Transformer para el ajuste, en lugar de la arquitectura actualmente popular del Modelo Experto Mixto (MoE).

Esto también lleva al hecho de que Llama 3.1 puede mantener una salida de alta calidad de ventanas de contexto cortas incluso si se expande a una longitud de contexto de 128 K. Ya no es "texto largo especial", sino "largo y corto libremente".

Actualmente no existe ningún modelo de código abierto tan grande en el mundo que haya alcanzado tal escala de capacitación.

Para obtener más detalles, también lo presentamos en detalle en el envío de hace unas horas. No entraré en detalles aquí.

En 2024, a medida que la escala de la capacitación de modelos sea cada vez mayor, los desarrolladores también se preguntarán: ¿Seguirán las grandes empresas que han pagado enormes costos de capacitación con el código abierto?

Después de todo, OpenAI es una lección aprendida del pasado: se adhirió al espíritu del código abierto en los primeros días, pero desde que GPT3.5 se hizo popular y se comercializó, OpenAI ya no es de código abierto y se ridiculiza como IA cerrada.

Pero en el momento en que se lanzó Llama 3.1, Zuckerberg volvió a enfatizar:

¡Lleva a cabo el código abierto hasta el final!

Además de publicar el modelo, Xiao Zha también publicó un manifiesto reflexivo e idealista de código abierto, explicando por qué Meta debería ser de código abierto y por qué el código abierto es beneficioso para los desarrolladores.

Vale la pena señalar que cree que, aunque Estados Unidos y China se enfrentan a una feroz competencia en IA, elegir la ruta del código abierto todavía tiene más ventajas que desventajas.

Vale, Llama 3.1 ya es así y tenemos que hacernos la pregunta nuevamente: ¿Cuándo llegarán OpenAI y GPT-5?

La siguiente es la carta abierta de Zuckerberg, compilada por “Intelligent Emergence”:

"La IA de código abierto es el camino a seguir"

En los primeros días de la informática de alto rendimiento, las principales empresas tecnológicas de la época invirtieron mucho en el desarrollo de sus propias versiones de código cerrado de Unix. En aquel momento, era difícil imaginar otra forma de desarrollar un software tan avanzado.

Aún así, Linux de código abierto finalmente se hizo popular, inicialmente porque permitía a los desarrolladores modificar su código como quisieran y era más barato; con el tiempo se volvió más avanzado, más seguro y tiene un ecosistema más amplio que cualquier Unix de código cerrado, admitiendo más funciones; . Hoy en día, Linux es la base estándar de la industria para la computación en la nube y el sistema operativo que ejecuta la mayoría de los dispositivos móviles, y todos nos beneficiamos de su excelencia.

Creo que la inteligencia artificial se desarrollará de manera similar. Hoy en día, varias empresas de tecnología están desarrollando modelos líderes de código cerrado. Pero el código abierto está cerrando rápidamente esa brecha. El año pasado, el Llama 2 sólo era comparable a los modelos de generaciones anteriores que estaban por detrás de la vanguardia. Este año, el Llama 3 compite con los modelos más avanzados y lidera en algunas áreas. A partir del próximo año, esperamos que la futura Llama sea la más avanzada de la industria. Pero antes de eso, Llama ya estaba liderando el camino en código abierto, modificabilidad y rentabilidad.

Hoy, estamos dando el siguiente paso para hacer de la IA de código abierto el estándar de la industria. Lanzaremos Llama 3.1 405B, el primer modelo de IA de código abierto líder en la industria, así como los modelos nuevos y mejorados Llama 3.1 70B y 8B. Además de tener un mejor costo/rendimiento en relación con los modelos de código cerrado, el hecho de que el modelo 405B sea de código abierto lo convertirá en la mejor opción para ajustar y extraer modelos más pequeños.

Además de lanzar estos modelos, también estamos trabajando con una variedad de empresas para hacer crecer el ecosistema más amplio. Amazon, Databricks y Nvidia están lanzando un conjunto completo de servicios para ayudar a los desarrolladores a ajustar y perfeccionar sus propios modelos. Empresas innovadoras como Groq (una startup de chips de IA) han creado servicios de inferencia de baja latencia y bajo costo para todos los modelos nuevos.

Estos modelos estarán disponibles en las principales nubes, incluidas AWS, Azure, Google, Oracle y más. Scale.AI, Dell, Deloitte y otros están listos para ayudar a las empresas a implementar Llama y entrenar modelos personalizados utilizando sus propios datos. A medida que la comunidad crece y más empresas desarrollan nuevos servicios, juntos podemos hacer de Llama un estándar de la industria y llevar los beneficios de la IA a todos.

Meta está comprometida con la IA de código abierto. Explicaré por qué creo que el código abierto es la mejor pila de desarrollo para las personas, por qué Llama de código abierto es bueno para Meta, por qué la IA de código abierto es buena para el mundo y, debido a esto, la comunidad de código abierto llegó para quedarse.

Por qué la IA de código abierto es buena para los desarrolladores

Cuando hablo con desarrolladores, directores ejecutivos y funcionarios gubernamentales de todo el mundo, normalmente escucho algunos temas:

Necesitamos entrenar, afinar y perfeccionar nuestros propios modelos.

Cada organización tiene diferentes necesidades que se satisfacen mejor con modelos de diferentes tamaños que se entrenan o ajustan utilizando datos específicos. Las tareas en el dispositivo y las tareas de clasificación requieren modelos más pequeños, mientras que las tareas más complejas requieren modelos más grandes.

Ahora podrá tomar modelos de Llama de última generación, continuar entrenándolos utilizando sus propios datos y luego refinarlos hasta obtener su modelo de tamaño óptimo, sin que nosotros ni nadie más vea sus datos.

Necesitamos controlar nuestro propio destino y no estar atados a un proveedor de código cerrado.

Muchas organizaciones no quieren depender de un modelo que no pueden ejecutar y controlar. No quieren que los proveedores de modelos de código cerrado puedan cambiar sus modelos, cambiar sus términos de uso o incluso dejar de prestarles servicios por completo. Tampoco quieren quedar atrapados en una única nube que tenga derechos exclusivos sobre un determinado modelo. El código abierto proporciona cadenas de herramientas compatibles para muchos ecosistemas empresariales y usted puede cambiar fácilmente entre ellos.

Necesitamos proteger nuestros datos.

Muchas organizaciones manejan datos confidenciales que deben protegerse y no pueden transferirse a través de API en la nube a un modelo de código cerrado. Otras organizaciones simplemente no confían sus datos a los proveedores de modelos de código cerrado. El código abierto resuelve estos problemas al permitirle ejecutar el modelo en cualquier lugar que desee. Está ampliamente aceptado que el software de código abierto es más seguro porque se desarrolla de forma más transparente.

Necesitamos un modelo operativo eficiente y asequible.

Los desarrolladores pueden ejecutar inferencia en Llama 3.1 405B en su propia infraestructura a aproximadamente el 50% del costo de usar modelos de código cerrado como GPT-4o para tareas de inferencia presenciales y fuera de línea.

Apostamos por un ecosistema que puede convertirse en el estándar a largo plazo.

Muchas personas ven que el código abierto avanza más rápido que los modelos de código cerrado y quieren que la arquitectura en la que se construyen sus sistemas les brinde la mayor ventaja a largo plazo.

Por qué la IA de código abierto es buena para Meta

El modelo de negocio de Meta es crear las mejores experiencias y servicios para las personas. Para hacer esto, debemos asegurarnos de tener siempre acceso a la mejor tecnología, en lugar de quedar atrapados en el ecosistema de código cerrado de un competidor que limita lo que podemos construir.

Una de mis experiencias formativas fue que nuestros servicios estaban limitados por lo que Apple nos permitía construir en su plataforma. Por la forma en que gravan a los desarrolladores, las reglas arbitrarias que aplican y toda la innovación de productos que impiden que se lance, está claro que si podemos construir las mejores versiones de nuestros productos y los competidores no pueden limitar lo que podemos construir, entonces Meta y muchas otras empresas tendrán la libertad de crear mejores servicios para las personas. A nivel filosófico, esta es la razón principal por la que creo firmemente en la construcción de un ecosistema de código abierto para la próxima generación de informática en IA y AR/VR.

La gente a menudo me pregunta si me preocupa que el código abierto de Llama pierda ventajas técnicas, pero creo que esto ignora algunas razones importantes:

Primero, para garantizar que tengamos acceso a la mejor tecnología y no quedar atrapados en un ecosistema de código cerrado a largo plazo, Llama necesita evolucionar hacia un ecosistema completo que incluya herramientas, mejoras de eficiencia, optimización del silicio y otras integraciones. Si fuéramos la única empresa que utilizara Llama, el ecosistema no crecería y no seríamos mejores que las variantes de código cerrado de Unix.

En segundo lugar, espero que la competencia se intensifique a medida que se desarrolle la inteligencia, lo que significa que en ese momento, al abrir cualquier modelo en particular, la gente no renunciará al siguiente modelo que tenga una mayor ventaja. El camino de Llama para convertirse en un estándar de la industria es a través de un modelo de competencia consistente, eficiencia y código abierto generación tras generación.

En tercer lugar, una diferencia clave entre Meta y los proveedores de modelos de código cerrado es que vender acceso a modelos de IA no es nuestro modelo de negocio. Esto significa que hacer pública Llama no afecta nuestros ingresos, sostenibilidad o capacidad de invertir en investigación, como ocurre con los proveedores de código cerrado. (Esta es una de las razones por las que varios proveedores de código cerrado han estado presionando a los gobiernos contra el código abierto).

Finalmente, Meta tiene una larga trayectoria y éxito en proyectos de código abierto. Hemos ahorrado miles de millones de dólares al lanzar nuestros diseños de servidores, redes y centros de datos a través del Open Source Compute Project y estandarizar nuestra cadena de suministro en nuestros diseños. Nos beneficiamos de la innovación del ecosistema, herramientas líderes de código abierto como PyTorch, React y muchas más. Este enfoque siempre nos ha funcionado cuando lo mantuvimos a largo plazo.

Por qué la IA de código abierto es buena para el mundo

Creo que el código abierto es necesario para un futuro positivo de la IA. La inteligencia artificial tiene mayor potencial que cualquier otra tecnología moderna para aumentar la productividad, la creatividad y la calidad de vida humanas, y para hacer avanzar la investigación médica y científica al tiempo que acelera el crecimiento económico.

El código abierto garantizará que más personas en todo el mundo tengan acceso a los beneficios y oportunidades de la IA, que el poder no se concentre en manos de unas pocas empresas y que la tecnología pueda implementarse de manera más uniforme y segura en toda la sociedad.

Existe un debate en curso sobre la seguridad de los modelos de IA de código abierto y mi opinión es que la IA de código abierto será más segura que las alternativas. Creo que los gobiernos concluirán que les conviene apoyar el código abierto porque hará que el mundo sea más próspero y seguro.

Mi comprensión de la seguridad es que debemos protegernos contra dos tipos de daños: daños no intencionales y daños intencionales. El daño involuntario se produce cuando un sistema de IA puede causar daño aunque la persona que lo ejecuta no tenía intención de hacerlo.

Por ejemplo, los modelos modernos de IA pueden dar, sin darse cuenta, malos consejos de salud. O, en un escenario más futurista, a algunos les preocupa que los modelos puedan replicarse a sí mismos sin darse cuenta o optimizar excesivamente sus objetivos en detrimento de los humanos. El daño intencional se produce cuando un mal actor utiliza un modelo de IA con el objetivo de causar daño.

Vale la pena señalar que el daño involuntario cubre la mayoría de las preocupaciones que la gente tiene sobre la inteligencia artificial, desde el impacto que tendrán los sistemas de IA en los miles de millones de personas que los utilizarán hasta los escenarios de ciencia ficción más verdaderamente catastróficos para la humanidad. En este sentido, el código abierto debería ser mucho más seguro porque el sistema es más transparente y puede ser inspeccionado ampliamente.

Históricamente, el software de código abierto ha sido más seguro por este motivo. Asimismo, utilizar Llama y sus sistemas de seguridad, como Llama Guard, puede ser más seguro que un modelo de código cerrado. Como resultado, la mayoría de las discusiones sobre la seguridad de la IA de código abierto se centran en el daño intencional.

Nuestro proceso de seguridad incluye pruebas rigurosas y equipos rojos para evaluar si nuestros modelos son capaces de causar un daño significativo, con el objetivo de mitigar el riesgo antes de su lanzamiento. Dado que el modelo es de código abierto, cualquiera puede probarlo por sí mismo.

Debemos recordar que estos modelos se entrenan con información que ya está disponible en Internet, por lo que al considerar el daño, nuestro punto de partida debe ser si un modelo es más rápido que la información que se puede recuperar de Google u otros resultados de búsqueda con mayor probabilidad de causar daño.

Al razonar sobre el daño intencional, es útil distinguir entre lo que podría hacer un actor individual o de pequeña escala y lo que podría hacer un actor de gran escala, como un Estado-nación con vastos recursos.

En algún momento en el futuro, los malos actores individuales pueden aprovechar la inteligencia de los modelos de IA para crear tipos de daño completamente nuevos a partir de la información disponible en Internet. En este punto, el equilibrio de poder será fundamental para la seguridad de la IA.

Creo que sería mejor vivir en un mundo donde la IA esté ampliamente implementada para que los grandes actores puedan contrarrestar el poder de los malos más pequeños. Así es como gestionamos la seguridad en las redes sociales: nuestros sistemas de IA más potentes identifican y bloquean las amenazas de atacantes menos sofisticados que a menudo utilizan sistemas de IA más pequeños.

En términos más generales, las grandes instituciones que implementen IA a escala contribuirán a la seguridad y estabilidad de la sociedad en su conjunto. Mientras todos tengan acceso a modelos similares (algo que el código abierto facilita), los gobiernos y agencias con más recursos informáticos podrán controlar a los malos actores con menos computación.

La siguiente pregunta es cómo deberían responder Estados Unidos y las democracias a las amenazas de países con vastos recursos como China. La ventaja de Estados Unidos radica en la descentralización y la innovación de código abierto.

Algunas personas creen que tenemos que bloquear nuestros modelos para impedir que China los obtenga, pero mi punto es que esto no funcionará y sólo pondrá a Estados Unidos y sus aliados en desventaja. Nuestros adversarios son muy buenos en el espionaje. Robar modelos en una memoria USB es relativamente fácil, y la forma en que operan la mayoría de las empresas de tecnología no lo hace mucho más difícil.

Lo más probable es que un mundo donde sólo existan modelos de código cerrado tenga como resultado que un puñado de grandes empresas y nuestros adversarios geopolíticos tengan acceso a modelos líderes, mientras que las nuevas empresas, las universidades y las pequeñas empresas se quedan fuera.

Además, limitar la innovación estadounidense a desarrollos de código cerrado aumenta la probabilidad de que simplemente no seamos líderes. En cambio, creo que nuestra mejor estrategia es construir un ecosistema sólido de código abierto y hacer que nuestras empresas líderes trabajen en estrecha colaboración con nuestros gobiernos y aliados para garantizar que puedan aprovechar mejor los últimos avances y ser sostenibles a largo plazo con la ventaja de ser los primeros en actuar.

Al considerar las oportunidades futuras, recuerde que la mayoría de las principales empresas de tecnología y de investigación científica de la actualidad se basan en software de código abierto. Si invertimos juntos, la próxima generación de empresas e investigaciones utilizará IA de código abierto. Esto incluye a empresas emergentes, así como a personas de universidades y países que tal vez no tengan los recursos para desarrollar su propia IA de última generación desde cero.

Lo más importante es que la IA de código abierto representa la mejor oportunidad del mundo para aprovechar esta tecnología para crear las mayores oportunidades económicas y seguridad para todos.

construyamos juntos

Para los modelos anteriores de Llama, Meta los desarrolló por sí mismo y luego los lanzó sin centrarse demasiado en construir un ecosistema más amplio.

Estamos adoptando un enfoque diferente con este lanzamiento. Estamos formando equipos internamente para que Llama esté disponible para tantos desarrolladores y socios como sea posible, y también estamos creando asociaciones activamente para que más empresas del ecosistema también puedan ofrecer capacidades únicas a sus clientes.

Creo que el lanzamiento de Llama 3.1 será un punto de inflexión en la industria, ya que la mayoría de los desarrolladores comenzarán a utilizar principalmente código abierto, y espero que este enfoque solo crezca a partir de ahora. Espero que se unan a nosotros en nuestro viaje para llevar los beneficios de la inteligencia artificial a todas las personas en el mundo.

El enlace para obtener Llama 3.1 es: https://llama.meta.com/

MZ (Mark Zuckerberg)

Bienvenido a comunicar

noticias

Llama 3.1 lanzado oficialmente: modelo de 405 mil millones de parámetros de código abierto Xiao Zha: lleve a cabo el código abierto hasta el final

Introducción

Mi información de contacto