Código abierto = ¡el modelo más poderoso! Lanzamiento de Llama 3.1, Zuckerberg: momento decisivo

2024-07-24

Baijiao proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

justo,Liama 3.1Lanzado oficialmente, ¡ascendiendo al trono de los modelos grandes!

En más de 150 conjuntos de pruebas de referencia, el rendimiento de la versión 405B iguala o incluso supera a los modelos SOTA GPT-4o y Claude 3.5 Sonnet existentes.

En otras palabras, esta vez,El modelo de código abierto más sólido es el modelo más sólido.。

Antes de esto, Llama 3.1 ha sido expuesta y filtrada muchas veces, y ahora se puede decir que lleva mucho tiempo esperando.

A partir de hoy, el modelo se puede descargar y utilizar en el sitio web oficial, y la aplicación Meta AI se puede probar en línea.

Lo que es aún más apreciado por la comunidad de investigación es la publicación de casi 100 páginas de artículos detallados, que cubren todo el proceso de creación de Llama 3.1: datos previos al entrenamiento, filtrado, recocido, datos sintéticos, leyes de escala, infraestructura, paralelismo, entrenamiento. recetas, adaptación post-formación, uso de herramientas, benchmarking, estrategias de inferencia, cuantificación, visión, voz, vídeo...

El científico jefe de HuggingFace elogió: Si está comenzando a estudiar modelos grandes desde cero, comience a leer este artículo.

Xiao ZhaZuckerbergEn su última entrevista con Bloomberg, se burló específicamente de OpenAI.

El liderazgo de Altman es encomiable, pero resulta algo irónico que la empresa llamada OpenAI se haya convertido en líder en la construcción de modelos cerrados de inteligencia artificial.

Xiao Zha también escribió un artículo extenso específicamente para esto:La IA de código abierto es el camino a seguir。

En el pasado, los modelos de código abierto en su mayoría iban por detrás de los modelos de código cerrado en términos de rendimiento, funcionalidad, etc., pero ahora:

Al igual que Linux de código abierto, se ha destacado entre los sistemas de código cerrado y ha ganado popularidad, volviéndose gradualmente más avanzado y seguro, y teniendo un ecosistema más amplio que los sistemas de código cerrado.
Creo que Llama 3.1 será un punto de inflexión en la industria.

Hasta la fecha, las descargas totales de todas las versiones de Llama han superado los 300 millones de veces, y Meta también hace afirmaciones audaces:

Este es solo el comienzo.

Los principales proveedores de la nube también lanzaron soporte para Llama 3.1 lo antes posible, y el precio es de la tía Jiang:

LIama 3.1 lanzado oficialmente

Veamos primero las capacidades del modelo.

Llama 3.1 extiende la longitud del contexto a 128K y agrega soporte para ocho idiomas.

Entre ellos, la versión Super Large Cup 405B ha empatado y superado a los mejores modelos existentes en términos de sentido común, maniobrabilidad, matemáticas, uso de herramientas y capacidades de traducción a varios idiomas.

Además, también se han lanzado versiones mejoradas de los modelos 8B y 70B, y sus capacidades son básicamente las mismas que las de los modelos superiores con los mismos parámetros.

veamos de nuevoArquitectura modelo。

Según la introducción oficial, entrenar el modelo Llama 3.1 405B con más de 15 billones de tokens es todo un desafío.

Para ello, optimizaron significativamente toda la pila de entrenamiento y ampliaron la escala de potencia informática del modelo a más de 16.000 GPU H100 por primera vez.

Específicamente, todavía adoptamos la arquitectura Transformer estándar solo decodificador y realizamos algunos cambios menores y adoptamos un proceso iterativo posterior al entrenamiento, con SFT (ajuste fino supervisado) y DPO (optimización de preferencia directa) en cada ronda para mejorar cada ronda. Rendimiento de habilidad.

En comparación con versiones anteriores de Llama, han mejorado la cantidad y calidad de los datos utilizados para el pre y post entrenamiento.

Para admitir la inferencia de producción en masa de modelos de tamaño 405B, Meta cuantizó el modelo de valores de 16 bits (BF16) a 8 bits (FP8), reduciendo efectivamente los requisitos informáticos requeridos y permitiendo que el modelo se ejecute dentro de un único nodo de servidor. .

existirAjuste de instruccionesPor otro lado, Meta también mejora la capacidad del modelo para responder a las instrucciones del usuario y mejora su capacidad para seguir instrucciones detalladas al tiempo que garantiza la seguridad.

En la etapa posterior al entrenamiento, Meta realiza múltiples rondas de alineación basadas en el modelo previamente entrenado.

Cada ronda incluye ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización de preferencias directas (DPO).

Generaron la mayoría de los ejemplos de SFT utilizando datos sintéticos y los iteraron varias veces.

Además, se utiliza una variedad de técnicas de procesamiento de datos para filtrar estos datos sintéticos con la más alta calidad.

Se limpian y filtran un total de tokens de 15T utilizando el modelo Llama 2, mientras que el código y los canales de procesamiento de datos relacionados con las matemáticas se basan principalmente en los métodos de Deepseek.

Además de la respuesta más básica según las palabras clave, los funcionarios de Meta dijeron que cualquier desarrollador común puede usarlo para hacer cosas avanzadas, como:

Inferencia en tiempo real y por lotes
Supervisar el ajuste
Evaluar modelos para aplicaciones específicas
Preformación continua
Recuperación de Generación Aumentada (RAG)
Llamada de función
Generación de datos sintéticos.

Y detrás de esto está el apoyo de sus fuertes socios ecológicos.

Xiao Zha escribe un artículo extenso: La IA de código abierto es el camino a seguir

(Lo siguiente está traducido por Big Model y se extrae el contenido principal. Si hay omisiones o errores, ¡corríjalos!)

En los primeros días de la informática de alto rendimiento, las grandes empresas tecnológicas de la época invirtieron mucho en el desarrollo de sus propias versiones de código cerrado de Unix. En aquel momento, era difícil imaginar que un software tan avanzado pudiera producirse de otra manera que no fuera el código cerrado. Sin embargo, el sistema operativo Linux de código abierto finalmente ganó una gran popularidad: inicialmente porque permitió a los desarrolladores modificar el código libremente y de manera más económica, con el tiempo Linux no solo se volvió más avanzado y seguro, sino que también construyó un ecosistema más amplio que cualquier Unix de código cerrado; sistema, que admite más funciones. Hoy en día, Linux es la base estándar de la industria para la computación en la nube y la mayoría de los sistemas operativos de dispositivos móviles, y todos disfrutamos de mejores productos gracias a ello.

Creo que la inteligencia artificial se desarrollará de manera similar. . Hoy en día, varias empresas de tecnología están desarrollando modelos líderes de código cerrado. Pero el código abierto está cerrando rápidamente la brecha. El año pasado, el Llama 2 sólo era comparable a los modelos de una generación atrás. Este año, el Llama 3 compite con los modelos más avanzados y lidera en algunas áreas. A partir del próximo año, esperamos que los futuros modelos Llama sean los más avanzados de la industria. Pero incluso antes de eso, Llama ya estaba liderando el camino en apertura, modificabilidad y rentabilidad.

Hoy avanzamos hacia"La inteligencia artificial de código abierto se convierte en el estándar de la industria" dirección. Lanzamos Llama 3.1 405B, el primer modelo de IA de código abierto de vanguardia, así como los modelos mejorados Llama 3.1 70B y 8B. Además de tener una relación costo/rendimiento significativamente mejor en comparación con los modelos de código cerrado, la apertura del modelo 405B lo convertirá en la mejor opción para ajustar y destilar modelos más pequeños.

Además de lanzar estos modelos, estamos trabajando con una variedad de empresas para hacer crecer el ecosistema más amplio. Amazon, Databricks y Nvidia están lanzando un conjunto de servicios para permitir a los desarrolladores ajustar y sintetizar sus propios modelos. Innovadores como Groq han creado servicios de inferencia de bajo costo y baja latencia para todos los modelos nuevos. Estos modelos estarán disponibles en todas las principales plataformas en la nube, incluidas AWS, Azure, Google, Oracle y más. Empresas como Scale.AI, Dell, Deloitte y otras están listas para ayudar a las empresas a adoptar Llama y entrenar modelos personalizados con sus propios datos. A medida que la comunidad crece y más empresas desarrollan nuevos servicios, juntos podemos hacer de Llama el estándar de la industria, brindando los beneficios de la IA a todos.

Meta se dedica a la inteligencia artificial de código abierto. Explicaré por qué creo que el código abierto es la mejor pila de desarrollo, por qué Llama de código abierto es bueno para Meta y por qué la IA de código abierto es buena para el mundo y, por lo tanto, una plataforma sostenible a largo plazo.

Por qué la IA de código abierto es buena para los desarrolladores

Cuando hablo con desarrolladores, directores ejecutivos y funcionarios de todo el mundo, normalmente escucho algunos temas:

Necesitamos entrenar, afinar y destilar nuestros propios modelos. . . Cada organización tiene sus propias necesidades únicas y es más adecuada para utilizar modelos de diferentes tamaños que se pueden entrenar o ajustar en función de sus datos específicos. Para tareas en el dispositivo y tareas de clasificación, los modelos pequeños son suficientes; para tareas más complejas, se necesitan modelos grandes; Ahora puede aprovechar los modelos Llama de última generación, continuar entrenándolos con sus propios datos y luego sintetizarlos en el tamaño de modelo que mejor se adapte a sus necesidades, sin permitirnos a nosotros ni a nadie más ver sus datos.
Necesitamos controlar nuestro propio destino y no quedar atrapados en proveedores de código cerrado. . Muchas organizaciones no quieren depender de un modelo que no pueden ejecutar y controlar por sí mismas. No quieren que un proveedor de modelo de código cerrado pueda cambiar el modelo, modificar los términos de uso o incluso detener el servicio por completo. Tampoco quieren limitarse a tener un uso exclusivo de modelos en una sola plataforma en la nube. El código abierto permite que un amplio ecosistema de empresas tenga cadenas de herramientas compatibles, lo que le permite moverse fácilmente entre ellas.
Necesitamos mantener nuestros datos seguros . Muchas organizaciones manejan datos confidenciales que deben protegerse y no pueden enviarse a través de API en la nube en un modelo de código cerrado. También hay organizaciones que simplemente no confían sus datos a los proveedores de modelos de código cerrado. El código abierto resuelve estos problemas al permitirle ejecutar modelos en cualquier lugar. Existe la creencia común de que el software de código abierto es generalmente más seguro porque su proceso de desarrollo es más transparente.
Necesitamos un modelo que funcione eficientemente y sea asequible . Los desarrolladores pueden ejecutar la inferencia Llama 3.1 405B en su propia infraestructura, ya sea para tareas de inferencia presenciales o fuera de línea, a aproximadamente la mitad del costo de usar modelos de código cerrado como GPT-4o.
Queremos invertir en ecosistemas que se conviertan en estándares a largo plazo. . Muchas personas ven que el código abierto avanza más rápido que los modelos de código cerrado y quieren construir sus sistemas sobre la arquitectura que les brinde la mayor ventaja a largo plazo.

Por qué la IA de código abierto es buena para Meta

El modelo de negocio de Meta es crear las mejores experiencias y servicios para las personas. Para hacer esto, debemos asegurarnos de tener siempre acceso a la mejor tecnología y no estar atrapados en los ecosistemas de código cerrado de nuestros competidores, lo que limita nuestra capacidad de innovar.

Una de mis experiencias clave fue que nuestros servicios estaban limitados por las restricciones de Apple sobre lo que podíamos construir en su plataforma. Desde la forma en que gravan a los desarrolladores, hasta las reglas que aplican al azar, pasando por toda la innovación de productos que impiden que se lance, está claro que si podemos crear las mejores versiones de nuestros productos sin que nuestros competidores puedan limitar nuestra innovación, Meta y muchas otras empresas podrán brindar mejores servicios a las personas. Filosóficamente, esta es la razón principal por la que creo firmemente en la construcción de un ecosistema abierto para la próxima generación de informática en IA y AR/VR.

La gente a menudo me pregunta si me preocupa renunciar a las ventajas técnicas del código abierto de Llama, pero creo que esto pierde el panorama general por varias razones:

En primer lugar, para garantizar que tengamos acceso a la mejor tecnología y no estemos atrapados en un ecosistema de código cerrado a largo plazo, Llama necesita evolucionar hacia un ecosistema completo de herramientas, incluidas mejoras de eficiencia, optimización del silicio y otras integraciones. Si fuéramos la única empresa que usara Llama, el ecosistema no crecería y no tendríamos un mejor rendimiento que las versiones de código cerrado de Unix.

En segundo lugar, espero que el desarrollo de la IA siga siendo muy competitivo, lo que significa que el acceso abierto a cualquier modelo en particular no ofrece una ventaja significativa sobre el siguiente mejor modelo en ese momento. El camino de Llama para convertirse en un estándar de la industria es continuar manteniendo la competitividad, la eficiencia y la apertura, desarrollándose de generación en generación.

En tercer lugar, una diferencia clave entre Meta y los proveedores de modelos de código cerrado es que vender acceso a modelos de IA no es nuestro modelo de negocio. Esto significa que hacer pública Llama no afecta nuestros ingresos, sostenibilidad o capacidad de invertir en investigación, lo que no es el caso de los proveedores de código cerrado.

Finalmente, Meta tiene una larga historia de éxito y proyectos de código abierto. Hemos ahorrado miles de millones de dólares a través del proyecto Open Compute al lanzar diseños de servidores, redes y centros de datos y permitir que la cadena de suministro estandarice nuestros diseños. Nos beneficiamos de la innovación del ecosistema mediante herramientas líderes de código abierto como PyTorch, React y más. Este enfoque siempre nos ha funcionado a largo plazo.

Por qué la IA de código abierto es buena para el mundo

Creo que el código abierto es fundamental para lograr un futuro positivo para la IA. La inteligencia artificial tiene mayor potencial que cualquier otra tecnología moderna para impulsar la productividad, la creatividad y la calidad de vida humanas, y acelerar el crecimiento económico al tiempo que impulsa avances en la medicina y la investigación científica. El código abierto garantizará que más personas en todo el mundo tengan acceso a los beneficios y oportunidades de la IA, que el poder no se concentre en manos de unas pocas empresas y que la tecnología pueda implementarse de manera más uniforme y segura en toda la sociedad.

Existe un debate en curso sobre la seguridad de los modelos de IA de código abierto y mi opinión es que la IA de código abierto será más segura que las alternativas.

Entiendo que el marco de seguridad es que debemos protegernos contra dos tipos de daños: no intencionales e intencionales. El daño involuntario se produce cuando un sistema de IA puede causar daño aunque la persona que lo ejecuta no tenía la intención de hacerlo. Por ejemplo, los modelos modernos de IA pueden dar, sin darse cuenta, malos consejos de salud. O, en un escenario más futurista, a algunos les preocupa que los modelos puedan replicarse a sí mismos sin darse cuenta o optimizar excesivamente sus objetivos en detrimento de los humanos. El daño intencional se produce cuando un mal actor utiliza un modelo de IA con la intención de causar daño.

Vale la pena señalar que el daño involuntario cubre la mayoría de las preocupaciones que la gente tiene sobre la inteligencia artificial: desde el impacto que tendrán los sistemas de IA en los miles de millones de personas que los utilizan, hasta la mayoría de los escenarios de ciencia ficción que son verdaderamente catastróficos para la humanidad. En este sentido, el código abierto debería ser más seguro porque el sistema es más transparente y puede ser examinado ampliamente. Por lo tanto, históricamente el software de código abierto ha sido más seguro. Del mismo modo, utilizar Llama y sus sistemas de seguridad como Llama Guard probablemente será más seguro y confiable que un modelo de código cerrado. Como resultado, la mayoría de las conversaciones sobre la seguridad de la IA de código abierto se centran en el daño intencional.

Nuestro proceso de seguridad incluye pruebas rigurosas y equipos rojos para evaluar la capacidad de nuestros modelos de causar daños significativos, con el objetivo de mitigar el riesgo antes de su lanzamiento. Dado que el modelo es abierto, cualquiera puede probarlo por sí mismo. Debemos recordar que estos modelos se entrenan con información que ya está en la web, por lo que al considerar el daño, el punto de partida debe ser si el modelo puede contribuir a causar más daño que la información que se puede recuperar rápidamente de Google u otros resultados de búsqueda.

Al considerar las oportunidades futuras, recuerde que la mayoría de las principales empresas de tecnología y de investigación científica de la actualidad se basan en software de código abierto. Si invertimos juntos, la próxima generación de empresas e investigaciones utilizará IA de código abierto.

Lo más importante es que la IA de código abierto representa la mejor oportunidad del mundo para aprovechar esta tecnología para maximizar las oportunidades económicas y la seguridad para todos.

construyamos juntos

Al igual que con los modelos Llama anteriores, Meta se desarrolló y luego se lanzó sin prestar mucha atención a la construcción de un ecosistema más amplio. Adoptamos un enfoque diferente con este lanzamiento. Estamos formando equipos internamente para que Llama esté disponible para tantos desarrolladores y socios como sea posible, y también estamos creando asociaciones activamente para que más empresas en el ecosistema también puedan brindar capacidades únicas a sus clientes.

Yo creoEl lanzamiento de Llama 3.1 será un punto de inflexión para la industria , la mayoría de los desarrolladores comenzarán a utilizar principalmente código abierto y espero que este enfoque crezca a partir de ahora. Espero que se unan a nosotros en nuestro viaje para llevar los beneficios de la inteligencia artificial a todas las personas en el mundo.

Enlace de la última entrevista:
https://x.com/rowancheung/status/1815763595197616155

Enlaces de referencia:
[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
[2]https://ai.meta.com/blog/meta-llama-3-1/

noticias

Código abierto = ¡el modelo más poderoso! Lanzamiento de Llama 3.1, Zuckerberg: momento decisivo

Introducción

Mi informacion de contacto