¿Cómo crear un modelo de código abierto que pueda derrotar a GPT-4o? ¿Todo sobre Llama 3.1 405B está escrito en paper

¿Cómo crear un modelo de código abierto que pueda derrotar a GPT-4o? ¿Todo sobre Llama 3.1 405B está escrito en el documento?

2024-07-24

Informe del corazón de la máquina

Departamento editorial de Machine Heart

Después de una "filtración accidental" dos días antes, Llama 3.1 finalmente se lanzó oficialmente anoche.

Llama 3.1 amplía la longitud del contexto a 128K y tiene tres versiones: 8B, 70B y 405B, elevando una vez más el estándar competitivo para pistas de modelos grandes.

Para la comunidad de IA, el significado más importante de Llama 3.1 405B es que actualiza el límite superior de las capacidades del modelo básico de código abierto. Los funcionarios de Meta dijeron que en una serie de tareas, su rendimiento es comparable al mejor cerrado. modelo fuente.

La siguiente tabla muestra el rendimiento de los modelos actuales de la Serie Llama 3 en puntos de referencia clave. Se puede ver que el rendimiento del modelo 405B es muy cercano al del GPT-4o.

Al mismo tiempo, Meta publicó el artículo "The Llama 3 Herd of Models", que revela los detalles de la investigación de los modelos de la serie Llama 3 hasta el momento.

Dirección del artículo: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

A continuación, echemos un vistazo al contenido del artículo.

Lo más destacado del papel Llama3

1. Después del entrenamiento previo con una longitud de contexto de 8K, Llama 3.1 405B usa una longitud de contexto de 128K para el entrenamiento continuo y admite el uso de múltiples lenguajes y herramientas.

2. En comparación con el modelo Llama anterior, Meta ha fortalecido los canales de curación de datos de preprocesamiento y preentrenamiento, así como los métodos de filtrado y garantía de calidad de los datos posteriores al entrenamiento.

Meta cree que existen tres palancas clave para el desarrollo de modelos subyacentes de alta calidad: gestión de datos, escala y complejidad.

Primero, en comparación con versiones anteriores de Llama, Meta mejora los datos utilizados para el pre y post entrenamiento, tanto en cantidad como en calidad. Meta preentrenó Llama 3 en un corpus de aproximadamente 15 billones de tokens multilingües, en comparación con Llama 2, que solo usó 1,8 billones de tokens.

La escala del modelo entrenado esta vez es mucho mayor que la del modelo Llama anterior: el modelo de lenguaje insignia utiliza 3,8 × 10²⁵ operaciones de punto flotante (FLOP) para el entrenamiento previo, que es casi 50 veces mayor que la versión más grande de Llama 2. .

Según la ley de escala, bajo el presupuesto de capacitación de Meta, el modelo insignia actual ya tiene aproximadamente el tamaño computacionalmente óptimo, pero el tiempo de entrenamiento de Meta para modelos más pequeños ha excedido con creces la duración computacionalmente óptima. Los resultados muestran que estos modelos más pequeños superan a los modelos computacionalmente óptimos para el mismo presupuesto de inferencia. En la fase posterior al entrenamiento, Meta utilizó el modelo insignia 405B para mejorar aún más la calidad de modelos más pequeños como los modelos 70B y 8B.

3. Para admitir la inferencia de producción en masa de los modelos 405B, Meta cuantifica 16 bits (BF16) en 8 bits (FP8), lo que reduce los requisitos informáticos y permite que el modelo se ejecute en un único nodo de servidor.

4. El entrenamiento previo de 405B en tokens de 15,6T (3,8x10²⁵ FLOP) es un desafío importante. Meta optimizó toda la pila de entrenamiento y utilizó más de 16K GPU H100.

Como dijo el fundador de PyTorch e ingeniero distinguido de Meta, Soumith Chintala, el artículo de Llama3 revela muchos detalles interesantes, uno de los cuales es la construcción de la infraestructura.

5. En la capacitación posterior, Meta mejora el modelo de Chat a través de múltiples rondas de alineación, incluido el ajuste fino supervisado (SFT), el muestreo de rechazo y la optimización de preferencias directas. La mayoría de las muestras de SFT se generan a partir de datos sintéticos.

Los investigadores tomaron varias decisiones en el diseño para maximizar la escalabilidad del proceso de desarrollo del modelo. Por ejemplo, se eligió la arquitectura del modelo denso Transformer estándar con solo ajustes menores en lugar de una combinación de modelos expertos para maximizar la estabilidad del entrenamiento. Asimismo, se adopta un procedimiento post-entrenamiento relativamente simple, basado en ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización de preferencia directa (DPO), en lugar de algoritmos de aprendizaje por refuerzo más complejos, que tienden a ser menos estables. y extensión más difícil.

6. Como parte del proceso de desarrollo de Llama 3, el equipo de Meta también desarrolló extensiones multimodales del modelo para permitir el reconocimiento de imágenes, el reconocimiento de videos y la comprensión del habla. Estos modelos aún están en desarrollo activo y aún no están listos para su lanzamiento, pero el artículo presenta los resultados de experimentos preliminares con estos modelos multimodales.

7. Meta ha actualizado su licencia para permitir a los desarrolladores utilizar el resultado del modelo Llama para mejorar otros modelos.

Al final de este documento, también vemos una larga lista de contribuyentes:

Esta serie de factores finalmente crearon la serie Llama 3 hoy.

Por supuesto, para los desarrolladores comunes, cómo utilizar los modelos a escala 405B es un desafío y requiere muchos recursos informáticos y experiencia.

Tras el lanzamiento, el ecosistema de Llama 3.1 está listo, con más de 25 socios que ofrecen servicios que funcionan con el último modelo, incluidos Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud y Snowflake, entre otros.

Para obtener más detalles técnicos, consulte el artículo original.

noticias

¿Cómo crear un modelo de código abierto que pueda derrotar a GPT-4o? ¿Todo sobre Llama 3.1 405B está escrito en el documento?

Introducción

Mi informacion de contacto