noticias

Se lanza oficialmente el modelo más potente Llama 3.1 405B, Zuckerberg: el código abierto lidera una nueva era

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Informe del corazón de la máquina

Departamento editorial de Machine Heart

¡Justo ahora se ha lanzado oficialmente la tan esperada Llama 3.1!

Meta emitió oficialmente una voz de que "el código abierto lidera una nueva era".



En el blog oficial, Meta dijo: "Hasta hoy, los modelos de lenguajes grandes de código abierto se han quedado rezagados con respecto a los modelos cerrados en términos de funcionalidad y rendimiento. Ahora, estamos marcando el comienzo de una nueva era liderada por el código abierto. Hemos lanzado públicamente Meta Llama 3.1 405B Creemos que es el modelo base de código abierto más grande y poderoso del mundo, con más de 300 millones de descargas de todas las versiones de Llama hasta la fecha, y apenas estamos comenzando”.

El fundador y director ejecutivo de Meta, Zuckerberg, también escribió personalmente un largo artículo "La IA de código abierto es el camino a seguir", explicando por qué el código abierto es algo bueno para todos los desarrolladores, Meta y el mundo.



Los aspectos más destacados de esta versión incluyen:

  • La última serie de modelos amplía la longitud del contexto a 128K, agrega soporte para ocho idiomas e incluye el modelo superior de código abierto Llama 3.1 405B;
  • El Llama 3.1 405B está en una liga propia, y Meta dice oficialmente que está a la par de los mejores modelos de código cerrado;
  • Esta versión también proporciona más componentes (incluidos sistemas de referencia) que se utilizarán con el modelo para construir Llama como sistema;
  • Los usuarios pueden experimentar Llama 3.1 405B a través de WhatsApp y meta.ai.



Dirección: https://llama.meta.com/

Los internautas pueden descargarlo y probarlo.

Llama 3.1 Introducción

Llama 3.1 405B es el primer modelo disponible públicamente que rivaliza con los mejores modelos de IA en términos de sentido común, manipulabilidad, matemáticas, uso de herramientas y traducción multilingüe.

Meta dice que la última generación de Llama inspirará nuevas aplicaciones y paradigmas de modelado, incluido el aprovechamiento de la generación de datos sintéticos para impulsar y entrenar modelos más pequeños y la destilación de modelos, una capacidad nunca antes lograda en el espacio de código abierto.

Al mismo tiempo, Meta también lanzó versiones mejoradas de los modelos 8B y 70B, que admiten múltiples idiomas, tienen una longitud de contexto de 128K y capacidades de razonamiento más sólidas. Los modelos más recientes admiten casos de uso avanzados, como resúmenes de texto de formato largo, agentes conversacionales multilingües y asistentes de codificación.

Por ejemplo, Llama 3.1 puede traducir historias al español:



Cuando el usuario pregunta: "Hay 3 camisas, 5 pares de pantalones cortos y 1 vestido. Supongamos que vas a viajar durante 10 días. ¿Está la ropa lo suficientemente preparada?", la modelo puede razonar rápidamente.



Contexto largo: para documentos cargados, Llama 3.1 puede analizar y resumir documentos grandes de hasta 8k tokens.



El asistente de codificación, según los requisitos del usuario, puede escribir código rápidamente:



Además, el desarrollador de Llama 3.1 405B también tuiteó "spoiler", diciendo que el desarrollo de un modelo que integra capacidades visuales y de voz como GPT-4o aún está en desarrollo.



Meta también realizó cambios en la licencia de código abierto para permitir a los desarrolladores utilizar el resultado de los modelos Llama (incluido el 405B) para mejorar otros modelos. Además, de acuerdo con su compromiso de código abierto, a partir de hoy, Meta pondrá estos modelos a disposición de la comunidad para descargar en llama.meta.com y Hugging Face.

enlace de descarga:

  • https://huggingface.co/meta-llama
  • https://llama.meta.com/

Evaluación del modelo

Meta se evalúa en más de 150 conjuntos de datos de referencia, además de una evaluación humana exhaustiva.

Los resultados experimentales muestran que el modelo insignia Llama 3.1 405B es competitivo con los modelos base líderes, incluidos GPT-4, GPT-4o y Claude 3.5 Sonnet, en una variedad de tareas. Además, los modelos pequeños 8B y 70B son competitivos con los modelos de código cerrado y de código abierto con un número similar de parámetros.







Arquitectura modelo

Como modelo más grande de Meta hasta la fecha, entrenar Llama 3.1 405B utilizando más de 15 billones de tokens es un gran desafío. Para permitir el entrenamiento a esta escala, Meta optimizó toda la pila de entrenamiento y entrenó en más de 16,000 GPU H100, lo que convierte a este modelo en el primer modelo Llama entrenado a esta escala.



Para abordar este problema, Meta tomó las siguientes decisiones de diseño, enfocándose en mantener el proceso de desarrollo del modelo escalable y simple.

  • Se eligió una arquitectura de modelo Transformer decodificador estándar con solo ajustes menores en lugar de un modelo experto híbrido para maximizar la estabilidad del entrenamiento.
  • Se emplea un procedimiento de entrenamiento post-iteración, utilizando ajuste fino supervisado y optimización de preferencias directas en cada ronda. Esto permite a Meta crear datos sintéticos de la más alta calidad para cada ronda y mejorar el rendimiento de cada función.

En comparación con versiones anteriores de Llama, Meta ha mejorado la cantidad y calidad de los datos utilizados para la capacitación previa y posterior, como el desarrollo de un proceso de preprocesamiento y gestión más cuidadoso para los datos previos a la capacitación y el desarrollo de un control de calidad más estricto. y gestión de datos posteriores al entrenamiento.

Como se esperaba de las leyes de escalado de modelos de lenguaje, el nuevo modelo insignia de Meta superó a los modelos más pequeños entrenados con el mismo procedimiento. Meta también utiliza un modelo de parámetros 405B para mejorar la calidad posterior al entrenamiento de modelos más pequeños.

Para admitir la salida de inferencia a gran escala del modelo 405B, Meta cuantizó el modelo de 16 bits (BF16) a 8 bits (FP8), reduciendo efectivamente los requisitos informáticos requeridos y permitiendo que el modelo se ejecute en un único nodo de servidor.

Ajustes de comando y chat

Llama 3.1 405B se esfuerza por mejorar la utilidad, la calidad y el cumplimiento de las instrucciones detalladas de los modelos al responder a las instrucciones del usuario, garantizando al mismo tiempo un alto nivel de seguridad.

En la fase posterior a la capacitación, el equipo de investigación construyó el modelo de chat final realizando varias rondas de alineación sobre la base del modelo previamente entrenado. Cada ronda implica ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización de preferencia directa (DPO).

El equipo de investigación utiliza la generación de datos sintéticos para producir la gran mayoría de ejemplos de SFT, con múltiples iteraciones para producir datos sintéticos de cada vez más alta calidad en todas las funciones. Además, el equipo de investigación empleó múltiples técnicas de procesamiento de datos para filtrar estos datos sintéticos con la más alta calidad y ajustar el volumen de datos a través de la escalabilidad funcional.

Sistema de llamas

Los modelos de llama siempre han existido como parte de un sistema de inteligencia artificial y pueden coordinar múltiples componentes, incluida la llamada a herramientas externas. Meta está diseñado para ir más allá del modelo base y brindar a los desarrolladores la flexibilidad de diseñar y crear productos personalizados que se ajusten a su visión.

Para desarrollar la IA de manera responsable más allá de la capa del modelo, Meta ha lanzado un sistema de referencia completo que incluye múltiples aplicaciones de ejemplo, así como nuevos componentes como Llama Guard 3, un modelo de seguridad multilingüe, y Prompt Guard, un filtro de inyección rápida. Estas aplicaciones de muestra son de código abierto y pueden ser creadas por la comunidad de código abierto.

Para colaborar más ampliamente con la industria, las empresas emergentes y la comunidad de código abierto para ayudar a definir mejor las interfaces de los componentes, Meta ha publicado una solicitud de comentario para "Llama Stack" en GitHub. Llama Stack es un conjunto de interfaces estandarizadas para crear componentes canónicos de la cadena de herramientas (ajuste, generación de datos sintéticos) y aplicaciones de agentes. Esto ayuda a lograr la interoperabilidad más fácilmente.

A diferencia de los modelos cerrados, los pesos del modelo Llama están disponibles para descargar. Los desarrolladores pueden personalizar completamente el modelo según sus necesidades y aplicaciones, entrenar con nuevos conjuntos de datos y realizar ajustes adicionales.

Desarrollado con Llama 3.1 405B

Para los desarrolladores comunes, implementar un modelo a gran escala como el 405B es sin duda un desafío y requiere una gran cantidad de recursos informáticos y habilidades profesionales. Al comunicarse con la comunidad de desarrolladores, Meta se dio cuenta de que el desarrollo de la IA generativa no se trata solo de ingresar indicaciones al modelo. Esperan que todos los desarrolladores aprovechen al máximo el potencial de Llama 3.1 405B en las siguientes áreas:

  • Inferencia en tiempo real y por lotes
  • ajuste supervisado
  • Pruebe y evalúe el rendimiento del modelo en aplicaciones específicas.
  • Preformación continua
  • Recuperación de Generación Aumentada (RAG)
  • Llamada de función
  • Generación de datos sintéticos.

Desde el lanzamiento, todas las funciones avanzadas del modelo Llama 3.1 405B estarán disponibles para que los desarrolladores comiencen a usarlo de inmediato. Los desarrolladores también pueden explorar flujos de trabajo de orden superior, como la generación de datos sintéticos basados ​​en la destilación de modelos. En esta actualización, Meta también integra a la perfección las soluciones proporcionadas por los socios AWS, NVIDIA y Databricks para lograr una generación de aumento de recuperación (RAG) más eficiente. Además, Groq se ha optimizado para inferencia de baja latencia para implementar modelos en la nube y se han realizado mejoras de rendimiento similares para sistemas locales.

Meta también ha incorporado un "paquete de herramientas de regalo" para Llama 3.1 405B esta vez, que incluye proyectos clave como vLLM, TensorRT y PyTorch, desde el desarrollo del modelo hasta la implementación "lista para usar", en un solo paso.

Enlace de referencia: https://ai.meta.com/blog/meta-llama-3-1/