¡Se filtró Llama 3.1 superando el modelo de código abierto de nivel GPT4o: 405 mil millones de parámetros, enlaces de descarga disponibles

¡Más allá del modelo de código abierto de nivel GPT4o! Se filtró Llama 3.1: 405 mil millones de parámetros, el enlace de descarga está disponible

2024-07-23

Informe del corazón de la máquina

Departamento editorial de Machine Heart

¡Prepara tu GPU!

Finalmente apareció Llama 3.1, pero la fuente no es oficial de Meta.

Hoy, la noticia filtrada del nuevo modelo Llama se volvió viral en Reddit.Además del modelo base, también incluye resultados de referencia de 8B, 70B y el parámetro más grande de 405B.。

La siguiente figura muestra los resultados de la comparación de cada versión de Llama 3.1 con OpenAI GPT-4o y Llama 3 8B/70B. puede ser visto,Incluso la versión 70B supera al GPT-4o en múltiples puntos de referencia。

Fuente de la imagen: https://x.com/mattshumer_/status/1815444612414087294

Obviamente, los modelos 8B y 70B de la versión 3.1 son un destilado del 405B, por lo que hay una mejora significativa en el rendimiento en comparación con la generación anterior.

Algunos internautas dijeron que esto esPor primera vez, el modelo de código abierto superó a los modelos de código cerrado como GPT4o y Claude Sonnet 3.5, alcanzando SOTA en múltiples puntos de referencia.。

Al mismo tiempo, se filtró la tarjeta modelo de Llama 3.1 y también se filtraron los detalles (la fecha marcada en la tarjeta modelo muestra que se basa en el lanzamiento del 23 de julio).

Alguien resumió los siguientes aspectos destacados:

El modelo utiliza más de 15T de tokens de fuentes públicas para la capacitación y la fecha límite para los datos previos a la capacitación es diciembre de 2023;
Los datos de ajuste incluyen el conjunto de datos de ajuste de instrucciones disponible públicamente (a diferencia de Llama 3) y 15 millones de muestras sintéticas;
El modelo admite varios idiomas, incluidos inglés, francés, alemán, hindi, italiano, portugués, español y tailandés.

Fuente de la imagen: https://x.com/iScienceLuvr/status/1815519917715730702

Aunque el enlace de Github filtrado es actualmente 404, algunos internautas han proporcionado el enlace de descarga (pero por seguridad, se recomienda esperar el anuncio oficial del canal esta noche):

Sin embargo, este es un modelo grande con una escala de cientos de miles de millones, así que prepare suficiente espacio en el disco duro antes de descargarlo:

Los siguientes son los contenidos importantes de la tarjeta modelo Llama 3.1:

Información básica del modelo

El conjunto de modelos multilingües de lenguaje grande (LLM) de Meta Llama 3.1 es un conjunto de modelos generativos previamente entrenados y ajustados con instrucciones de tamaños 8B, 70B y 405B (entrada/salida de texto). Los modelos de solo texto ajustados por comandos de Llama 3.1 (8B, 70B, 405B) están optimizados para casos de uso de conversaciones multilingües y superan a muchos modelos de chat de código abierto y cerrado disponibles en los puntos de referencia comunes de la industria.

Arquitectura modelo: Llama 3.1 es un modelo de lenguaje autorregresivo de arquitectura Transformer optimizado. La versión mejorada utiliza SFT y RLHF para alinear las preferencias de usabilidad y seguridad.

Idiomas admitidos: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.

Se puede inferir de la información de la tarjeta del modelo queLos modelos de la serie Llama 3.1 tienen una longitud de contexto de 128k . Todas las versiones del modelo utilizan Atención de consultas agrupadas (GQA) para mejorar la escalabilidad de la inferencia.

uso esperado

Casos de uso previstos. Llama 3.1 está diseñado para su uso en investigación y aplicaciones empresariales multilingües. Los modelos de solo texto ajustados a instrucciones son adecuados para chats tipo asistente, mientras que los modelos previamente entrenados se pueden adaptar a una variedad de tareas de generación de lenguaje natural.

El conjunto de modelos Llama 3.1 también admite la capacidad de aprovechar los resultados de su modelo para mejorar otros modelos, incluida la generación y destilación de datos sintéticos. La Licencia Comunitaria Llama 3.1 permite estos casos de uso.

Llama 3.1 se entrena en un conjunto de idiomas más amplio que los 8 idiomas admitidos. Los desarrolladores pueden ajustar los modelos de Llama 3.1 para idiomas distintos de los 8 idiomas admitidos, siempre que cumplan con el Acuerdo de licencia comunitaria y la Política de uso aceptable de Llama 3.1, y son responsables en tales casos de garantizar que se utilicen otros idiomas en de manera segura y responsable Idioma Llama 3.1.

Infraestructura de software y hardware

El primero es el elemento de capacitación Llama 3.1 utiliza una biblioteca de capacitación personalizada, el clúster de GPU personalizado de Meta y la infraestructura de producción para la capacitación previa. También se ajusta, anota y evalúa en la infraestructura de producción.

El segundo es el consumo de energía del entrenamiento. El entrenamiento Llama 3.1 utiliza un total de 39,3 millones de horas de GPU de cálculo en hardware tipo H100-80 GB (TDP es 700 W). Aquí el tiempo de entrenamiento es el tiempo total de GPU requerido para entrenar cada modelo, y el consumo de energía es la capacidad de energía máxima de cada dispositivo GPU, ajustada por eficiencia energética.

Formación sobre emisiones de gases de efecto invernadero. Las emisiones totales de gases de efecto invernadero basadas en puntos de referencia geográficos durante el período de capacitación de Llama 3.1 se estiman en 11.390 toneladas de CO2 equivalente. Desde 2020, Meta ha mantenido cero emisiones netas de gases de efecto invernadero en todas sus operaciones globales y ha combinado el 100 % de su uso de electricidad con energía renovable, lo que ha dado como resultado unas emisiones totales de gases de efecto invernadero basadas en el mercado de 0 toneladas de CO2e durante el período de capacitación.

Los métodos utilizados para determinar el uso de energía en la formación y las emisiones de gases de efecto invernadero se pueden encontrar en el siguiente artículo. Debido a que Meta publica estos modelos, otros no necesitan soportar la carga de entrenar el uso de energía y las emisiones de gases de efecto invernadero.

Dirección del artículo: https://arxiv.org/pdf/2204.05149

datos de entrenamiento

Descripción general: Llama 3.1 está preentrenada utilizando aproximadamente 15 billones de datos simbólicos de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente y más de 25 millones de ejemplos generados sintéticamente.

Actualización de los datos: la fecha límite para los datos previos a la capacitación es diciembre de 2023.

Puntuación de referencia

En esta sección, Meta informa los resultados de puntuación del modelo Llama 3.1 en el punto de referencia de anotación. Para todas las evaluaciones, Meta utiliza bibliotecas de evaluación internas.

Consideraciones sobre riesgos de seguridad

El equipo de investigación de Llama se compromete a proporcionar a la comunidad de investigación recursos valiosos para estudiar la solidez del ajuste seguro y proporcionar a los desarrolladores modelos listos para usar seguros y robustos para una variedad de aplicaciones para reducir el trabajo de los desarrolladores que implementan IA segura. cantidad de sistemas.

El equipo de investigación utilizó un enfoque de recopilación de datos multifacético que combinaba datos generados por humanos de proveedores con datos sintéticos para mitigar posibles riesgos de seguridad. El equipo de investigación desarrolló una serie de clasificadores basados en modelos de lenguaje grande (LLM) para seleccionar cuidadosamente indicaciones y respuestas de alta calidad, mejorando así el control de calidad de los datos.

Vale la pena mencionar que Llama 3.1 concede gran importancia al modelo de rechazo de indicaciones benignas y al tono de rechazo. El equipo de investigación introdujo avisos de límites y avisos de confrontación en la política de datos de seguridad y modificó la respuesta de los datos de seguridad para seguir las pautas de tono.

El modelo Llama 3.1 no está diseñado para implementarse de forma independiente, sino que debe implementarse como parte de un sistema general de IA, con "barandillas de seguridad" adicionales proporcionadas según sea necesario. Los desarrolladores deben implementar medidas de seguridad del sistema al crear sistemas de agentes.

Tenga en cuenta que esta versión presenta nuevas funciones, incluidas ventanas de contexto más largas, entrada y salida multilingüe y posible integración del desarrollador con herramientas de terceros. Al desarrollar estas nuevas capacidades, además de considerar las mejores prácticas que generalmente se aplican a todos los casos de uso de IA generativa, también debe prestar especial atención a las siguientes cuestiones:

Uso de herramientas: al igual que con el desarrollo de software estándar, los desarrolladores son responsables de integrar LLM con las herramientas y servicios de su elección. Deben desarrollar políticas claras para sus casos de uso y evaluar la integridad de los servicios de terceros que utilizan para comprender las limitaciones de seguridad al utilizar esta funcionalidad.

Multilingüe: Lama 3.1 admite 7 idiomas además del inglés: francés, alemán, hindi, italiano, portugués, español y tailandés. Es posible que Llama pueda generar texto en otros idiomas, pero es posible que este texto no cumpla con los umbrales de rendimiento de seguridad y capacidad de ayuda.

Los valores fundamentales de Llama 3.1 son la apertura, la inclusión y la ayuda. Está diseñado para servir a todos y es adecuado para una variedad de casos de uso. Por lo tanto, Llama 3.1 está diseñado para ser accesible a personas de todos los orígenes, experiencias y perspectivas. Llama 3.1 se centra en los usuarios y sus necesidades, sin insertar juicios o normas innecesarias, al mismo tiempo que refleja el reconocimiento de que incluso el contenido que puede parecer problemático en algunos contextos puede ser útil en otros. Llama 3.1 respeta la dignidad y autonomía de todos los usuarios y, en particular, respeta los valores de libre pensamiento y expresión que impulsan la innovación y el progreso.

Pero Llama 3.1 es una tecnología nueva y, como cualquier tecnología nueva, existen riesgos asociados con su uso. Las pruebas realizadas hasta la fecha no han cubierto ni pueden cubrir todas las situaciones. Por lo tanto, como todos los LLM, los resultados potenciales de Llama 3.1 no se pueden predecir de antemano y, en algunos casos, el modelo puede responder a las indicaciones del usuario de manera inexacta, sesgada o de otro modo objetable. Por lo tanto, antes de implementar cualquier aplicación del modelo Llama 3.1, los desarrolladores deben realizar pruebas de seguridad y ajustes para la aplicación específica del modelo.

Fuente de la tarjeta modelo: https://pastebin.com/9jGkYbXY

Información de referencia: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

noticias

¡Más allá del modelo de código abierto de nivel GPT4o! Se filtró Llama 3.1: 405 mil millones de parámetros, el enlace de descarga está disponible

Introducción

Mi información de contacto