noticias

¡El enlace magnético Llama 3.1 se filtró antes de lo previsto!El trono del modelo de código abierto cambió de manos de la noche a la mañana, GPT-4o fue superado

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría] ¡Llama 3.1 se ha filtrado nuevamente por adelantado! La comunidad de desarrolladores está nuevamente frenética: el modelo más grande es el 405B, los modelos 8B y 70B también se actualizan al mismo tiempo y el tamaño del modelo es de aproximadamente 820 GB. Los resultados de las pruebas comparativas son sorprendentes y el enlace magnético circula enormemente por toda la red.

La historia se repite nuevamente, ¡Llama 3.1 405B se filtró por adelantado!

Ahora, se ha corrido la voz sobre los puntos de referencia y los enlaces magnéticos.


Además del 405B más grande, Meta también actualizó los modelos 8B y 70B lanzados a principios de mayo esta vez y aumentó la longitud del contexto a 128K.

En este punto, la versión del modelo se ha iterado oficialmente de Llama 3 a Llama 3.1.


Según la información proporcionada por Magnet Link, el tamaño del nuevo modelo es 763,48 GiB (aproximadamente 820 GB).


Se puede ver en la "prueba de referencia" filtrada que incluso el modelo pequeño 8B puede funcionar bien, y el rendimiento del modelo 70B puede alcanzar al GPT-4o en múltiples pruebas de referencia.


Los desarrolladores estaban furiosos después de ver los resultados de la prueba, Aidan McLau, director ejecutivo de Topology, exclamó——

Si los puntos de referencia del Llama 3-405B fueran ciertos, sería

- Conviértete en el mejor modelo del mundo.

- Ajustable para todos

- ¡Más barato que GPT-4o!


Matt Schumer, director ejecutivo de HyperWriteAI, predice: Definitivamente se convertirá en SOTA en el modelo de código abierto. (Incluso 70B puede competir con GPT-4o, sin mencionar que esto es antes del ajuste de instrucciones).

Imagine un modelo de nivel GPT-4o funcionando a 330 tokens por segundo y 10 veces más barato. Esto es muy emocionante.

¡Mañana será un día salvaje!


Y las palabras de Xiao Zha insinuaron la llegada de 405B, ​​el momento de tranquilidad antes de la fatídica semana.


Muchos internautas preguntan a OpenAI en línea: ¿Cuándo se lanzará el nuevo modelo?

Familia Llama 3.1, lanzada mañana

Según la tarjeta modelo filtrada, Llama 3.1 se lanzará el día 23.

Las licencias son "Licencia comercial personalizada" y "Licencia comunitaria Llama 3.1".


Tarjeta modelo filtrada: https://pastebin.com/9jGkYbXY

Específicamente, el modelo grande multilingüe de la serie Llama 3.1 es un conjunto de modelos generativos previamente entrenados y ajustados con instrucciones, que incluyen tres tamaños de parámetros de 8B, 70B y 405B.

Modelos Llama 3.1 de solo texto (8B, 70B, 405B) después del ajuste de instrucciones, optimizados para casos de uso de conversaciones en varios idiomas.


Además del inglés, admite 7 idiomas, incluidos alemán, francés, italiano, portugués, hindi, español y tailandés.

Según los informes, las nuevas capacidades de Llama 3.1 incluyen un contexto más amplio, soporte para entrada y salida en varios idiomas e integración de desarrolladores con herramientas de terceros.

Puntos de referencia

Un gráfico de referencia en GitHub (ahora 404) muestra el excelente rendimiento de Llama 3.1 en la prueba de referencia.

Específicamente, en la evaluación comparativa del modelo de preentrenamiento de referencia, Llama 3.1 405B estableció los últimos récords en tareas generales, razonamiento de conocimientos y comprensión lectora.

Especialmente en los puntos de referencia de las subdivisiones MMLU y SQuAD, la mejora es más obvia.

Al mismo tiempo, las versiones de parámetros de Llama 3.1 8B y 70B se han mejorado ligeramente en comparación con Llama 3. Sin embargo, en algunos aspectos, el 70B Llama 3.1 no es tan bueno como la generación anterior.


Además, en el modelo de ajuste de instrucciones, se puede ver que Llama 3.1 405B es más fuerte que el modelo previamente entrenado. En razonamiento, codificación, matemáticas, uso de herramientas y puntos de referencia en varios idiomas, han aplastado las versiones 8B y 70B afinadas.

Los modelos perfeccionados Llama 3.1 8B y 70B también mejoraron significativamente el rendimiento en tareas de múltiples capacidades.


Algunos internautas han recopilado los puntos de referencia de otros modelos líderes. A través de la comparación, se puede ver que el Claude 3.5 Sonnet es el rey de todos los puntos de referencia.

La versión mejorada de Llama 3.1 405B es la mejor en el punto de referencia matemático MMLU Pro únicamente, superando a todos los modelos grandes con una puntuación del 73,3%.

Además, 405B está a la par con GPT-4o en los puntos de referencia de GPQA (Conocimiento y razonamiento profesional de nivel graduado), Matemáticas, DROP (Comprensión de lectura), MGSM (Matemáticas multilingües), HumanEval (Programación) y BBH (Evaluación de conocimientos). .

Además, el 405B está significativamente por delante del último modelo mini GPT-4o.


Llama 3.1 es un modelo de lenguaje autorregresivo que utiliza una arquitectura Transformer optimizada. La versión ajustada utiliza SFT y RLHF para igualar las preferencias humanas en materia de seguridad.

Para los modelos de la serie Llama 3.1, el recuento de tokens solo se refiere a datos previos al entrenamiento.

Todas las versiones del modelo utilizan Atención de consultas agrupadas (GQA) para mejorar la escalabilidad de la inferencia.

Datos de entrenamiento de tokens de 15T

Al igual que Llama 3, Llama 3.1 está previamente entrenado con aproximadamente 15 billones de tokens de fuentes disponibles públicamente.

Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de muestras sintéticas, y los datos previos al entrenamiento están disponibles hasta diciembre de 2023.



Disponible para investigación comercial

Llama 3.1 admite múltiples entornos lingüísticos para uso comercial y de investigación.

Los modelos de solo texto ajustados con instrucciones son adecuados para asistentes de chat, mientras que los modelos previamente entrenados se pueden adaptar a una variedad de tareas de generación de lenguaje natural. La colección de modelos Llama 3.1 también permite aprovechar la salida de su modelo para mejorar otros modelos, incluida la generación de datos sintéticos y la destilación de modelos.

La violación de las leyes y regulaciones de uso, las políticas de uso y la licencia comunitaria Llama 3.1 prohibida y los idiomas admitidos están fuera del alcance.

Y el equipo enfatizó que además de los 8 idiomas admitidos, Llama 3.1 está entrenado en un conjunto más amplio de idiomas. Los desarrolladores pueden perfeccionarlo y aplicarlo a otros idiomas, siempre que se sigan políticas como las licencias comunitarias y el uso sea seguro y responsable.

39,3 millones de horas de GPU de entrenamiento

Durante la capacitación previa, Meta utiliza una biblioteca de capacitación personalizada, un clúster de GPU personalizado para Meta y una infraestructura de producción. También se realizan ajustes, anotaciones y evaluaciones en la infraestructura de producción.

La capacitación utilizó un total de 39,3 millones de horas de GPU de tiempo de computación y el tipo de hardware es H100-80 GB (TDP es 700 W).

El tiempo de entrenamiento es el tiempo total de GPU necesario para entrenar cada modelo, y el consumo de energía es la capacidad de energía máxima de cada dispositivo GPU, ajustada para tener en cuenta la eficiencia del uso de energía.


Se estima que las emisiones totales de gases de efecto invernadero derivadas de la capacitación ascienden a 11.390 toneladas de dióxido de carbono equivalente (CO2eq).

Meta enfatizó que mantiene cero emisiones netas de gases de efecto invernadero desde 2020 y que el 100% de su electricidad se genera a partir de recursos renovables, por lo que sus emisiones totales de gases de efecto invernadero con base en un benchmark de mercado son 0 toneladas de dióxido de carbono equivalente.


riesgo significativo

Meta también ha realizado pruebas sobre riesgos importantes.

Incluye utilidad CBRNE (Materiales Químicos, Biológicos, Radiológicos, Nucleares y Explosivos), seguridad infantil y ciberataques.

En cuanto a los ciberataques, el equipo investigó si los LLM podrían mejorar las capacidades humanas en tareas de piratería, incluido el nivel de habilidad y la velocidad.

La investigación se centra en evaluar la capacidad de los LLM para ser utilizados como agentes autónomos en operaciones de ciberataque, especialmente cuando son atacados por ransomware.

El objetivo principal es evaluar si estos modelos pueden realizar eficazmente ciberataques complejos como agentes independientes sin intervención humana.

Los internautas están riendo la olla y presenciando la historia nuevamente

Después de que se publicó el enlace magnético, los internautas impacientes comenzaron a descargarlo directamente, pero esto puede llevar mucho tiempo.


¡Algunos internautas están esperando que Llama 3.1 405B se lance mañana y sean testigos de la historia nuevamente!


La brecha entre los modelos de código abierto y de código cerrado se ha reducido nuevamente.


Alguien también probó la clásica pregunta trampa "¿Quién es más grande, 9.11 o 9.9?", y Llama 3.1-405B la respondió correctamente.


Para los "pobres en GPU", 820 GB son demasiado reacios para funcionar en un portátil.





Referencias:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756