¿Llama 3.1 se filtró por adelantado, derribando a GPT-4o de su trono? Más rápido y 10 veces más barato

¿Llama 3.1 se filtró por adelantado, derribando a GPT-4o de su trono?Más rápido y 10 veces más barato

2024-07-24

Texto | Chang Minxiao y Yuan Yingliang

Editora｜Anita Tang

Si el destino del modelo grande de Llama es convertirse en el techo de los modelos de código abierto, entonces "ser filtrado trágicamente" es el desastre que Llama tiene que superar.

En marzo de 2023, Llama 2 se filtró por adelantado y Meta tuvo que lanzar el modelo como código abierto.

Hoy la historia se repite nuevamente.

El 12 de julio, hora del Pacífico, un empleado de Meta reveló que Meta planea lanzar la versión de Llama con la escala de parámetros más grande hasta la fecha: Llama 3.1 405B el 23 de julio de 2024, hora local. Reveló que el 405B será el primer modelo multimodal de la serie Llama.

Sin embargo, el 22 de julio, hora del Pacífico, un día antes del lanzamiento programado, el modelo y los resultados comparativos de Llama 3.1 se filtraron en comunidades técnicas como Reddit, y el enlace magnético de Llama 3.1 (un programa utilizado para descargar documentos) tiene ha circulado en comunidades como HuggingFace.

A juzgar por los resultados filtrados,¡El rendimiento de Llama 3.1 es comparable al GPT-4o de OpenAI!

Algunos blogueros de IA elogiaron que el lanzamiento de Llama 3.1 será otro día que cambiará el destino del mundo de la IA:

△Fuente:X

Los resultados de referencia filtrados muestran que Llama 3.1 tiene tres tamaños: 8B, 70B y 405B. El modelo 70B con el menor número de parámetros tiene un rendimiento comparable al GPT-4o en muchos aspectos.

△La imagen de arriba muestra la comparación entre cada versión de Llama 3.1 y OpenAI GPT-4o y Llama 3 8B/70B. Entre ellas, la versión 70B, que está en el medio de la escala, también supera a GPT-4o en muchos aspectos. Fuente de la imagen: usuario X @mattshumer_

Algunos internautas señalaron que si se basa en este punto de referencia, Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B se convertirá en el primer modelo liviano y GPT-4o mini que puede derrotar a OpenAI.

△Fuente de la imagen: usuario X @corbtt

Sin embargo, muchos internautas que han descargado el modelo para los "primeros usuarios" han descubierto que la versión filtrada de Llama 3.1 405B tiene un tamaño de archivo de aproximadamente 820 GB, lo que requiere casi tres veces la memoria de Llama 2 (aproximadamente 280 GB), que conserva total precisión.

Esto significa que, a menos que tengas una mina en casa y puedas permitirte suficientes GPU, será difícil para los desarrolladores individuales ejecutar Llama 3.1 en sus propias computadoras. Algunos internautas especulan que Llama 3.1 no es para individuos, sino para instituciones y empresas.

También se ha echado un jarro de agua fría a Llama 3.1, que aún no se ha anunciado oficialmente. Muchos internautas se quejaron: Llama 3.1 tiene requisitos de GPU demasiado altos y no es tan bueno como el GPT-4o mini de OpenAI.

△Un internauta comenta sobre X. Fuente de la imagen: usuario X @_Talesh

Iteración de funciones, optimización de indicadores y reducción de recursos informáticos.

Según la información del modelo filtrada, Llama 3.1 tiene más iteraciones en funcionalidad que Llama 3, que se lanzará el 19 de abril de 2024, incluidas ventanas de contexto más largas, entrada y salida en varios idiomas y posible integración de herramientas de desarrolladores y de terceros.

Entrenamiento de datos: Llama 3.1 se entrenó utilizando más de 15T tokens de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de ajuste de instrucciones disponibles públicamente (¡a diferencia de Llama-3!) y más de 25 millones de ejemplos generados sintéticamente. Diálogo multilingüe: Llama 3.1 admite 8 idiomas: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Aunque desafortunadamente no está disponible en chino, los desarrolladores pueden ajustar los modelos Llama 3.1 para idiomas distintos de los 8 idiomas admitidos. Ventana de contexto: la longitud del contexto de cada versión se amplía de 8k a 128k, lo que equivale aproximadamente a que el modelo pueda recordar, comprender y procesar 96.000 palabras a la vez, casi un "Harry Potter" original completo.

Muchos internautas están ansiosos por probarlo y dejar que Llama 3.1 compita con los "predecesores" del modelo. Descubrieron que no sólo los indicadores se han mejorado significativamente, sino que también se han ahorrado mucho los recursos informáticos.

Según las pruebas realizadas por los internautas, en comparación con Llama 3, las capacidades de Llama 3.1 han mejorado significativamente. Entre ellos, human_eval y truefulqa_mc1 han logrado avances significativos, lo que significa que la capacidad de generar código de programación es más fuerte y las respuestas a las preguntas son más auténticas.

Al mismo tiempo, en comparación con el modelo base, el modelo de instrucción de Llama 3 ha mejorado significativamente indicadores como el aprendizaje rápido, el aprendizaje contextual y el ajuste eficiente de parámetros.

Esto es razonable porque el modelo base generalmente no está ajustado para una tarea específica, mientras que el modelo de instrucción está especialmente entrenado para seguir instrucciones o completar tareas específicas. En general, los indicadores del modelo de instrucción funcionan mejor.

Esto hace que la gente espere aún más el lanzamiento oficial de Llama3.1. Los resultados de las pruebas del modelo Llama3.1 actualmente filtrados son solo para el modelo base, ¡mientras que el modelo de instrucción puede funcionar mejor!

△Fuente de la imagen: usuario X @thenameless7741

Sorprendentemente, en los resultados de las pruebas comparativas, el modelo Llama 3.1 70B empató o incluso superó al GPT-4o, mientras que el modelo Llama 3.1 8B estuvo cerca del rendimiento del modelo Llama 3 70B. Algunos internautas especularon que esto podría haber utilizado tecnología de destilación de modelos, es decir, los modelos 8B y 70B se simplificaron a partir del modelo más grande 405B, haciendo que los modelos grandes sean "más pequeños".

La tecnología de destilación modelo puede verse como un estudiante que aprende de un maestro. El modelo grande y poderoso (el modelo del maestro) es el maestro, y el modelo más pequeño y simple (el modelo del estudiante) es el estudiante. El modelo de estudiante aprende "imitando" el modelo de maestro, haciendo que el resultado sea lo más cercano posible al resultado del modelo de maestro, aprendiendo así conocimientos y habilidades similares.

El modelo de estudiante entrenado por destilación puede reducir el tamaño del modelo y los requisitos de recursos informáticos manteniendo al mismo tiempo un alto rendimiento y una precisión considerable.

△Fuente: Reddit

No todo el mundo puede ejecutarlo, pero el precio es razonable.

Aún se desconoce si Llama 3.1 será de código abierto como se esperaba. Pero incluso si es de código abierto, si quieres poder usar Llama 3.1, aún necesitas tener una mina en casa.

Si desea ejecutar Llama 3.1, el boleto de entrada más básico es una GPU suficiente.

Los documentos filtrados muestran que el tiempo de entrenamiento de Llama 3.1 405B en hardware tipo H100-80GB es de 30,84 millones de horas de GPU. Esto significa que, suponiendo que solo se use un H100-80GB por hora, se necesitarán 30,84 millones de horas para ejecutar Llama 3.1 405B; ¡se necesitarán 3500 años hasta que el modelo esté funcionando!

△Fuente: Reddit

Si desea implementar de forma privada, si la empresa quiere ejecutar con éxito Llama 3.1 405B dentro de un mes, debe reservar al menos 43,000 H100-80GB. Calculado en base al precio unitario del H100 de 40.000 dólares estadounidenses,Utilizando boletos de potencia informática Llama 3.1 405B, el precio llega a 1.700 millones de dólares estadounidenses, equivalente a 12.500 millones de yuanes.

Pero la buena noticia es que el coste de inferencia de Llama 3.1 puede ser más económico.

Según Artificial Analysis, el costo requerido para procesar 1 millón de tokens, Llama 3.1 405B será más barato y rentable que los modelos de vanguardia de calidad similar (GPT-4o y Claude 3.5 Sonnet).

△Fuente de la imagen: usuario X @ArtificialAnlys

Además, algunos internautas especularon a través del código del archivo fuente que Llama 3.1 405B puede convertirse en un producto de membresía y que los usuarios deben pagar al usarlo. Sin embargo, todavía tenemos que esperar a que se conozca oficialmente la situación real.

△Fuente de la imagen: usuario X @testingcatalog

(El autor de 36Kr, Zhou Xinyu, también contribuyó a este artículo)

Bienvenido a comunicar

noticias

¿Llama 3.1 se filtró por adelantado, derribando a GPT-4o de su trono?Más rápido y 10 veces más barato

Introducción

Mi informacion de contacto