noticias

¡Nace Llama 3.1!El gigante del código abierto derrotó al código cerrado por primera vez y se acerca la era de GPT-4 para todos

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría] El patrón de los modelos grandes ha vuelto a cambiar de la noche a la mañana. Llama 3.1 405B hizo un gran debut, superando a GPT-4o y Claude 3.5 Sonnet en múltiples pruebas. Por primera vez en la historia, un modelo de código abierto derrotó al modelo de código cerrado más potente de la actualidad. Xiao Zha dijo audazmente: La IA de código abierto definitivamente ganará, al igual que finalmente ganó Linux.

¡El nuevo rey del código abierto, Llama 3.1 405B, se lanzó oficialmente anoche!

En múltiples pruebas, se superaron tanto el GPT-4o como el Claude 3.5 Sonnet. En otras palabras, el modelo SOTA de código cerrado ya está siendo alcanzado por el modelo de código abierto.


De la noche a la mañana, el Llama 3.1 405B se convirtió en el modelo más potente del mundo.

(En línea al mismo tiempo, también hay nuevas versiones de los modelos 70B y 8B)


LeCun resumió varios puntos clave de la familia de modelos Llama 3.1:

- Rendimiento 405B comparable a los mejores modelos de código cerrado

- Pesos y código de código abierto/de uso gratuito, lo que permite realizar ajustes finos, destilarlos en otros modelos e implementarlos en cualquier lugar.

- Contexto de 128k, varios idiomas, buena capacidad de generación de código, capacidad de razonamiento complejo y capacidad de uso de herramientas

- Llama Stack API permite una fácil integración


Se puede decir que esta vez Meta implementó el espíritu del código abierto hasta el final y, al mismo tiempo, publicó generosamente un artículo de más de 90 páginas.

Thomas Wolf, científico jefe de HuggingFace, elogió: Si desea estudiar modelos grandes desde cero, ¡este documento es lo que necesita!

Literalmente cubre todo: datos previos al entrenamiento, filtrado, recocido, datos sintéticos, leyes de escala, infraestructura, procesamiento paralelo, métodos de entrenamiento, adaptación posterior al entrenamiento, uso de herramientas, evaluación comparativa, estrategias de inferencia, cuantificación, visión, voz y video...

El investigador de AI2, Nathan Lambert, estima que este artículo de Llama 3.1 de 90 páginas impulsará directamente el progreso del modelo de código abierto entre 3 y 9 meses.


El CEO de Meta, Xiao Zha, escribió con orgullo un largo artículo: La inteligencia artificial de código abierto es el camino a seguir.


En una entrevista con el New York Times, Xiao Zha apoya la IA de código abierto

En este artículo, Xiao Zha recordó emocionalmente el cambio de Meta en la ola de LLM——

El año pasado, el Llama 2 sólo era comparable a los modelos marginales más antiguos; este año, el Llama 3 ya está por delante de los modelos más avanzados en algunos aspectos, a partir del próximo año los futuros modelos de Llama se convertirán en los modelos más avanzados;

Con respecto a la pregunta que le han hecho muchas veces: "¿Le preocupa perder ventajas técnicas debido al código abierto Llama?" Xiao Zha se comparó directamente con Linux.

Dijo que en el pasado, las grandes empresas de tecnología invirtieron mucho en sus propias versiones de Unix, pero al final ganó Linux de código abierto porque permitió a los desarrolladores modificar el código a voluntad, que era más avanzado, más seguro y más ecológico.

La IA también seguramente se desarrollará de manera similar.

Con este fin, Meta ha relajado específicamente su licencia, permitiendo a los desarrolladores por primera vez utilizar el resultado de alta calidad del modelo Llama 3.1 para mejorar y desarrollar modelos de IA de terceros.


Internauta: comienza una nueva era

Después de que Llama 3.1 fuera levantada oficialmente, causó un gran revuelo en toda la red.

El maestro de IA Karpathy inmediatamente expresó algunos de sus pensamientos:

Hoy, con el lanzamiento del modelo 405B, el modelo grande de vanguardia de GPT-4/Claude 3.5 Sonnet está abierto a todos para que todos lo utilicen y construyan por primera vez. . Sus pesas son de código abierto y tienen licencia comercial, lo que permite la generación de datos sintéticos, la destilación y el ajuste de modelos.

Este es un LLM de frontera verdaderamente abierta lanzado por Meta. Además, también publicaron un informe técnico de 92 páginas, que contiene muchos detalles del modelo: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


La filosofía detrás del lanzamiento de este modelo se detalla en un largo artículo de Xiao Zha, que vale la pena leer porque cubre bien todos los puntos de vista y argumentos principales que respaldan la visión del mundo del ecosistema abierto de IA:

La IA de código abierto es el futuro.

A menudo he dicho que todavía es temprano, como en la década de 1980, para que LLM sea el próximo gran paradigma informático, y Meta se está posicionando claramente para ser un líder en su ecosistema abierto.

- La gente solicitará y utilizará RAG en estos modelos.

- La gente afinará el modelo.

- La gente los destilará en modelos expertos más pequeños para tareas y aplicaciones específicas.

- la gente lo investiga, lo compara, lo optimiza

Además, el ecosistema abierto se autoorganiza en productos, aplicaciones y servicios de forma modular, y cada participante puede aportar su experiencia única.

Un ejemplo es que Groq, la startup de chips de IA, ha integrado el modelo Llama 3.1, que puede lograr un razonamiento casi instantáneo de los modelos 8B.

Karpathy dijo que debido a la presión del servidor, parecía incapaz de probar el 405B ejecutándose en Groq, que puede ser el modelo grande más potente y rápido en la actualidad.


También espera que los modelos de código cerrado pronto se pongan al día y lo espera con ansias.

¡El metainvestigador Tian Yuandong dijo que ha comenzado una nueva era! ¡El LLM de código abierto ahora está a la par o mejor que el LLM de código cerrado!


Nace el nuevo rey de los modelos de código abierto.


Después de probar el perfeccionado Llama 3.1 8B, el fundador de OpenPipe dijo con emoción: Nunca ha existido un modelo de código abierto tan pequeño y potente: ¡funciona mejor que GPT-4o mini en cada tarea!



El científico senior de NVIDIA, Jim Fan, dijo que el poder de GPT-4 está en nuestras manos. Este es un momento histórico.


Pocas personas prestan atención a la infraestructura detrás del entrenamiento del modelo de IA. Soumith Chintala, el padre de Pytorch, se puso de pie y dijo que en una instalación construida con 16.000 GPU también se producirán fallas.

Estos detalles están ocultos en el documento Llama 3.1, incluido cómo paralelizar y mantener la confiabilidad del sistema. Cabe mencionar que el equipo Meta logró un 90% de tiempo de capacitación efectivo en el entrenamiento modelo.



Algunos internautas han detallado que durante el proceso de iteración del modelo Llama, el uso de GPU también está aumentando.

Llama 1: 2048 GPU

Llama 2: 4096 GPU

Llama 3.1: 16384 GPU (en realidad, Llama 3 está entrenado en dos clústeres con 24 000 GPU)

Llama 4:......


La familia de modelos de código abierto más poderosa

De hecho, ayer se estropearon básicamente algunos puntos clave sobre los modelos de la serie Llama 3.1.

Como se indica en la información filtrada, Llama 3.1 puede admitir 8 idiomas (inglés, alemán, francés, italiano, portugués, hindi, español y tailandés), agentes conversacionales multilingües, casos de uso de traducción, etc.

En términos de longitud del contexto, en comparación con Llama 2 y Llama 3, todos los contextos en los modelos de la serie Llama 3.1 han aumentado 16 veces, a 128K.


Meta enfatizó que Llama 3.1 también se ha mejorado en el uso de herramientas, admitiendo el uso de herramientas de disparo cero, incluida la búsqueda web, operaciones matemáticas y ejecución de código.

Basado en un contexto extenso, el modelo no sólo sabe cuándo usar una herramienta, sino también cómo usarla y cómo interpretar los resultados.

Además, mediante ajustes, Llama 3.1 proporciona una gran flexibilidad para llamar a herramientas personalizadas.


Habilidades principales

Primero, Llama 3.1 puede ejecutarse como un sistema capaz de realizar tareas de "agente":

- Dividir tareas y realizar razonamientos de varios pasos.

- usar herramientas

- Herramientas integradas: los modelos vienen con su propio conocimiento de herramientas como búsqueda o intérpretes de código.

- Aprendizaje de disparo cero: el modelo puede aprender a llamar herramientas a través de definiciones de herramientas contextuales que no ha visto antes.

Por ejemplo, preguntarle al modelo: "Este es un archivo CSV, ¿puedes describir lo que contiene?"

Reconocerá que: Este archivo CSV contiene tasas de inflación mensuales durante muchos años y la columna de año indica el año para cada conjunto de tasas de inflación mensuales.


A continuación, podemos pedirle que trace el gráfico a lo largo del tiempo.


A continuación, también puede completar una serie de tareas complicadas, como trazar la tendencia del S&P500 en el mismo gráfico.


Una vez que haya terminado, puede cambiar el tamaño del gráfico para agregar información a diferentes ejes.


Como se muestra arriba, Llama 3.1 admite 8 idiomas, por lo que es capaz de realizar traducciones en varios idiomas.

Podemos hacer que traduzca el cuento de hadas Hansel y Gretel (La casa de los dulces) al español.


Incluso cuando se enfrenta a preguntas de razonamiento más complejas, Llama 3.1 puede ganar fácilmente.

"Tengo 3 camisas, 5 pares de pantalones cortos y 1 vestido. Me voy a un viaje de 10 días. ¿Es suficiente ropa para mis vacaciones?"

La IA descompone las condiciones conocidas, imagina un plan de combinación razonable para blusas, pantalones cortos y faldas, y sugiere que es mejor traer más blusas.


Una vez completado el razonamiento, también nos proporcionó cuidadosamente una guía de vestimenta para viajes y una lista de equipaje más detalladas.


También podemos dejar que la IA escriba código a mano.

Por ejemplo, permítale crear un programa que utilice un algoritmo de retroceso recursivo o un algoritmo de búsqueda en profundidad para generar un laberinto perfecto con tamaño y complejidad personalizables.

Tan pronto como la IA comenzó, salió del código Python del programa Maze.


Una vez completado el código, AI también ofrece una explicación detallada.


A continuación, si queremos personalizar el programa, el asistente de código AI nos proporciona las sugerencias de código correspondientes: ajustando el ancho y el alto.


Resultados de evaluación

Para evaluar el rendimiento de Llama3.1, Meta no solo incluyó en la prueba 150 conjuntos de datos de referencia que cubren varios idiomas, sino que también los comparó en escenarios reales.

En una variedad de tareas, el 405B puede competir con los principales modelos de código cerrado, como GPT-4, GPT-4o y Claude 3.5 Sonnet.


Los modelos pequeños 8B y 70B también obtuvieron buenos resultados en modelos de código cerrado y de código abierto con cantidades de parámetros similares.

Además de las tareas de contexto largas, los modelos 8B y 70B lograron SOTA en tareas generales, codificación, matemáticas, razonamiento, uso de herramientas y múltiples lenguajes.


En evaluación humana, el modelo Llama 3.1 405B está a la par del GPT-4, pero ligeramente peor que el GPT-4o.

Sin embargo, comparado con el Claude 3.5 Sonnet, el modelo grande 405B tiene una ventaja, con una tasa de éxito del 24,9%.


Además, en la clasificación de Scale, la versión mejorada de Llama 3.1 405B aplastó a Claude 3.5 Sonnet y GPT-4o en la instrucción posterior a la evaluación.

En tareas de matemáticas, 405B ocupó el segundo lugar detrás de Claude 3.5 Sonnet. Sin embargo, Llama 3.1 obtuvo una puntuación relativamente baja en tareas de codificación.


Informe técnico ultradetallado de 92 páginas

Nadie puede abrir el código fuente tan exhaustivamente como Meta. El informe técnico de 92 páginas también se publica hoy.


Dirección del artículo: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

El artículo propone que Llama 3.1, un modelo base de alta calidad, tiene tres palancas clave: gestión de datos, escala y complejidad.

En términos de datos, en comparación con la generación anterior, la cantidad total y la calidad de los datos en Llama 3.1 se han mejorado, como un procesamiento previo y procesos de gestión más cuidadosos para los datos previos al entrenamiento, y métodos de filtrado y control de calidad más estrictos para el entrenamiento posterior. datos.

Llama 2 solo se entrenó previamente con datos de tokens de 1,8T, mientras que el corpus de preentrenamiento multilingüe de Llama 3.1 alcanzó los 15,6T de tokens, un aumento de más de 8 veces.

En términos de escala, el entrenamiento de Llama 3.1 utiliza más de 16.000 GPU NVIDIA H100 y la cantidad total de cálculo alcanza 3,8e25 FLOPS, que es casi 50 veces mayor que la de Llama 2.

Para lograr una mejor "ampliación", el documento propone específicamente el aspecto de "gestión de la complejidad". Al seleccionar la arquitectura del modelo y los algoritmos, se debe prestar más atención a su estabilidad y escalabilidad.

Vale la pena señalar que Llama 3.1 no utiliza la arquitectura MoE más popular, sino una densa arquitectura Transformer de solo decodificador. Solo se ha modificado y ajustado la arquitectura Transformer original para maximizar la estabilidad del entrenamiento.

Enfoques similares incluyen el uso de procesos simples posteriores al entrenamiento, como SFT, RS y DPO, en lugar de algoritmos de aprendizaje por refuerzo más complejos.

Al igual que muchos modelos grandes, el desarrollo de Llama 3 incluye principalmente dos etapas: preentrenamiento y postentrenamiento.

Durante el entrenamiento previo, "predecir el siguiente token" también se utiliza como objetivo de entrenamiento. Primero, la ventana de contexto se establece en 8K y luego se expande a 128K durante la etapa de entrenamiento previo.

La fase posterior al entrenamiento mejora el modelo a través de múltiples rondas de retroalimentación humana iterativa, lo que mejora significativamente el rendimiento de codificación e inferencia e integra capacidades de uso de herramientas.

Además, el documento también intenta utilizar tres etapas adicionales para agregar funciones multimodales como imágenes, videos y voces a Llama 3.1:

-Preentrenamiento del codificador multimodal: los codificadores de imagen y voz se entrenan por separado. Los datos de preentrenamiento para el primero son pares de imagen y texto, mientras que el segundo utiliza un método autosupervisado para intentar reconstruir las partes enmascaradas del. discurso a través de tokens discretizados.

- Adaptador de visión: consta de una serie de capas de atención cruzada que inyectan representaciones de codificadores de imágenes en modelos de lenguaje previamente entrenados. A partir de imágenes, el artículo también intentó entrenar un adaptador de vídeo en pares vídeo-texto.

- Adaptador de voz: conecta codificadores de voz y modelos de lenguaje, y también integra sistemas "texto a voz".


Desafortunadamente, las funciones multimodales mencionadas anteriormente aún están en desarrollo y, por lo tanto, no están incluidas en el recién lanzado Llama 3.1.

Arquitectura modelo

Llama 3.1 todavía usa el Transformer denso estándar, y no hay una diferencia significativa en la arquitectura de Llama y Llama 2. La mejora del rendimiento proviene principalmente de la mejora de la calidad, diversidad y expansión de escala de los datos de entrenamiento.


En comparación con Llama 3, la arquitectura de Llama 3.1 tiene las siguientes mejoras:

- Atención de consultas agrupadas (GQA): con 8 encabezados clave-valor, mejora la velocidad de inferencia y reduce el caché KV durante la decodificación

- Máscara de atención: evita la autoatención entre diferentes documentos en la misma secuencia.Esta técnica tiene una eficacia limitada en el preentrenamiento estándar, pero es muy importante cuando se continúa con el preentrenamiento en secuencias muy largas.

- Vocabulario de tokens de 128 000: incluidos 100 000 en tiktoken y 28 000 adicionales para admitir mejor idiomas distintos del inglés.Relación de compresión mejorada tanto para inglés como para otros idiomas en comparación con Llama 2

- Establecer el hiperparámetro θ de RoPE en 500.000: mejor soporte para contextos largos

Los hiperparámetros clave del modelo se muestran en la Tabla 3. Según la cantidad de datos y la potencia informática de entrenamiento, el tamaño del modelo ha alcanzado la optimización de la potencia informática revelada por la Ley de escala.


Eficiencia paralela

Entrenar un modelo 405B en 16.000 GPU, ya es un gran proyecto considerando el paralelismo y el manejo de fallas.

Además del modelo en sí, el documento también explica el esquema de paralelización utilizado en el proceso de capacitación, así como el almacenamiento, la red y otra infraestructura.

El entrenamiento de Llama 3.1 utiliza paralelismo 4D (tensor + canalización + contexto + datos). Con una precisión de BF16, la utilización de GPU (MFU) es de aproximadamente 38% a 41%.


El manejo de fallas del grupo de entrenamiento Llama 3.1 también es muy bueno, alcanzando más del 90% del tiempo de entrenamiento efectivo, pero esto aún significa que hay al menos una interrupción cada día durante los 54 días totales de entrenamiento previo.

El documento enumera en detalle las causas de las 419 interrupciones inesperadas (Tabla 5), ​​lo que tiene una importancia de referencia muy importante para la futura construcción de clústeres de GPU. Entre ellos, se confirmó o se sospechó que el 78% de los problemas estaban relacionados con el hardware.


Dado que la operación y el mantenimiento automatizados del clúster son relativamente completos, aunque hay muchas fallas, la mayoría de ellas se pueden manejar automáticamente. Durante todo el proceso, sólo tres fallos requirieron intervención manual.

Mejorar el rendimiento de capacidades específicas.

código

Para mejorar la capacidad de codificación del modelo, Meta utiliza métodos como capacitar a expertos en codificación, generar datos sintéticos SFT, guiar formatos mejorados a través de indicaciones del sistema y crear filtros de calidad (eliminando muestras erróneas de los datos de entrenamiento).


Conversión de código Python (izquierda) a código PHP (derecha) usando Llama 3 para aumentar el conjunto de datos SFT con una gama más amplia de lenguajes de programación


Mejorar la calidad del código mediante mejoras del sistema.Izquierda: no hay mensaje del sistema. Derecha: hay mensaje del sistema.

plurilingüe

Para mejorar las capacidades multilingües de Llama 3, Meta capacitó especialmente a un experto que puede manejar más datos multilingües para obtener y generar datos de ajuste de instrucción multilingüe de alta calidad (como alemán, francés, italiano, portugués, hindi (inglés, español y tailandés) y abordar desafíos específicos en la incorporación multilingüe.


Razonamiento matemático

Los modelos de entrenamiento que son buenos en razonamiento matemático enfrentan varios desafíos, como la falta de sugerencias, la falta de CoT real, pasos intermedios incorrectos, la necesidad de enseñar al modelo a usar herramientas externas, la diferencia entre entrenamiento e inferencia, etc.

Para este fin, Meta adopta los siguientes métodos: resolver el problema de sugerencias insuficientes, mejorar el proceso de razonamiento paso a paso en los datos de entrenamiento, filtrar el proceso de razonamiento incorrecto, combinar código y razonamiento de texto, y aprender de comentarios y errores.


contexto largo

En la etapa final de preentrenamiento, Meta extiende la longitud del contexto de Llama 3 de 8K tokens a 128K.

En la práctica, el equipo descubrió que usar solo datos de contexto cortos para SFT conduciría a una degradación significativa de las capacidades de contexto largo del modelo; y leer contextos largos es muy tedioso y requiere mucho tiempo, por lo que no es práctico para los humanos etiquetar tales ejemplos.

Por lo tanto, Meta eligió datos sintéticos para llenar este vacío.

Utilizando una versión anterior de Llama 3, generaron datos sintéticos basados ​​en casos de uso clave de contexto largo: (múltiples rondas) respuesta a preguntas, resúmenes de documentos largos, inferencia de base de código.

Uso de herramientas

Meta entrenó a Llama 3 para interactuar con motores de búsqueda, intérpretes de Python y motores de cálculo matemático.

Durante el proceso de desarrollo, a medida que Llama 3 fue mejorando gradualmente, Meta también complicó gradualmente el protocolo de anotación manual. Comience con una anotación del uso de herramientas de un solo giro, pase al uso de herramientas en las conversaciones y finalice con una anotación del uso de herramientas de varios pasos y el análisis de datos.


Llama 3 realiza planificación, razonamiento e invocación de herramientas de varios pasos para resolver tareas


Según el archivo proporcionado, solicite al modelo que resuma el contenido del archivo, busque y corrija errores, optimice el código, realice análisis o visualización de datos, etc.

factual

Para el problema de las alucinaciones, un desafío reconocido de LLM, Meta adopta un enfoque que prioriza las alucinaciones.

El principio que siguen es que después del entrenamiento el modelo debe "saber lo que sabe" en lugar de añadir conocimientos.

Maniobrabilidad

Para Llama 3, Meta mejora su maniobrabilidad a través de indicaciones del sistema con instrucciones en lenguaje natural, específicamente con respecto a la duración, el formato, el tono y la persona/personalidad de la respuesta.


"Eres un chatbot de IA alegre y útil que sirve como asistente de planificación de comidas para familias ocupadas".

miembro del equipo

Se puede decir que el equipo de Llama 3 es muy grande, con casi 220 miembros principales y otros 312 contribuyentes.




Xiao Zha: La IA de código abierto es el futuro

Como todos sabemos, Xiao Zha siempre ha sido un fiel partidario de la IA de código abierto.

Esta vez no es tan simple como lanzar un modelo nuevo y más potente, sino también prometer llevar la IA de código abierto a la vanguardia.


En su blog, Xiao Zha extrajo directamente lecciones de la historia. En el pasado, las principales empresas de tecnología invirtieron mucho en el desarrollo de versiones de código cerrado de Unix.

El campo de batalla de Unix es ferozmente reñido, pero el que ríe el último es Linux de código abierto.


Inicialmente, los desarrolladores prefirieron Linux porque les permitía modificar el código a voluntad y era más asequible.

Pero con el tiempo, se volvió más avanzado, más seguro y tenía más funcionalidad respaldada por un ecosistema más amplio que cualquier Unix cerrado.

Hoy en día, Linux es el estándar de la industria para la computación en la nube y la mayoría de los sistemas operativos de dispositivos móviles, y todos se benefician.

Xiao Zha cree que la trayectoria de desarrollo de la IA también será la misma y señalará con el dedo el modelo de código cerrado de "varias empresas de tecnología".


"Hoy en día, varias empresas de tecnología están desarrollando modelos cerrados líderes, pero el código abierto está cerrando rápidamente la brecha".

La osadía de Xiao Zha de nombrarlo directamente se ve naturalmente envalentonada por su fuerza. El año pasado, Llama 2 todavía estaba por detrás del modelo de vanguardia de la vieja generación.

Este año, Llama 3 puede competir con otros modelos gigantes en términos de prestaciones.

Llama 3.1 405B es el primer modelo de IA de código abierto de vanguardia. Además de una relación costo/rendimiento significativamente mejor en comparación con los modelos cerrados, la apertura del modelo 405B lo convierte en la mejor opción para ajustar y destilar modelos pequeños.

¿Por qué la IA de código abierto es buena para los desarrolladores?

Para los desarrolladores, seguir el modelo de código abierto tiene cinco beneficios principales:

En primer lugar, los modelos de código abierto permiten a los desarrolladores entrenar, ajustar y sintetizar libremente sus propios modelos.

Las necesidades de cada desarrollador son diferentes: las tareas en el dispositivo y las tareas de clasificación requieren modelos pequeños, mientras que las tareas más complejas requieren modelos grandes.

Aprovechando los modelos de código abierto de última generación, los desarrolladores pueden continuar capacitándose con sus propios datos, reducidos al tamaño ideal.

En segundo lugar, puede evitar verse restringido por un único proveedor.

Los desarrolladores no quieren depender de un modelo que no pueden ejecutar y controlar, y no quieren que los proveedores cambien el modelo, modifiquen los términos de uso o incluso detengan el servicio por completo.

Y el código abierto permite cambiar e implementar modelos fácilmente, creando un ecosistema amplio.

En tercer lugar, proteger la seguridad de los datos.

Los desarrolladores deben garantizar la seguridad de los datos cuando tratan con datos confidenciales, lo que requiere que no puedan enviarlos a modelos de código cerrado a través de API.

Se sabe que el software de código abierto es generalmente más seguro debido a un proceso de desarrollo más transparente.

Cuarto, opera eficientemente y a menor costo.

El costo de inferencia para los desarrolladores que ejecutan Llama 3.1 405B es solo la mitad que el de GPT-4o, ya sean tareas de inferencia del lado del usuario o fuera de línea.

Quinto, desde una perspectiva a largo plazo, el código abierto se convertirá en un estándar para toda la industria.

De hecho, el código abierto está evolucionando más rápido que los modelos de código cerrado y los desarrolladores quieren poder construir sus sistemas en arquitecturas que tengan ventajas a largo plazo.

En opinión de Xiao Zha, el lanzamiento de Llama 3.1 se convertirá en un punto de inflexión en la industria, haciendo que el código abierto sea cada vez más imparable.

Referencias:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32