Meta lanza el modelo de código abierto más potente Llama 3.1, Zuckerberg: se convertirá en un punto de inflexión en la industria

Meta lanza Llama 3.1, el modelo de código abierto más potente, Zuckerberg: será un punto de inflexión para la industria

2024-07-24

En la tarde del 23 de julio, hora de Beijing, Meta lanzó oficialmente el último modelo grande de código abierto, la serie Llama 3.1, reduciendo aún más la brecha entre los modelos de código abierto y los modelos de código cerrado. Llama 3.1 incluye 3 tamaños de parámetros de 8B, 70B y 450B. El modelo de parámetros 450B ha superado al GPT-4o de OpenAI en múltiples pruebas de referencia y es comparable a los principales modelos de código cerrado como Claude 3.5 Sonnet.

El fundador y director ejecutivo de Meta, Zuckerberg, publicó un blog en el sitio web oficial al mismo tiempo para generar impulso para este lanzamiento. Dijo que la versión Llama 3.1 se convertirá en un punto de inflexión en la industria y la mayoría de los desarrolladores comenzarán a utilizar principalmente código abierto. La fuente AI es la dirección del desarrollo.

El científico investigador senior de Nvidia, Jim Fan, publicó un mensaje en X para felicitar al equipo Meta. Mencionó: "El poder de GPT-4 está en nuestras manos. (Este es) un momento verdaderamente histórico".

En términos de detalles específicos, la ventana de contexto del modelo de las tres versiones de Llama 3.1 aumentó de 8k a 128K, se expandió 16 veces y admite 8 idiomas al mismo tiempo. El modelo Llama 3.1 -405B utilizó más de 15 billones de tokens para el entrenamiento y, para lograr esta escala de entrenamiento, el equipo utilizó 16.000 GPU H100. Oficialmente, el modelo 405B es el primer modelo Llama entrenado a esta escala.

Los modelos de lenguajes grandes de código abierto en su mayoría van por detrás de los modelos de código cerrado en términos de funcionalidad y rendimiento, "pero ahora estamos entrando en una nueva era liderada por el código abierto".

En el blog oficial, Meta evaluó el rendimiento de más de 150 conjuntos de datos de referencia y comparó el rendimiento de Llama 3.1 con otros modelos. El modelo insignia Llama 3.1 -405B puede competir con GPT en una serie de tareas como sentido común, operatividad. y matemáticas -4, GPT-4o es comparable al Claude 3.5 Sonnet. Además, los modelos pequeños 8B y 70B son competitivos con los modelos de código cerrado y de código abierto con un número similar de parámetros.

En escenarios de la vida real, se comparó Llama 3.1 405B con la evaluación humana y su rendimiento general fue mejor que GPT-4o y Claude 3.5 Sonnet.

Esta vez Meta también actualizó la licencia de código abierto, lo que permite a los desarrolladores utilizar la salida del modelo Llama (incluido el 405B) por primera vez para mejorar otros modelos. Al comparar GPT-4o, los funcionarios dijeron que también utilizarán un método combinado para integrar funciones de imagen, video y voz en Llama 3, de modo que el modelo pueda reconocer imágenes y videos y admitir la interacción a través de la voz. Sin embargo, esta característica aún está en desarrollo y aún no está lista para su lanzamiento.

En el blog oficial, Meta dijo que las descargas totales de todas las versiones de Llama hasta ahora han superado los 300 millones de veces.

Además de este lanzamiento de modelo, Zuckerberg también publicó un artículo extenso "La IA de código abierto es el camino a seguir" en el sitio web oficial, que menciona la importancia del código abierto. Él cree que el código abierto es beneficioso para todos los desarrolladores, para Meta y. al mundo.

Zuckerberg citó como ejemplo la victoria del sistema de código abierto Linux sobre el sistema de código cerrado Unix y consideró que la inteligencia artificial se desarrollará de manera similar. "Hay varias empresas de tecnología que desarrollan modelos cerrados líderes, pero el código abierto está cerrando rápidamente la brecha". Mencionó que el año pasado, Llama 2 sólo podía compararse con el modelo de la generación anterior. Y este año, el Llama 3 es competitivo en algunas áreas e incluso por delante de los modelos más avanzados en algunas áreas.

Zuckerberg cree que el código abierto puede promover la innovación, reducir costos y mejorar la seguridad. Para los desarrolladores, aprovechar el código abierto les permite entrenar, ajustar y destilar sus propios modelos. Cada organización tiene diferentes necesidades, y esas necesidades se satisfacen mejor mediante el uso de modelos de diferentes tamaños que se entrenan o ajustan con datos específicos. de.

Al mismo tiempo, los desarrolladores no están encerrados en proveedores cerrados para proteger la seguridad de los datos. "El software de código abierto tiende a ser más seguro porque su desarrollo es más transparente y puede ser ampliamente revisado", opina Zuckerberg.

Zuckerberg también mencionó que el modelo de código abierto es más económico y eficiente. Los desarrolladores pueden ejecutar inferencias en Llama 3.1 405B en su propia infraestructura a un costo de aproximadamente el 50% en comparación con el uso de un modelo cerrado como GPT-4o%. y tareas de inferencia fuera de línea.

"La inteligencia artificial de código abierto representa la mejor oportunidad del mundo". En opinión de Zuckerberg, el uso de esta tecnología puede crear las mayores oportunidades económicas y seguridad.

noticias

Meta lanza Llama 3.1, el modelo de código abierto más potente, Zuckerberg: será un punto de inflexión para la industria

Introducción

Mi informacion de contacto