¿Momento ChatGPT para modelos grandes de código abierto? El muy esperado Llama 3 405B está a punto de ser lanzado

¿Momento ChatGPT para modelos grandes de código abierto?El muy esperado Llama 3 405B está a punto de ser lanzado

2024-07-23

Se acerca el tan esperado Llama 3 405B, cuyo lanzamiento originalmente estaba previsto para el día 23.

Como modelo superior de la serie Llama 3, la versión 405B tiene 405 mil millones de parámetros y es uno de los modelos de código abierto más grandes hasta la fecha.

En las primeras horas de la noche, META filtró repentinamente datos de evaluación de Llama 3.1-405B. Algunos internautas predijeron que podría lanzarse una versión de Llama 3.1-70B al mismo tiempo, porque "(los modelos filtrados de antemano) es una vieja tradición de META. El modelo Llama del año pasado fue Lo hice una vez."

Algunos analistas creen que Llama 3 405B no es simplemente otra mejora en las capacidades de inteligencia artificial. Para la IA de código abierto, “esto es un potencial.ChatGPTmomento”, donde la IA de última generación se democratiza verdaderamente y se pone directamente en manos de los desarrolladores.

Tres predicciones para el próximo anuncio del Llama 3 405B

Algunos analistas predijeron los aspectos más destacados del próximo anuncio del Llama 3 405B desde tres perspectivas: calidad de los datos, ecosistema del modelo y soluciones API.

En primer lugar, Llama 3 405B puede revolucionar la calidad de los datos para modelos especializados.

Para los desarrolladores centrados en la creación de modelos de IA profesionales, un desafío a largo plazo es obtener datos de entrenamiento de alta calidad. Los modelos expertos más pequeños (parámetros 1-10B) a menudo utilizan técnicas de destilación para aumentar su conjunto de datos de entrenamiento con la salida del modelo más grande.Sin embargo, usandoIA abiertaEstos datos de gigantes del código cerrado como Google Cloud están severamente restringidos, lo que limita las aplicaciones comerciales.

Nace Llama 3 405B. Como gigante del código abierto que rivaliza con el poder de los modelos propietarios, proporciona una nueva base para que los desarrolladores creen conjuntos de datos ricos y sin restricciones. Esto significa que los desarrolladores son libres de utilizar el resultado destilado de Llama 3 405B para entrenar modelos de nicho, acelerando significativamente los ciclos de innovación e implementación en campos profesionales. Espere un aumento en el desarrollo de modelos perfeccionados y de alto rendimiento que sean a la vez robustos y éticos de código abierto.

En segundo lugar, Llama 3 405B formará un nuevo ecosistema de modelos: desde modelos básicos hasta combinaciones expertas.

El lanzamiento de Llama 3 405B puede redefinir la arquitectura de los sistemas de IA. El gran tamaño del modelo (405 mil millones de parámetros) puede significar una solución única para todos, pero el verdadero poder reside en su integración con un sistema de modelo jerárquico. Este enfoque será particularmente resonante para los desarrolladores que trabajan con IA a diferentes escalas.

Espere un paso hacia un ecosistema de modelos más dinámico, con el Llama 3 405B actuando como columna vertebral, respaldado por modelos pequeños y medianos. Estos sistemas pueden emplear técnicas como la decodificación especulativa, donde modelos menos complejos manejan la mayor parte del procesamiento, llamando al modelo 405B solo cuando es necesario para verificación y corrección de errores. Esto no sólo maximiza la eficiencia, sino que también abre nuevas vías para optimizar los recursos informáticos y los tiempos de respuesta en aplicaciones en tiempo real, especialmente cuando se ejecutan en RDU SambaNova optimizadas para estas tareas.

Finalmente, Llama 3 405B tiene competencia por la API más eficiente

Un gran poder conlleva una gran responsabilidad, y para el Llama 3 405B, el despliegue es un gran desafío. Los desarrolladores y las organizaciones deben tener cuidado con la complejidad del modelo y los requisitos operativos. Habrá competencia entre los proveedores de nube de IA para proporcionar la solución API más eficiente y rentable para implementar Llama 3 405B.

Esta situación brinda a los desarrolladores una oportunidad única de interactuar con diferentes plataformas y comparar cómo varias API manejan modelos tan grandes.Los ganadores en este espacio serán aquellos que puedan proporcionar API que no solo gestionen eficazmente la carga computacional, sino que no sacrifiquen la precisión del modelo ni aumenten desproporcionadamenteHuella de carbono。

En resumen, Llama 3 405B no es una herramienta más en el arsenal de la IA, es un cambio fundamental hacia un desarrollo de IA abierto, escalable y eficiente. Los analistas creen que ya sea afinando modelos de nicho, construyendo sistemas complejos de IA u optimizando estrategias de implementación, la llegada del Llama 3 405B abrirá nuevos horizontes para los usuarios.

¿Qué piensan los internautas?

Los internautas publicaron en el subreddit LocalLLaMA y compartieron información sobre Meta Llama 3.1 con 405 mil millones de parámetros. A juzgar por los resultados de este modelo de IA en varios puntos de referencia clave de IA, su rendimiento superó al líder actual, es decir, OpenAI.GPT-4o, lo que marca la primera vez que un modelo de código abierto puede superar al código cerrado de última generación actual.Máster en DerechoModelo.

Como se muestra en los puntos de referencia, Meta Llama 3.1 supera a GPT-4o en varias pruebas como GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem y winograd. Sin embargo, supera a GPT-4o en HumanEval y MMLU-. social En términos científicos, está por detrás de GPT-4o.

Ethan Mollick, profesor asociado de la Wharton School de la Universidad de Pensilvania, escribe:

Si estas estadísticas son ciertas, es seguro decir que los mejores modelos Al estarán disponibles para todos de forma gratuita a partir de esta semana.

Los gobiernos, organizaciones y empresas de todos los países del mundo pueden utilizar las mismas capacidades de IA que todos los demás. Esto será divertido.

Algunos internautas resumieron varios aspectos destacados del modelo Llama 3.1:

El modelo utiliza más de 15T de tokens de fuentes públicas para la capacitación y la fecha límite para los datos previos a la capacitación es diciembre de 2023;

Los datos de ajuste incluyen un conjunto de datos de ajuste de instrucciones disponible públicamente (a diferencia de Llama 3) y 15 millones de muestras sintéticas;

El modelo admite varios idiomas, incluidos inglés, francés, alemán, hindi, italiano, portugués, español y tailandés.

Algunos internautas dijeron que esta es la primera vez que un modelo de código abierto supera a los modelos de código cerrado como GPT4o y Claude Sonnet 3.5 y alcanza SOTA en múltiples puntos de referencia.

noticias