noticias

¡El modelo grande de código abierto más poderoso se convirtió en un dios de la noche a la mañana! Llama 3.1 se lanza sorprendentemente, la era del GPT-4 verdaderamente universal está aquí

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cosas inteligentes
Autor: Departamento editorial de Zhi Dongxi

Zhidongxi informó el 24 de julio que anoche Meta anunció el lanzamiento del modelo de código abierto más poderoso hasta la fecha——Llama 3.1 405B, también lanzó los modelos Llama 3.1 70B y 8B recientemente actualizados.

Llama 3.1 405B admite una longitud de contexto de128.000 tokens, Residencia en15 billones de fichasMás de 16.000 GPU H100Este es el primer modelo de Llama que Meta ha entrenado a esta escala.

Los resultados de la evaluación de los investigadores basados ​​en más de 150 conjuntos de pruebas de referencia muestran que,Llama 3.1 405B funciona con GPT-4o, Claude 3.5 Sonnet y Gemini Ultra y otros modelos principales de la industria.


Además de su sólido desempeño, el fundador y director ejecutivo de Meta, Mark Zuckerberg, también publicó personalmente un artículo para apoyarlo. Dijo que, además de tener mejores costos y rendimiento que los modelos de código cerrado,El modelo de código abierto 405B se convertirá en la mejor opción para que las empresas ajusten y entrenen modelos más pequeños.

Meta AI anunció su acceso a Llama 3.1 405B y lanzó nuevas funciones como edición de imágenes con IA, programación con IA y asistentes inteligentes de dispositivos VR/AR. Zuckerberg predijo,El uso del asistente Meta AI superará a ChatGPT en unos meses


▲ Meta AI admite la interacción de audio y video en tiempo real entre los auriculares Quest y los usuarios

El ecosistema de código abierto de Meta también está listo. meta yMás de 25 sociosLos modelos Llama 3.1 estarán disponibles, incluidos Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure y Google Cloud, entre otros.

Hasta la fecha, las descargas totales de todas las versiones del modelo Llama han superado300 millones de veces, el lanzamiento del modelo Llama 3.1, que es equivalente al modelo de código cerrado convencional, puede significar que la historia del modelo de código abierto que Meta quiere contar acaba de comenzar...


Enlace de descarga del modelo:

https://llama.meta.com/

https://huggingface.co/meta-llama

Enlace del artículo:

https://t.co/IZqC6DJkaq


▲ Resumen de la interpretación del artículo modelo Meta Llama 3.1

1. El modelo de código abierto 405B se compara con GPT-4o y 25 socios están listos

Meta evaluó el rendimiento de más de 150 conjuntos de datos de referencia y descubrió que Llama 3.1 405B es comparable a GPT-4o, Claude 3.5 Sonnet y Gemini Ultra en una serie de tareas como sentido común, operatividad, matemáticas, uso de herramientas y traducción a varios idiomas. .


En un escenario de la vida real, se comparó Llama 3.1 405B con la evaluación humana y suEl rendimiento general es mejor que el de GPT-4o y Claude 3.5 Sonnet


actualizadoLlama 3.1 8B y 70BLos modelos también funcionan mejor que los modelos con el mismo tamaño de parámetros. Estos modelos de parámetros más pequeños admiten la misma ventana contextual de 128.000 tokens, varios idiomas, inferencia mejorada y el uso de herramientas de última generación para admitir aplicaciones más avanzadas.


Meta ha actualizado su licencia para permitir a los desarrolladores, por primera vez, utilizar el resultado del modelo Llama, incluida la escala de parámetros 405B, para mejorar otros modelos.

Al mismo tiempo, el ecosistema de código abierto de Meta se ha expandido aún más y más de 25 empresas han lanzado el nuevo modelo Llama 3.1.

en,Tecnología de nube de Amazon, Databricks y Nvidia Se está implementando un conjunto completo de servicios para ayudar a los desarrolladores a ajustar y entrenar sus propios modelos. Groq, la startup de chips de IA, y otros han creado servicios de inferencia de baja latencia y bajo costo para todos los nuevos modelos lanzados por Meta esta vez.

Al mismo tiempo, estos modelos seránTecnología de nube de Amazon, Microsoft Azure, Google Cloud, OracleProporcionar servicios en las principales plataformas en la nube.

Escalar la IA, Dell, DeloitteEmpresas como Llama están listas para ayudar a las empresas a adoptar modelos Llama y entrenar modelos personalizados utilizando sus propios datos.

Llama 3.1 405B no solo es el modelo de código abierto más potente, sino que también se espera que se convierta en el modelo más potente. La distancia entre el código abierto y el código cerrado se ha vuelto a acortar considerablemente.

2. Optimice completamente la pila de capacitación y concéntrese en hacer que el modelo sea escalable.

Para poder entrenar modelos basados ​​en 15 billones de tokens y al mismo tiempo lograr los resultados deseados por los investigadores en un tiempo razonable, Meta ha optimizado completamente la pila de entrenamiento.


Al abordar los desafíos anteriores, Meta ha optado por centrarse en estrategias que mantengan el proceso de desarrollo del modelo escalable y más sencillo:

1. Los investigadores eligieronArquitectura del modelo Transformer solo decodificador estándarHacer pequeños ajustes en lugar de utilizar un modelo experto híbrido del MoE puede maximizar la estabilidad del entrenamiento.

2. Los investigadores utilizaronProcedimiento iterativo post-entrenamiento. , utilizando ajuste supervisado y optimización de preferencias directas en cada ronda. Esto permite que el modelo cree datos sintéticos de la más alta calidad para cada ronda y mejora el rendimiento en cada capacidad.

En comparación con los modelos anteriores de la serie Llama, Meta mejora la cantidad y calidad de los datos utilizados para el entrenamiento previo y posterior.Estas mejoras incluyenDesarrollar procesos de preprocesamiento y gestión más cuidadosos para los datos previos a la capacitación, desarrollar un control de calidad más estricto y métodos de filtrado para los datos posteriores a la capacitación.

Como se esperaba de las leyes de escala de los modelos de lenguaje grandes, el nuevo modelo insignia de Meta supera a los modelos más pequeños entrenados con la misma estrategia. Meta también mejoró la calidad del entrenamiento de sus modelos más pequeños utilizando un modelo con parámetros 405B.

Al mismo tiempo, para respaldar la inferencia a gran escala del modelo de parámetros 405B, los investigadores cuantificaron el modelo desde BF16 hasta FP8, reduciendo efectivamente los requisitos informáticos requeridos y permitiendo que el modelo se ejecute dentro de un único nodo de servidor.

En términos de instrucción y ajuste del chat, los investigadores generaron el modelo final realizando varias rondas de alineación sobre el modelo previamente entrenado, y cada ronda implicó ajuste fino supervisado (SFT), muestreo de rechazo (RS) y Optimización de preferencias directas (DPO). La gran mayoría de los ejemplos de SFT se generan mediante generación de datos sintéticos para producir datos sintéticos de mayor calidad en todas las funciones.

Además, Meta emplea múltiples técnicas de procesamiento de datos para filtrar estos datos sintéticos con la más alta calidad, lo que permite a los nuevos modelos ajustar los volúmenes de datos a través de la escalabilidad funcional.

En cuanto a los datos, los investigadores también los equilibraron cuidadosamente para producir modelos de alta calidad con todas las características. Por ejemplo, mantener la calidad del modelo en puntos de referencia de contexto cortos le permite escalar a longitudes de contexto de 128 KB.

Además, Meta también anunció el lanzamiento de un plan generalsistema de llamas . Además de cubrir el modelo Llama, el sistema también implica coordinación de múltiples componentes y llamadas a herramientas externas para ayudar a los desarrolladores a desarrollar productos personalizados que sean más potentes que el modelo básico.

El sistema Llama cubrirá una gama de componentes nuevos, incluidos nuevos componentes de código abierto.herramientas de seguridad Como Llama Guard 3 (modelo de seguridad multilingüe) y Prompt Guard (filtro de inyección instantánea). Para conectar componentes dispares, Meta también emitió una solicitud de comentarios sobre Llama Stack API, una interfaz estándar para facilitar que proyectos de terceros aprovechen el modelo Llama.

Para los desarrolladores comunes, utilizar modelos a escala 405B sigue siendo un desafío, que requiere muchos recursos informáticos y experiencia.

Basado en el sistema Llama, el desarrollo de IA generativa no se trata solo de generar modelos. Todos deberían poder usar el modelo 405B para completar más tareas, incluido el razonamiento en tiempo real y por lotes, el ajuste fino supervisado, la evaluación de modelos para aplicaciones específicas y la evaluación continua. preentrenamiento y generación mejorada de recuperación (RAG), llamadas a funciones, generación de datos sintéticos, etc.

Este es el modelo más grande lanzado por Meta hasta la fecha, y en el futuro se lanzarán más tamaños amigables para dispositivos, más modos y actualizaciones a nivel de agente.

tres,Modificación explosiva modelo grande 405BMeta IA, Asistente de voz inteligente Questmejora

Ahora, múltiples terminales propiedad de Meta, comoChatbot de WhatsApp y Meta AIZhongdu comenzó a utilizar Llama 3.1 405B.


Meta AI actualmente admite siete nuevos lenguajes. Esta vez Meta lanza un lote de nuevas herramientas creativas de Meta AI, centrándose principalmente en campos como la generación visual, las matemáticas y la codificación.

Primer vistazo a la generación visual, se lanza Meta AIFunción de aviso de generación de imágenes “Imagine Me”, que permite a los usuarios escribir "imagíname" en el chat Meta AI y agregar mensajes como "imagíname como realeza" o "imagíname en una pintura surrealista" para generar imágenes y compartirlas con amigos y familiares.


Meta AI estará en línea"Editar con IA" función, los usuarios pueden agregar o eliminar objetos fácilmente con solo hacer clic con el mouse, o cambiarlos y editarlos manteniendo el resto de la imagen sin cambios, como "Cambiar gato a Corgi". Meta AI también permitirá agregar imágenes recién creadas a publicaciones de Facebook, así como en plataformas sociales como Instagram, Messenger y WhatsApp.


En matemáticas y programación, los usuarios pueden obtener ayuda con las tareas matemáticas con explicaciones y comentarios paso a paso, escribir código más rápido con soporte de depuración y sugerencias de optimización, y dominar conceptos técnicos y científicos complejos con guía experta.


Los usuarios pueden combinar la experiencia en codificación de Meta AI y las capacidades de generación de imágenes para crear nuevos juegos desde cero o nuevas versiones de juegos clásicos. Solo te llevará unos minutos convertir tus fantásticas ideas en realidad e incluso permitir a los usuarios obtener una vista previa del juego directamente.

Vale la pena mencionar que Meta AI también es adecuada paraGafas inteligentes Ray-Ban Meta y se lanzará en modo experimental en Meta Quest en EE. UU. y Canadá el próximo mes. Meta AI reemplazará los comandos de voz actuales en Quest, permitiendo a los usuarios controlar los auriculares con manos libres, obtener respuestas a preguntas, mantenerse informados sobre información en tiempo real, consultar el clima y más.

Los usuarios también pueden usar Meta AI con la vista que ven en los auriculares, como preguntarles sobre las cosas que ven en el entorno físico.

4. Carta abierta de Zuckerberg: El código abierto es mejor para los desarrolladores, Meta y el mundo

La serie Llama 3.1 acaba de lanzarse y, al mismo tiempo, se lanzó el largo blog de Zuckerberg en el sitio web oficial, lo que hace que el olor a pólvora entre los modelos de código abierto y cerrado sea aún más fuerte.


▲Captura de pantalla de parte de la carta abierta de Zuckerberg

Al principio, Zuckerberg mencionó que la brecha entre los modelos de código abierto y de código cerrado se está cerrando gradualmente. El año pasado, Llama 2 sólo estuvo a la par con el modelo de código cerrado más avanzado de la generación anterior. Este año, el Llama 3 está a la par de los modelos más avanzados y lidera en algunas áreas.

A partir del próximo año espera que el modelo Llama sea el más avanzado del sector . Y los modelos actuales de la serie Llama ya ocupan una posición de liderazgo en términos de apertura, modificabilidad y rentabilidad.

En su blog, apuntó directamente al modelo de código cerrado y respondió tres preguntas importantes: por qué la IA de código abierto es buena para los desarrolladores, por qué la IA de código abierto es buena para Meta y por qué la IA de código abierto es buena para el mundo.

En primer lugar, ¿por qué la IA de código abierto es buena para los desarrolladores?

Él cree que los desarrolladores deben entrenar y ajustar sus propios modelos para satisfacer sus necesidades específicas; los desarrolladores deben controlar su propio destino en lugar de estar atados a un proveedor cerrado; los desarrolladores deben proteger sus propios datos; modelo que sea económico de ejecutar; los desarrolladores quieren invertir en un ecosistema que se convertirá en el estándar a largo plazo.

El beneficio de la IA de código abierto para Meta es que el modelo de negocio de Meta es construir las mejores experiencias y servicios para las personas. Para ello, cree que debe asegurarse de tener siempre acceso a la mejor tecnología y no caer en lo cerrado. ecosistema de competidores.

Al mismo tiempo, la IA de código abierto alentará a Meta a convertir Llama en un ecosistema completo con potencial para convertirse en un estándar de la industria.

También mencionó que una de las diferencias clave entre Meta y los actores del modelo de código cerrado es que vender acceso a modelos de IA no es el modelo de negocio de Meta, lo que significa que el código abierto no afectará sus ingresos, sostenibilidad o inversión continua en capacidad de investigación. .

Finalmente, Meta tiene una larga historia de éxito y proyectos de código abierto.

Sobre el debate sobre la seguridad de los modelos de IA de código abierto, Zuckerberg tiene esto que decirLa IA de código abierto será más segura que otras opciones . Él cree que el código abierto garantizará que más personas en todo el mundo puedan disfrutar de los beneficios y oportunidades que brinda la IA, que el poder no se concentre en manos de unas pocas empresas y que la tecnología pueda aplicarse de manera más uniforme y segura en toda la sociedad.

Conclusión: Meta ha dado otro paso y el debate sobre fuentes abiertas y cerradas de modelos grandes ha cambiado.

La batalla entre los grandes modelos de código abierto y cerrado continúa...

Desde el lanzamiento de la serie de modelos Meta Llama 3.1, se puede ver que la brecha entre los grandes modelos de código abierto y de código cerrado se está reduciendo, y existe una fuerte tendencia a seguir el ritmo y ponerse al día. . Como fiel partidario del campo de los grandes modelos de código abierto y pionero en innovación tecnológica, Meta ha estado decidido a construir su propio ecosistema de código abierto desde el lanzamiento de la serie de modelos Llama. Al mismo tiempo, en comparación con el modelo Llama anterior, Meta también creará un equipo interno para el lanzamiento de este nuevo modelo para permitir que tantos desarrolladores y socios como sea posible utilicen la serie Llama.

Meta ha dado otro paso, haciendo que la conclusión del debate sobre los modelos de código abierto y de código cerrado sea aún más confusa. Pero en el análisis final, en aplicaciones reales, muchas empresas y desarrolladores optarán por utilizar modelos de código abierto o de código cerrado según las necesidades y situaciones específicas. Por lo tanto, llevará tiempo probar las capacidades específicas del modelo y su aplicación real. escenarios de vida.