Le modèle le plus puissant Llama 3.1 405B est officiellement lancé, Zuckerberg : l'Open source mène une nouvelle ère

2024-07-24

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Tout à l'heure, le très attendu Llama 3.1 est officiellement sorti !

Meta a officiellement déclaré que "l'open source mène une nouvelle ère".

Sur le blog officiel, Meta a déclaré : « Jusqu'à aujourd'hui, les grands modèles de langage open source étaient pour la plupart à la traîne des modèles fermés en termes de fonctionnalités et de performances. Nous inaugurons désormais une nouvelle ère dirigée par l'open source. Nous avons rendu public Meta Llama. 3.1 405B. Nous pensons qu'il s'agit du modèle de base open source le plus grand et le plus puissant au monde, avec plus de 300 millions de téléchargements de toutes les versions de Llama à ce jour, et nous ne faisons que commencer.

Le fondateur et PDG de Meta, Zuckerberg, a également personnellement écrit un long article « L'IA Open Source est la voie à suivre », expliquant pourquoi l'open source est une bonne chose pour tous les développeurs, Meta et le monde.

Les points forts de cette version incluent :

La dernière série de modèles étend la longueur du contexte à 128 Ko, ajoute la prise en charge de huit langues et inclut le meilleur modèle open source Llama 3.1 405B ;
Le Llama 3.1 405B est dans une catégorie à part, Meta déclarant officiellement qu'il est à égalité avec les meilleurs modèles fermés ;
Cette version fournit également davantage de composants (y compris des systèmes de référence) à utiliser avec le modèle pour construire Llama en tant que système ;
Les utilisateurs peuvent découvrir Llama 3.1 405B via WhatsApp et meta.ai.

Adresse : https://llama.meta.com/

Les internautes peuvent le télécharger et l'essayer.

Lama 3.1 Introduction

Llama 3.1 405B est le premier modèle accessible au public qui rivalise avec les meilleurs modèles d'IA en termes de bon sens, de manipulabilité, de mathématiques, d'utilisation des outils et de traduction multilingue.

Meta affirme que la dernière génération de Llama inspirera de nouvelles applications et de nouveaux paradigmes de modélisation, notamment en tirant parti de la génération de données synthétiques pour dynamiser et entraîner des modèles plus petits, ainsi que de la distillation de modèles, une capacité jamais atteinte auparavant dans l'espace open source.

Dans le même temps, Meta a également lancé des versions améliorées des modèles 8B et 70B, qui prennent en charge plusieurs langues, ont une longueur de contexte de 128 Ko et des capacités de raisonnement plus puissantes. Les derniers modèles prennent en charge des cas d'utilisation avancés tels que le résumé de texte long, les agents conversationnels multilingues et les assistants de codage.

Par exemple, Llama 3.1 peut traduire des histoires en espagnol :

Lorsque l'utilisateur demande : « Il y a 3 chemises, 5 shorts et 1 robe. Supposons que vous partiez en voyage pendant 10 jours. Les vêtements sont-ils suffisamment préparés ? » Le modèle peut rapidement raisonner.

Contexte long : pour les documents téléchargés, Llama 3.1 est capable d'analyser et de résumer des documents volumineux pouvant contenir jusqu'à 8 000 jetons.

L'assistant de codage, pour les besoins des utilisateurs, peut écrire rapidement du code :

De plus, le développeur de Llama 3.1 405B a également tweeté "spoiler", affirmant que le développement d'un modèle intégrant des capacités vocales et visuelles comme GPT-4o est toujours en cours de développement.

Meta a également apporté des modifications à la licence open source pour permettre aux développeurs d'utiliser la sortie des modèles Llama (y compris le 405B) pour améliorer d'autres modèles. De plus, conformément à son engagement open source, Meta met à partir d'aujourd'hui ces modèles à la disposition de la communauté pour téléchargement sur llama.meta.com et Hugging Face.

lien de téléchargement:

https://huggingface.co/meta-llama
https://llama.meta.com/

Évaluation du modèle

Meta est évalué sur plus de 150 ensembles de données de référence, en plus d'une évaluation humaine approfondie.

Les résultats expérimentaux montrent que le modèle phare Llama 3.1 405B est compétitif par rapport aux principaux modèles de base, notamment GPT-4, GPT-4o et Claude 3.5 Sonnet, dans une gamme de tâches. De plus, les petits modèles 8B et 70B sont compétitifs par rapport aux modèles open source et fermés avec un nombre de paramètres similaire.

Architecture du modèle

En tant que plus grand modèle de Meta à ce jour, la formation de Llama 3.1 405B en utilisant plus de 15 000 milliards de jetons constitue un défi majeur. Pour permettre l'entraînement à cette échelle, Meta a optimisé l'ensemble de la pile d'entraînement et s'est entraîné sur plus de 16 000 GPU H100, faisant de ce modèle le premier modèle Llama à être entraîné à cette échelle.

Pour résoudre ce problème, Meta a fait les choix de conception suivants, en se concentrant sur le maintien de l'évolutivité et de la simplicité du processus de développement du modèle.

Une architecture de modèle de transformateur de décodeur standard avec seulement des ajustements mineurs a été choisie au lieu d'un modèle expert hybride pour maximiser la stabilité de la formation.
Une procédure de formation post-itération est utilisée, utilisant un réglage fin supervisé et une optimisation directe des préférences à chaque tour. Cela permet à Meta de créer des données synthétiques de la plus haute qualité pour chaque tour et d'améliorer les performances de chaque fonctionnalité.

Par rapport aux versions précédentes de Llama, Meta a amélioré la quantité et la qualité des données utilisées pour la pré-formation et la post-formation, notamment en développant un pipeline de pré-traitement et de gestion plus minutieux pour les données de pré-formation, et en développant une assurance qualité plus stricte. et gestion des données post-formation.

Comme prévu par les lois de mise à l'échelle des modèles de langage, le nouveau modèle phare de Meta a surpassé les modèles plus petits formés à l'aide de la même procédure. Meta utilise également un modèle de paramètres 405B pour améliorer la qualité post-formation des modèles plus petits.

Afin de prendre en charge la sortie d'inférence à grande échelle du modèle 405B, Meta a quantifié le modèle de 16 bits (BF16) à 8 bits (FP8), réduisant ainsi efficacement les exigences informatiques requises et permettant au modèle de s'exécuter sur un seul nœud de serveur.

Ajustements de commande et de chat

Llama 3.1 405B s'efforce d'améliorer l'utilité, la qualité et la conformité des instructions détaillées des modèles en répondant aux instructions de l'utilisateur, tout en garantissant un haut niveau de sécurité.

Au cours de la phase post-formation, l'équipe de recherche a construit le modèle de discussion final en effectuant plusieurs cycles d'alignement sur la base du modèle pré-entraîné. Chaque cycle implique un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation des préférences directes (DPO).

L'équipe de recherche utilise la génération de données synthétiques pour produire la grande majorité des exemples SFT, avec plusieurs itérations pour produire des données synthétiques de plus en plus haute qualité pour toutes les fonctionnalités. En outre, l’équipe de recherche a utilisé plusieurs techniques de traitement de données pour filtrer ces données synthétiques afin d’obtenir la plus haute qualité et affiner le volume de données grâce à l’évolutivité fonctionnelle.

Système Lama

Les modèles de lamas ont toujours existé dans le cadre d'un système d'IA et peuvent coordonner plusieurs composants, y compris l'appel d'outils externes. Meta est conçu pour aller au-delà du modèle de base et donner aux développeurs la flexibilité nécessaire pour concevoir et créer des produits personnalisés qui correspondent à leur vision.

Pour développer l'IA de manière responsable au-delà de la couche modèle, Meta a publié un système de référence complet qui comprend plusieurs exemples d'applications ainsi que de nouveaux composants tels que Llama Guard 3, un modèle de sécurité multilingue, et Prompt Guard, un filtre d'injection rapide). Ces exemples d'applications sont open source et peuvent être créés par la communauté open source.

Afin de collaborer plus largement avec l'industrie, les startups et la communauté open source pour aider à mieux définir les interfaces des composants, Meta a publié une demande de commentaires pour "Llama Stack" sur GitHub. Llama Stack est un ensemble d'interfaces standardisées pour la création de composants canoniques de chaîne d'outils (réglage précis, génération de données synthétiques) et d'applications d'agent. Cela permet d’atteindre plus facilement l’interopérabilité.

Contrairement aux modèles fermés, les poids des modèles Lama sont disponibles en téléchargement. Les développeurs peuvent entièrement personnaliser le modèle en fonction de leurs besoins et de leurs applications, s'entraîner sur de nouveaux ensembles de données et effectuer des réglages supplémentaires.

Développé avec Llama 3.1 405B

Pour les développeurs ordinaires, déployer un modèle à grande échelle tel que le 405B est sans aucun doute un défi, et nécessite une grande quantité de ressources informatiques et de compétences professionnelles. En communiquant avec la communauté des développeurs, Meta s'est rendu compte que le développement de l'IA générative ne consiste pas seulement à saisir des invites dans le modèle. Ils s'attendent à ce que tous les développeurs exploitent pleinement le potentiel de Llama 3.1 405B dans les domaines suivants :

Inférence en temps réel et par lots
mise au point supervisée
Tester et évaluer les performances du modèle dans des applications spécifiques
Pré-formation continue
Génération augmentée de récupération (RAG)
appel de fonction
Génération de données synthétiques

Dès le lancement, toutes les fonctionnalités avancées du modèle Llama 3.1 405B seront disponibles pour que les développeurs puissent démarrer immédiatement. Les développeurs peuvent également explorer des flux de travail d'ordre supérieur, tels que la génération de données synthétiques basées sur la distillation de modèles. Dans cette mise à niveau, Meta intègre également de manière transparente les solutions fournies par les partenaires AWS, NVIDIA et Databricks pour obtenir une génération d'augmentation de récupération (RAG) plus efficace. De plus, Groq a été optimisé pour l'inférence à faible latence pour le déploiement de modèles dans le cloud, et des améliorations de performances similaires ont été apportées aux systèmes locaux.

Meta a également intégré cette fois un « package cadeau d'outils » pour Llama 3.1 405B, comprenant des projets clés tels que vLLM, TensorRT et PyTorch, du développement de modèles au déploiement « prêt à l'emploi », en une seule étape.

Lien de référence : https://ai.meta.com/blog/meta-llama-3-1/

nouvelles

Le modèle le plus puissant Llama 3.1 405B est officiellement lancé, Zuckerberg : l'Open source mène une nouvelle ère

Introduction

mes coordonnées