nouvelles

Comment créer un modèle open source capable de vaincre GPT-4o ? Tout sur Llama 3.1 405B est écrit dans le document ?

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Après une "fuite accidentelle" deux jours à l'avance, Llama 3.1 a finalement été officiellement publié hier soir.

Llama 3.1 étend la longueur du contexte à 128 Ko et propose trois versions : 8B, 70B et 405B, élevant une fois de plus à lui seul le niveau concurrentiel pour les pistes de grands modèles.

Pour la communauté IA, l'importance la plus importante de Llama 3.1 405B est qu'il rafraîchit la limite supérieure des capacités du modèle de base open source. Les responsables de Meta ont déclaré que dans une série de tâches, ses performances sont comparables aux meilleures fermées. modèle source.

Le tableau ci-dessous montre les performances des modèles actuels de la série Llama 3 sur des critères clés. On constate que les performances du modèle 405B sont très proches de celles du GPT-4o.



Dans le même temps, Meta a publié l'article "The Llama 3 Herd of Models", révélant les détails des recherches menées jusqu'à présent sur les modèles de la série Llama 3.



Adresse papier : https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Jetons ensuite un coup d’œil au contenu papier.

Points forts du papier Llama3

1. Après une pré-formation utilisant une longueur de contexte de 8K, Llama 3.1 405B utilise une longueur de contexte de 128K pour la formation continue et prend en charge l'utilisation de plusieurs langages et outils.

2. Par rapport au modèle Llama précédent, Meta a renforcé les pipelines de conservation des données de pré-traitement et de pré-formation, ainsi que les méthodes d'assurance qualité et de filtrage des données post-formation.

Meta estime qu'il existe trois leviers clés pour le développement de modèles sous-jacents de haute qualité : la gestion des données, de l'échelle et de la complexité.

Premièrement, par rapport aux versions précédentes de Llama, Meta améliore les données utilisées pour le pré-entraînement et le post-entraînement en termes de quantité et de qualité. Meta a pré-entraîné Llama 3 sur un corpus d'environ 15 000 milliards de jetons multilingues, contre Llama 2 qui n'utilisait que 1 800 milliards de jetons.

L'échelle du modèle entraîné cette fois est beaucoup plus grande que le modèle Llama précédent : le modèle de langage phare utilise 3,8 × 10²⁵ opérations à virgule flottante (FLOP) pour le pré-entraînement, ce qui est près de 50 fois supérieur à la plus grande version de Llama 2. .

Sur la base de la loi de mise à l'échelle, dans le cadre du budget de formation de Meta, le modèle phare actuel a déjà à peu près la taille informatiquement optimale, mais le temps de formation de Meta pour les modèles plus petits a largement dépassé la durée informatiquement optimale. Les résultats montrent que ces modèles plus petits surpassent les modèles informatiques optimaux pour le même budget d'inférence. Dans la phase post-formation, Meta a utilisé le modèle phare 405B pour améliorer encore la qualité des modèles plus petits tels que les modèles 70B et 8B.

3. Pour prendre en charge l'inférence de production de masse des modèles 405B, Meta quantifie 16 bits (BF16) en 8 bits (FP8), réduisant ainsi les exigences informatiques et permettant au modèle de s'exécuter sur un seul nœud de serveur.

4. La pré-formation de 405B sur des jetons de 15,6T (3,8x10²⁵ FLOP) est un défi majeur. Meta a optimisé l'ensemble de la pile de formation et a utilisé plus de 16 000 GPU H100.

Comme l'a dit Soumith Chintala, fondateur de PyTorch et ingénieur Meta Distinguished, le document Llama3 révèle de nombreux détails intéressants, dont la construction de l'infrastructure.



5. Après la formation, Meta améliore le modèle Chat grâce à plusieurs cycles d'alignement, y compris le réglage fin supervisé (SFT), l'échantillonnage de rejet et l'optimisation directe des préférences. La plupart des échantillons SFT sont générés à partir de données synthétiques.

Les chercheurs ont fait plusieurs choix dans la conception afin de maximiser l’évolutivité du processus de développement du modèle. Par exemple, l'architecture dense standard du modèle Transformer a été choisie avec seulement des ajustements mineurs au lieu d'un mélange de modèles experts pour maximiser la stabilité de la formation. De même, une procédure post-formation relativement simple est adoptée, basée sur un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation des préférences directes (DPO), plutôt que des algorithmes d'apprentissage par renforcement plus complexes, qui ont tendance à être moins stables. et une extension plus difficile.

6. Dans le cadre du processus de développement de Llama 3, l'équipe Meta a également développé des extensions multimodales du modèle pour permettre la reconnaissance d'images, la reconnaissance vidéo et la compréhension de la parole. Ces modèles sont encore en cours de développement et ne sont pas encore prêts à être publiés, mais l'article présente les résultats d'expériences préliminaires avec ces modèles multimodaux.

7. Meta a mis à jour sa licence pour permettre aux développeurs d'utiliser la sortie du modèle Llama pour améliorer d'autres modèles.

À la fin de cet article, nous voyons également une longue liste de contributeurs :





Cette série de facteurs a finalement créé la série Llama 3 aujourd'hui.

Bien entendu, pour les développeurs ordinaires, l’utilisation des modèles à l’échelle 405B constitue un défi et nécessite beaucoup de ressources informatiques et d’expertise.

Après le lancement, l'écosystème de Llama 3.1 est prêt, avec plus de 25 partenaires proposant des services qui fonctionnent avec le dernier modèle, notamment Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et Snowflake, entre autres.



Pour plus de détails techniques, veuillez vous référer au document original.