nouvelles

Lama 3.1 est né !Le géant de l'open source a vaincu le fermé pour la première fois, et l'ère du GPT-4 pour tous approche

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse] La tendance des grands modèles a encore une fois changé du jour au lendemain. Llama 3.1 405B a fait de grands débuts, surpassant GPT-4o et Claude 3.5 Sonnet dans plusieurs tests. Pour la première fois dans l’histoire, un modèle open source a vaincu le modèle fermé le plus puissant actuel. Xiao Zha a déclaré avec audace : L'IA open source va certainement gagner, tout comme Linux a finalement gagné.

Le nouveau roi de l'open source, Llama 3.1 405B, a été officiellement lancé hier soir !

Dans plusieurs benchmarks, GPT-4o et Claude 3.5 Sonnet ont été surpassés. En d’autres termes, le modèle SOTA fermé est déjà rattrapé par le modèle open source.


Du jour au lendemain, le Llama 3.1 405B est devenu le modèle le plus puissant au monde.

(Parallèlement, il existe également de nouvelles versions des modèles 70B et 8B)


LeCun a résumé plusieurs points clés de la famille de modèles Llama 3.1 :

- Performances 405B comparables aux meilleurs modèles fermés

- Open source/libre d'utilisation des poids et du code, permettant un réglage fin, une distillation dans d'autres modèles et un déploiement n'importe où

- Contexte 128k, multilingue, bonne capacité de génération de code, capacité de raisonnement complexe et capacité d'utilisation des outils

- L'API Llama Stack permet une intégration facile


On peut dire que Meta cette fois a mis en œuvre l'esprit de l'open source jusqu'au bout, et en même temps a généreusement publié un article de plus de 90 pages.

Thomas Wolf, scientifique en chef de HuggingFace, a fait l'éloge : Si vous souhaitez étudier de grands modèles à partir de zéro, cet article est ce dont vous avez besoin !

Il couvre littéralement tout : données de pré-formation, filtrage, recuit, données synthétiques, lois de mise à l'échelle, infrastructure, traitement parallèle, méthodes de formation, adaptation post-formation, utilisation des outils, analyse comparative, stratégies d'inférence, quantification, vision, parole et vidéo……

Le chercheur d'AI2, Nathan Lambert, estime que cet article de 90 pages sur Llama 3.1 fera directement avancer les progrès du modèle open source de 3 à 9 mois !


Le PDG de Meta, Xiao Zha, a fièrement écrit un long article : L'intelligence artificielle open source est la voie à suivre.


Dans une interview avec le New York Times, Xiao Zha soutient l'IA open source

Dans cet article, Xiao Zha a rappelé avec émotion le revirement de Meta dans la vague LLM——

L'année dernière, le Llama 2 n'était comparable qu'aux modèles marginaux plus anciens ; cette année, le Llama 3 est déjà en avance sur les modèles les plus avancés dans certains aspects ; à partir de l'année prochaine, les futurs modèles Llama deviendront les modèles les plus avancés.

Concernant la question qui lui a été posée à plusieurs reprises : « Craignez-vous de perdre des avantages techniques à cause de l'open source Llama ? », Xiao Zha s'est directement comparé à Linux.

Il a déclaré que dans le passé, les grandes entreprises technologiques ont investi massivement dans leurs propres versions d'Unix, mais qu'en fin de compte, Linux open source a gagné parce qu'il permettait aux développeurs de modifier le code à volonté, ce qui était plus avancé, plus sûr et plus écologique.

L’IA est également vouée à se développer de la même manière.

À cette fin, Meta a spécifiquement assoupli sa licence, permettant aux développeurs d'utiliser pour la première fois la sortie de haute qualité du modèle Llama 3.1 pour améliorer et développer des modèles d'IA tiers.


Internaute : une nouvelle ère commence

Après la levée officielle de Llama 3.1, cela a provoqué un tollé sur l’ensemble du réseau.

Le maître de l'IA Karpathy a immédiatement exprimé certaines de ses propres pensées :

Aujourd'hui, avec la sortie du modèle 405B, les grands modèles de pointe GPT-4/Claude 3.5 Sonnet sont ouverts à tous pour que chacun puisse les utiliser et les construire pour la première fois. . Ses poids sont open source et sous licence commerciale, permettant la génération de données synthétiques, la distillation et l'affinement des modèles.

Il s'agit d'un LLM véritablement ouvert publié par Meta. En outre, ils ont également publié un rapport technique de 92 pages, qui contient de nombreux détails sur le modèle : https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


La philosophie derrière cette version de modèle est développée dans un long article de Xiao Zha, qui mérite d'être lu car il couvre très bien tous les principaux points de vue et arguments soutenant la vision du monde de l'écosystème ouvert de l'IA :

L’IA open source est l’avenir.

J'ai souvent dit qu'il était encore tôt, comme dans les années 1980, pour que le LLM devienne le prochain grand paradigme informatique, et Meta se positionne clairement comme un leader dans son écosystème ouvert.

- Les gens demanderont et utiliseront RAG avec ces modèles

- Les gens peaufineront le modèle

- Les gens les distilleront en modèles experts plus petits pour des tâches et des applications spécifiques

- les gens le recherchent, le comparent, l'optimisent

De plus, l'écosystème ouvert s'auto-organise en produits, applications et services de manière modulaire, et chaque participant peut apporter son expertise unique.

Un exemple est que la start-up de puces IA Groq a intégré le modèle Llama 3.1, qui peut permettre un raisonnement presque instantané des modèles 8B.

Karpathy a déclaré qu'en raison de la pression du serveur, il semblait incapable d'essayer d'exécuter le 405B sur Groq, qui est peut-être le grand modèle le plus puissant et le plus rapide aujourd'hui.


Il s’attend également à ce que les modèles fermés rattrapent bientôt leur retard, et il l’attend avec impatience.

Le méta-chercheur Tian Yuandong a déclaré qu'une nouvelle ère avait commencé ! Le LLM open source est désormais à égalité/meilleur que le LLM source fermée !


Le nouveau roi des modèles open source est né.


Après avoir testé le Llama 3.1 8B affiné, le fondateur d'OpenPipe a déclaré avec émotion : Il n'y a jamais eu de modèle open source aussi petit et puissant - il fonctionne mieux que GPT-4o mini dans chaque tâche !



Jim Fan, scientifique principal chez NVIDIA, a déclaré que la puissance du GPT-4 est entre nos mains. C'est un moment historique.


Peu de gens prêtent attention à l'infrastructure derrière la formation des modèles d'IA. Soumith Chintala, le père de Pytorch, s'est levé et a déclaré que dans une installation construite avec 16 000 GPU, des pannes se produiraient également.

Ces détails sont cachés dans le document Llama 3.1, notamment sur la façon de paralléliser et de maintenir la fiabilité du système. Il convient de mentionner que l'équipe Meta a atteint un temps de formation effectif de 90 % dans la formation des modèles.



Certains internautes ont détaillé que lors du processus d'itération du modèle Llama, l'utilisation du GPU augmente également.

Lama 1 : 2048 GPU

Lama 2 : 4096 GPU

Llama 3.1 : 16 384 GPU (en fait, Llama 3 est formé sur deux clusters avec 24 000 GPU)

Lama 4 :......


La famille de modèles open source la plus puissante

En fait, certains points clés concernant les modèles de la série Llama 3.1 ont été fondamentalement gâchés hier.

Comme indiqué dans les informations divulguées, Llama 3.1 peut prendre en charge 8 langues (anglais, allemand, français, italien, portugais, hindi, espagnol et thaï), des agents conversationnels multilingues, des cas d'utilisation de traduction, etc.

En termes de longueur de contexte, par rapport à Llama 2 et Llama 3, tous les contextes des modèles de la série Llama 3.1 ont augmenté 16 fois pour atteindre 128K.


Meta a souligné que Llama 3.1 a également été amélioré dans l'utilisation des outils, prenant en charge l'utilisation d'outils sans tir, y compris la recherche sur le Web, les opérations mathématiques et l'exécution de code.

Basé sur un contexte long, le modèle sait non seulement quand utiliser un outil, mais aussi comment l'utiliser et comment interpréter les résultats.

De plus, grâce à des réglages fins, Llama 3.1 offre une grande flexibilité dans l'appel d'outils personnalisés.


Principales capacités

Premièrement, Llama 3.1 peut fonctionner comme un système capable d'effectuer des tâches « d'agent » :

- Décomposer les tâches et effectuer un raisonnement en plusieurs étapes

- utiliser des outils

- Outils intégrés : les modèles sont dotés de leur propre connaissance des outils tels que la recherche ou les interpréteurs de code

- Apprentissage sans tir : le modèle peut apprendre à appeler des outils grâce à des définitions d'outils contextuelles qu'il n'a jamais vues auparavant

Par exemple, demander au modèle : « Ceci est un fichier CSV, pouvez-vous décrire ce qu'il contient ? »

Il reconnaîtra que : Ce fichier CSV contient les taux d'inflation mensuels sur de nombreuses années, et la colonne Année indique l'année pour chaque ensemble de taux d'inflation mensuels.


Ensuite, on peut lui demander de tracer le graphique au fil du temps.


Ensuite, il peut également accomplir une série de tâches délicates, comme tracer la tendance du S&P500 sur le même graphique.


Une fois que vous avez terminé, vous pouvez redimensionner le graphique pour ajouter des informations sur différents axes.


Comme indiqué ci-dessus, Llama 3.1 prend en charge 8 langues, il est donc capable de traduction multilingue.

Nous pouvons lui faire traduire le conte de fées Hansel et Gretel (La Maison des Bonbons) en espagnol.


Même face à des questions de raisonnement plus complexes, Llama 3.1 peut facilement gagner.

"J'ai 3 chemises, 5 shorts et 1 robe. Je pars en voyage de 10 jours. Est-ce que ces vêtements sont suffisants pour mes vacances ?"

L'IA décompose les conditions connues, imagine un plan raisonnable d'association des hauts, des shorts et des jupes et suggère qu'il est préférable d'apporter plus de hauts.


Une fois le raisonnement terminé, il nous a également fourni un guide vestimentaire de voyage et une liste de bagages plus détaillés.


Nous pouvons également laisser l’IA écrire du code à la main.

Par exemple, laissez-le créer un programme qui utilise un algorithme de retour en arrière récursif ou un algorithme de recherche en profondeur pour générer un labyrinthe parfait avec une taille et une complexité personnalisables.

Dès que l'IA a démarré, elle est sortie du code Python du programme labyrinthe.


Une fois le code terminé, AI donne également une explication détaillée.


Ensuite, si nous souhaitons personnaliser le programme, l'assistant de code AI nous fournit des suggestions de code correspondantes, en ajustant la largeur et la hauteur.


Résultats de l'évaluation

Afin d'évaluer les performances de Llama3.1, Meta a non seulement inclus 150 ensembles de données de référence couvrant plusieurs langues dans le test, mais les a également comparées dans des scénarios réels.

Dans une variété de tâches, le 405B peut rivaliser avec les principaux modèles à source fermée tels que GPT-4, GPT-4o et Claude 3.5 Sonnet.


Les petits modèles 8B et 70B ont également obtenu de bons résultats dans les modèles fermés et open source avec des quantités de paramètres similaires.

En plus des tâches contextuelles longues, les modèles 8B et 70B ont atteint le SOTA dans les tâches générales, le codage, les mathématiques, le raisonnement, l'utilisation d'outils et plusieurs langages.


En évaluation humaine, le modèle Llama 3.1 405B est comparable au GPT-4, mais légèrement pire que le GPT-4o.

Cependant, par rapport au Claude 3.5 Sonnet, le grand modèle 405B présente un avantage, avec un taux de réussite de 24,9 %.


De plus, dans le classement Scale, la version affinée de Llama 3.1 405B a écrasé Claude 3.5 Sonnet et GPT-4o dans l'instruction suite à l'évaluation.

Dans les tâches de mathématiques, 405B s'est classé deuxième derrière Claude 3.5 Sonnet. Cependant, Llama 3.1 a obtenu des résultats relativement faibles dans les tâches de codage.


92 pages de rapport technique ultra détaillé

Personne ne peut ouvrir le code de manière aussi approfondie que Meta. Le rapport technique de 92 pages est également publié aujourd'hui.


Adresse papier : https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

L'article propose que Llama 3.1, un modèle de base de haute qualité, dispose de trois leviers clés : la gestion des données, de l'échelle et de la complexité.

En termes de données, par rapport à la génération précédente, la quantité totale et la qualité des données dans Llama 3.1 ont été améliorées, comme des pipelines de prétraitement et de gestion plus soignés pour les données de pré-entraînement, et des méthodes d'assurance qualité et de filtrage plus strictes pour la post-formation. données.

Llama 2 n'a été pré-entraîné que sur des données de jeton de 1,8 T, tandis que le corpus de pré-entraînement multilingue de Llama 3.1 a atteint 15,6 T de jetons, soit une augmentation de plus de 8 fois.

En termes d'échelle, la formation de Llama 3.1 utilise plus de 16 000 GPU NVIDIA H100 et la quantité totale de calcul atteint 3,8e25 FLOPS, soit près de 50 fois celle de Llama 2.

Afin de mieux réaliser le « scale-up », le document propose spécifiquement l'aspect de la « gestion de la complexité ». Lors de la sélection de l’architecture du modèle et des algorithmes, une plus grande attention doit être accordée à leur stabilité et à leur évolutivité.

Il convient de noter que Llama 3.1 n'utilise pas l'architecture MoE la plus populaire, mais un transformateur dense d'architecture uniquement décodeur. Seule l'architecture originale du transformateur a été modifiée et ajustée pour maximiser la stabilité de la formation.

Des pratiques similaires incluent l'utilisation de processus post-formation simples tels que SFT, RS et DPO au lieu d'algorithmes d'apprentissage par renforcement plus complexes.

Semblable à de nombreux grands modèles, le développement de Llama 3 comprend principalement deux étapes : le pré-entraînement et le post-entraînement.

Pendant la pré-formation, « prédire le prochain jeton » est également utilisé comme objectif de formation. Tout d'abord, la fenêtre contextuelle est définie sur 8K, puis étendue à 128K pendant la phase de pré-formation.

La phase post-formation améliore le modèle grâce à plusieurs séries de commentaires humains itératifs, améliorant considérablement les performances de codage et d'inférence et intégrant les capacités d'utilisation des outils.

En outre, l'article tente également d'utiliser trois étapes supplémentaires pour ajouter des fonctions multimodales telles que des images, des vidéos et des voix à Llama 3.1 :

- Pré-entraînement des encodeurs multimodaux : les encodeurs d'image et de parole sont entraînés séparément. Les données de pré-entraînement pour le premier sont des paires image-texte, tandis que le second utilise une méthode auto-supervisée pour tenter de reconstruire les parties masquées du codeur. discours à travers une partie de jetons discrétisés.

- Adaptateur de vision : se compose d'une série de couches d'attention croisée qui injectent des représentations d'encodeurs d'images dans des modèles de langage pré-entraînés. Sur la base d'images, le journal a également tenté de former un adaptateur vidéo sur des paires vidéo-texte.

- Adaptateur vocal : connecte les encodeurs vocaux et les modèles de langage, et intègre également les systèmes de « synthèse vocale ».


Malheureusement, les fonctionnalités multimodales mentionnées ci-dessus sont encore en cours de développement et ne sont donc pas incluses dans la nouvelle version Llama 3.1.

Architecture du modèle

Llama 3.1 utilise toujours le Transformer dense standard, et il n'y a pas de différence d'architecture significative par rapport à Llama et Llama 2. L'amélioration des performances provient principalement de l'amélioration de la qualité, de la diversité et de l'expansion des données d'entraînement.


Par rapport à Llama 3, l'architecture de Llama 3.1 présente les améliorations suivantes :

- Grouped Query Attention (GQA) : avec 8 en-têtes clé-valeur, il améliore la vitesse d'inférence et réduit le cache KV pendant le décodage

- Masque d'attention : empêche l'auto-attention entre différents documents dans la même séquence.Cette technique a une efficacité limitée en pré-entraînement standard, mais est très importante lorsqu'on continue un pré-entraînement sur de très longues séquences.

- 128 Ko de vocabulaire de jetons : dont 100 000 en tiktoken et 28 000 supplémentaires pour mieux prendre en charge les langues non anglaises.Taux de compression amélioré pour l'anglais et les autres langues par rapport à Llama 2

- Définir l'hyperparamètre θ de RoPE sur 500 000 : meilleur support pour les contextes longs

Les hyperparamètres clés du modèle sont présentés dans le tableau 3. Sur la base de la quantité de données et de la puissance de calcul d'entraînement, la taille du modèle a atteint l'optimisation de la puissance de calcul révélée par la loi de mise à l'échelle.


Efficacité parallèle

Entraîner un modèle 405B sur 16 000 GPU, c'est déjà un gros projet rien qu'en considérant le parallélisme et la gestion des pannes.

En plus du modèle lui-même, le document explique également le schéma de parallélisation utilisé dans le processus de formation, ainsi que le stockage, le réseau et d'autres infrastructures.

La formation de Llama 3.1 utilise le parallélisme 4D (tenseur + pipeline + contexte + données), l'utilisation du GPU (MFU) est d'environ 38 % à 41 %.


La gestion des pannes du cluster d'entraînement Llama 3.1 est également très bonne, atteignant plus de 90 % du temps d'entraînement effectif, mais cela signifie quand même que pendant les 54 jours de pré-entraînement au total, il y a eu au moins une interruption chaque jour.

Le document répertorie en détail les causes des 419 interruptions inattendues (tableau 5), ce qui revêt une importance de référence très importante pour la future construction de clusters GPU. Parmi eux, les problèmes confirmés ou suspectés d'être liés au matériel représentaient 78 %.


Étant donné que l'exploitation et la maintenance automatisées du cluster sont relativement complètes, même s'il existe de nombreuses pannes, la plupart d'entre elles peuvent être traitées automatiquement. Durant tout le processus, seules trois pannes ont nécessité une intervention manuelle.

Améliorer les performances de capacités spécifiques

code

Afin d'améliorer la capacité de codage du modèle, Meta utilise des méthodes telles que la formation d'experts en codage, la génération de données synthétiques SFT, le guidage de l'amélioration du format via les invites du système et la création de filtres de qualité (suppression des mauvais échantillons des données de formation).


Conversion du code Python (à gauche) en code PHP (à droite) à l'aide de Llama 3 pour augmenter l'ensemble de données SFT avec une plus large gamme de langages de programmation


Améliorez la qualité du code grâce à des améliorations du système.Gauche : Aucune invite système. Droite : Il y a une invite système.

multilingue

Afin d'améliorer les capacités multilingues de Llama 3, Meta a spécialement formé un expert capable de gérer davantage de données multilingues pour obtenir et générer des données de réglage fin des instructions multilingues de haute qualité (telles que l'allemand, le français, l'italien, le portugais, l'hindi (anglais, espagnol et thaïlandais) et répondent aux défis spécifiques liés à l'intégration multilingue.


raisonnement mathématique

Les modèles de formation bons en raisonnement mathématique sont confrontés à plusieurs défis, tels que le manque d'indices, le manque de véritable CoT, les étapes intermédiaires incorrectes, la nécessité d'apprendre au modèle à utiliser des outils externes, la différence entre formation et inférence, etc.

À cette fin, Meta adopte les méthodes suivantes : résoudre le problème des indices insuffisants, améliorer le processus de raisonnement par étapes dans les données d'entraînement, filtrer le mauvais processus de raisonnement, combiner le raisonnement du code et du texte et apprendre des commentaires et des erreurs.


contexte long

Dans la dernière étape de pré-formation, Meta étend la longueur du contexte de Llama 3 de 8 000 jetons à 128 000.

En pratique, l'équipe a constaté que si seules des données contextuelles courtes sont utilisées pour SFT, la capacité de contexte long du modèle sera considérablement dégradée ; et la lecture d'un contexte long est très fastidieuse et prend beaucoup de temps, il est donc peu pratique pour les humains d'étiqueter de tels contextes. exemples.

Meta a donc choisi des données synthétiques pour combler cette lacune.

À l'aide d'une première version de Llama 3, ils ont généré des données synthétiques basées sur des cas d'utilisation clés à contexte long : (plusieurs tours) réponse aux questions, résumé de documents longs, inférence de base de code.

Utilisation de l'outil

Meta a formé Llama 3 à interagir avec les moteurs de recherche, les interpréteurs Python et les moteurs de calcul mathématique.

Au cours du processus de développement, au fur et à mesure que Llama 3 était progressivement amélioré, Meta a également progressivement compliqué le protocole d'annotation manuelle. Commencez par l'annotation de l'utilisation de l'outil en un seul tour, passez à l'utilisation de l'outil dans les conversations et terminez par l'annotation de l'utilisation de l'outil en plusieurs étapes et de l'analyse des données.


Llama 3 effectue une planification, un raisonnement et un appel d'outils en plusieurs étapes pour résoudre des tâches


Sur la base du fichier fourni, demandez au modèle de résumer le contenu du fichier, de rechercher et de corriger les erreurs, d'optimiser le code, d'effectuer une analyse ou une visualisation des données, etc.

factuel

Pour le problème des hallucinations, un défi reconnu du LLM, Meta adopte une approche axée sur les hallucinations.

Le principe qu'ils suivent est qu'après la formation, le modèle doit « savoir ce qu'il sait » plutôt que d'ajouter des connaissances.

Maniabilité

Pour Llama 3, Meta améliore sa maniabilité grâce à des invites système avec des instructions en langage naturel, notamment concernant la longueur de la réponse, le format, le ton et la personnalité.


"Vous êtes un chatbot IA utile et joyeux qui sert d'assistant de planification de repas pour les familles occupées."

membre de l'équipe

On peut dire que l'équipe de Llama 3 est très nombreuse, avec près de 220 membres principaux et 312 autres contributeurs.




Xiao Zha : l’IA open source est l’avenir

Comme nous le savons tous, Xiao Zha a toujours été un fidèle partisan de l’IA open source.

Cette fois, il ne s’agit pas simplement de publier un nouveau modèle le plus puissant, mais également de promettre de mettre l’IA open source au premier plan.


Dans son blog, Xiao Zha a directement tiré les leçons de l'histoire. Dans le passé, les grandes entreprises technologiques ont investi massivement dans le développement de versions Unix fermées.

Le champ de bataille d'Unix est âprement combattu, mais celui qui rira le dernier sera Linux open source.


Linux était initialement favorisé par les développeurs car il permettait aux développeurs de modifier le code à volonté et était plus abordable.

Mais au fil du temps, il est devenu plus avancé, plus sécurisé et disposait de plus de fonctionnalités prises en charge par un écosystème plus large que n'importe quel Unix fermé.

Aujourd'hui, Linux est la norme industrielle pour le cloud computing et la plupart des systèmes d'exploitation d'appareils mobiles, et tout le monde en profite.

Xiao Zha estime que la trajectoire de développement de l'IA sera également la même et pointera du doigt le modèle fermé de « plusieurs entreprises technologiques ».


"Aujourd'hui, plusieurs entreprises technologiques développent des modèles fermés de pointe, mais l'open source comble rapidement l'écart."

L'audace de Xiaozha de le nommer directement est naturellement enhardie par sa force. L'année dernière, Llama 2 était toujours à la traîne du modèle de pointe de l'ancienne génération.

Cette année, Llama 3 peut rivaliser avec d'autres modèles géants en termes de performances.

Llama 3.1 405B est le premier modèle d'IA open source de pointe. En plus d'un rapport coût/performance nettement meilleur par rapport aux modèles fermés, l'ouverture du modèle 405B en fait le meilleur choix pour affiner et distiller les petits modèles.

Pourquoi l’IA open source est-elle bonne pour les développeurs ?

Pour les développeurs, il y a cinq avantages majeurs à s’en tenir au modèle open source :

Premièrement, les modèles open source permettent aux développeurs de former, d’affiner et de distiller librement leurs propres modèles.

Les besoins de chaque développeur sont différents : les tâches sur l'appareil et les tâches de classification nécessitent de petits modèles, tandis que les tâches plus complexes nécessitent de grands modèles.

En tirant parti de modèles open source de pointe, les développeurs peuvent poursuivre leur formation avec leurs propres données, distillées à la taille idéale.

Deuxièmement, vous pouvez éviter d’être limité par un seul fournisseur.

Les développeurs ne veulent pas s’appuyer sur un modèle qu’ils ne peuvent pas exécuter et contrôler, et ils ne veulent pas que les fournisseurs changent le modèle, modifient les conditions d’utilisation ou même arrêtent complètement le service.

Et l’open source permet de changer et de déployer facilement des modèles, créant ainsi un vaste écosystème.

Troisièmement, protégez la sécurité des données.

Les développeurs doivent garantir la sécurité des données lorsqu'ils traitent des données sensibles, ce qui nécessite qu'ils ne puissent pas les envoyer à des modèles fermés via des API.

Il est connu que les logiciels open source sont généralement plus sécurisés grâce à un processus de développement plus transparent.

Quatrièmement, il fonctionne efficacement et à moindre coût.

Le coût d'inférence pour les développeurs exécutant Llama 3.1 405B n'est que la moitié de celui de GPT-4o, qu'il s'agisse de tâches d'inférence côté utilisateur ou hors ligne.

Cinquièmement, à long terme, l’open source deviendra une norme à l’échelle de l’industrie.

En fait, l’open source évolue plus rapidement que les modèles fermés, et les développeurs souhaitent pouvoir construire leurs systèmes sur des architectures présentant des avantages à long terme.

Selon Xiao Zha, la sortie de Llama 3.1 deviendra un tournant dans l'industrie, rendant l'open source de plus en plus imparable.

Les références:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32