Llama 3.1 officiellement publié : modèle open source à 405 milliards de paramètres, Xiao Zha : mener l'open source jusqu'au bout

2024-07-24

Texte Deng Yongyi et Zhou Xinyu

Éditeur｜Su Jianxun

Le trône du GPT-4o n'est pas encore chaud, Xiao Zha a dirigé l'armée open source et s'y est précipité——

Comme indiqué précédemment, Meta a officiellement publié Llama 3.1 le 23 juillet, heure du Pacifique aux États-Unis. Il s’agit aujourd’hui de la grande série de modèles la plus utilisée et la plus performante dans le domaine de l’open source.

Par coïncidence, la veille de sa sortie, Llama 3.1 a été "fuité" dans la communauté des développeurs. En plus des informations sur le modèle, il comprenait également un lien magnétique vers le modèle 405B. Les développeurs jouaient déjà avec enthousiasme.

Les informations officiellement publiées sur Llama 3.1 sont également cohérentes avec l'actualité : il existe trois tailles : 8B, 70B et 405B, et la longueur du contexte a été augmentée à 128 Ko.

Selon les données de test de référence fournies par Meta, le 405B le plus populaire (405 milliards de paramètres) est déjà comparable en performances à GPT-4 et Claude 3.5.

△Comparaison avec GPT-4 et Claude 3.5

Devant les top models actuels de Yishui, Llama 3.1 n'a pas peur :

△Comparaison avec le modèle source fermé

△Comparaison avec le modèle open source

On peut dire que la sortie de Llama 3.1 a marqué une étape importante dans la récente bataille acharnée entre les routes open source et fermées : les meilleurs modèles open source ont véritablement uni leurs forces avec les meilleurs modèles fermés.

"Jusqu'à présent, les modèles de langage open source à grande échelle sont pour la plupart à la traîne des modèles fermés en termes de fonctionnalités et de performances. Aujourd'hui, nous inaugurons une nouvelle ère dirigée par l'open source", a déclaré Meta.

△Une image devenue populaire dans le cercle de l'IA récemment, le modèle open source rattrape le modèle fermé

Meta a également joint un document de 92 pages à son communiqué officiel, révélant les détails de la formation :

Llama 3.1 a été formé sur les données de plus de 15 000 milliards de jetons, en utilisant 16 000 blocs H100. Les données de pré-formation utilisées datent de décembre 2023. Afin de garantir la stabilité de la formation, seule l'architecture du modèle Transformer est utilisée pour l'ajustement, au lieu de l'architecture du modèle expert mixte (MoE) actuellement populaire.

Cela conduit également au fait que Llama 3.1 peut maintenir une sortie de haute qualité de fenêtres contextuelles courtes même si elle est étendue à une longueur de contexte de 128 Ko. Il ne s'agit plus de "texte long spécial", mais de "long et court librement".

Il n'existe actuellement aucun modèle open source d'une telle envergure dans le monde qui ait atteint une telle échelle de formation.

Pour plus de détails, nous l'avons également présenté en détail dans le push il y a quelques heures, je n'entrerai pas dans les détails ici.

En 2024, alors que l'échelle de formation des modèles devient de plus en plus grande, les développeurs se demandent également : les grandes entreprises qui ont payé d'énormes coûts de formation continueront-elles à ouvrir le code source ?

Après tout, OpenAI est une leçon tirée du passé : il a adhéré à l'esprit de l'open source au début, mais depuis que GPT3.5 est devenu populaire et commercialisé, OpenAI n'est plus open source et est ridiculisé en tant qu'IA fermée.

Mais au moment de la sortie de Llama 3.1, Zuckerberg a encore souligné :

Menez l’open source jusqu’au bout !

En plus de publier le modèle, Xiao Zha a également publié un manifeste open source réfléchi et idéaliste, expliquant pourquoi Meta devrait être open source et pourquoi l'open source est bénéfique pour les développeurs.

Il convient de noter qu'il estime que même si les États-Unis et la Chine sont confrontés à une concurrence féroce en matière d'IA, le choix de la voie open source présente toujours plus d'avantages que d'inconvénients.

D'accord, Llama 3.1 est déjà comme ça, et nous devons reposer la question : quand arriveront OpenAI et GPT-5 ?

Ce qui suit est la lettre ouverte de Zuckerberg, compilée par « Intelligent Emergence » :

"L'IA Open Source est la voie à suivre"

Aux débuts du calcul haute performance, les grandes entreprises technologiques de l’époque ont investi massivement dans le développement de leurs propres versions fermées d’Unix. À l’époque, il était difficile d’imaginer une autre manière de développer des logiciels aussi avancés.

Pourtant, Linux open source a fini par s'imposer - au départ parce qu'il permettait aux développeurs de modifier son code comme ils le souhaitaient et qu'il était moins cher au fil du temps, il est devenu plus avancé, plus sécurisé et possède un écosystème plus large que n'importe quel Unix source fermé, prenant en charge plus de fonctionnalités ; . Aujourd'hui, Linux constitue la base standard de l'industrie pour le cloud computing et le système d'exploitation qui exécute la plupart des appareils mobiles, et nous bénéficions tous de son excellence.

Je pense que l’intelligence artificielle se développera de la même manière. Aujourd’hui, plusieurs entreprises technologiques développent des modèles de pointe à code source fermé. Mais l’open source comble rapidement cet écart. L'année dernière, le Llama 2 n'était comparable qu'aux modèles de l'ancienne génération qui étaient à la traîne. Cette année, le Llama 3 rivalise avec les modèles les plus avancés et est en tête dans certains domaines. À partir de l’année prochaine, nous nous attendons à ce que le futur Llama soit le plus avancé du secteur. Mais avant cela, Llama ouvrait déjà la voie en matière d'open source, de modifiabilité et de rentabilité.

Aujourd’hui, nous franchissons une nouvelle étape pour faire de l’IA open source la norme de l’industrie. Nous publierons Llama 3.1 405B, le premier modèle d'IA open source de pointe, ainsi que de nouveaux modèles Llama 3.1 70B et 8B améliorés. En plus d'avoir un meilleur rapport coût/performance par rapport aux modèles fermés, le fait que le modèle 405B soit open source en fera le meilleur choix pour affiner et extraire des modèles plus petits.

En plus de lancer ces modèles, nous travaillons également avec un certain nombre d'entreprises pour développer l'écosystème au sens large. Amazon, Databricks et Nvidia lancent une suite complète de services pour permettre aux développeurs d'affiner et d'affiner leurs propres modèles. Des entreprises innovantes telles que Groq (une start-up de puces IA) ont créé des services d'inférence à faible latence et à faible coût pour tous les nouveaux modèles.

Ces modèles seront disponibles sur tous les principaux cloud, notamment AWS, Azure, Google, Oracle, etc. Scale.AI, Dell, Deloitte et d'autres sont prêts à aider les entreprises à déployer Llama et à former des modèles personnalisés à l'aide de leurs propres données. À mesure que la communauté se développe et que de plus en plus d’entreprises développent de nouveaux services, nous pouvons ensemble faire de Llama un standard de l’industrie et apporter les avantages de l’IA à tous.

Meta s'engage en faveur de l'IA open source. Je vais expliquer pourquoi je pense que l'open source est la meilleure pile de développement pour les gens, pourquoi l'open source Llama est bon pour Meta, pourquoi l'IA open source est bonne pour le monde, et pour cette raison, la communauté open source est là pour rester.

Pourquoi l'IA open source est bonne pour les développeurs

Lorsque je parle à des développeurs, des PDG et des représentants gouvernementaux du monde entier, j'entends généralement quelques thèmes :

Nous devons former, affiner et affiner nos propres modèles.

Chaque organisation a des besoins différents qui sont mieux servis par des modèles de différentes tailles qui sont formés ou affinés à l'aide de données spécifiques. Les tâches sur l'appareil et les tâches de classification nécessitent des modèles plus petits, tandis que les tâches plus complexes nécessitent des modèles plus grands.

Vous pourrez désormais utiliser des modèles de lamas de pointe, continuer à les entraîner à l'aide de vos propres données, puis les affiner pour obtenir votre modèle de taille optimale - sans que nous ni personne d'autre ne puissions jamais voir vos données.

Nous devons contrôler notre propre destin et ne pas être liés à un fournisseur fermé.

De nombreuses organisations ne souhaitent pas s’appuyer sur un modèle qu’elles ne peuvent ni gérer ni contrôler. Ils ne veulent pas que les fournisseurs de modèles fermés puissent modifier leurs modèles, modifier leurs conditions d'utilisation, ou même cesser complètement de les servir. Ils ne veulent pas non plus être enfermés dans un seul cloud disposant de droits exclusifs sur un certain modèle. L'open source fournit des chaînes d'outils compatibles pour de nombreux écosystèmes d'entreprise, et vous pouvez facilement basculer entre elles.

Nous devons protéger nos données.

De nombreuses organisations gèrent des données sensibles qui doivent être protégées et ne peuvent pas être transférées via des API cloud vers un modèle source fermé. D'autres organisations ne font tout simplement pas confiance aux fournisseurs de modèles fermés pour leurs données. L'open source résout ces problèmes en vous permettant d'exécuter le modèle où vous le souhaitez. Il est largement admis que les logiciels open source sont plus sécurisés car développés de manière plus transparente.

Nous avons besoin d’un modèle opérationnel efficace et abordable.

Les développeurs peuvent exécuter l'inférence sur Llama 3.1 405B sur leur propre infrastructure pour environ 50 % du coût d'utilisation de modèles fermés tels que GPT-4o pour les tâches d'inférence face à l'utilisateur et hors ligne.

Nous misons sur un écosystème qui puisse devenir la norme à long terme.

De nombreuses personnes voient l’open source évoluer plus rapidement que les modèles fermés, et souhaitent que l’architecture dans laquelle leurs systèmes sont construits leur donne le plus grand avantage à long terme.

Pourquoi l'IA open source est bonne pour Meta

Le modèle commercial de Meta consiste à créer les meilleures expériences et services pour les gens. Pour ce faire, nous devons nous assurer d’avoir toujours accès à la meilleure technologie, plutôt que de nous enfermer dans l’écosystème fermé d’un concurrent qui limite ce que nous pouvons construire.

L'une de mes expériences formatrices a été que nos services étaient limités par ce qu'Apple nous permettait de construire sur leur plateforme. La façon dont ils taxent les développeurs, les règles arbitraires qu'ils appliquent et toutes les innovations produits qu'ils empêchent d'être publiées, il est clair que si nous pouvons créer les meilleures versions de nos produits et que les concurrents ne peuvent pas limiter ce que nous pouvons construire, alors Meta et de nombreuses autres entreprises seront libres de créer de meilleurs services pour les gens. Sur le plan philosophique, c'est la principale raison pour laquelle je crois si fermement à la construction d'un écosystème open source pour la prochaine génération d'informatique en IA et AR/VR.

Les gens me demandent souvent si je crains que l'open source Llama renonce à des avantages techniques, mais je pense que cela ignore certaines raisons importantes :

Premièrement, pour garantir que nous avons accès à la meilleure technologie et ne pas être enfermés dans un écosystème source fermé pendant de longues périodes, Llama doit évoluer vers un écosystème complet comprenant des outils, des améliorations d'efficacité, une optimisation du silicium et d'autres intégrations. Si nous étions la seule entreprise à utiliser Llama, l'écosystème ne se développerait pas et nous ne serions pas meilleurs que les variantes Unix fermées.

Deuxièmement, je m'attends à ce que la concurrence s'intensifie à mesure que l'intelligence se développe, ce qui signifie qu'à ce stade, quel que soit le modèle open source, les gens n'abandonneront pas le prochain modèle qui présente un plus grand avantage. Le chemin de Llama pour devenir un standard de l'industrie passe par un modèle de concurrence constante, d'efficacité et d'open source génération après génération.

Troisièmement, une différence clé entre les fournisseurs de modèles Meta et les fournisseurs de modèles fermés est que vendre l’accès aux modèles d’IA ne fait pas partie de notre modèle commercial. Cela signifie que la publication publique de Llama ne porte pas atteinte à nos revenus, à notre durabilité ou à notre capacité à investir dans la recherche, comme c'est le cas avec les fournisseurs de sources fermées. (C’est l’une des raisons pour lesquelles plusieurs fournisseurs de sources fermées ont fait pression sur les gouvernements contre l’open source.)

Enfin, Meta a une longue histoire et du succès dans les projets open source. Nous avons économisé des milliards de dollars en publiant nos conceptions de serveurs, de réseaux et de centres de données via le projet Open Source Compute et en standardisant notre chaîne d'approvisionnement sur nos conceptions. Nous bénéficions de l’innovation de l’écosystème, d’outils open source de pointe comme PyTorch, React et bien d’autres. Cette approche a toujours fonctionné pour nous lorsque nous nous y sommes tenus sur le long terme.

Pourquoi l'IA open source est bonne pour le monde

Je pense que l’open source est nécessaire pour un avenir positif en matière d’IA. L’intelligence artificielle a un plus grand potentiel que toute autre technologie moderne pour accroître la productivité humaine, la créativité et la qualité de vie, et pour faire progresser la recherche médicale et scientifique tout en accélérant la croissance économique.

L’open source garantira qu’un plus grand nombre de personnes dans le monde auront accès aux avantages et aux opportunités de l’IA, que le pouvoir ne sera pas concentré entre les mains de quelques entreprises et que la technologie pourra être déployée de manière plus uniforme et plus sûre dans la société.

Il y a un débat en cours sur la sécurité des modèles d’IA open source, et mon point de vue est que l’IA open source sera plus sécurisée que les alternatives. Je pense que les gouvernements concluront qu'il est dans leur intérêt de soutenir l'open source car cela rendra le monde plus prospère et plus sûr.

Ma compréhension de la sécurité est que nous devons nous protéger contre deux types de préjudices : les préjudices involontaires et les préjudices intentionnels. On parle de dommage involontaire lorsqu’un système d’IA peut causer un dommage même si la personne qui l’exécute n’avait pas l’intention de le faire.

Par exemple, les modèles d’IA modernes peuvent donner par inadvertance de mauvais conseils en matière de santé. Ou, dans un scénario plus futuriste, certains craignent que les modèles puissent se reproduire par inadvertance ou suroptimiser les objectifs au détriment des humains. On parle de préjudice intentionnel lorsqu’un mauvais acteur utilise un modèle d’IA dans le but de causer du tort.

Il convient de noter que les dommages involontaires couvrent la plupart des préoccupations des gens à propos de l’intelligence artificielle – depuis l’impact qu’auront les systèmes d’IA sur les milliards de personnes qui les utiliseront jusqu’aux scénarios de science-fiction les plus catastrophiques pour l’humanité. À cet égard, l’open source devrait être beaucoup plus sûr car le système est plus transparent et peut être largement inspecté.

Historiquement, les logiciels open source ont été plus sécurisés pour cette raison. De même, l'utilisation de Llama et de ses systèmes de sécurité tels que Llama Guard peut être plus sécurisée qu'un modèle fermé. En conséquence, la plupart des discussions sur la sécurité de l’IA open source se concentrent sur les dommages intentionnels.

Notre processus de sécurité comprend des tests rigoureux et des équipes rouges pour évaluer si nos modèles sont capables de causer des dommages importants, dans le but d'atténuer les risques avant leur publication. Le modèle étant open source, n’importe qui peut le tester lui-même.

Nous devons nous rappeler que ces modèles sont formés à partir d'informations déjà disponibles sur Internet. Par conséquent, lorsque nous envisageons un préjudice, notre point de départ doit être de savoir si un modèle est plus rapide que les informations pouvant être récupérées à partir de Google ou d'autres résultats de recherche plus susceptibles de causer un préjudice.

Lorsqu’on raisonne sur un préjudice intentionnel, il est utile de faire la distinction entre ce qu’un individu ou un acteur à petite échelle pourrait faire et ce qu’un acteur à grande échelle tel qu’un État-nation doté de vastes ressources pourrait faire.

À un moment donné dans le futur, des acteurs malveillants pourraient exploiter l’intelligence des modèles d’IA pour créer des types de préjudices entièrement nouveaux à partir des informations disponibles sur Internet. À ce stade, l’équilibre des pouvoirs sera crucial pour la sécurité de l’IA.

Je pense qu’il vaudrait mieux vivre dans un monde où l’IA est largement déployée afin que les grands acteurs puissent contrebalancer le pouvoir des petits méchants. C'est ainsi que nous gérons la sécurité sur les réseaux sociaux : nos systèmes d'IA plus puissants identifient et bloquent les menaces provenant d'attaquants moins sophistiqués qui utilisent souvent des systèmes d'IA plus petits.

Plus largement, les grandes institutions déployant l’IA à grande échelle contribueront à la sécurité et à la stabilité de la société dans son ensemble. Tant que tout le monde aura accès à des modèles similaires – ce que facilite l’open source – alors les gouvernements et les agences disposant de plus de ressources informatiques seront en mesure de contrôler les mauvais acteurs avec moins de calculs.

La question suivante est de savoir comment les États-Unis et les démocraties devraient répondre aux menaces émanant de pays dotés de vastes ressources comme la Chine. L’avantage des États-Unis réside dans la décentralisation et l’innovation open source.

Certains pensent que nous devons bloquer nos modèles pour empêcher la Chine de les obtenir, mais ce que je veux dire, c’est que cela ne fonctionnera pas et ne fera que désavantager les États-Unis et leurs alliés. Nos adversaires sont très doués en espionnage. Voler des modèles sur une clé USB est relativement facile, et la manière dont fonctionnent la plupart des entreprises technologiques ne rend pas la tâche beaucoup plus difficile.

Un monde composé uniquement de modèles à source fermée semble avoir pour conséquence qu’une poignée de grandes entreprises et nos adversaires géopolitiques aient accès à des modèles de pointe, tandis que les startups, les universités et les petites entreprises en resteront absentes.

De plus, limiter l’innovation américaine au développement de sources fermées augmente la probabilité que nous ne parvenions tout simplement pas à diriger. Au lieu de cela, je pense que notre meilleure stratégie est de construire un écosystème open source solide et de faire en sorte que nos principales entreprises travaillent en étroite collaboration avec nos gouvernements et nos alliés pour garantir qu'elles puissent tirer le meilleur parti des dernières avancées et être durables à long terme, en tant que pionniers.

Lorsque vous envisagez les opportunités futures, n'oubliez pas que la plupart des principales entreprises technologiques et de la recherche scientifique d'aujourd'hui reposent sur des logiciels open source. Si nous investissons ensemble, la prochaine génération d’entreprises et de recherche utilisera l’IA open source. Cela inclut les startups naissantes, ainsi que les personnes travaillant dans des universités et dans des pays qui ne disposent peut-être pas des ressources nécessaires pour développer leur propre IA de pointe à partir de zéro.

Plus important encore, l’IA open source représente la meilleure opportunité au monde d’exploiter cette technologie pour créer les plus grandes opportunités économiques et la plus grande sécurité pour tous.

construisons ensemble

Pour les anciens modèles Llama, Meta les a développés pour lui-même, puis les a publiés sans trop se concentrer sur la construction d'un écosystème plus large.

Nous adoptons une approche différente avec ce lancement. Nous construisons des équipes en interne pour rendre Llama accessible au plus grand nombre de développeurs et de partenaires possible, et nous construisons également activement des partenariats afin qu'un plus grand nombre d'entreprises de l'écosystème puissent également offrir des capacités uniques à leurs clients.

Je pense que la sortie de Llama 3.1 marquera un tournant dans l'industrie, la plupart des développeurs commençant à utiliser principalement l'open source, et j'espère que cette approche ne fera que se développer à partir de là. J'espère que vous nous rejoindrez dans notre voyage visant à apporter les avantages de l'intelligence artificielle à tous dans le monde.

Le lien pour obtenir Llama 3.1 est : https://llama.meta.com/

MZ (Mark Zuckerberg)

Bienvenue pour communiquer

nouvelles

Llama 3.1 officiellement publié : modèle open source à 405 milliards de paramètres, Xiao Zha : mener l'open source jusqu'au bout

Introduction

mes coordonnées