Open source = le modèle le plus puissant ! Llama 3.1 est sorti, Zuckerberg : tournant décisif moment

Open source = le modèle le plus puissant ! Llama 3.1 est sorti, Zuckerberg : moment décisif

2024-07-24

Baijiao vient du temple Aofei
Qubits | Compte public QbitAI

juste,Liama 3.1Sortie officielle, montant sur le trône des grands modèles !

Dans plus de 150 ensembles de tests de référence, les performances de la version 405B égalent ou même dépassent les modèles SOTA existants GPT-4o et Claude 3.5 Sonnet.

Autrement dit, cette fois,Le modèle open source le plus puissant est le modèle le plus puissant。

Avant cela, Llama 3.1 a été exposé et divulgué à plusieurs reprises, et maintenant on peut dire qu'il attend depuis longtemps.

À partir d'aujourd'hui, le modèle peut être téléchargé et utilisé sur le site officiel, et l'application Meta AI peut être essayée en ligne.

Ce qui est encore plus apprécié par la communauté des chercheurs, c'est la publication de près de 100 pages d'articles détaillés, couvrant tout le processus de création de Llama 3.1 : données de pré-entraînement, filtrage, recuit, données synthétiques, lois de mise à l'échelle, infrastructure, parallélisme, formation. recettes, adaptation post-formation, utilisation d'outils, benchmarking, stratégies d'inférence, quantification, vision, voix, vidéo...

Le scientifique en chef de HuggingFace a fait l'éloge : Si vous commencez à étudier de grands modèles à partir de zéro, commencez à lire cet article.

Xiao ZhaZuckerbergDans sa dernière interview avec Bloomberg, il s’est spécifiquement moqué d’OpenAI.

Le leadership d’Altman est louable, mais il est quelque peu ironique que la société OpenAI soit devenue un leader dans la construction de modèles fermés d’intelligence artificielle.

Xiao Zha a également écrit un long article spécifiquement à ce sujet :L’IA open source est la voie à suivre。

Dans le passé, les modèles open source étaient pour la plupart à la traîne par rapport aux modèles fermés en termes de performances, de fonctionnalités, etc., mais maintenant :

Tout comme Linux open source, il s'est démarqué parmi les systèmes fermés et a gagné en popularité, devenant progressivement plus avancé et plus sécurisé, et disposant d'un écosystème plus large que les systèmes fermés.
Je pense que Llama 3.1 marquera un tournant dans l'industrie.

À ce jour, le total des téléchargements de toutes les versions de Llama a dépassé les 300 millions de fois, et Meta fait également des déclarations audacieuses :

Ce n'est que le début.

Les principaux fournisseurs de cloud ont également lancé le support de Llama 3.1 dès que possible, et le prix est celui de tante Jiang :

LIama 3.1 est officiellement sorti

Examinons d'abord les capacités du modèle.

Llama 3.1 étend la longueur du contexte à 128 Ko et ajoute la prise en charge de huit langues.

Parmi eux, la version Super Large Cup 405B a égalé et dépassé les meilleurs modèles existants en termes de bon sens, de maniabilité, de mathématiques, d'utilisation d'outils et de capacités de traduction multilingue.

De plus, des versions améliorées des modèles 8B et 70B ont également été lancées, et leurs capacités sont fondamentalement les mêmes que celles des modèles haut de gamme avec les mêmes paramètres.

Voyons encoreArchitecture du modèle。

Selon l'introduction officielle, entraîner le modèle Llama 3.1 405B sur plus de 15 000 milliards de jetons est tout un défi.

À cette fin, ils ont considérablement optimisé l’ensemble de la pile de formation et étendu pour la première fois l’échelle de puissance de calcul du modèle à plus de 16 000 GPU H100.

Plus précisément, nous utilisons toujours l'architecture Transformer standard réservée au décodeur avec quelques modifications mineures ; et adoptons un processus post-formation itératif, avec SFT (réglage fin supervisé) et DPO (optimisation directe des préférences) à chaque tour pour améliorer chaque tour. performance.

Par rapport aux versions précédentes de Llama, elles ont amélioré la quantité et la qualité des données utilisées pour la pré-formation et la post-formation.

Afin de prendre en charge l'inférence de production de masse de modèles de taille 405B, Meta a quantifié le modèle de valeurs de 16 bits (BF16) à 8 bits (FP8), réduisant ainsi efficacement les exigences informatiques requises et permettant au modèle de s'exécuter au sein d'un seul nœud de serveur.

existerMise au point des instructionsD'autre part, Meta améliore également la capacité du modèle à répondre aux instructions de l'utilisateur et améliore sa capacité à suivre des instructions détaillées tout en garantissant la sécurité.

Au cours de la phase post-formation, Meta effectue plusieurs cycles d'alignement basés sur le modèle pré-entraîné.

Chaque cycle comprend un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation des préférences directes (DPO).

Ils ont généré la plupart des exemples SFT à l'aide de données synthétiques et ont répété plusieurs fois.

De plus, diverses techniques de traitement des données sont utilisées pour filtrer ces données synthétiques afin d'obtenir la plus haute qualité.

Au total, 15T de jetons sont nettoyés et filtrés à l'aide du modèle Llama 2, tandis que les pipelines de traitement des données liés au code et aux mathématiques s'appuient principalement sur les méthodes de Deepseek.

En plus de la réponse la plus élémentaire selon des mots rapides, les responsables de Meta ont déclaré que tout développeur ordinaire peut l'utiliser pour faire des choses avancées, telles que :

Inférence en temps réel et par lots
Superviser la mise au point
Évaluer des modèles pour des applications spécifiques
Pré-formation continue
Génération augmentée de récupération (RAG)
appel de fonction
Génération de données synthétiques

Et derrière cela, il y a le soutien de ses partenaires écologiques forts.

Xiao Zha écrit un long article : L'IA open source est la voie à suivre

(Ce qui suit est traduit par Big Model et le contenu principal est extrait. S'il y a des omissions ou des erreurs, veuillez les corriger !)

Aux débuts du calcul haute performance, les grandes entreprises technologiques de l’époque investissaient massivement dans le développement de leurs propres versions fermées d’Unix. À cette époque, il était difficile d’imaginer qu’un logiciel aussi avancé puisse être produit autrement qu’en source fermée. Cependant, le système d'exploitation Linux open source a finalement gagné en popularité - initialement parce qu'il permettait aux développeurs de modifier le code librement et à moindre coût au fil du temps, Linux est non seulement devenu plus avancé et plus sécurisé, mais a également construit un écosystème plus large que n'importe quel Unix source fermé ; système, prenant en charge plus de fonctionnalités. Aujourd'hui, Linux constitue la base standard de l'industrie pour le cloud computing et la plupart des systèmes d'exploitation d'appareils mobiles, et nous bénéficions tous de meilleurs produits grâce à lui.

Je pense que l'intelligence artificielle se développera de la même manière . Aujourd’hui, plusieurs entreprises technologiques développent des modèles de pointe à code source fermé. Mais l’open source comble rapidement l’écart. L'année dernière, le Llama 2 n'était comparable qu'aux modèles d'une génération derrière. Cette année, le Llama 3 rivalise avec les modèles les plus avancés et est en tête dans certains domaines. À partir de l’année prochaine, nous nous attendons à ce que les futurs modèles Llama soient les plus avancés de l’industrie. Mais même avant cela, Llama ouvrait déjà la voie en matière d'ouverture, de modifiabilité et de rentabilité.

Aujourd'hui, nous nous dirigeons vers« L’intelligence artificielle open source devient la norme de l’industrie » direction. Nous avons publié Llama 3.1 405B, le premier modèle d'IA open source de pointe, ainsi que les modèles Llama 3.1 70B et 8B améliorés. En plus d'avoir un rapport coût/performance nettement meilleur par rapport aux modèles à source fermée, l'ouverture du modèle 405B en fera le meilleur choix pour affiner et distiller des modèles plus petits.

En plus de publier ces modèles, nous travaillons avec un certain nombre d'entreprises pour développer l'écosystème au sens large. Amazon, Databricks et Nvidia lancent une suite de services pour permettre aux développeurs d'affiner et de distiller leurs propres modèles. Des innovateurs comme Groq ont créé des services d'inférence à faible latence et à faible coût pour tous les nouveaux modèles. Ces modèles seront disponibles sur toutes les principales plateformes cloud, notamment AWS, Azure, Google, Oracle, etc. Des entreprises comme Scale.AI, Dell, Deloitte et d'autres sont prêtes à aider les entreprises à adopter Llama et à former des modèles personnalisés avec leurs propres données. À mesure que la communauté se développe et que de plus en plus d'entreprises développent de nouveaux services, nous pouvons ensemble faire de Llama la norme de l'industrie, apportant ainsi les avantages de l'IA à tous.

Meta est dédié à l'intelligence artificielle open source. Je vais expliquer pourquoi je pense que l'open source est la meilleure pile de développement, pourquoi l'open source Llama est bon pour Meta et pourquoi l'IA open source est bonne pour le monde et donc une plate-forme durable à long terme.

Pourquoi l'IA open source est bonne pour les développeurs

Lorsque je parle à des développeurs, des PDG et des responsables du monde entier, j'entends généralement quelques thèmes :

Nous devons former, affiner et distiller nos propres modèles . . Chaque organisation a ses propres besoins et est mieux adaptée pour utiliser des modèles de différentes tailles qui peuvent être formés ou affinés en fonction de leurs données spécifiques. Pour les tâches sur l'appareil et les tâches de classification, de petits modèles suffisent ; pour les tâches plus complexes, de grands modèles sont nécessaires. Vous pouvez désormais profiter des modèles Llama de pointe, continuer à les entraîner avec vos propres données, puis les distiller dans une taille de modèle qui correspond le mieux à vos besoins - sans nous permettre, ni à quiconque, de voir vos données.
Nous devons contrôler notre propre destin et ne pas nous enfermer dans des fournisseurs fermés. . De nombreuses organisations ne veulent pas s’appuyer sur un modèle qu’elles ne peuvent pas gérer et contrôler elles-mêmes. Ils ne veulent pas qu'un fournisseur de modèles fermés puisse changer le modèle, modifier les conditions d'utilisation ou même arrêter complètement le service. Ils ne veulent pas non plus se limiter à l’utilisation exclusive de modèles sur une seule plateforme cloud. L'open source permet à un large écosystème d'entreprises de disposer de chaînes d'outils compatibles, vous permettant de passer facilement de l'une à l'autre.
Nous devons protéger nos données . De nombreuses organisations gèrent des données sensibles qui doivent être protégées et ne peuvent pas être envoyées via des API cloud dans un modèle à source fermée. Il existe également des organisations qui ne font tout simplement pas confiance aux fournisseurs de modèles fermés pour leurs données. L'open source résout ces problèmes en vous permettant d'exécuter des modèles n'importe où. Il existe une croyance répandue selon laquelle les logiciels open source sont généralement plus sécurisés car leur processus de développement est plus transparent.
Nous avons besoin d’un modèle qui fonctionne efficacement et qui soit abordable . Les développeurs peuvent exécuter l'inférence Llama 3.1 405B sur leur propre infrastructure, que ce soit pour des tâches d'inférence face à l'utilisateur ou hors ligne, pour environ la moitié du coût de l'utilisation de modèles fermés tels que GPT-4o.
Nous voulons investir dans des écosystèmes qui deviendront des standards à long terme . De nombreuses personnes voient l’open source évoluer plus rapidement que les modèles fermés et souhaitent construire leurs systèmes sur l’architecture qui leur apportera le plus grand avantage à long terme.

Pourquoi l'IA open source est bonne pour Meta

Le modèle commercial de Meta consiste à créer les meilleures expériences et services pour les gens. Pour ce faire, nous devons nous assurer que nous avons toujours accès à la meilleure technologie et que nous ne sommes pas enfermés dans les écosystèmes fermés de nos concurrents, limitant ainsi notre capacité à innover.

L'une de mes expériences clés a été que nos services étaient limités par les restrictions d'Apple sur ce que nous pouvions construire sur leur plate-forme. De la façon dont ils taxent les développeurs, aux règles qu'ils appliquent au hasard, à toutes les innovations produits qu'ils empêchent d'être publiées, il est clair que si nous pouvons construire les meilleures versions de nos produits et que les concurrents ne peuvent pas limiter notre innovation, Meta et bien d'autres. d'autres entreprises seront en mesure de fournir de meilleurs services aux gens. Philosophiquement, c'est la principale raison pour laquelle je crois fermement à la construction d'un écosystème ouvert pour la prochaine génération d'informatique en IA et AR/VR.

Les gens me demandent souvent si je crains de renoncer à des avantages techniques en open source Llama, mais je pense que cela passe à côté de la situation dans son ensemble pour plusieurs raisons :

Premièrement, pour garantir que nous avons accès à la meilleure technologie et ne sommes pas enfermés dans un écosystème source fermé à long terme, Llama doit évoluer vers un écosystème complet d'outils, comprenant des améliorations d'efficacité, une optimisation du silicium et d'autres intégrations. Si nous étions la seule entreprise à utiliser Llama, l'écosystème ne se développerait pas et nous ne serions pas plus performants que les versions fermées d'Unix.

Deuxièmement, je m’attends à ce que le développement de l’IA continue d’être très compétitif, ce qui signifie que l’open source d’un modèle particulier ne donne pas un plus grand avantage que le prochain meilleur modèle du moment. Le chemin de Llama pour devenir un standard de l'industrie consiste à continuer à maintenir sa compétitivité, son efficacité et son ouverture, en se développant de génération en génération.

Troisièmement, une différence clé entre les fournisseurs de modèles Meta et les fournisseurs de modèles fermés est que vendre l’accès aux modèles d’IA ne fait pas partie de notre modèle commercial. Cela signifie que la publication publique de Llama ne porte pas atteinte à nos revenus, à notre durabilité ou à notre capacité à investir dans la recherche, ce qui n'est pas le cas pour les fournisseurs fermés.

Enfin, Meta a une longue histoire de projets open source et de succès. Nous avons économisé des milliards de dollars grâce au projet Open Compute en publiant des conceptions de serveurs, de réseaux et de centres de données et en laissant la chaîne d'approvisionnement standardiser nos conceptions. Nous bénéficions de l’innovation de l’écosystème grâce à des outils open source tels que PyTorch, React, etc. Cette approche a toujours fonctionné pour nous sur le long terme.

Pourquoi l'IA open source est bonne pour le monde

Je pense que l’open source est essentiel pour parvenir à un avenir positif en matière d’IA. L’intelligence artificielle a un plus grand potentiel que toute autre technologie moderne pour stimuler la productivité humaine, la créativité et la qualité de vie, et accélérer la croissance économique tout en favorisant les progrès de la médecine et de la recherche scientifique. L’open source garantira qu’un plus grand nombre de personnes dans le monde auront accès aux avantages et aux opportunités de l’IA, que le pouvoir ne sera pas concentré entre les mains de quelques entreprises et que la technologie pourra être déployée de manière plus uniforme et plus sûre dans la société.

Il y a un débat en cours sur la sécurité des modèles d’IA open source, et mon point de vue est que l’IA open source sera plus sûre que les alternatives.

Je comprends que le cadre de sécurité est que nous devons nous protéger contre deux types de dommages : involontaires et intentionnels. On parle de dommage involontaire lorsqu’un système d’IA peut causer un dommage même si la personne qui l’exécute n’avait pas l’intention de le faire. Par exemple, les modèles d’IA modernes peuvent donner par inadvertance de mauvais conseils en matière de santé. Ou, dans un scénario plus futuriste, certains craignent que les modèles puissent se reproduire par inadvertance ou suroptimiser les objectifs au détriment des humains. On parle de préjudice intentionnel lorsqu’un acteur malveillant utilise un modèle d’IA dans l’intention de causer du tort.

Il convient de noter que les dommages involontaires couvrent la plupart des préoccupations des gens à propos de l’intelligence artificielle – depuis l’impact que les systèmes d’IA auront sur les milliards de personnes qui les utilisent jusqu’à la plupart des scénarios de science-fiction véritablement catastrophiques pour l’humanité. À cet égard, l’open source devrait être plus sûr car le système est plus transparent et peut être largement contrôlé. Historiquement, les logiciels open source ont donc été plus sécurisés. De même, l’utilisation de Llama et de ses systèmes de sécurité comme Llama Guard sera probablement plus sûre et plus fiable qu’un modèle fermé. En conséquence, la plupart des discussions sur la sécurité de l’IA open source se concentrent sur les dommages intentionnels.

Notre processus de sécurité comprend des tests rigoureux et des équipes rouges pour évaluer la capacité de nos modèles à causer des dommages importants, dans le but d'atténuer les risques avant leur publication. Le modèle étant ouvert, chacun peut le tester lui-même. Nous devons nous rappeler que ces modèles sont formés à partir d’informations déjà présentes sur le Web. Par conséquent, lorsqu’on examine les dommages, le point de départ doit être de savoir si le modèle peut contribuer à davantage de dommages que les informations qui peuvent être rapidement récupérées à partir de Google ou d’autres résultats de recherche.

Lorsque vous envisagez les opportunités futures, n'oubliez pas que la plupart des principales entreprises technologiques et de la recherche scientifique d'aujourd'hui reposent sur des logiciels open source. Si nous investissons ensemble, la prochaine génération d’entreprises et de recherche utilisera l’IA open source.

Plus important encore, l’IA open source représente la meilleure opportunité au monde d’exploiter cette technologie pour maximiser les opportunités économiques et la sécurité de tous.

construisons ensemble

Comme pour les précédents modèles Llama, Meta s'est développé puis publié sans prêter beaucoup d'attention à la construction d'un écosystème plus large. Nous avons adopté une approche différente avec ce lancement. Nous construisons l'équipe en interne pour rendre Llama accessible au plus grand nombre de développeurs et de partenaires possible, et nous construisons également activement des partenariats afin qu'un plus grand nombre d'entreprises de l'écosystème puissent également fournir des capacités uniques à leurs clients.

Je croisLa sortie de Llama 3.1 sera un tournant pour l'industrie , la plupart des développeurs commenceront à utiliser principalement l'open source, et je pense que cette approche ne fera que se développer à partir de maintenant. J'espère que vous nous rejoindrez dans notre voyage visant à apporter les avantages de l'intelligence artificielle à tous dans le monde.

Lien de la dernière interview :
https://x.com/rowancheung/status/1815763595197616155

Liens de référence :
[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
[2]https://ai.meta.com/blog/meta-llama-3-1/

nouvelles

Open source = le modèle le plus puissant ! Llama 3.1 est sorti, Zuckerberg : moment décisif

Introduction

mes coordonnées