nouvelles

Le grand modèle open source le plus puissant est devenu un dieu du jour au lendemain ! Llama 3.1 est publié de manière choquante, l'ère du GPT-4 véritablement universel est arrivée

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


des choses intelligentes
Auteur : Département éditorial de Zhi Dongxi

Zhidongxi a rapporté le 24 juillet qu'hier soir, Meta a annoncé le lancement du modèle open source le plus puissant à ce jour——Lama 3.1 405B, a également publié les modèles Llama 3.1 70B et 8B récemment mis à niveau.

Llama 3.1 405B prend en charge une longueur de contexte de128 000 jetons, basé sur15 000 milliards de jetonsPlus de 16 000 GPU H100Il s’agit du premier modèle de lama que Meta ait jamais entraîné à cette échelle.

Les résultats de l’évaluation des chercheurs, basés sur plus de 150 ensembles de tests de référence, montrent que :Llama 3.1 405B fonctionne avec GPT-4o, Claude 3.5 Sonnet et Gemini Ultra et d'autres modèles phares de l'industrie.


En plus de ses solides performances, le fondateur et PDG de Meta, Mark Zuckerberg, a également publié personnellement un article pour le soutenir. Il a déclaré qu'en plus d'avoir un meilleur coût et de meilleures performances que les modèles à source fermée,Le modèle open source 405B deviendra le meilleur choix pour les entreprises souhaitant affiner et former des modèles plus petits.

Meta AI a annoncé son accès à Llama 3.1 405B et a lancé de nouvelles fonctions telles que l'édition d'images IA, la programmation IA et les assistants intelligents des appareils VR/AR. Zuckerberg a prédit :L'utilisation de l'assistant Meta AI dépassera ChatGPT dans quelques mois


▲Meta AI prend en charge l'interaction audio et vidéo en temps réel entre les casques Quest et les utilisateurs

L’écosystème open source de Meta est également prêt. Méta etPlus de 25 partenairesDes modèles Llama 3.1 seront disponibles, notamment Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure et Google Cloud, entre autres.

À ce jour, le nombre total de téléchargements de toutes les versions du modèle Llama a dépassé300 millions de fois, la sortie du modèle Llama 3.1, qui est équivalent au modèle open source grand public, peut signifier que l'histoire du modèle open source que Meta veut raconter ne fait que commencer...


Lien de téléchargement du modèle :

https://llama.meta.com/

https://huggingface.co/meta-llama

Lien papier :

https://t.co/IZqC6DJkaq


▲Résumé de l'interprétation du modèle de papier Meta Llama 3.1

1. Le modèle open source 405B est comparé à GPT-4o et 25 partenaires sont prêts

Meta a évalué les performances de plus de 150 ensembles de données de référence et a constaté que Llama 3.1 405B est comparable à GPT-4o, Claude 3.5 Sonnet et Gemini Ultra dans une série de tâches telles que le bon sens, l'opérabilité, les mathématiques, l'utilisation d'outils et la traduction multilingue. .


Dans un scénario réel, Llama 3.1 405B a été comparé à une évaluation humaine et à sesLes performances globales sont meilleures que GPT-4o et Claude 3.5 Sonnet


mis à niveauLama 3.1 8B et 70BLes modèles fonctionnent également mieux que les modèles de même taille de paramètres. Ces modèles de paramètres plus petits prennent en charge la même fenêtre contextuelle de 128 000 jetons, une inférence multilingue améliorée et l'utilisation d'outils de pointe pour prendre en charge des applications plus avancées.


Meta a mis à jour sa licence pour permettre aux développeurs, pour la première fois, d'utiliser la sortie du modèle Llama, y ​​compris l'échelle de paramètres 405B, pour améliorer d'autres modèles.

Dans le même temps, l'écosystème open source de Meta s'est encore élargi et plus de 25 entreprises ont lancé le nouveau modèle Llama 3.1.

dans,Technologie Amazon Cloud, Databricks et Nvidia Une suite complète de services est en cours de déploiement pour aider les développeurs à affiner et à former leurs propres modèles. La startup de puces IA Groq et d'autres ont créé des services d'inférence à faible latence et à faible coût pour tous les nouveaux modèles publiés cette fois par Meta.

Parallèlement, ces modèles serontTechnologie Cloud Amazon, Microsoft Azure, Google Cloud, OracleFournir des services sur les principales plateformes cloud.

Scale AI, Dell, DeloitteDes entreprises comme Llama sont prêtes à aider les entreprises à adopter les modèles Llama et à former des modèles personnalisés en utilisant leurs propres données.

Llama 3.1 405B est non seulement le modèle open source le plus puissant, mais il devrait également devenir le modèle le plus puissant. La distance entre l'open source et le fermé a encore été considérablement réduite.

2. Optimisez complètement la pile de formation et concentrez-vous sur la mise à l'échelle du modèle

Afin de pouvoir entraîner des modèles basés sur 15 000 milliards de Tokens tout en atteignant les résultats souhaités par les chercheurs dans un délai raisonnable, Meta a complètement optimisé la stack de formation.


En relevant les défis ci-dessus, Meta a choisi de se concentrer sur des stratégies qui maintiennent le processus de développement de modèles évolutif et plus simple :

1. Les chercheurs ont choisiArchitecture de modèle de transformateur standard pour décodeur uniquementFaire de petits ajustements au lieu d’utiliser un modèle expert hybride MoE peut maximiser la stabilité de la formation.

2. Les chercheurs ont utiliséProcédure itérative post-formation , en utilisant un réglage fin supervisé et une optimisation directe des préférences à chaque tour. Cela permet au modèle de créer des données synthétiques de la plus haute qualité pour chaque cycle et d'améliorer les performances dans chaque fonctionnalité.

Par rapport aux modèles précédents de la série Llama, Meta améliore la quantité et la qualité des données utilisées pour la pré-formation et la post-formation.Ces améliorations comprennentDévelopper des pipelines de prétraitement et de gestion plus minutieux pour les données de pré-formation, développer une assurance qualité plus stricte et filtrer les méthodes pour les données de post-formation

Comme prévu par les lois de mise à l'échelle des grands modèles de langage, le nouveau modèle phare de Meta surpasse les modèles plus petits formés à l'aide de la même stratégie. Meta a également amélioré la qualité de formation de ses modèles plus petits en utilisant un modèle avec des paramètres 405B.

Dans le même temps, afin de prendre en charge l'inférence à grande échelle du modèle de paramètres 405B, les chercheurs ont quantifié le modèle de BF16 à FP8, réduisant ainsi efficacement les exigences informatiques requises et permettant au modèle de s'exécuter sur un seul nœud de serveur.

En termes d'instructions et de réglage fin du chat, les chercheurs ont généré le modèle final en effectuant plusieurs cycles d'alignement au-dessus du modèle pré-entraîné, chaque cycle impliquant un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et optimisation des préférences directes (DPO). La grande majorité des exemples SFT sont générés à l'aide de la génération de données synthétiques pour produire des données synthétiques de meilleure qualité pour toutes les fonctionnalités.

De plus, Meta utilise plusieurs techniques de traitement de données pour filtrer ces données synthétiques avec la plus haute qualité, ce qui permet aux nouveaux modèles d'affiner les volumes de données en fonction de l'évolutivité fonctionnelle.

Du côté des données, les chercheurs ont également soigneusement équilibré les données pour produire des modèles de haute qualité dotés de toutes les fonctionnalités. Par exemple, le maintien de la qualité du modèle sur des références de contexte courtes lui permet d'évoluer jusqu'à des longueurs de contexte de 128 000.

De plus, Meta a également annoncé le lancement d'une gamme globaleSystème lama . En plus de couvrir le modèle Llama, le système implique également une coordination de plusieurs composants et des appels d'outils externes pour aider les développeurs à développer des produits personnalisés plus puissants que le modèle de base.

Le système Llama couvrira une gamme de nouveaux composants, y compris de nouveauxoutils de sécurité Tels que Llama Guard 3 (modèle de sécurité multilingue) et Prompt Guard (filtre à injection instantanée). Pour connecter des composants disparates, Meta a également publié une demande de commentaires sur l'API Llama Stack, une interface standard permettant aux projets tiers d'exploiter plus facilement le modèle Llama.

Pour les développeurs ordinaires, utiliser des modèles à l’échelle 405B reste un défi, qui nécessite beaucoup de ressources informatiques et d’expertise.

Basé sur le système Llama, le développement de l'IA générative ne consiste pas seulement à inciter des modèles. Tout le monde devrait pouvoir utiliser le modèle 405B pour effectuer davantage de tâches, notamment le raisonnement en temps réel et par lots, le réglage fin supervisé, l'évaluation du modèle pour des applications spécifiques, en continu. pré-entraînement et génération améliorée par récupération (RAG), appels de fonctions, génération de données synthétiques, etc.

Il s'agit du plus grand modèle lancé par Meta à ce jour, et des tailles plus adaptées aux appareils, davantage de modes et des mises à jour au niveau de l'agent seront publiés à l'avenir.

trois,Modification explosive grand modèle 405BMéta IA, Assistant vocal intelligent Questmise à niveau

Désormais, plusieurs terminaux appartenant à Meta, tels queChatbot WhatsApp et Meta AIZhongdu a commencé à utiliser Llama 3.1 405B.


Meta AI prend actuellement en charge sept nouveaux langages. Cette fois, Meta lance un lot de nouveaux outils créatifs Meta AI, principalement axés sur des domaines tels que la génération visuelle, les mathématiques et le codage.

Premier aperçu de la génération visuelle, lancement de Meta AIFonction d'invite de génération d'images « Imagine Me », qui permet aux utilisateurs de taper « imaginez-moi » dans le chat Meta AI et d'ajouter des invites telles que « imaginez-moi en tant que royauté » ou « imaginez-moi dans une peinture surréaliste » pour générer des images et les partager avec vos amis et votre famille.


Meta AI sera en ligne"Modifier avec l'IA" fonctionnalité, les utilisateurs peuvent facilement ajouter ou supprimer des objets d'un simple clic de souris, ou les modifier et les éditer tout en gardant le reste de l'image inchangé, comme "Changer le chat en Corgi". Meta AI prendra également en charge l'ajout d'images nouvellement créées aux publications Facebook, ainsi que sur les plateformes sociales telles qu'Instagram, Messenger et WhatsApp.


En mathématiques et en programmation, les utilisateurs peuvent obtenir de l'aide pour leurs devoirs mathématiques avec des explications et des commentaires étape par étape, écrire du code plus rapidement grâce à l'assistance au débogage et aux suggestions d'optimisation, et maîtriser des concepts techniques et scientifiques complexes avec les conseils d'experts.


Les utilisateurs peuvent combiner l'expertise en codage de Meta AI et les capacités de génération d'images pour créer de nouveaux jeux à partir de zéro ou de nouvelles versions de jeux classiques. Cela ne prend que quelques minutes pour transformer vos idées fantastiques en réalité et même permettre aux utilisateurs de prévisualiser le jeu directement.

Il convient de mentionner que Meta AI convient également àLunettes intelligentes Ray-Ban Meta , et sera lancé en mode expérimental sur Meta Quest aux États-Unis et au Canada le mois prochain. Meta AI remplacera les commandes vocales actuelles sur Quest, permettant aux utilisateurs de contrôler le casque en mains libres, d'obtenir des réponses aux questions, de rester informés des informations en temps réel, de consulter la météo, et bien plus encore.

Les utilisateurs peuvent également utiliser Meta AI avec la vue qu'ils voient dans le casque, par exemple en leur posant des questions sur les choses qu'ils voient dans l'environnement physique.

4. Lettre ouverte de Zuckerberg : l'Open Source est meilleur pour les développeurs, Meta et le monde

La série Llama 3.1 vient de sortir et le long blog de Zuckerberg a été lancé en même temps sur le site officiel, rendant encore plus forte l'odeur de poudre à canon entre les modèles open source et fermés.


▲Capture d'écran d'une partie de la lettre ouverte de Zuckerberg

Au début, Zuckerberg a mentionné que l'écart entre les modèles open source et fermé se réduisait progressivement. L'année dernière, Llama 2 n'était qu'à égalité avec le modèle open source le plus avancé de la génération précédente. Cette année, le Llama 3 fait jeu égal avec les modèles les plus avancés et est en tête dans certains domaines.

À partir de l'année prochaine, il s'attend à ce que le modèle Llama soit le plus avancé de l'industrie. . Et les modèles actuels de la série Llama occupent déjà une position de leader en termes d'ouverture, de modifiabilité et de rentabilité.

Dans son blog, il a directement évoqué le modèle source fermée et a répondu à trois questions majeures : pourquoi l'IA open source est bonne pour les développeurs, pourquoi l'IA open source est bonne pour Meta et pourquoi l'IA open source est bonne pour le monde.

Premièrement, pourquoi l’IA open source est-elle bonne pour les développeurs ?

Il estime que les développeurs doivent former et affiner leurs propres modèles pour répondre à leurs besoins spécifiques ; les développeurs doivent contrôler leur propre destin plutôt que d'être liés à un fournisseur fermé ; les développeurs doivent protéger leurs propres données ; modèle peu coûteux à exploiter ; les développeurs souhaitent investir dans un écosystème qui deviendra la norme à long terme.

L'avantage de l'IA open source pour Meta est que le modèle commercial de Meta est de créer les meilleures expériences et services pour les gens. Pour ce faire, il estime qu'il doit garantir qu'il a toujours accès à la meilleure technologie et ne tombe pas dans le fermé. écosystème de concurrents.

Dans le même temps, l’IA open source encouragera Meta à développer Llama en un écosystème complet ayant le potentiel de devenir un standard de l’industrie.

Il a également mentionné que l'une des principales différences entre Meta et les acteurs du modèle à source fermée est que la vente de l'accès aux modèles d'IA ne fait pas partie du modèle commercial de Meta, ce qui signifie que l'open source ne réduira pas ses revenus, sa durabilité ou son investissement continu dans la capacité de recherche. .

Enfin, Meta a une longue histoire de projets open source et de succès.

Sur le débat sur la sécurité des modèles d'IA open source, Zuckerberg a ceci à direL'IA open source sera plus sûre que les autres options . Il estime que l'open source garantira qu'un plus grand nombre de personnes dans le monde puissent profiter des avantages et des opportunités offertes par l'IA, que le pouvoir ne soit pas concentré entre les mains de quelques entreprises et que la technologie puisse être appliquée de manière plus uniforme et plus sûre dans l'ensemble de la société.

Conclusion : Meta a fait un autre pas et le débat sur les sources ouvertes et fermées des grands modèles a changé.

La bataille entre les grands modèles open source et fermés continue...

Depuis la sortie de la série de modèles Meta Llama 3.1, on peut constater que l'écart entre les grands modèles open source et fermés se réduit, et il existe une forte tendance à suivre le rythme et à se rattraper. . En tant que fidèle partisan du camp des grands modèles open source et pionnier de l'innovation technologique, Meta est déterminé à construire son propre écosystème open source depuis la sortie de la série de modèles Llama. Dans le même temps, par rapport au modèle Llama précédent, Meta constituera également une équipe interne pour cette nouvelle version du modèle afin de permettre au plus grand nombre de développeurs et de partenaires possible d'utiliser la série Llama.

Meta a pris une autre décision, rendant la conclusion du débat sur les modèles open source et fermé encore plus confuse. Mais en dernière analyse, dans les applications réelles, de nombreuses entreprises et développeurs choisiront d'utiliser des modèles open source ou fermés en fonction de besoins et de situations spécifiques. Il faudra donc du temps pour prouver les capacités spécifiques du modèle et sa réalité applicable. scénarios de vie.