nouvelles

Le modèle open source surpasse le modèle source fermé le plus puissant. Llama 3.1 peut-il renverser l'écosystème de l'IA ? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Zuckerberg s'engage à poursuivre l'open source jusqu'au bout.

Auteur|Sukhoi

Éditeur|Zhao Jian

Llama 3.1 est enfin là.

Le 23 juillet, heure locale des États-Unis, Meta a officiellement publié Llama 3.1. Il comprend trois tailles : 8B, 70B et 405B, et le contexte maximum est porté à 128k. Llama est actuellement l'une des grandes séries de modèles avec le plus d'utilisateurs et les performances les plus puissantes dans le domaine de l'open source.

Les points principaux de ce Lama 3.1 sont :

1. Il existe trois versions : 8B, 70B et 405B, dont la version 405B est actuellement l'un des plus grands modèles open source ; 2. Le modèle comporte 405 milliards de paramètres, dépassant les meilleurs modèles d'IA existants en termes de performances ; 3. Le modèle introduit ; Une fenêtre contextuelle plus longue (jusqu'à 128 000 jetons), capable de gérer des tâches et des conversations plus complexes ; 4. Prend en charge l'entrée et la sortie multilingues, améliorant la polyvalence et l'applicabilité du modèle. 5. Des capacités de raisonnement améliorées, particulièrement remarquables pour la résolution ; problèmes mathématiques complexes et génération de contenu à la volée.

Meta a écrit sur son blog officiel : « Aujourd'hui, il est encore normal que les performances des grands modèles de langage open source soient à la traîne par rapport aux modèles fermés. Mais maintenant, nous inaugurons une nouvelle ère dirigée par l'open source. Notre version publique de Meta Llama 3.1 405B est le premier modèle de base open source au monde le plus grand et le plus puissant sur le Web, avec plus de 300 millions de téléchargements cumulés de toutes les versions de Llama à ce jour, ce n'est que le début.

Le débat entre open source et source fermée a toujours été un sujet brûlant dans le domaine technologique.

Les logiciels open source sont plus transparents et flexibles, permettant aux développeurs du monde entier de réviser, modifier et améliorer conjointement le code, favorisant ainsi une innovation et des progrès technologiques rapides. Les modèles fermés sont généralement développés et maintenus par une seule entreprise ou organisation, qui peut fournir une assistance et des services professionnels pour garantir la sécurité et la stabilité du logiciel. Mais ce modèle limite également les capacités de contrôle et de personnalisation des utilisateurs.

Jusqu’à présent, le modèle fermé a toujours été légèrement meilleur. Jusqu'à la sortie de Llama 3.1, le débat acharné sur l'open source et le fermé a été marqué : le modèle open source peut enfin rivaliser avec le modèle fermé.

Selon les données de référence fournies par Meta, la version 405B la plus populaire est déjà comparable à GPT-4 et Claude 3 en termes de performances. Parmi eux, l'évaluation humaine est principalement utilisée pour évaluer la capacité du modèle à comprendre et générer du code et à résoudre des problèmes de logique abstraite. En concurrence avec d'autres gros modèles, le Llama 3.1 405B apparaît légèrement meilleur.


Llama 3.1 est à égalité avec GPT-4 et Claude 3.5 Source : Meta.

Andrew Ng, professeur agrégé d'informatique et de génie électrique et directeur du laboratoire d'intelligence artificielle de l'université de Stanford, a félicité « les équipes Meta et Llama pour leur formidable contribution à l'open source » sur les réseaux sociaux. "Avec sa longueur de contexte accrue et ses fonctionnalités améliorées, Llama 3.1 est un cadeau fantastique pour tout le monde", a-t-il déclaré, espérant que "des réglementations idiotes comme le SB1047 proposé par la Californie n'empêcheront pas une telle innovation".


Réseaux sociaux de Ng Enda, source : X

Yann LeCun, lauréat du prix Turing et scientifique en chef de l'intelligence artificielle chez Meta, a cité la description des performances de Llama 3.1 par The Verge. Meta a publié le plus grand et le meilleur modèle d'intelligence artificielle open source à ce jour : Llama 3.1 fonctionne bien sur certains tests de référence. Lors des tests, il a surpassé OpenAI et autres concurrents.


Réseaux sociaux de Yang Likun, source : X

Il est intéressant de noter que la version 405B de Llama 3.1 a été soupçonnée d'avoir été « volée » sur HugginFace et GitHub hier. Les données d'évaluation envoyées par le lanceur d'alerte sont fondamentalement cohérentes avec les informations de version officiellement publiées aujourd'hui.

Mark Zuckerberg, fondateur et PDG de Meta, a personnellement écrit un long article intitulé « L'IA Open Source est la voie à suivre », détaillant les avantages de l'open source pour les développeurs et pour Meta et pourquoi cela est important à l'échelle mondiale.

Il prédit que d’ici la fin de cette année, Meta AI dépassera ChatGPT en tant qu’assistant le plus utilisé.

Il a aussi dit:Vœu de mener l'open source jusqu'au bout.


Tranche d'article de "L'IA Open Source est la voie à suivre", source Meta

1.La réalisation de Llama 3.1

En termes d'architecture de modèle, en tant que plus grand modèle Meta à ce jour, Llama 3.1 est formé sur des données de plus de 15 000 milliards de jetons, et les données de pré-formation sont disponibles jusqu'en décembre 2023.

Afin de mettre en œuvre une formation à si grande échelle dans un délai raisonnable et d'obtenir les résultats souhaités, Meta a optimisé l'ensemble de la pile de formation, en utilisant plus de 16 000 blocs de H100, qui est le premier modèle Llama formé à cette échelle.


Architecture du modèle de transformateur dans le processus de génération de texte Llama 3.1, source : Meta

Afin de maximiser la stabilité et la commodité de la formation, Meta a choisi l'architecture de modèle Transformer standard réservée au décodeur pour le réglage fin, au lieu de l'architecture de modèle expert mixte (MoE) actuellement populaire.

Cette décision permet à Llama 3.1 de toujours garantir une sortie de haute qualité de texte court tout en prenant en charge des longueurs de contexte allant jusqu'à 128 Ko, permettant un traitement flexible de texte long et court, plutôt que de se concentrer uniquement sur du texte long.

Dans le même temps, l’équipe de recherche a mis en œuvre une méthode itérative de post-formation pour générer des données synthétiques de haute qualité et améliorer les différentes fonctions du modèle à travers chaque cycle de réglage fin supervisé et d’optimisation directe des préférences. Par rapport aux versions précédentes, Llama 3.1 augmente la quantité et la qualité des données pré-formation et post-formation, introduit des processus de pré-traitement et de gestion plus détaillés, ainsi que des technologies d'assurance qualité et de filtrage plus strictes.

Selon la loi d'expansion des modèles de langage, Llama 3.1 surpasse les petits modèles précédents en utilisant la même procédure de formation en termes de performances.

Afin de répondre aux exigences de fonctionnement des modèles 405B à grande échelle, Meta a quantifié les données du modèle de 16 bits (BF16) à 8 bits (FP8), ce qui a considérablement réduit la demande en ressources informatiques et a permis au modèle de fonctionner sur un seul nœud de serveur.

En termes de réglage fin des commandes et du chat du modèle Llama 3.1 405B, l'équipe de développement s'engage à améliorer la réactivité, la praticité et la qualité des commandes utilisateur du modèle tout en assurant un haut degré de sécurité.

Au cours de la phase post-formation, l'équipe a procédé à plusieurs séries d'ajustements sur la base de la pré-formation. Chaque cycle comprend un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation des préférences directes (DPO).De plus, l'équipe a utilisé la génération de données synthétiques pour générer la grande majorité des exemples SFT, ce qui signifie qu'elle ne s'est pas appuyée uniquement sur des données du monde réel, mais plutôt sur des données générées par des algorithmes pour entraîner le modèle.

Dans le même temps, l'équipe utilise également diverses méthodes de traitement des données pour filtrer ces données afin de garantir la plus haute qualité et d'élargir la gamme d'applications de données affinées.

Meta explore également une nouvelle stratégie, qui consiste à utiliser le modèle 405B comme « modèle pédagogique » pour les modèles 70B et 8B, extrayant ainsi de petits modèles personnalisés à partir de grands modèles répondant aux besoins de diverses industries. Cette approche coïncide avec la stratégie de GPT-4o mini.Autrement dit, « faites-le grand d'abord, puis faites-le petit »

Andrej Karpathy, l'un des anciens membres fondateurs d'OpenAI, a un jour commenté GPT-4o Mini : "Le modèle doit d'abord devenir plus grand avant de pouvoir devenir plus petit. Parce que nous avons besoin d'eux pour aider (automatiquement) à reconstruire les données d'entraînement pour les rendre idéales, format synthétique." Il a souligné que cette méthode peut transférer efficacement la profondeur et l'étendue des connaissances des grands modèles vers des modèles plus petits, plus pratiques et moins coûteux.

En tant que leader dans le domaine des modèles open source, Meta a également fait preuve de sincérité dans la prise en charge des installations pour le modèle Llama.

Le système Llama est conçu comme un framework complet pouvant intégrer plusieurs composants, y compris l'appel d'outils externes. L'objectif de Meta est de fournir un système plus large permettant aux développeurs de concevoir et de créer de manière flexible des produits personnalisés répondant à leurs besoins.

Pour faire évoluer l'IA de manière responsable au-delà de la couche modèle, l'équipe de recherche a publié un système de référence complet avec plusieurs exemples d'applications et de nouveaux composants, tels que le modèle de sécurité multilingue Llama Guard 3 et le filtre d'injection rapide Prompt Guard. Ces applications sont open source et disponibles pour un développement ultérieur par la communauté.

Pour mieux définir les interfaces des composants et promouvoir leur standardisation dans l'industrie, les chercheurs ont collaboré avec l'industrie, les startups et la communauté au sens large et ont publié la proposition « Llama Stack » sur GitHub. Il s'agit d'un ensemble d'interfaces standardisées qui simplifient la construction de composants de chaîne d'outils (tels que le réglage fin, la génération de données synthétiques) et d'applications d'agent.

Selon les données du test de référence fournies par Meta, Llama 3.1 405B a obtenu un score de 98,1 au test de référence NIH/Multi-needle, ce qui est comparable à GPT-4 et Claude 3,5 en termes de scores de performance. La version 405B a une excellente capacité à intégrer des informations textuelles massives et a obtenu un score de 95,2 au test de référence ZeroSCROLLS/QuALITY. Elle est très conviviale pour les développeurs d'applications d'IA soucieux des performances de RAG.


Llama 3.1 comparé aux modèles fermés tels que GPT4, source : Meta


Llama 3.1 comparé aux modèles open source tels que Mistral 7B Instruct, source : Meta

La version Llama 3.1 8B est nettement meilleure que Gemma 2 9B 1T et Mistral 7B Instruct, et ses performances ont été considérablement améliorées par rapport à la génération précédente Llama 3 8B. Dans le même temps, la version Llama 3.1 70B a même dépassé le GPT-3.5 Turbo.

Selon le rapport officiel de l'équipe Llama, ils ont procédé à une évaluation approfondie des performances et à des tests manuels approfondis de ces modèles sur plus de 150 ensembles de données de référence multilingues. Les résultats montrent que le modèle haut de gamme de Llama est comparable aux meilleurs modèles de base du marché tels que le GPT-4, le GPT-4o et le Claude 3.5 Sonnet sur diverses tâches. Dans le même temps, par rapport aux modèles fermés et open source avec des échelles de paramètres similaires, la petite version de Llama a également fait preuve d'une forte compétitivité.


2.Le débat entre les modèles open source et fermé

Le modèle open source peut-il surpasser le modèle fermé ?

Cette question est controversée depuis l'année dernière. Les voies de développement des deux modèles représentent des philosophies techniques différentes, et chacune a ses propres mérites pour promouvoir le progrès technologique et répondre aux besoins des entreprises.

Par exemple, Llama 3.1 est un grand modèle open source qui permet aux chercheurs et aux développeurs d'accéder à son code source, et les utilisateurs peuvent librement étudier, modifier et même améliorer le modèle. Cette ouverture encourage une large collaboration et l'innovation, permettant aux développeurs d'horizons divers de travailler ensemble pour résoudre des problèmes.

En revanche, ChatGPT est un modèle à source fermée développé par OpenAI. Bien qu'il fournisse un accès API, son algorithme de base et ses données de formation ne sont pas entièrement divulgués. La nature fermée de GPT-3 le rend plus robuste sur le chemin de la commercialisation. Dans le même temps, sa contrôlabilité garantit la stabilité et la sécurité du produit, le rendant plus fiable pour les entreprises lors du traitement d'informations sensibles. Cependant, cette fermeture limite également la capacité des chercheurs externes à comprendre pleinement et à innover le modèle.

En mai de l'année dernière, des médias étrangers ont rapporté que Google avait divulgué un document ayant pour thème : "Nous n'avons pas de fossé, et OpenAI non plus. Pendant que nous discutons encore, l'open source a discrètement volé nos emplois." Après que Meta ait publié le grand modèle open source Llama 2 la même année, Yang Likun a déclaré que Llama 2 changerait la structure du marché des grands modèles linguistiques.

Les gens attendent avec impatience la communauté open source dirigée par la série de modèles Llama. Auparavant, le modèle source fermé le plus avancé, GPT-4, était toujours légèrement meilleur, même si l'écart entre Llama 3 à cette époque était déjà très faible.

La liste la plus fiable dans le domaine des grands modèles est la Large Model Arena (LLM Arena), qui a adopté le système de points ELO des échecs. Sa règle de base est de permettre aux utilisateurs de poser n'importe quelle question à deux modèles anonymes (par exemple ChatGPT, Claude, Llama) et de voter pour celui qui a la meilleure réponse. Les modèles ayant de meilleures réponses recevront des points et le classement final est déterminé par les points accumulés. Arean ELO a collecté les données de vote de 500 000 personnes.


Un aperçu des classements des grands modèles, source : LLM Arena

Au classement LLM Arena, le GPT-4o d’OpenAI occupe actuellement la première place. Les dix meilleurs modèles sont tous de source fermée. Bien que le modèle à source fermée soit encore loin en tête du classement, l'écart entre les modèles open source et les modèles à source fermée ne se creuse pas comme l'a déclaré Robin Li lors de la Baidu AI Developer Conference 2024, mais se réduit en fait progressivement.


Lors du WAIC, Robin Li a déclaré : « L'open source est en fait une sorte de taxe sur le QI. »Source : Baidu

Avec la sortie de Llama 3.1 aujourd'hui, le modèle open source peut enfin rivaliser avec le modèle fermé.

Quant à savoir quel modèle open source ou fermé est le meilleur, « Jiazi Guangnian » a discuté avec de nombreux praticiens de l'industrie de l'IA. L’industrie estime généralement que :Cela dépend souvent de la position personnelle de chacun et n’est pas une simple question en noir et blanc.

La question de l’open source et du fermé n’est pas seulement une différence technique, mais plutôt une question de choix de modèle économique. À l'heure actuelle, qu'il s'agisse d'un grand modèle open source ou fermé, aucun modèle commercial totalement réussi n'a encore été trouvé.

Alors, quels facteurs influencent les différences de capacités entre les modèles open source et fermés ?

Zhang Junlin, responsable de la recherche et du développement des nouvelles technologies chez Weibo, a souligné que le taux de croissance des capacités des modèles est un facteur clé. Si la capacité du modèle augmente rapidement, cela signifie qu'une grande quantité de ressources informatiques est nécessaire dans un court laps de temps. Dans ce cas, le modèle fermé présente plus d'avantages en raison de ses avantages en termes de ressources. Au contraire, si les capacités des modèles augmentent lentement, l’écart entre l’open source et le fermé diminuera et le rythme de rattrapage s’accélérera.

Il estime qu'au cours des prochaines années, la différence de capacités entre les modèles open source et fermés dépendra du développement de la technologie des « données synthétiques ». Si la technologie des « données synthétiques » fait des progrès significatifs au cours des deux prochaines années, l’écart entre les deux pourrait se creuser ; s’il n’y a pas de percée, les capacités des deux auront tendance à être similaires.

Dans l’ensemble, les « données synthétiques » deviendront à l’avenir une technologie clé pour le développement de grands modèles de langage.

L'open source ou la source fermée ne détermine pas en soi les performances du modèle. Les modèles fermés ne sont pas en tête parce qu'ils sont fermés, et les modèles open source ne sont pas à la traîne parce qu'ils sont open source. Même au contraire, le modèle choisit le source fermée parce qu'il est leader, et il doit choisir l'open source parce qu'il n'est pas assez leader.

Si une entreprise crée un modèle très performant, il se peut qu'il ne soit plus open source.

Par exemple, la startup star française Mistral, son modèle open source 7B le plus puissant Mistral-7B et le premier modèle open source MoE 8x7B (MMLU 70) sont l'un des modèles les plus populaires de la communauté open source. Cependant, Mistral-Medium (MMLU-75) et Mistral-Large (MMLU-81) formés ultérieurement par Mistral sont tous deux des modèles à source fermée.

Actuellement, le modèle open source le plus performant et le modèle open source sont tous deux dominés par les grandes entreprises, et parmi les grandes entreprises, Meta a la plus grande détermination open source.Si OpenAI n'est pas open source en raison de retours commerciaux, alors quel est le but de Meta choisissant d'être open source et de permettre aux utilisateurs de l'essayer gratuitement ?

Lors du rapport financier du dernier trimestre, la réponse de Zuckerberg à cette question était que l'open source de Meta pour sa technologie d'IA visait à promouvoir l'innovation technologique, à améliorer la qualité des modèles, à établir des normes industrielles, à attirer des talents, à accroître la transparence et à soutenir la réflexion sur les stratégies à long terme.

Cette fois, Zuckerberg a expliqué en détail « pourquoi l'IA open source est bonne pour les développeurs » dans « Open Source AI Is the Path Forward » :

Lors de conversations avec des développeurs, des PDG et des représentants gouvernementaux du monde entier, je les entends souvent souligner la nécessité de former, d'affiner et d'optimiser leurs propres modèles.

Chaque organisation a des besoins uniques, et des modèles de différentes tailles peuvent être optimisés pour ces besoins, formés ou affinés avec des données spécifiques. Les tâches simples sur l'appareil et les tâches de classification peuvent nécessiter des modèles plus petits, tandis que les tâches plus complexes nécessitent des modèles plus grands.

Vous pouvez désormais utiliser des modèles de lamas de pointe et continuer à les entraîner avec vos propres données, puis les optimiser à votre échelle idéale, sans que nous ni personne d'autre n'ayons jamais accès à vos données.

Nous devons contrôler notre propre destin et ne pas être redevables à un fournisseur fermé.

De nombreuses organisations ne veulent pas s’appuyer sur un modèle qu’elles ne peuvent pas gérer et contrôler elles-mêmes. Ils craignent que les fournisseurs de modèles à code source fermé modifient le modèle, les conditions d'utilisation, voire interrompent complètement les services. Ils ne veulent pas non plus être enfermés dans une seule plateforme cloud disposant de droits exclusifs sur un certain modèle. L'open source offre à de nombreuses entreprises une chaîne d'outils compatibles, facilitant la commutation entre différents systèmes.

Nous devons protéger nos données.

De nombreuses organisations gèrent des données sensibles et doivent protéger ces données contre leur envoi via des API cloud vers des modèles à source fermée. D'autres organisations ne font tout simplement pas confiance à l'approche des fournisseurs de modèles fermés en matière de traitement des données. L'open source résout ces problèmes en vous permettant d'exécuter des modèles où vous le souhaitez et est largement considéré comme plus sécurisé en raison de la transparence du processus de développement.

Nous avons besoin d’un mode de fonctionnement efficace et économique.

Les développeurs peuvent exécuter des modèles Llama 3.1 405B à des fins d'inférence sur leur propre infrastructure pour environ la moitié du coût d'utilisation de modèles à source fermée tels que GPT-4o, adaptés aux tâches d'inférence face à l'utilisateur et hors ligne.

Nous misons sur un écosystème qui promet de devenir la norme à long terme.

De nombreuses personnes voient les modèles open source évoluer plus rapidement que les modèles fermés et espèrent que l’architecture système qu’ils construisent apportera les plus grands avantages à long terme.

(Image de couverture du compte Meta X)