Llama 3.1 a fuité à l'avance, faisant tomber GPT-4o de son trône ? Plus rapide et 10 fois moins cher

Llama 3.1 a fuité à l'avance, faisant tomber GPT-4o de son trône ?Plus rapide et 10 fois moins cher

2024-07-24

Texte Chang Minxiao et Yuan Yingliang

Éditeur｜Anita Tang

Si le destin du grand modèle de Llama est de devenir le plafond des modèles open source, alors "être tragiquement divulgué" est le désastre que Llama doit surmonter.

En mars 2023, Llama 2 a fait l'objet d'une fuite anticipée et Meta a dû publier le modèle en open source.

Aujourd’hui, l’histoire se répète.

Le 12 juillet, heure du Pacifique, un employé de Meta a révélé que Meta prévoyait de publier la version à plus grande échelle de paramètres de Llama à ce jour : Llama 3.1 405B le 23 juillet 2024, heure locale. Il a révélé que le 405B sera le premier modèle multimodal de la série Llama.

Cependant, le 22 juillet, heure du Pacifique, un jour avant la sortie prévue, les résultats du modèle et du benchmark de Llama 3.1 ont été divulgués sur des communautés techniques telles que Reddit, et le lien magnétique de Llama 3.1 (un programme utilisé pour télécharger des documents) a été divulgué. été diffusé dans des communautés telles que HuggingFace.

À en juger par les résultats divulgués,Les performances de Llama 3.1 sont comparables à celles du GPT-4o d’OpenAI !

Certains blogueurs sur l'IA ont salué le fait que la sortie de Llama 3.1 sera un autre jour qui changera le destin du monde de l'IA :

△Source : X

Les résultats de référence divulgués montrent que Llama 3.1 a trois tailles : 8B, 70B et 405B. Le modèle 70B avec le plus petit nombre de paramètres a des performances comparables au GPT-4o à bien des égards.

△L'image ci-dessus montre la comparaison entre chaque version de Llama 3.1 et OpenAI GPT-4o et Llama 3 8B/70B Parmi elles, la version 70B, qui se situe au milieu de l'échelle, surpasse également GPT-4o à bien des égards. Source de l'image : utilisateur X @mattshumer_

Certains internautes ont souligné que si l'on se base sur ce benchmark, Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B deviendra le premier modèle léger et GPT-4o mini capable de vaincre OpenAI.

△Source de l'image : utilisateur X @corbtt

Cependant, de nombreux internautes qui ont téléchargé le modèle destiné aux « early adopters » ont découvert que la version divulguée de Llama 3.1 405B a une taille de fichier d'environ 820 Go, nécessitant près de trois fois la mémoire de Llama 2 (environ 280 Go) qui conserve toute sa précision.

Cela signifie qu'à moins que vous n'ayez une mine à la maison et que vous puissiez vous permettre suffisamment de GPU, il sera difficile pour les développeurs individuels d'exécuter Llama 3.1 sur leurs propres ordinateurs. Certains internautes pensent que Llama 3.1 n'est pas destiné aux individus, mais aux institutions et aux entreprises.

Llama 3.1, qui n'a pas encore été officiellement annoncé, a également été aspergé d'eau froide. De nombreux internautes se sont plaints : Llama 3.1 a des exigences trop élevées en matière de GPU et n'est pas aussi performant que le GPT-4o mini d'OpenAI voisin.

△Commentaires des internautes sur X. Source de l'image : utilisateur X @_Talesh

Itération des fonctions, optimisation des indicateurs et réduction des ressources informatiques

Selon les informations divulguées sur le modèle, Llama 3.1 a plus d'itérations de fonctionnalités que Llama 3, qui sera publié le 19 avril 2024, y compris des fenêtres contextuelles plus longues, des entrées et sorties multilingues et une intégration possible d'outils de développement et tiers.

Formation aux données : Llama 3.1 a été formé à l'aide de plus de 15 T de jetons provenant de sources publiques. Les données de réglage fin incluent des ensembles de données de réglage des instructions accessibles au public (contrairement à Llama-3 !) et plus de 25 millions d'exemples générés synthétiquement. Dialogue multilingue : Llama 3.1 prend en charge 8 langues : anglais, allemand, français, italien, portugais, hindi, espagnol et thaï. Bien que malheureusement non disponible en chinois, les développeurs peuvent affiner les modèles Llama 3.1 pour des langues autres que les 8 langues prises en charge. Fenêtre contextuelle : la longueur du contexte de chaque version est étendue de 8 ko à 128 ko, ce qui équivaut à peu près à ce que le modèle soit capable de mémoriser, comprendre et traiter 96 000 mots à la fois, soit presque l'intégralité d'un "Harry Potter" original.

De nombreux internautes sont impatients de l'essayer et de laisser Llama 3.1 rivaliser avec les "prédécesseurs" du modèle. Ils constatent que non seulement les indicateurs ont été considérablement améliorés, mais que les ressources informatiques ont également été considérablement économisées.

Sur la base des tests effectués par les internautes, par rapport à Llama 3, les capacités de Llama 3.1 ont été considérablement améliorées. Parmi eux, human_eval et truefulqa_mc1 ont fait des progrès significatifs, ce qui signifie que la capacité à générer du code de programmation est plus forte et que les réponses aux questions sont plus authentiques.

Dans le même temps, par rapport au modèle de base, le modèle d'instruction de Llama 3 a considérablement amélioré des indicateurs tels que l'apprentissage rapide, l'apprentissage contextuel et le réglage précis des paramètres.

Cela est raisonnable car le modèle de base n'est généralement pas adapté à une tâche spécifique, tandis que le modèle d'instruction est spécialement formé pour suivre des instructions ou effectuer des tâches spécifiques. En général, les indicateurs du modèle Instruct fonctionnent mieux.

Cela rend les gens encore plus impatients de la sortie officielle de Llama3.1. Les résultats des tests du modèle Llama3.1 actuellement divulgués concernent uniquement le modèle de base, tandis que le modèle d'instruction peut fonctionner mieux !

△Source de l'image : utilisateur X @thenameless7741

Étonnamment, dans les résultats des tests de référence, le modèle Llama 3.1 70B a égalé ou même battu GPT-4o, tandis que le modèle Llama 3.1 8B était proche des performances du modèle Llama 3 70B. Certains internautes ont émis l'hypothèse que cela aurait pu utiliser la technologie de distillation des modèles, c'est-à-dire que les modèles 8B et 70B ont été simplifiés à partir du plus grand modèle de 405B, rendant les grands modèles « plus petits ».

La technologie de distillation modèle peut être considérée comme un élève apprenant auprès d’un enseignant. Le modèle grand et puissant (le modèle de l’enseignant) est l’enseignant, et le modèle plus petit et plus simple (le modèle de l’étudiant) est l’étudiant. Le modèle étudiant apprend en « imitant » le modèle enseignant, rendant le résultat aussi proche que possible du résultat du modèle enseignant, acquérant ainsi des connaissances et des capacités similaires.

Le modèle étudiant formé par distillation peut réduire la taille du modèle et les besoins en ressources informatiques tout en conservant des performances élevées et une précision considérable.

△Source : Reddit

Tout le monde ne peut pas l'utiliser, mais le prix est raisonnable.

On ne sait toujours pas si Llama 3.1 sera open source comme prévu. Mais même s’il est open source, si vous voulez pouvoir utiliser Llama 3.1, vous devez quand même avoir une mine chez vous.

Si vous souhaitez exécuter Llama 3.1, le ticket d’entrée le plus basique est un GPU suffisant.

Des documents divulgués montrent que le temps de formation de Llama 3.1 405B sur du matériel de type H100-80GB est de 30,84 millions d'heures GPU. Cela signifie que, en supposant qu'un seul H100-80GB soit utilisé par heure, il faudra 30,84 millions d'heures pour exécuter Llama 3.1 405B - il faudra 3 500 ans avant que le modèle soit opérationnel !

△Source : Reddit

Si vous souhaitez déployer en privé, si l'entreprise souhaite exécuter avec succès Llama 3.1 405B d'ici un mois, elle doit réserver au moins 43 000 H100-80 Go. Calculé sur la base du prix unitaire H100 de 40 000 $ US,En utilisant les tickets de puissance de calcul Llama 3.1 405B, le prix atteint 1,7 milliard de dollars américains, soit l'équivalent de 12,5 milliards de yuans.

Mais la bonne nouvelle est que le coût d’inférence de Llama 3.1 pourrait être moins cher.

Selon Artificial Analysis, le coût nécessaire pour produire 1 million de jetons, Llama 3.1 405B sera moins cher et plus rentable que les modèles de pointe de qualité similaire (GPT-4o et Claude 3.5 Sonnet).

△Source de l'image : utilisateur X @ArtificialAnlys

De plus, certains internautes ont spéculé à travers le code du fichier source que Llama 3.1 405B pourrait devenir un produit d'adhésion et que les utilisateurs doivent payer pour l'utiliser. Cependant, nous devons encore attendre la publication officielle quant à la situation réelle.

△Source de l'image : utilisateur X @testingcatalog

(L'auteur de 36Kr Zhou Xinyu a également contribué à cet article)

Bienvenue à communiquer

nouvelles

Llama 3.1 a fuité à l'avance, faisant tomber GPT-4o de son trône ?Plus rapide et 10 fois moins cher

Introduction

mes coordonnées