nouvelles

Le lien magnétique de Llama 3.1 a été divulgué plus tôt que prévu !Le trône du modèle open source a changé de mains du jour au lendemain, GPT-4o a été dépassé

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse] Llama 3.1 a encore été divulgué à l'avance ! La communauté des développeurs est à nouveau en effervescence : le plus grand modèle est le 405B, les modèles 8B et 70B sont également mis à niveau en même temps et la taille du modèle est d'environ 820 Go. Les résultats des tests de référence sont étonnants et le lien magnétique circule énormément sur l’ensemble du réseau.

L'histoire se répète encore, Llama 3.1 405B a fuité d'avance !

Aujourd’hui, la rumeur s’est répandue concernant les benchmarks et les liens magnétiques.


En plus du plus grand 405B, Meta a également mis à niveau les modèles 8B et 70B sortis début mai cette fois-ci et a augmenté la longueur du contexte à 128K.

À ce stade, la version modèle a été officiellement itérée de Llama 3 à Llama 3.1.


Selon les informations fournies par Magnet Link, la nouvelle taille du modèle est de 763,48 Go (environ 820 Go).


Il ressort du "test de référence" divulgué que même le petit modèle 8B est capable de jouer, tandis que les performances du modèle 70B peuvent rattraper le GPT-4o sur plusieurs benchmarks.


Les développeurs étaient furieux après avoir vu les résultats des tests, Aidan McLau, PDG de Topology, s'est exclamé :

Si les critères du Llama 3-405B étaient vrais, ce serait

- Devenez le meilleur mannequin du monde

- Ajustable pour tout le monde

- Moins cher que GPT-4o !


Matt Schumer, PDG d'HyperWriteAI, prédit : Il deviendra certainement le SOTA dans le modèle open source. (Même le 70B peut rivaliser avec le GPT-4o, sans compter que c'est avant le réglage fin des instructions.)

Imaginez un modèle de niveau GPT-4o fonctionnant à 330 jetons par seconde et 10 fois moins cher. Cela est si excitant.

Demain va être une journée folle !


Et les paroles de Xiao Zha faisaient allusion à l'arrivée du 405B - ​​​​le moment calme avant la semaine fatidique.


De nombreux internautes demandent à OpenAI en ligne : quand le nouveau modèle sortira-t-il ?

Famille Llama 3.1, lancée demain

Selon la carte modèle divulguée, Llama 3.1 sortira le 23.

Les licences sont « Licence commerciale personnalisée » et « Licence communautaire Llama 3.1 ».


Carte modèle divulguée : https://pastebin.com/9jGkYbXY

Plus précisément, la série multilingue de grands modèles Llama 3.1 est un ensemble de modèles génératifs pré-entraînés et réglés avec précision, comprenant trois tailles de paramètres de 8B, 70B et 405B.

Modèles Llama 3.1 en mode texte uniquement (8B, 70B, 405B) après réglage fin des instructions, optimisés pour les cas d'utilisation de conversations multilingues.


En plus de l'anglais, il peut prendre en charge 7 langues, dont l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï.

Selon les rapports, les nouvelles fonctionnalités de Llama 3.1 incluent un contexte plus long, la prise en charge des entrées et sorties multilingues et l'intégration des développeurs avec des outils tiers.

Repères

Un graphique de référence sur GitHub (maintenant 404) montre les excellentes performances de Llama 3.1 dans le test de référence.

Plus précisément, dans l'évaluation de référence du modèle de pré-formation de référence, Llama 3.1 405B a établi les derniers records en matière de tâches générales, de raisonnement des connaissances et de compréhension en lecture.

Surtout sur les benchmarks des subdivisions MMLU et SQuAD, l’amélioration est la plus évidente.

Dans le même temps, les versions de paramètres Llama 3.1 8B et 70B ont été légèrement améliorées par rapport à Llama 3. Cependant, selon certains indicateurs, le 70B Llama 3.1 n'est pas aussi bon que la génération précédente.


De plus, dans le modèle de réglage fin des instructions, on peut voir que Llama 3.1 405B est plus fort que le modèle pré-entraîné. En raisonnement, codage, mathématiques, utilisation d'outils et tests multilingues, ils ont écrasé les versions 8B et 70B affinées.

Les modèles perfectionnés Llama 3.1 8B et 70B ont également considérablement amélioré les performances dans de multiples tâches à capacités.


Certains internautes ont compilé les benchmarks d'autres modèles phares. A travers une comparaison, on constate que le Claude 3.5 Sonnet est le roi de tous les benchmarks.

La version affinée Llama 3.1 405B est la meilleure sur le benchmark mathématique MMLU Pro uniquement, battant tous les grands modèles avec un score de 73,3 %.

De plus, 405B est à égalité avec GPT-4o sur les critères de GPQA (Graduate Level Professional Knowledge and Reasoning), Mathematics, DROP (Reading Comprehension), MGSM (Multilingual Mathematics), HumanEval (Programmation) et BBH (Knowledge Assessment). .

De plus, le 405B est nettement en avance sur le dernier mini modèle GPT-4o.


Llama 3.1 est un modèle de langage autorégressif utilisant une architecture Transformer optimisée. La version ajustée utilise SFT et RLHF pour correspondre aux préférences humaines en matière de sécurité.

Pour les modèles de la série Llama 3.1, le nombre de jetons se réfère uniquement aux données de pré-entraînement.

Toutes les versions du modèle utilisent Grouped Query Attention (GQA) pour améliorer l'évolutivité de l'inférence.

Données de formation du jeton 15T

Comme Llama 3, Llama 3.1 est pré-entraîné sur environ 15 000 milliards de jetons provenant de sources accessibles au public.

Les données de réglage fin incluent des ensembles de données d'instructions accessibles au public, ainsi que plus de 25 millions d'échantillons synthétiques, et les données de pré-entraînement sont disponibles jusqu'en décembre 2023.



Disponible pour la recherche commerciale

Llama 3.1 prend en charge plusieurs environnements linguistiques à des fins commerciales et de recherche.

Les modèles de texte uniquement, affinés avec des instructions, conviennent aux assistants de chat, tandis que les modèles pré-entraînés peuvent être adaptés à une variété de tâches de génération de langage naturel. La collection de modèles Llama 3.1 permet également d'exploiter les résultats de son modèle pour améliorer d'autres modèles, notamment la génération de données synthétiques et la distillation de modèles.

La violation des lois et réglementations d'utilisation, des politiques d'utilisation et de la licence communautaire Llama 3.1 interdite et des langues prises en charge dépasse le cadre.

Et l'équipe a souligné qu'en plus des huit langues prises en charge, Llama 3.1 est formé sur un ensemble plus large de langues. Les développeurs peuvent l'affiner et l'appliquer à d'autres langues, à condition que les politiques telles que les licences communautaires soient respectées et que l'utilisation soit sûre et responsable.

39,3 millions d’heures de formation GPU

Pendant la pré-formation, Meta utilise une bibliothèque de formation personnalisée, un cluster GPU méta-personnalisé et une infrastructure de production. Le réglage fin, l'annotation et l'évaluation sont également effectués sur l'infrastructure de production.

La formation a utilisé un total de 39,3 millions d'heures de calcul GPU et le type de matériel est de 100 à 80 Go (le TDP est de 700 W).

Le temps de formation est le temps total du GPU requis pour former chaque modèle, et la consommation d'énergie est la capacité électrique maximale de chaque périphérique GPU, ajustée en fonction de l'efficacité de la consommation d'énergie.


Les émissions totales de gaz à effet de serre liées au lieu de la formation sont estimées à 11 390 tonnes d'équivalent dioxyde de carbone (CO2eq).

Meta souligne qu'elle a maintenu zéro émission nette de gaz à effet de serre depuis 2020 et génère 100 % de son électricité à partir de ressources renouvelables, ce qui entraîne des émissions totales de gaz à effet de serre de 0 tonne d'équivalent CO2 sur la base d'une référence de marché.


risque considérable

Meta a également réalisé des tests sur les risques majeurs.

Comprend l'utilité CBRNE (matériaux chimiques, biologiques, radiologiques, nucléaires et explosifs), la sécurité des enfants et les cyberattaques.

Concernant les cyberattaques, l’équipe a étudié si les LLM pouvaient améliorer les capacités humaines dans les tâches de piratage, notamment le niveau de compétence et la vitesse.

La recherche se concentre sur l’évaluation de la capacité des LLM à être utilisés comme agents autonomes dans des opérations de cyberattaque, en particulier lorsqu’elles sont attaquées par un ransomware.

L’objectif principal est d’évaluer si ces modèles peuvent mener efficacement des cyberattaques complexes en tant qu’agents indépendants sans intervention humaine.

Les internautes font frire la marmite et sont à nouveau témoins de l'histoire

Après la publication du lien magnétique, les internautes impatients ont commencé à télécharger directement, mais cela peut prendre beaucoup de temps.


Certains internautes attendent la sortie de Llama 3.1 405B demain et seront à nouveau témoins de l'histoire !


L’écart entre les modèles open source et fermé s’est encore réduit.


Quelqu'un a également testé la question piège classique "Qui est le plus grand, 9,11 ou 9,9 ?", et Llama 3.1-405B y a répondu correctement.


Pour les « pauvres en GPU », 820 Go sont trop réticents à fonctionner sur un ordinateur portable.





Les références:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756