Le moment ChatGPT pour les grands modèles open source ? Le très attendu Llama 3 405B est sur le point de sortir

Le moment ChatGPT pour les grands modèles open source ?Le très attendu Llama 3 405B est sur le point de sortir

2024-07-23

Le très attendu Llama 3 405B, initialement prévu pour le 23, arrive.

En tant que modèle haut de gamme de la série Llama 3, la version 405B possède 405 milliards de paramètres et est l'un des plus grands modèles open source à ce jour.

Aux premières heures de la nuit dernière, META a soudainement divulgué les données d'évaluation de Llama 3.1-405B. Certains internautes ont prédit qu'une version de Llama 3.1-70B pourrait être publiée en même temps, car « (fuite de modèle à l'avance) est une vieille tradition de META. . Le modèle Llama de l'année dernière était Did it once.

Certains analystes estiment que Llama 3 405B n’est pas simplement une autre amélioration des capacités de l’intelligence artificielle. Pour l’IA open source, « c’est un potentiel ».ChatGPTmoment », où l’IA de pointe est véritablement démocratisée et mise directement entre les mains des développeurs.

Trois prédictions pour la prochaine annonce de Llama 3 405B

Certains analystes ont prédit les points forts de l'annonce prochaine de Llama 3 405B sous trois angles : la qualité des données, l'écosystème de modèles et les solutions API.

Premièrement, Llama 3 405B pourrait révolutionner la qualité des données pour les modèles spécialisés.

Pour les développeurs axés sur la création de modèles d’IA professionnels, un défi à long terme consiste à obtenir des données de formation de haute qualité. Les modèles experts plus petits (paramètres 1-10B) utilisent souvent des techniques de distillation pour augmenter leur ensemble de données de formation avec la sortie du modèle plus grand.Cependant, en utilisantOpenAICes données provenant de géants de sources fermées tels que Google Cloud sont sévèrement restreintes, limitant les applications commerciales.

Llama 3 405B est né. En tant que géant open source qui rivalise avec la puissance des modèles propriétaires, il fournit une nouvelle base permettant aux développeurs de créer des ensembles de données riches et illimités. Cela signifie que les développeurs sont libres d'utiliser les résultats distillés de Llama 3 405B pour former des modèles de niche, accélérant ainsi considérablement les cycles d'innovation et de déploiement dans les domaines professionnels. Attendez-vous à une augmentation du développement de modèles performants et affinés, à la fois robustes et éthiques open source.

Deuxièmement, Llama 3 405B formera un nouvel écosystème de modèles : des modèles de base aux combinaisons expertes.

Le lancement de Llama 3 405B pourrait redéfinir l'architecture des systèmes d'IA. La taille même du modèle (405 milliards de paramètres) peut signifier une solution universelle, mais la véritable puissance réside dans son intégration avec un système de modèle hiérarchique. Cette approche trouvera particulièrement un écho auprès des développeurs travaillant avec l’IA à différentes échelles.

Attendez-vous à une évolution vers un écosystème de modèles plus dynamique, avec le Llama 3 405B faisant office d'épine dorsale, soutenu par des modèles de petite et moyenne taille. Ces systèmes peuvent utiliser des techniques telles que le décodage spéculatif, dans lequel des modèles moins complexes gèrent la majeure partie du traitement, en appelant le modèle 405B uniquement lorsque cela est nécessaire pour la vérification et la correction d'erreurs. Cela maximise non seulement l'efficacité, mais ouvre également de nouvelles voies pour optimiser les ressources informatiques et les temps de réponse dans les applications en temps réel, en particulier lorsqu'elles sont exécutées sur des RDU SambaNova optimisées pour ces tâches.

Enfin, Llama 3 405B a la concurrence pour l'API la plus efficace

Une grande puissance implique de grandes responsabilités – et pour le Llama 3 405B, le déploiement constitue un défi majeur. Les développeurs et les organisations doivent faire attention à la complexité des modèles et aux exigences opérationnelles. Il y aura une concurrence entre les fournisseurs de cloud IA pour fournir la solution API la plus efficace et la plus rentable pour le déploiement de Llama 3 405B.

Cette situation offre aux développeurs une opportunité unique d'interagir avec différentes plates-formes et de comparer la manière dont les différentes API gèrent des modèles aussi volumineux.Les gagnants dans cet espace seront ceux qui peuvent fournir des API qui non seulement gèrent efficacement la charge de calcul, mais qui ne sacrifient pas la précision du modèle ni n'augmentent de manière disproportionnéeEmpreinte carbone。

En résumé, Llama 3 405B n'est pas simplement un outil de plus dans l'arsenal de l'IA ; c'est un changement fondamental vers un développement d'IA ouvert, évolutif et efficace. Les analystes estiment qu'il s'agit d'affiner des modèles de niche, de construire des systèmes d'IA complexes ou d'optimiser des stratégies de déploiement, l'arrivée de Llama 3 405B ouvrira de nouveaux horizons aux utilisateurs.

Qu’en pensent les internautes ?

Les internautes ont publié sur le subreddit LocalLLaMA et partagé des informations sur Meta Llama 3.1 avec 405 milliards de paramètres. À en juger par les résultats de ce modèle d'IA dans plusieurs benchmarks clés de l'IA, ses performances ont dépassé celles du leader actuel, à savoir celles d'OpenAI.GPT-4o, marquant la première fois qu'un modèle open source peut battre l'actuel état de l'art des sources ferméesMaîtrise en droit (LL.M.)Modèle.

Comme le montrent les benchmarks, Meta Llama 3.1 surpasse GPT-4o dans plusieurs tests tels que GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem et winograd. Cependant, il surpasse GPT-4o dans HumanEval et MMLU-. social En termes de science, il est en retard sur GPT-4o.

Ethan Mollick, professeur agrégé à la Wharton School de l'Université de Pennsylvanie, écrit :

Si ces statistiques sont vraies, on peut affirmer que les meilleurs modèles Al seront accessibles gratuitement à tous à partir de cette semaine.

Les gouvernements, les organisations et les entreprises de tous les pays du monde peuvent utiliser les mêmes capacités d’IA que tout le monde. Ce sera amusant.

Certains internautes ont résumé plusieurs points forts du modèle Llama 3.1 :

Le modèle utilise plus de 15T de jetons provenant de sources publiques pour la formation, et la date limite pour les données de pré-formation est décembre 2023 ;

Les données de réglage fin comprennent un ensemble de données de réglage précis des instructions accessibles au public (contrairement à Llama 3) et 15 millions d'échantillons synthétiques ;

Le modèle prend en charge plusieurs langues, dont l'anglais, le français, l'allemand, l'hindi, l'italien, le portugais, l'espagnol et le thaï.

Certains internautes ont déclaré que c'était la première fois qu'un modèle open source surpassait les modèles fermés tels que GPT4o et Claude Sonnet 3.5 et atteignait SOTA sur plusieurs benchmarks.

nouvelles