nouvelles

Jia Yangqing : Les grands modèles reviennent sur l'ancienne voie de CNN : Il en va de même chez Tesla ;

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La maison est originaire du temple Aofei
Qubits | Compte public QbitAI

La grande taille du modèle de Transformer change et il revient à l'ancien chemin de CNN !

Voyant que tout le monde est attiré par LLaMA 3.1,Jia YangqingUn tel sentiment.



En comparant le développement des modèles de grande taille avec le développement de CNN, nous pouvons trouver une tendance et un phénomène évidents :

À l'ère ImageNet, les chercheurs et les praticiens techniques ont été témoins d'une croissance rapide de la taille des paramètres, puis ont commencé à passer à des modèles plus petits et plus efficaces.

Cela ressemble-t-il à l'augmentation des paramètres du modèle par GPT ? L'industrie est généralement d'accord avec la loi de mise à l'échelle, puis GPT-4o mini, Apple DCLM-7B et Google Gemma 2B apparaissent ?

Jia Yangqing a déclaré avec un sourire: "Cela date de l'ère pré-grand modèle, et beaucoup de gens ne s'en souviennent peut-être pas bien :)".



De plus, Jia Yangqing n’est pas le seul à s’en rendre compte.Le maître de l'IA Kapasi le pense également

  • La concurrence sur les grands modèles s’accentue… mais les rouleaux arrivent en sens inverse !
  • Le modèle doit d'abord viser « plus grand » avant de poursuivre « plus petit », car nous avons besoin de ce processus pour nous aider à reconstruire les données d'entraînement dans un format synthétique idéal.

Il parie même que nous verrons des modèles bons et fiables pour réfléchir.

Et l'échelle des paramètres est très petite.



Même Musk a déclaré à plusieurs reprises dans la zone de commentaires de Kapasi :



Ce qui précède peut probablement être appelé « les grands voient la même chose ».

Développez et parlez

L'émotion de Jia Yangqing commence avec LLaMA 3.1, qui n'est resté sur le trône le plus puissant que pendant une courte journée.

C'était la première fois que « le modèle open source le plus puissant = le modèle le plus puissant » était réalisé. Sans surprise, cela a attiré beaucoup d'attention.

Cependant, Jia Yangqing a avancé un point à ce moment-là :

"Mais je pense,L’industrie prospérera vraiment grâce aux petits modèles verticaux。”

Quant à ce que sont les petits modèles verticaux, Jia Yangqing l'a également expliqué très clairement, comme ces grands modèles de petite et moyenne taille représentés par Iynx de Patrouns AI (le modèle de détection d'hallucinations de l'entreprise, qui surpasse le GPT-4o dans les tâches d'hallucination).



Jia Yangqing a déclaré qu'en termes de préférences personnelles, il aime personnellement beaucoup le modèle à 100 milliards de paramètres.

Mais en réalité, il a observé que les grands modèles avec des plages de paramètres comprises entre 7B et 70B sont plus faciles à utiliser pour tout le monde :

  • Ils sont plus faciles à héberger et ne nécessitent pas un trafic énorme pour être rentables ;
  • Tant que vous posez des questions claires, vous pouvez obtenir un résultat de qualité décente – contrairement à certaines croyances antérieures.

Dans le même temps, il a entendu dire que les modèles les plus récents et plus rapides d'OpenAI commençaient également à devenir plus petits que les modèles plus grands « à la pointe de la technologie ».



"Si ma compréhension est correcte, cela indique clairement les tendances de l'industrie." Jia Yangqing a directement exprimé son point de vue, "c'est-à-dire que dans le monde réel, il faut utiliser des modèles applicables, rentables et toujours puissants".

Depuis, Jia Yangqing a brièvement fait le tri dans l'histoire du développement de CNN.

Tout d’abord, c’est l’ère de la montée en puissance de CNN.

En prenant AlexNet (2012) comme point de départ, une période d’environ trois ans de croissance à l’échelle du modèle a commencé.

VGGNet, apparu en 2014, est un modèle doté de performances et d'une évolutivité très puissantes.

Deuxièmement, il y a une période de réduction des effectifs.

En 2015, GoogleNet a réduit la taille du modèle de « Go » à « Mo », c'est-à-dire qu'elle a été réduite de 100 fois. Cependant, les performances du modèle n'ont pas chuté de manière significative, mais ont maintenu de bonnes performances.

Le modèle SqueezeNet lancé en 2015 suit des tendances similaires.

Pendant un certain temps, le développement s’est concentré sur la recherche de l’équilibre.

Des études ultérieures, telles que ResNet (2015), ResNeXT (2016), etc., ont maintenu une taille de modèle modérée.

Il convient de noter que le contrôle de la taille du modèle n'entraîne pas une réduction du nombre de calculs. En fait, tout le monde est prêt à investir davantage de ressources informatiques et à rechercher un état comportant « les mêmes paramètres mais plus efficace ».

Ce qui a suivi a été une période pendant laquelle CNN dansait à côté.

Par exemple, MobileNet est un effort intéressant lancé par Google en 2017.

Ce qui est intéressant, c'est qu'il consomme très peu de ressources mais offre d'excellentes performances.

Pas plus tard que la semaine dernière, quelqu'un a mentionné à Jia Yangqing : « Wow ~ nous utilisons toujours MobileNet car il peut fonctionner sur l'appareil et possède une excellente généralisation de l'intégration de fonctionnalités (Feature Embedding Generality).

Enfin, Jia Yangqing a emprunté une image de « A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration » de Ghimire et al. :



Et il posa encore une fois sa question :

Les grands modèles suivront-ils la même tendance que l’ère CNN ?

Qu’en pensent les internautes ?

En fait, il existe de nombreux exemples de GPT-4o mini empruntant la voie du développement de grands modèles, « pas grands mais petits ».

Lorsque les personnes mentionnées ci-dessus ont exprimé ce point de vue, certaines personnes ont immédiatement hoché la tête et ont proposé d’autres exemples similaires pour prouver qu’elles avaient constaté la même tendance.

Quelqu'un a immédiatement suivi :

  • J'ai un nouvel exemple positif ici ! Gemma-2 distille les connaissances du modèle avec une taille de paramètre de 27B dans une version plus petite.



Certains internautes ont déclaré que développer des modèles plus grands signifiait « intensifier » la formation des générations suivantes de modèles plus petits et plus verticaux.

Ce processus itératif produit finalement ce que l'on appelle un « ensemble de formation parfait ».

De cette façon, les grands modèles plus petits peuvent être aussi intelligents, voire plus intelligents, que les grands modèles actuels avec d'énormes paramètres dans des domaines spécifiques.

En un mot,Le modèle doit d’abord être agrandi avant de pouvoir être réduit.



La plupart des personnes qui ont discuté de ce point de vue sont toujours d'accord avec cette tendance. Certaines personnes ont déclaré sans détour : « C'est une bonne chose et c'est plus pratique et utile que la compétition de paramètres « Mon modèle est plus grand que votre modèle ».

Mais bien sûr!

En parcourant les sections de commentaires en ligne,D'autres faisaient des bruits différents.

Par exemple, cet ami a laissé un message sous le tweet de Jia Yangqing :

  • Mistral Large (la société derrière, Mistral AI), LLaMA 3.1 (la société derrière, Meta) et OpenAI, les entreprises proposant les modèles les plus compétitifs, pourraient toutes former actuellement des modèles plus grands.
  • Je ne vois pas de tendance aux « percées technologiques avec des modèles plus petits ».



Face à cette question, Jia Yangqing a répondu rapidement.

Voici ce qu'il a dit : "C'est vrai ! Quand je dis que les grands modèles suivent peut-être l'ancienne voie de CNN, je ne veux certainement pas appeler tout le monde à arrêter de former des modèles plus grands."

Il a en outre expliqué que l'intention initiale de cette déclaration était qu'à mesure que la technologie (y compris CNN et les grands modèles) était de plus en plus largement mise en œuvre, tout le monde commençait à accorder de plus en plus d'attention aux modèles plus rentables. "



Par conséquent, des modèles petits et grands plus efficaces pourraient peut-être redéfinir « l’intelligence » de l’IA et remettre en question l’hypothèse selon laquelle « plus grand est mieux ».

Êtes-vous d’accord avec ce point de vue ?

Liens de référence :
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497