nouvelles

Microsoft et NVIDIA misent sur les petits modèles. Les grands modèles n'ont-ils plus la cote ?

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Dans le développement de l'intelligence artificielle, les géants de la technologie étaient autrefois en compétition pour développer des modèles de langage à grande échelle, mais une nouvelle tendance est désormais apparue : les petits modèles de langage (SLM) émergent progressivement, remettant en question le concept passé selon lequel « plus c'est gros, mieux c'est ».

Visuel Chine

Le 21 août, heure locale, Microsoft et NVIDIA ont publié successivement les derniers modèles de petits langages Phi-3.5-mini-instruct et Mistral-NeMo-Minitron8B. Le principal argument de vente des deux modèles est leur bon équilibre entre l’utilisation des ressources informatiques et les performances fonctionnelles. À certains égards, leurs performances peuvent même rivaliser avec des modèles plus grands.

Clem Delangue, PDG de la startup d'intelligence artificielle Hugging Face, a souligné que jusqu'à 99 % des scénarios d'utilisation peuvent être résolus par le SLM et a prédit que 2024 sera l'année du SLM. Selon des statistiques incomplètes, les géants de la technologie, dont Meta, Microsoft et Google, ont lancé 9 petits modèles cette année.

Les coûts de formation des grands modèles augmentent

L’essor du SLM n’est pas accidentel, mais est étroitement lié aux enjeux des grands modèles (LLM) en termes d’amélioration des performances et de consommation de ressources.

Une comparaison des performances publiée en avril par les startups d'IA Vellum et Hugging Face a montré que l'écart de performance entre les LLM se réduit rapidement, en particulier dans des tâches spécifiques telles que les questions à choix multiples, le raisonnement et les problèmes mathématiques, où les différences entre les meilleurs modèles sont extrêmement grandes. . Petit. Par exemple, dans les questions à choix multiples, Claude 3 Opus, GPT-4 et Gemini Ultra ont tous atteint une précision de plus de 83 %, tandis que dans les tâches d'inférence, Claude3 Opus, GPT-4 et Gemini 1.5Pro ont tous atteint une précision de plus de 92 %.

Gary Marcus, ancien responsable d'Uber AI, a souligné : "Je pense que tout le monde dirait que GPT-4 a une longueur d'avance sur GPT-3.5, mais il n'y a eu aucun saut qualitatif depuis plus d'un an."

Par rapport à l'amélioration limitée des performances, le coût de la formation LLM est en constante augmentation. La formation de ces modèles nécessite des quantités massives de données et des centaines de millions, voire des milliards de paramètres, ce qui entraîne une consommation de ressources extrêmement élevée. La puissance de calcul et la consommation d'énergie nécessaires pour former et exécuter le LLM sont stupéfiantes, ce qui rend difficile la participation des petites organisations ou des individus au développement de base du LLM.

L'Agence internationale de l'énergie estime que la consommation d'électricité liée aux centres de données, aux cryptomonnaies et à l'intelligence artificielle sera à peu près équivalente à la consommation électrique totale du Japon d'ici 2026.

Le PDG d'OpenAI, Altman, a déclaré un jour lors d'un événement au MIT que la formation de GPT-4 coûterait au moins 100 millions de dollars, tandis que le PDG d'Anthropic, Dario Amodei, a prédit que le coût de la formation du modèle pourrait atteindre 100 milliards de dollars à l'avenir.

De plus, la complexité des outils et des techniques requis pour utiliser le LLM ajoute également à la courbe d'apprentissage des développeurs. L'ensemble du processus, depuis la formation jusqu'au déploiement, prend beaucoup de temps, ce qui ralentit le développement. Une étude de l’Université de Cambridge montre que les entreprises peuvent mettre 90 jours ou plus pour déployer un modèle d’apprentissage automatique.

Un autre problème majeur du LLM est qu'il est sujet aux « illusions » : le résultat généré par le modèle semble raisonnable, mais n'est pas réellement correct. En effet, LLM est formé pour prédire le prochain mot le plus probable en fonction des modèles présents dans les données, plutôt que de véritablement comprendre les informations. En conséquence, LLM peut générer en toute confiance de fausses déclarations, fabriquer des faits ou combiner des concepts sans rapport de manière absurde. Comment détecter et réduire ces « illusions » est un défi permanent dans le développement de modèles linguistiques fiables et dignes de confiance.

Les petits modèles réduisent les coûts

Les inquiétudes concernant les énormes besoins énergétiques du LLM, ainsi que les opportunités de marché pour offrir aux entreprises des options d'IA plus diversifiées, ont conduit les entreprises technologiques à tourner progressivement leur attention vers le SLM.

Les journalistes du « Daily Economic News » ont remarqué que les startups de l'IA telles que Arcee, Sakana AI et Hugging Face, ainsi que les géants de la technologie, attirent les investisseurs et les clients grâce à la SLM et à des méthodes plus économiques.

Auparavant, Google, Meta, OpenAI et Anthropic avaient tous publié de petits modèles plus compacts et plus flexibles que le produit phare LLM. Cela réduit non seulement les coûts de développement et de déploiement, mais offre également aux clients commerciaux une solution moins chère. Compte tenu des inquiétudes croissantes des investisseurs concernant les coûts élevés et les rendements incertains des projets d’IA, davantage d’entreprises technologiques pourraient choisir cette voie. Même Microsoft et NVIDIA ont désormais lancé leurs propres petits modèles (SLM).

Les SLM sont des versions rationalisées des LLM avec moins de paramètres et des conceptions plus simples, et ils nécessitent moins de données et de temps de formation – quelques minutes ou heures seulement. Cela rend SLM plus efficace et plus facile à déployer sur de petits appareils. Par exemple, ils peuvent être intégrés dans les téléphones mobiles sans utiliser de ressources de calcul intensif, réduisant ainsi les coûts et améliorant considérablement la réactivité.

Un autre avantage majeur du SLM est sa spécialisation pour des applications spécifiques. Les SLM se concentrent sur des tâches ou des domaines spécifiques, ce qui les rend plus efficaces dans les applications pratiques. Par exemple, les SLM surpassent souvent les modèles à usage général en matière d'analyse des sentiments, de reconnaissance d'entités nommées ou de réponse à des questions spécifiques à un domaine. Cette personnalisation permet aux entreprises de créer des modèles qui répondent efficacement à leurs besoins spécifiques.

Les SLM sont également moins sujets aux « hallucinations » dans un domaine spécifique, car ils sont généralement formés sur des ensembles de données plus restreints et plus ciblés, ce qui aide le modèle à apprendre les modèles et les informations les plus pertinents pour sa tâche. La nature ciblée de la SLM réduit la probabilité de générer des résultats non pertinents, inattendus ou incohérents.

Malgré sa taille réduite, les performances du SLM ne sont pas inférieures à celles des modèles plus grands à certains égards. La dernière mini-instruction Phi-3.5 de Microsoft ne comporte que 3,8 milliards de paramètres, mais ses performances sont meilleures que celles des modèles avec des paramètres beaucoup plus élevés que Llama3.18B et Mistral7B. Aaron Mueller, expert en recherche sur les modèles linguistiques à la Northeastern University (une université de recherche privée de premier plan située à Boston, Massachusetts, États-Unis), a souligné que l'augmentation du nombre de paramètres n'est pas le seul moyen d'améliorer les performances du modèle. produisent également des résultats similaires.

Le PDG d'OpenAI, Altman, a déclaré lors d'un événement en avril qu'il pensait que nous étions à la fin de l'ère des modèles géants et que "nous améliorerons leurs performances par d'autres moyens".

Il convient toutefois de noter que si la spécialisation de la GDT constitue un avantage majeur, elle présente également des limites. Ces modèles peuvent être peu performants en dehors de leur domaine de formation spécifique, manquer d'une large base de connaissances et être incapables de générer un contenu pertinent sur un large éventail de sujets par rapport au LLM. Cette limitation oblige les utilisateurs à déployer plusieurs SLM pour couvrir différents domaines de demande, compliquant ainsi l'infrastructure d'IA.

Avec le développement rapide du domaine de l'IA, les normes applicables aux petits modèles pourraient continuer à changer. David Ha, co-fondateur et PDG de la start-up Sakana, basée à Tokyo, a déclaré que les modèles d'IA qui semblaient énormes il y a quelques années semblent désormais « modestes ». "La taille est toujours relative", a déclaré David Ha.

l'actualité économique quotidienne

Rapport/Commentaires