nouvelles

L’ère des grands modèles est-elle révolue ?Le grand patron Qi prédit : les modèles d’IA devront peut-être être réduits avant de pouvoir être étendus

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nouveau rapport de sagesse

Editeur : oreilles

[Introduction à la nouvelle sagesse]Avec l’avènement des petits modèles, l’« ère des grands modèles » va-t-elle prendre fin ?

La "Small Model Week" est passée et le dernier champ de bataille des petits modèles vient de s'ouvrir.

La semaine dernière, GPT-4o mini et Mistral NeMo ont été lancés successivement. Les petits modèles qui « sont petits mais possèdent tous les organes internes » sont devenus une nouvelle direction à laquelle les leaders de l'industrie prêtent une attention particulière.

Alors, les grands modèles sont-ils sur le point de tomber en disgrâce ? Le Scaling Law est-il sur le point de devenir inefficace ?

Andrej Karpathy, ancien chercheur d'OpenAI et de Tesla en IA, vient d'entrer dans l'enseignement de l'IA. "Teacher K" a récemment publié un tweet pour guider l'industrie, révélant la nouvelle tendance derrière le passage des géants de la technologie à la recherche et au développement de petits modèles : la concurrence des grands modèles d'IA. est sur le point de s'inverser.

Il prédit que les futurs modèles seront plus petits mais toujours plus intelligents.

Les géants de l’IA et certaines nouvelles licornes ont récemment lancé des modèles d’intelligence artificielle plus compacts, plus puissants et plus abordables que leurs pairs. Le dernier exemple en date est le GPT-4o mini d’OpenAI.

Karpathy prédit que cette tendance se poursuivra. « Je parie que nous verrons beaucoup de modèles qui pensent de manière efficace et fiable, et dans de très petites tailles », a-t-il écrit.

Petits modèles : debout sur les épaules des géants

Dans les premiers stades du développement du LLM, il est inévitable de traiter davantage de données et d’agrandir le modèle. Ceci est principalement basé sur les raisons suivantes :

Premièrement, les besoins basés sur les données.

À l’ère de l’explosion des données, une grande quantité de données riches et diverses nécessite des modèles plus puissants pour être traitées et comprises.

Les grands modèles ont la capacité d’héberger et de traiter d’énormes quantités de données. Grâce à une formation sur les données à grande échelle, ils peuvent découvrir des modèles et des lois profonds.

Deuxièmement, l’amélioration de la puissance de calcul.

L'avancement continu de la technologie matérielle et le développement d'équipements informatiques hautes performances tels que les GPU fournissent une puissance de calcul puissante pour la formation de grands modèles. Permet de former des modèles volumineux et complexes.

De plus, recherchez des performances et une précision supérieures.

Les grands modèles peuvent généralement démontrer d’excellentes performances dans plusieurs domaines tels que la compréhension du langage, la génération et la reconnaissance d’images. Plus ils comprennent, plus les résultats qu’ils génèrent seront précis.

Enfin, la capacité de généralisation est plus forte.

Les grands modèles peuvent mieux gérer de nouveaux problèmes et tâches jamais vus auparavant, peuvent faire des suppositions et des réponses raisonnables basées sur des connaissances acquises précédemment et ont de plus fortes capacités de généralisation.

Couplé à la concurrence féroce dans le domaine de l'IA, divers instituts de recherche et géants s'engagent à développer des modèles plus grands et plus solides pour démontrer leur force technique et leur position de leader. La taille du modèle de volume est naturellement devenue l'orientation générale du développement de LLM.

Karpathy a également attribué l'ampleur des modèles actuels les plus puissants à la complexité des données de formation, ajoutant que les grands modèles de langage excellent en termes de mémoire, dépassant les capacités de la mémoire humaine.

Par analogie, si vous devez passer un examen à livre fermé pendant la semaine des examens, l'examen vous oblige à réciter un certain paragraphe du livre en fonction des premiers mots.

C’est l’objectif de la pré-formation des grands modèles d’aujourd’hui. Karpathy a déclaré que les grands modèles d'aujourd'hui sont comme des serpents avides qui veulent juste avaler toutes les données disponibles.

Ils peuvent non seulement réciter la série SHA d'algorithmes de hachage pour les nombres communs, mais peuvent également mémoriser la connaissance de tous les champs, grands et petits.

Mais cette façon d’apprendre revient à tout mémoriser dans toute la bibliothèque et sur Internet pour un test.

Il est indéniable que ceux qui peuvent atteindre ce genre de capacité de mémoire sont des génies, mais au final, une seule page a été utilisée lors de l'examen !

Pour des étudiants aussi doués, il est difficile pour le LLM de faire mieux car dans le processus de formation, les données, la démonstration de la pensée et les connaissances sont « intriquées ».

De plus, d'une part, du point de vue des applications pratiques, les grands modèles sont confrontés à des coûts et à une consommation de ressources élevés lorsqu'ils sont déployés et exécutés, notamment les ressources informatiques, les ressources de stockage et la consommation d'énergie.

Les petits modèles sont plus faciles à déployer dans divers appareils et scénarios, répondant aux exigences de facilité d'utilisation et de faible consommation d'énergie.

D'un autre côté, du point de vue de la maturité technologique, une fois la nature et les lois du problème pleinement explorées et comprises à travers de grands modèles, ces connaissances et modèles peuvent être affinés et appliqués à la conception et à l'optimisation de petits modèles.

Cela permet aux petits modèles de réduire l'échelle et les coûts tout en conservant des performances identiques, voire supérieures, à celles des grands modèles.

Bien que le développement des grands modèles ait rencontré un goulot d'étranglement et que les petits modèles soient progressivement devenus une nouvelle tendance, Karpathy a souligné que les grands modèles sont toujours nécessaires, même s'ils ne sont pas efficacement formés, mais que les petits modèles sont un condensé des grands modèles.

Karpathy prédit que chaque modèle continuera à s'améliorer, générant des données d'entraînement pour le modèle suivant, jusqu'à ce qu'il y ait un « ensemble d'entraînement parfait ».

Même un modèle prêt à l'emploi comme GPT-2, qui comporte 1,5 milliard de paramètres, lorsque vous entraînez GPT-2 avec cet ensemble d'entraînement parfait, il peut devenir un modèle très puissant et intelligent selon les normes actuelles.

Ce GPT-2, entraîné avec un ensemble d'entraînement parfait, peut obtenir des résultats légèrement inférieurs, par exemple, au test Massive Multi-task Language Understanding (MMLU), qui couvre 57 tâches, dont les mathématiques élémentaires, l'histoire des États-Unis, l'informatique, le droit, etc., utilisé pour évaluer la couverture des connaissances de base et la capacité de compréhension des grands modèles.

Mais à l’avenir, les modèles d’intelligence artificielle plus intelligents ne s’appuieront pas sur le volume ; ils seront capables de récupérer des informations et de vérifier les faits de manière plus fiable.

Tout comme un excellent étudiant qui passe un examen à livre ouvert, même si toutes les connaissances ne sont pas parfaitement comprises, il peut localiser avec précision la bonne réponse.

Selon les rapports, le projet Strawberry d’OpenAI se concentre sur la résolution de ce problème.

"Amincir" du grand modèle "gonflé"


Comme l'a dit Karpathy, la plupart des très grands modèles (tels que GPT-4) entraînés avec des données massives sont en fait utilisés pour mémoriser un grand nombre de détails non pertinents, c'est-à-dire pour mémoriser des informations par cœur.

Ceci est lié à l'objectif de la pré-formation du modèle. Au cours de la phase de pré-formation, le modèle doit réciter le contenu suivant aussi précisément que possible, ce qui équivaut à mémoriser le texte. Plus il est précis, plus il est élevé. score.

Bien que le modèle puisse apprendre des connaissances récurrentes, il existe parfois des erreurs et des biais dans les données, et le modèle doit d'abord les mémoriser avant de les affiner.

Karpathy estime que s'il existe un ensemble de données de formation de meilleure qualité, un modèle plus petit, plus performant et plus performant peut être formé.

À l’aide de très grands modèles, des ensembles de données de formation de meilleure qualité peuvent être automatiquement générés et nettoyés.

Semblable à GPT-4o mini, il est entraîné à l’aide de données nettoyées par GPT-4.

Agrandissez d'abord le modèle, puis «réduisez-le» sur cette base. Cela peut être une nouvelle tendance dans le développement de modèles.

Pour donner une métaphore vivante, c'est comme si le grand modèle actuel avait le problème d'un trop grand nombre d'ensembles de données et était trop gros. Après un nettoyage des données et une formation approfondie, il se transforme en un petit modèle avec des muscles maigres.

Ce processus s'apparente à une évolution étape par étape, et chaque génération de modèles contribuera à générer la prochaine génération de données d'entraînement jusqu'à ce que nous obtenions enfin un « ensemble d'entraînement parfait ».

Le PDG d'OpenAI, Sam Altman, a également tenu des propos similaires, déclarant la « fin de l'ère » des grands modèles d'IA dès avril 2023.

De plus, il est de plus en plus reconnu que la qualité des données est un facteur clé de succès dans la formation à l’IA, qu’il s’agisse de données réelles ou de données synthétiques.

Altman estime que la question clé est de savoir comment les systèmes d’IA peuvent apprendre davantage avec moins de données.

Les chercheurs de Microsoft ont porté le même jugement lors du développement du modèle Phi. Les chercheurs de Hugging Face AI ont également approuvé la recherche d'ensembles de données de haute qualité et ont publié des ensembles de données de formation de haute qualité.

Cela signifie que l’expansion aveugle n’est plus le seul objectif technique des géants de la technologie. Même les petits modèles de haute qualité peuvent bénéficier de données plus nombreuses, plus diversifiées et de meilleure qualité.

Le retour à des modèles plus petits et plus efficaces peut être considéré comme l’objectif de la prochaine étape d’intégration, et la version du modèle OpenAI indique clairement l’orientation du développement futur.

Zone de commentaires : correct, pertinent et sanglant

Karpathy a également mentionné l'approche similaire de Tesla sur le réseau de conduite autonome.

Tesla propose ce qu'on appelle un « tracker hors ligne » qui génère des données d'entraînement plus propres en exécutant un modèle précédent plus faible.

Dès qu'il a appris que la technologie de Tesla était considérée comme à l'avant-garde du temps, Musk s'est rapidement précipité vers la zone de commentaires :

Les internautes dans la zone de commentaires ont également exprimé leur appréciation pour la clairvoyance de Karpathy, et je suis d’accord !

Pour l'intelligence artificielle générale du futur, des modèles d'intelligence artificielle plus petits et plus efficaces pourraient redéfinir le terme « intelligence » dans l'intelligence artificielle et remettre en question l'hypothèse selon laquelle « plus grand est mieux ».

Sebastian Raschka, auteur de "Python Machine Learning", estime que cela s'apparente à une distillation de connaissances, distillant un petit modèle comme Gemma-2 à partir d'un grand modèle 27B.

Il nous a également rappelé que les tests à choix multiples comme MMLU peuvent tester les connaissances, mais ils ne peuvent pas refléter pleinement les capacités réelles.

Certains internautes sont également très imaginatifs. Si les petits modèles fonctionnent bien, alors il y a une spécialisation dans le domaine, pourquoi ne pas utiliser davantage de petits modèles pour générer des réponses une par une ?

Invoquez 10 assistants IA, puis laissez le plus intelligent faire le résumé final. C'est simplement la version IA d'un groupe de réflexion.

Alors, AGI est-il un grand modèle tout-puissant, ou est-il issu de la collaboration de nombreux petits modèles ?