La direction des modèles à grande échelle a changé, OpenAI et Apple ont fait demi-tour

La direction des modèles à grande échelle a changé et OpenAI Apple a fait demi-tour

2024-07-22

des choses intelligentes
AuteurZeR0
Editeur Mo Ying

L’IA générative semble avoir un schéma invisible : de temps en temps, il y aura un événement choquant d’« accident de voiture » à grande échelle.

Rien que cette année, le modèle Google Gemini 1.5 Pro a été lancé, le modèle de génération vidéo OpenAI Sora a été lancé et l'OpenAI GPT-4o a été lancé lors de la conférence des développeurs Google I/O, permettant aux spectateurs du monde entier de sentir la forte concurrence pour hégémonie parmi les grands modèles. L'odeur de la poudre à canon.

Si toutes les coïncidences précédentes suggèrent qu'OpenAI a délibérément intercepté Google, alors dans les quatre jours de la semaine dernière, Hugging Face, OpenAI, Mistral et Apple ont successivement publié leurs modèles légers les plus puissants, ce qui est certainement la dernière tendance de l'industrie de l'IA.

Désormais, les grands modèles d’IA ne se limitent plus à la course"Plus grand et plus fort", et s'est enroulé violemment"Faites de petites choses et faites de belles choses"。

Dépasser GPT-4o n'est plus le seul KPI. Les grands modèles sont entrés dans une période de jeu critique pour rivaliser sur le marché. Pour impressionner les utilisateurs, nous devons non seulement nous fier à notre force technique, mais aussi prouver que nos propres modèles sont plus chers. -efficace--Le modèle est plus petit avec les mêmes performances, et les performances sont plus élevées avec les mêmes paramètres et permettent d'économiser de l'argent.。

▲Les nouveaux modèles légers GPT-4o mini et Mistral NeMo la semaine dernière sont très performants en termes de rapport coût/performance (Source : Analyse artificielle)

En fait, cette tendance technologique du « rembobinage des grands modèles vers la miniaturisation » a commencé à se manifester au cours du second semestre de l’année dernière.

Les joueurs qui changent la donne sont deux entreprises. L'une est la startup française d'IA Mistral AI. En septembre de l'année dernière, elle a utilisé un grand modèle avec 7 milliards de paramètres pour vaincre Llama 2 avec 13 milliards de paramètres. Elle a choqué tout le monde et est devenue célèbre dans la communauté des développeurs ; Face the Wall Intelligence. En février de cette année, a lancé un modèle final plus concentré MiniCPM, atteignant des performances supérieures à Llama 2 13B avec seulement 2,4 milliards de paramètres.

Les deux startups sont bien connues dans la communauté des développeurs et de nombreux modèles figurent en tête de la liste des favoris open source. En particulier, Wall-Facing Intelligence, née du laboratoire de traitement du langage naturel de l'université Tsinghua, a provoqué un tollé cette année lorsque son modèle multimodal a été « bombardé » par une équipe des meilleures universités des États-Unis. le travail original a été reconnu dans les cercles universitaires nationaux et étrangers, ce qui rend les modèles nationaux d'IA Open source fiers d'eux-mêmes.

Apple a également commencé à rechercher des modèles côté terminal qui s'adaptent mieux aux téléphones mobiles depuis l'année dernière. OpenAI, qui a suivi la voie d’une expansion vaste et violente, est un nouvel entrant relativement surprenant. Le lancement du modèle léger GPT-4o mini la semaine dernière signifie que le grand frère modèle a pris l'initiative de se retirer de « l'autel » et a commencé à suivre la tendance de l'industrie, en essayant d'utiliser des modèles moins chers et plus faciles à obtenir pour tirer parti un marché plus large.

2024 sera une année critique pour la « miniaturisation » des grands modèles !

▲Les statistiques incomplètes des modèles de langage général légers nouvellement publiés en 2024 ne sont incluses que dans le modèle de langage général avec un nombre de paramètres ≤8B qui peuvent être déployés côté appareil, et les modèles multimodaux ne sont pas inclus (Source : Zhidongxi)

1. La « loi de Moore » à l’ère des grands modèles : seule l’efficacité peut conduire à la durabilité

Actuellement, la recherche et le développement des grands modèles sombrent dans l’inertie :Vigoureusement miracle。

En 2020, un article d'OpenAI a vérifié qu'il existe une forte corrélation entre les performances du modèle et l'échelle. Tant que vous avalez davantage de données de haute qualité et entraînez un modèle plus volumineux, vous pouvez obtenir de meilleures performances.

En suivant cette voie simple mais efficace, au cours des deux dernières années, une course mondiale rapide a eu lieu pour rechercher des modèles plus grands. Cela pose le danger caché de l'hégémonie algorithmique. Seules les équipes disposant de suffisamment de fonds et de puissance de calcul disposent du capital nécessaire pour participer à la compétition pendant une longue période.

L'année dernière, Sam Altman, PDG d'OpenAI, a révélé que le coût de la formation GPT-4 est d'au moins100 millions de dollars américains . En l’absence d’un modèle commercial à haut profit, même les grandes entreprises technologiques aux poches profondes auront du mal à se permettre des investissements à long terme, quel qu’en soit le coût. L’environnement écologique ne peut pas tolérer ce jeu sans fin qui brûle de l’argent.

L’écart de performances entre les principaux modèles linguistiques de grande envergure se réduit visiblement. Bien que GPT-4o occupe fermement la première place, la différence entre les scores de référence avec Claude 3 Opus et Gemini 1.5 Pro reste inchangée. Dans certaines capacités, des dizaines de milliards de grands modèles peuvent même atteindre de meilleures performances. La taille du modèle n'est plus le seul facteur décisif affectant les performances.

Ce n’est pas que les grands modèles haut de gamme ne soient pas attrayants, c’est que les modèles légers sont plus rentables.

L'image ci-dessous est un graphique de tendance des coûts d'inférence de l'IA partagé par l'ingénieur en IA Karina Ngugen sur les plateformes sociales fin mars de cette année. Il montre clairement la relation entre les performances des grands modèles de langage sur le benchmark MMLU et leur coût depuis 2022 : Plus. Avec le temps, le modèle de langage obtient des scores de précision MMLU plus élevés et les coûts associés diminuent considérablement. La précision du nouveau modèle atteint environ 80 %, tandis que le rapport coût/performance est bien inférieur à ce qu'il était il y a quelques années à peine.

Le monde évolue très rapidement et, au cours des derniers mois, une vague de nouveaux modèles légers et économiques a vu le jour.

▲Les modèles de plus petite taille peuvent atteindre d'excellentes performances à moindre coût (Source : Embedded AI)

"La concurrence pour les modèles de langage de grande taille s'intensifie - à l'envers !", parie le gourou de la technologie de l'IA Andrej Karpathy : "Nous verrons de très, très petits modèles "penser" très bien et de manière fiable."

Capacité du modèle ÷ paramètres du modèle impliqués dans le calcul = densité des connaissances , cette dimension de mesure peut être utilisée pour représenter que les modèles avec la même échelle de paramètres peuvent avoir une forte intelligence. Le grand modèle GPT-3 publié en juin 2020 compte 175 milliards de paramètres.En février de cette année, la taille des paramètres du modèle intelligent MiniCPM-2.4B face au mur qui a atteint les mêmes performances a été réduite à 2,4 milliards, ce qui équivaut à une augmentation de la densité des connaissances d'environ86 fois。

Sur la base de ces tendances, Liu Zhiyuan, professeur agrégé permanent au Département d'informatique de l'Université Tsinghua et scientifique en chef de l'intelligence murale, a récemment avancé un point de vue intéressant :L'ère des grands modèles a sa propre « loi de Moore »。

en particulier,Avec le développement coordonné des données, de la puissance de calcul et des algorithmes, la densité de connaissances des grands modèles ne cesse d’augmenter, doublant en moyenne tous les huit mois.。

▲D'après les changements apportés à la liste OpenCompass, nous pouvons voir que les petits paramètres et les modèles hautes performances sont devenus une tendance

En augmentant la densité des circuits sur la puce, les appareils informatiques dotés de la même puissance de calcul évolueront de superordinateurs pouvant tenir dans plusieurs pièces à des téléphones portables pouvant être transportés dans des poches. Le développement ultérieur de grands modèles suivra un schéma similaire. Liu Zhiyuan a nommé la loi directrice qu'il a proposée « Loi face au mur ».

Si cette tendance se poursuit,Pour former un modèle avec 100 milliards de paramètres, il pourra atteindre les capacités d'un modèle avec 50 milliards de paramètres en 8 mois. Dans 8 mois supplémentaires, cela pourra être réalisé avec seulement 25 milliards de paramètres.。

2. Les forces sont divisées dans plusieurs directions : la guerre des prix des sources fermées bat son plein et la Chine, les États-Unis et l'Europe open source se font concurrence.

Les joueurs qui participent actuellement à la compétition des grands modèles légers sont divisés en plusieurs groupes.

OpenAI, Google et Anthropic ont tous emprunté la voie des sources fermées. Leurs modèles phares tels que GPT-4o, Claude 3.5 Sonnet et Gemini 1.5 Pro contrôlent les niveaux de performances les plus élevés, et l'échelle des paramètres de ces modèles atteint des centaines de milliards, voire des milliards.

Le modèle léger est une version allégée de son modèle phare. Après le lancement d'OpenAI la semaine dernière, GPT-4o mini est devenu l'option la plus rentable de moins de 10 milliards de dollars sur le marché grâce à ses performances dépassant Gemini Flash et Claude Haiku a remplacé GPT-3.5 pour une utilisation gratuite par les utilisateurs. ToB a fortement baissé le prix de l'API, ce qui a abaissé le seuil d'adoption de la technologie des grands modèles.

Andriy Burkov, auteur de "Machine Learning Engineering", en déduit que les spécifications des paramètres du GPT-4o mini sont d'environ 7B en fonction du prix. Li Dahai, PDG de Wall-facing Intelligence, spécule que GPT-4o mini est un modèle « large MoE » avec un grand nombre d'experts, plutôt qu'un modèle côté appareil. Il se positionne comme un modèle cloud rentable pour réduire considérablement les coûts industriels. coût de mise en œuvre de grands modèles.

Le camp des modèles légers open source est encore plus vaste, avec des acteurs représentatifs de Chine, des États-Unis et d’Europe.

Alibaba domestique, Wall-Facing Intelligence, SenseTime et Shanghai Artificial Intelligence Laboratory ont tous ouvert certains modèles légers en open source.Parmi eux, les modèles de la série Qwen d'Alibaba sont fréquemment utilisés dans les tests de référence de modèles légers, et les modèles d'intelligence murale de la série MiniCPM sont également des exemples d'utilisation de petits paramètres pour dépasser les grands modèles en quelques secondes, et sont très appréciés dans la communauté open source.

Face Wall Intelligence est une équipe entrepreneuriale tournée vers l'avenir. En 2020, elle a pris l'initiative de s'engager dans la voie des grands modèles en Chine. Elle a commencé très tôt à explorer comment utiliser une technologie de réglage efficace pour réduire les coûts de formation. d'AI Agent au début de l'année dernière et a publié plus de 100 milliards d'agents d'IA en août. Grand modèle modal, appliquer la technologie des grands modèles et des agents à la finance, à l'éducation, aux affaires gouvernementales, aux terminaux intelligents et à d'autres scénarios, formuler l'orientation des appareils. collaboration cloud à la fin de l'année, puis lancer de manière intensive cette année une variété de modèles côté appareil à haute efficacité et à faible consommation d'énergie.

Au cours des six derniers mois, Wallface Intelligence a publié les modèles de base MiniCPM 2.4B et MiniCPM 1.2B, le modèle de texte long MiniCPM-2B-128k, le modèle multimodal MiniCPM-V 2.0 et le niveau de performance GPT-4V MiniCPM- Llama3-V 2.5. Modèle expert hybride MiniCPM-MoE-8x2B, etc. Jusqu'à présent, le volume global de téléchargements de la série MiniCPM a atteint près de 950 000, avec 12 000 étoiles.

Cette startup a également mis en œuvre un modèle MiniCPM-S 1.2B plus économe en énergie grâce à une architecture clairsemée efficace : la densité de connaissances a atteint 2,57 fois celle du modèle dense MiniCPM 1.2B de la même échelle et 12,1 fois celle de Mistral-7B, déduisant encore la « loi du mur » Promouvoir une réduction significative du coût de l'inférence de grand modèle.

▲ Le modèle intelligent de la série MiniCPM orienté vers le mur itère rapidement et améliore la densité des connaissances

Dans le camp des modèles open source légers aux États-Unis, les grandes entreprises technologiques ont un degré élevé de participation, notamment Meta, Microsoft, Google, Apple, Stability AI, etc., et l'histoire de « la vague derrière frappe la vague devant » la plage" est fréquemment mise en scène.

Hugging Face a également lancé la semaine dernière des modèles SmolLM avec trois spécifications de paramètres : 135M, 360M et 1,7B. Par rapport aux modèles de même taille, les performances sont très compétitives. La version 1,7B a dépassé Microsoft Phi-1.5 dans plusieurs tests de référence. , Google MobileLLM-1.5B et Alibaba Qwen2-1.5B.

Apple, réputée pour être « fermée », est une école open source bien connue dans le domaine de l'IA : elle a sorti le modèle multimodal Ferret en octobre de l'année dernière, en avril de cette année, elle a publié quatre pré-formations OpenELM ; modèles avec des paramètres allant de 2,7 milliards à 30 milliards ; et Parmi les derniers modèles DCLM, les performances de la version 6.9B dépassent Mistral 7B et le score MMLU de la version 1.4B dépasse SmolLM-1.7B.

▲Apple utilise DCLM-Baseline pour entraîner le modèle (orange), qui montre de bonnes performances par rapport aux modèles fermés (croix) et à d'autres ensembles de données et modèles open source (cercles)

L’acteur représentatif en Europe n’est autre que la licorne grand modèle française Mistral AI.Il vient de sortir la semaine dernière le modèle à petite coupelle Mistral Nemo 12B, qui prend en charge le traitement de contexte 128k. Ses performances dépassent Google Gemma 2 9B et Llama 2 8B. Son raisonnement, sa connaissance du monde et ses capacités de codage sont les plus puissants parmi les modèles open source de même ampleur. .

Ces avancées montrent le potentiel d’application de la miniaturisation des grands modèles.

Clem Delangue, co-fondateur et PDG de Hugging Face, prédisait : «Des modèles plus petits, moins chers, plus rapides et plus personnalisés couvriront 99 % des cas d'utilisation . Vous n’avez pas besoin d’une voiture de Formule 1 à 1 million de dollars pour vous rendre au travail tous les jours, et vous n’avez pas besoin d’un chatbot client de banque pour vous expliquer le sens de la vie ! "

3. Comment êtes-vous devenu un expert en économies d’argent dans l’industrie du grand modélisme ?

Le rembobinage et la miniaturisation des grands modèles sont une tendance inévitable pour que l’IA profite à tous.

Toutes les applications ne nécessitent pas le grand modèle le plus puissant. La concurrence commerciale prend en compte la rentabilité et met l'accent sur une qualité élevée et des prix bas. Différents scénarios et entreprises ont des exigences très différentes en matière de qualité de production et de rentabilité.

Les modèles à très grande échelle entraîneront des coûts d'apprentissage élevés pour les développeurs et nécessiteront beaucoup de problèmes entre la formation et le déploiement. Un modèle plus rationalisé peut réduire le rapport entrées-sorties et utiliser moins de fonds, de données, de ressources matérielles et de cycles de formation pour créer des modèles compétitifs, réduisant ainsi les coûts d'infrastructure, contribuant ainsi à améliorer l'accessibilité et à accélérer le développement de modèles et la mise en œuvre d'applications.

▲Selon l'article Apple DataComp-LM, moins il y a de paramètres de modèle, moins il y a de puissance de calcul et de temps requis pour la formation.

Pour des applications spécifiques, les modèles légers nécessitent moins de données, ils peuvent donc être plus facilement ajustés pour des tâches spécifiques afin d'obtenir les performances et l'efficacité qui répondent à vos besoins. Grâce à une architecture simplifiée, ce type de modèle nécessite moins de capacité de stockage et de puissance de calcul. Après avoir optimisé la conception pour le matériel final, il peut fonctionner localement sur des ordinateurs portables, des smartphones ou d'autres petits appareils, avec une faible latence, un accès facile et une protection. Les avantages en matière de confidentialité et de sécurité garantissent que les données personnelles ne seront pas transmises à l'extérieur.

Bien que le modèle léger et performant soit petit, il doit être "Utiliser une puissance de calcul et une consommation d'énergie limitées pour condenser les connaissances dans un modèle avec des paramètres plus petits"Le seuil technique n'est pas bas.

Le processus de formation estDevenez d'abord plus grand, puis devenez plus petit , distillant l’essence des connaissances à partir de grands modèles complexes. Par exemple, le modèle multimodal à petites coupelles de Google, Gemma-2, est affiné à l'aide des connaissances du modèle 27B.

Mais en termes de parcours techniques spécifiques, les différents acteurs ont des approches différentes.

Par exemple dansdonnées d'entraînement D'autre part, Meta a fièrement alimenté les données de formation des jetons Llama 3 15T. Microsoft, Apple, etc. se concentrent sur l'optimisation des ensembles de données de formation et l'innovation des méthodes de données. Microsoft Phi-3 n'utilise que des jetons 3,3T, et Apple DCLM 7B n'utilise que des jetons 2,6T. Selon le document Apple DataComp-LM,L'amélioration des ensembles de données de formation peut trouver un équilibre entre le calcul et les performances, réduisant ainsi les coûts de formation . Récemment sorti la semaine dernière, Mistral NeMo compresse le texte et le code plus efficacement que les modèles précédents en utilisant le tagger avancé Tekken.

« Devenir plus petit » nécessite encoreInnovation architecturale . Par exemple, le modèle OpenELM d'Apple effectue une conception de réglage hiérarchique pour les goulots d'étranglement matériels afin d'améliorer l'efficacité opérationnelle du côté final ; le modèle clairsemé efficace et intelligent MiniCPM-S 1.2B, face au mur, atteint une parcimonie de près de 88 %, permettant à la couche de liaison complète d'accéder au réseau. la consommation est réduite à 84% et la vitesse de décodage est 2,8 fois supérieure à celle du modèle dense correspondant sans compromettre les performances.

▲Classification technique pour la réalisation de grands modèles de langage économes en ressources (Source : article « Beyond Efficiency : A Systematic Survey of Resource-Efficient Large Language Models »)

Le grand modèle est un projet systématique qui doit être exploré "science de l'intelligence artificielle"La direction, c'estGrâce à l'itération continue de solutions techniques telles que les algorithmes, l'architecture, la gouvernance des données et la fusion multimodale, nous pouvons former des modèles de manière plus fiable, plus prévisible et de meilleure qualité., pour améliorer continuellement la densité de connaissances des grands modèles.

Pour former et optimiser rapidement les modèles, une ligne de production efficace doit être établie.Il est nécessaire de créer une plate-forme de suite d'outils complète et d'élaborer une stratégie de formation modèle efficace et évolutive. . Par exemple, le mécanisme de bac à sable de modèle face au mur permet de former rapidement des capacités de modèle en utilisant de petits modèles pour prédire les performances de grands modèles et en partageant des schémas d'hyperparamètres entre grands et petits modèles.

▲ Comparaison réelle de la vitesse de décodage d'inférence MiniCPM 1.2B et MiniCPM-S 1.2B

Afin d'accélérer l'utilisation de grands modèles dans les terminaux intelligents, Facewall Intelligence a récemment rendu open source le premier ensemble d'outils de grands modèles côté client prêt à l'emploi du secteur, « MobileCPM », et a fourni des didacticiels de style nounou pour aider les développeurs à intégrer de grands modèles. dans les applications en un seul clic.

▲ Ensemble d'outils grand modèle intelligent côté terminal face au mur "MobileCPM"

Cette année coïncide avec l’explosion de l’IA côté appareil, des géants des puces tels qu’Intel, Nvidia, AMD et Qualcomm aux principaux fabricants de PC et de smartphones IA, ils font tous la promotion d’une variété d’applications d’IA côté appareil. Les fabricants de terminaux ont commencé à unir leurs forces avec les fabricants de modèles généraux pour promouvoir la mise en œuvre de modèles légers dans une large gamme de dispositifs terminaux.

À mesure que les performances des puces end-side deviennent plus fortes et que la densité des connaissances sur les modèles augmente, les modèles pouvant être exécutés localement sur les appareils end-side deviennent plus grands et meilleurs.GPT-4V peut désormais fonctionner côté terminal, prédit Liu ZhiyuanAu cours de la prochaine année, les modèles de niveau GPT-3.5 pourront être mis en service côté appareil, et au cours des deux prochaines années, les modèles de niveau GPT-4o pourront être mis en service côté extrémité.。

Conclusion : lancez un grand concours de mannequins qui ne brûle pas d'argent fou

Dans le monde de la technologie, la tendance historique consistant à devenir plus petit, moins cher et plus facile à utiliser est toujours récurrente. À l’ère du mainframe, les ordinateurs étaient des produits de luxe haut de gamme accessibles uniquement aux riches et à l’élite. À l’ère des mini-ordinateurs, les progrès technologiques ont rendu les appareils informatiques plus portables et plus faciles à utiliser, et les PC et les téléphones portables sont entrés dans le travail et la vie quotidienne du grand public.

Tout comme nous avons besoin de superordinateurs dotés d’une énorme puissance de calcul et de téléphones portables que les gens ordinaires peuvent mettre dans leurs poches, l’ère de l’IA générative nécessite de grands modèles extrêmement intelligents, plus proches des utilisateurs, plus rentables et capables de répondre à des applications économiques spécifiques. modèle de demande.

OpenAI GPT-4o se situe toujours au sommet des grands modèles d'IA les plus puissants, mais il n'est plus aussi invincible qu'avant. Un certain nombre de grands modèles de niveau GPT-4 ont atteint des performances similaires. Dans le même temps, les grands modèles plus compacts et plus efficaces remettent en question le concept « plus c'est gros, mieux c'est ». La nouvelle tendance « utiliser petit pour faire grand » devrait changer la manière de développer l'IA et ouvrir de nouvelles possibilités de mise en œuvre. de l'IA dans les environnements d'entreprise et grand public.

Le passage à la miniaturisation marque un changement majeur dans l'industrie de l'IA. Les grandes compétitions de modèles ont commencé à se concentrer davantage sur les besoins plus détaillés du monde réel. Au milieu de cet engouement, la puissance open source de la Chine, représentée par l'intelligence face au mur, se développe vigoureusement grâce à une série d'innovations technologiques, elle vérifie la loi de la densité des connaissances des grands modèles d'une manière plus économiquement réalisable et, en fin de compte, favorise l'utilisation de. grands modèles dans des scénarios d’application pratiques. Processus de mise en œuvre.

nouvelles

La direction des modèles à grande échelle a changé et OpenAI Apple a fait demi-tour

Introduction

mes coordonnées