Que reste-t-il d'un grand modèle atterrissant sur le bord ?

2024-08-07

Alors que les grands modèles entament le processus d’autonomisation de l’industrie, leur déploiement à grande échelle en périphérie/côté est devenu une priorité absolue pour un développement ultérieur. Cependant, le déploiement en périphérie est certainement plus propice à une réponse instantanée et à la protection de la vie privée pour les grands modèles, mais il sera également confronté à des défis en termes de fragmentation de la puissance de calcul, de problèmes d'efficacité énergétique et de scénarios de mise en œuvre. Pour les entreprises, c’est à la fois une difficulté et une opportunité.

Poussés par les besoins des applications industrielles, les grands modèles se développent vers la périphérie.

Actuellement, la grande industrie du mannequinat de mon pays connaît un développement rapide. Les statistiques montrent qu'à la fin du mois de mars, le nombre de grands modèles commercialisés en Chine avait atteint 117. Cependant, dans le processus de développement, contrairement aux États-Unis, qui se concentrent sur les percées originales, les grandes entreprises modèles chinoises mettent davantage l'accent sur la mise en œuvre des applications. Zhou Hongyi, fondateur et président du groupe 360, a déclaré dans un discours précédent que les modèles de volume, la puissance de calcul et les données ne sont pas les seules options pour développer des modèles prenant en compte des milliards de paramètres. Les grands modèles d'intelligence artificielle ont des voies de développement plus diversifiées. Li Dahai, co-fondateur et PDG de Face Wall Intelligence, a également souligné l'importance des modèles industriels, qui sont désormais devenus l'une des tendances importantes du développement.

Si vous souhaitez responsabiliser plus efficacement des milliers d’industries, les grands modèles et la puissance de calcul associée ne peuvent pas être déployés uniquement dans le cloud, et les modèles de pointe présentent des avantages comparatifs que le cloud n’a pas. La première est que le modèle final a une plus grande fiabilité. Les modèles déployés sur les terminaux peuvent interagir avec l’environnement en temps réel et en continu, mais il est difficile pour les modèles cloud de maintenir cette continuité. Deuxièmement, le modèle côté client peut mieux garantir la confidentialité des utilisateurs. Ce problème suscite de plus en plus d’attention. Si les robots pénètrent largement dans les maisons à l’avenir, les problèmes de confidentialité deviendront encore plus graves. Les avantages du modèle côté client pour garantir la confidentialité des données sont encore plus évidents.

Sur la base de cette compréhension, certaines sociétés d’informatique de pointe ont pris l’initiative de mettre en œuvre des scénarios autour de l’IA de pointe et ont réussi à injecter l’IA de pointe dans plusieurs domaines. Par exemple, dans le domaine de la fabrication intelligente, la plate-forme informatique de pointe Jetson de NVIDIA peut intégrer les capacités informatiques d'inférence de l'IA dans des scénarios industriels et résoudre des problèmes tels que la détection de défauts et la fabrication flexible sur la chaîne d'assemblage en utilisant le raisonnement visuel de l'IA accéléré par GPU. Les solutions d'Intel sont également utilisées dans des domaines tels que la surveillance intelligente, l'éducation et l'enseignement, ainsi que les soins médicaux intelligents. Grâce à la gestion de divers appareils de pointe, elles aident les services de renseignement de pointe à devenir plus flexibles, efficaces et précis.

Le développement de modèles Edge et End-Side a également stimulé la croissance de l'informatique Edge AI, et la puissance de calcul, les puces et autres maillons de la chaîne industrielle associés ont marqué le début d'une vague de développement à grande échelle. Qiu Xiaoxin, fondateur et président d'Aixin Yuanzhi, a souligné que la véritable mise en œuvre à grande échelle de grands modèles nécessite une intégration étroite du cloud, de la périphérie et de la fin à trois niveaux. La clé de la combinaison du côté périphérique et du côté final réside dans l'IA. informatique et perception. Qiu Xiaoxin estime que les puces intelligentes et les grands modèles multimodaux sont devenus la « combinaison dorée » à l'ère de l'intelligence artificielle. Lorsque les grands modèles seront de plus en plus largement utilisés, plus économiques, plus efficaces et plus respectueux de l'environnement deviendront les mots clés de l'intelligence. puces et équipées d'IA La puce d'inférence efficace du processeur sera un choix plus raisonnable pour la mise en œuvre de grands modèles, ce qui est également la clé pour promouvoir l'IA inclusive. STL Partners prévoit que d’ici 2030, la taille du marché potentiel mondial de l’informatique de pointe atteindra 445 milliards de dollars, avec un taux de croissance annuel composé du secteur pouvant atteindre 48 %.

Déploiement diversifié de la puissance de calcul pour faire face aux défis de fragmentation

Cependant, le déploiement de grands modèles côté périphérie/extrémité ne peut pas se faire du jour au lendemain. En raison des limitations des ressources informatiques des appareils de pointe et de la diversité des besoins en ressources informatiques des grands modèles, le déploiement en périphérie sera d'abord confronté à des défis en termes de puissance de calcul. D'une part, les fabricants de modèles doivent effectuer des traitements techniques tels que la compression, l'élagage et la quantification sur de grands modèles afin de réduire la taille et la complexité de calcul du modèle afin qu'il puisse s'adapter aux exigences de performances des dispositifs de périphérie/d'extrémité ; d'autre part, comment la puissance de calcul repose-t-elle ? Le déploiement des installations est également une priorité.

Zhang Yu, directeur de la technologie de la division Réseaux et périphérie d'Intel Chine, a souligné que, à mesure que l'intelligence artificielle donne du pouvoir à des milliers d'industries, différentes applications ont des exigences différentes en matière de puissance de calcul, et que l'étendue est très large. Ceux qui ont des exigences de performances élevées doivent être hébergés par un cluster de puissance de calcul, tandis qu'un ou plusieurs appareils ayant des besoins en puissance de calcul faibles peuvent être utilisés. Yang Lei, directeur produit d'Arm Technology, a également déclaré que lors du déploiement de modèles d'IA d'une telle envergure sur des terminaux, l'entreprise était toujours confrontée à de multiples défis tels que le coût, la consommation d'énergie et l'écosystème logiciel.

En réponse à ces tendances de la demande, les fournisseurs d'infrastructures de puissance de calcul tels qu'Inspur et Lenovo ont construit ces dernières années des configurations de puissance de calcul autour de « l'intelligence des réseaux cloud de pointe ». Les produits comprennent des passerelles Edge intelligentes, des serveurs Edge, des contrôleurs industriels, des ordinateurs embarqués et d'autres dispositifs matériels pour répondre aux besoins en puissance de calcul de différentes industries. Du côté des puces, l'intégration CPU+GPU+NPU est devenue la direction du développement des processeurs pour faire face à une puissance de calcul d'IA plus complexe. Qualcomm lance l'unité de traitement neuronal dédiée intégrée Snapdragon X Elite qui prend en charge des dizaines de milliards de modèles au niveau des paramètres. Le processeur Intel Meteor Lake combine le NPU avec la fonction IA du moteur informatique du processeur pour améliorer l'efficacité énergétique des PC exécutant des fonctions IA. En termes de puces d'IA nationales, Aixin Yuanzhi a également récemment lancé le « processeur d'IA Aixin Tongyuan ». Le jeu d'instructions de base de l'opérateur et la microarchitecture de flux de données adoptent une microarchitecture de flux de données programmable, qui peut améliorer efficacement l'efficacité énergétique et la puissance de calcul. Densité, adaptée au développement des domaines de l'informatique de pointe et du raisonnement de l'IA.

Les problèmes d’efficacité énergétique en périphérie sont importants et le développement léger est la clé

L’efficacité énergétique est également une question clé qui doit être prise en compte dans le développement de grands modèles de pointe. En fait, si les grands modèles souhaitent être déployés efficacement en périphérie/extrémité, par rapport au cloud, les problèmes d’efficacité énergétique sont plus importants. Sachin Katti, vice-président senior et directeur général de la division Network and Edge d'Intel, a déclaré dans une interview avec l'auteur que lorsqu'on parle de puissance de calcul, en plus de l'optimisation de la puissance de calcul, de l'écologie des logiciels, etc., un problème clé est la consommation d'énergie. surtout quand il est déployé en bordure. La consommation d'énergie des équipements déployés en périphérie peut être d'environ 200 W ; la consommation d'énergie du déploiement dans le cloud peut être de 1 000 à 2 kW, et la consommation d'énergie d'un rack monocouche dans le centre de données peut atteindre 100 kW. Si l'on additionne la consommation d'énergie de l'ensemble du centre de données, elle peut atteindre une échelle de 50G à 100GW.

Les appareils Edge ont souvent une puissance de calcul et une mémoire limitées, et les grands modèles nécessitent des ressources importantes pour une inférence hautes performances. ‌Par conséquent, ‌comment ‌optimiser l’utilisation des ressources et réduire la consommation d’énergie tout en garantissant la précision du modèle et la vitesse de réponse est devenu une question clé. En réponse à cette tendance, les fabricants concernés ont promu des cadres de développement légers et des bibliothèques d'accélération, tels que le moteur de déploiement de modèles Ryzen AI publié par AMD, la bibliothèque d'accélération d'inférence OpenVINO d'Intel, la bibliothèque d'accélération d'inférence hautes performances TensorRT de NVIDIA, etc., combinés à des applications ciblées. Les cadres de développement légers pour les terminaux embarqués et mobiles (tels que PyTorch Mobile, TensorFlow Lite, Paddle Lite, etc.) peuvent promouvoir l'application généralisée de l'intelligence artificielle dans les appareils mobiles, l'Internet des objets et d'autres scénarios d'informatique de pointe.

En outre, le secteur a également commencé à adopter largement la technologie de refroidissement liquide comme moyen de refroidissement des serveurs et est progressivement utilisée dans les centres de données et les déploiements de grands modèles. Il est entendu que la technologie de refroidissement liquide existante peut déjà refroidir une flotte de 100 kW et devrait être étendue à 300 kW à l'avenir.

En explorant les applications de l’IA, qui sera la « scène star » du futur ?

Alors que les gens mettent de plus en plus l'accent sur la puissance des grands modèles dans les applications industrielles, trouver des « scènes vedettes » appropriées est devenu une question clé qui détermine le succès ou l'échec de l'industrie. Actuellement, les téléphones mobiles IA, les PC IA et la conduite autonome sont devenus les marchés d’applications les plus prometteurs pour les grands modèles.

La dernière étude du cabinet d'études de marché IDC montre que le marché des téléphones mobiles IA atteindra des expéditions de 234,2 millions d'unités en 2024, soit une augmentation de 363,6 % par rapport aux 50,5 millions d'unités expédiées en 2023, et représentera 19 % du total des smartphones. marché cette année. En 2028, les expéditions de téléphones mobiles IA atteindront 912 millions d'unités, avec un taux de croissance annuel composé de 78,4 %. Anthony Scarsella, directeur de recherche du Worldwide Quarterly Mobile Phone Tracking d'IDC, a déclaré que le coût restera un inhibiteur clé lorsque les téléphones AI seront commercialisés, car de nombreuses puces et NPU puissants sont chers et sont principalement vendus sur le marché ultra haut de gamme. Cependant, à mesure que le temps passe et que la concurrence s’intensifie, nous pensons que ces composants trouveront leur place dans des modèles de milieu de gamme et plus abordables.

Les PC IA mûrissent plus rapidement que prévu initialement et devraient apporter une vague de remplacements à l’industrie mondiale des PC. Selon les prévisions de Canalys, le taux de pénétration mondial des PC IA passera de 19 % à 71 % de 2024 à 2028, et les expéditions passeront de 51 millions d'unités à 208 millions d'unités, avec un taux de croissance annuel composé de 42,11 %. Morgan Stanley prédit que les PC IA représenteront 2 % du marché global des PC cette année et atteindront 16 % l'année prochaine, 28 % en 2026, 48 % en 2027 et 64 % en 2028.

L'utilisation de grands modèles dans les voitures en est encore à ses débuts. Cependant, à mesure que le concept d'intelligence s'enracine progressivement dans le cœur des gens, la plupart des gens s'accordent à dire que les voitures finiront par devenir des « terminaux mobiles ambulants ». les grands modèles d'IA dans les voitures "emprunteront également la route du train express". Il existe deux directions principales pour l'installation de grands modèles dans les voitures : l'une consiste à entrer dans la zone du cockpit pour obtenir une interaction homme-machine plus intelligente ; l'autre consiste à coopérer avec le système de conduite automatique pour améliorer encore les solutions de conduite intelligente. Zhang Chi, directeur technique de Maichi Intelligent Technology Co., Ltd., a déclaré que les grands modèles accélèrent la transition de la conduite autonome des autoroutes vers des scénarios urbains plus complexes, et favorisent également la formation d'une perception et d'une intégration de contrôle de bout en bout. Liu Jianwei, co-fondateur et vice-président d'Aixin Yuanzhi, a déclaré qu'Aixin Yuanzhi avait prédit l'apparition de Transformer en 2022 et avait pris l'initiative de lancer une puce équipée du processeur Aixin Tongyuan AI. Les puces de conduite intelligente d'Aixin Yuanzhi, telles que M55H et M76H, ont été installées sur les modèles les plus vendus actuellement.

nouvelles

Que reste-t-il d'un grand modèle atterrissant sur le bord ?

Introduction

mes coordonnées