nouvelles

Expert : le développement de l’IA en Chine ne peut pas s’appuyer sur des « puces empilables »

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Source : Global Times

[Ma Jun, journaliste du Global Times] Les États-Unis s'appuient sur leurs avantages logiciels et matériels pour utiliser leur taille afin de « stocker » l'intelligence artificielle (IA) la plus puissante au monde. Le milliardaire américain Musk a récemment annoncé sur les réseaux sociaux que sa start-up d'IA xAI avait commencé à utiliser un "Memphis Super Cluster" composé de 100 000 GPU H100 pour la formation en IA, prétendant être "le cluster de formation en IA le plus puissant au monde". La Chine devrait-elle suivre cette voie technologique menée par les États-Unis ? Récemment, lors du séminaire d'experts sur le développement de la puissance informatique en Chine 2024, co-parrainé par la China Intelligent Computing Industry Alliance et le groupe de travail sur les normes de puissance informatique du National Beacon Committee, un certain nombre d'académiciens et d'experts ont donné leurs points de vue respectifs.

L’avenir de l’intégration du super-renseignement sera divisé en trois étapes

Chen Runsheng, académicien de l'Académie chinoise des sciences, a déclaré lors du séminaire : « Les grands modèles d'intelligence artificielle sont représentatifs d'une nouvelle productivité. Le développement intégré des grands modèles et du supercalcul est très important. " Le chercheur de l'Institut de technologie informatique de l'Académie chinoise des sciences, Zhang Yunquan, a mentionné que le développement rapide de grands modèles démontre les caractéristiques d'une nouvelle productivité, mais qu'il se heurte également actuellement à un goulot d'étranglement en matière de puissance de calcul. Compte tenu de l’importante accumulation technologique de la Chine dans le domaine du calcul intensif, on espère que la fusion superintelligente (la fusion du calcul intensif et de l’informatique intelligente représentée par de grands modèles) pourra résoudre efficacement ce défi. Shan Zhiguang, directeur du Département de l'information et du développement industriel du Centre national d'information, a expliqué : « La fusion super intelligente est née avec le développement diversifié actuel de la puissance de calcul de base, de la puissance de calcul intelligente, de la super puissance de calcul, etc. s'il peut utiliser des ressources informatiques hybrides ou des systèmes informatiques intégrés pour répondre simultanément aux besoins d'application de plusieurs ressources informatiques différentes.

En prédisant le futur processus d'intégration de la super-intelligence, Qian Depei, académicien de l'Académie chinoise des sciences, estime qu'il évoluera clairement selon les trois étapes : pour l'IA, par l'IA et être l'IA, évoluant de manière globale. du matériel au logiciel pour s’adapter et promouvoir le développement de la technologie. Dans la première phase pour l'IA, il se concentrera sur la transformation et la mise à niveau des systèmes informatiques existants et sur le développement de matériel dédié pour garantir que les tâches d'IA peuvent être prises en charge et exécutées efficacement, et pour fournir une infrastructure solide pour la recherche sur l'intelligence artificielle. Dans la deuxième étape, l'IA sera utilisée pour transformer l'informatique traditionnelle. D'une part, les méthodes d'IA seront utilisées pour résoudre les problèmes de calcul intensif traditionnels. D'autre part, l'IA affectera également la structure des ordinateurs traditionnels. deviennent apparents. Dans la dernière étape de l'IA, le système informatique présentera des caractéristiques intelligentes inhérentes. L'intelligence artificielle n'est plus une capacité externe, mais est devenue l'attribut principal et le composant de base de l'ordinateur. l’intelligence sera bien différente. Elle dépassera le supercalcul ou l’informatique intelligente dont nous disposons aujourd’hui.

Chen Runsheng a remarqué que la communauté scientifique et l'industrie tentent de résoudre le problème de l'intégration du calcul intensif et de l'informatique intelligente. Par exemple, la dernière architecture GB200 de Nvidia est en fait composée de deux GPU plus un CPU. Dans un sens, elle peut être considérée comme tirant parti à la fois de l'informatique intelligente et du supercalcul dans la disposition de deux GPU effectuant l'apprentissage automatique, ajoutant que le CPU offre une vitesse élevée. transmission de données. Mais il estime que cette architecture ne résout pas fondamentalement le problème d’efficacité. « La combinaison du supercalcul et de l’informatique intelligente est inévitable et sera intégrée de manière organique plutôt que simplement assemblée. »

Zheng Weimin, académicien de l'Académie chinoise d'ingénierie, a également déclaré que tous les aspects du développement, de la formation, du réglage fin et de l'inférence de grands modèles sont indissociables de la puissance de calcul, et que le coût de la puissance de calcul représente la majorité du coût global. les dépenses, notamment dans la phase de formation, qui représentent jusqu'à 70 %. Dans la phase de raisonnement, elles atteignent 95 %. Dans cette perspective, la puissance de calcul est devenue un facteur clé pour soutenir le développement de grands modèles.

L'informatique intelligente devrait faire référence à « l'intelligence humaine »

Des académiciens et des experts chinois ont présenté leurs propres points de vue sur l'engouement actuel de la Chine pour les modèles à grande échelle et sur la voie technologique à suivre « à l'échelle du réacteur » des États-Unis. Qian Depei a déclaré que la Chine dispose désormais de plus grands modèles en nombre et en types que les États-Unis, et qu'elle est également engagée dans l'intelligence artificielle générale. Cependant, nous sommes non seulement strictement limités par les États-Unis en termes de matériel, mais aussi de qualité. des données utilisées pour la formation des grands modèles. Le modèle et la quantité sont relativement faibles. « Le grand modèle produit de cette façon peut-il être meilleur que celui des États-Unis ? Je pense que nous devons encore nous conformer aux conditions nationales de la Chine et ne pouvons pas complètement le faire. suivez les Américains. »

Chen Runsheng estime également que les grands modèles qui émergent actuellement en Chine sont fondamentalement des améliorations des grands modèles et algorithmes proposés par les États-Unis, mais la théorie de base de l'ensemble du grand modèle est peu prise en compte. Il a souligné lors du séminaire que, comparé au modèle de mémoire locale utilisé par les superordinateurs traditionnels, l'informatique intelligente présente une différence fondamentale : le stockage distribué des informations. Cette méthode de stockage imite la structure complexe du réseau neuronal du cerveau humain, transportant des modèles de plus en plus grands via des réseaux de puces à grande échelle et densément interconnectés. Cependant, la manière d’intégrer efficacement les connaissances humaines dans ces systèmes complexes et la manière dont les informations sont distribuées et stockées dans le système, les algorithmes et les théories techniques qui les sous-tendent n’ont pas encore été pleinement explorés. "Avec l'expansion incontrôlée de l'échelle des modèles, un problème insurmontable est la consommation d'énergie. Par conséquent, il n'est pas entièrement conseillé d'ajouter aveuglément des puces et de s'appuyer sur une complexité croissante du système pour résoudre le problème de stockage des grands modèles."

Par conséquent, Chen Runsheng estime que l'informatique intelligente du futur devrait toujours faire référence à « l'intelligence humaine », qui consiste à simuler le mécanisme de fonctionnement du cerveau humain. Le cerveau humain est très petit et ne consomme que quelques dizaines de watts d’énergie, mais l’intelligence qu’il produit dépasse l’IA de pointe actuelle, qui consomme autant d’énergie qu’une ville entière. « Le développement de grands modèles et de l'informatique intelligente nécessite non seulement des améliorations des modèles et des algorithmes au niveau des applications, mais nécessite également des avancées du point de vue de la théorie fondamentale. Actuellement, les grands modèles n'ont développé que les premiers 10 % et 90 % des le travail n'a pas été fait. Je crois également que les grands modèles ne sont certainement pas obtenus en empilant de plus en plus de puces. Ils doivent apprendre comme le cerveau humain, en comprimant la complexité spatiale et temporelle pour être plus petits et en réduisant la consommation d'énergie. Je pense que c'est le plus fondamental. Le problème est d'étudier la complexité spatiale actuelle pour compléter la théorie de base de l'informatique intelligente. Si nous pouvons faire des progrès dans la théorie de base, nous pouvons réaliser une innovation fondamentale et originale.

Yuan Guoxing, chercheur à l'Institut de physique appliquée et de mathématiques computationnelles de Pékin, estime qu'il est impossible de s'attendre à ce qu'un grand modèle général soit capable de résoudre des problèmes dans tous les domaines de la vie. D'après la situation réelle, différentes applications ont des technologies différentes, nécessitent des algorithmes différents et ont des exigences différentes en matière de puissance de calcul. Par exemple, dans le calcul scientifique, les exigences en matière de précision des calculs sont de plus en plus élevées. À mesure que l'échelle des ordinateurs s'étend, il y a de plus en plus de données et la crédibilité diminue constamment. La National Aeronautics and Space Administration (NASA) a également fait valoir un point similaire et a des exigences très élevées en matière de précision des calculs. Par conséquent, différentes applications à l’avenir auront différents grands modèles et différents calculs pour résoudre différents problèmes. Les grands modèles actuels ont des exigences complètement différentes en matière de précision des calculs et d'algorithmes.

He Baohong, directeur de l'Institut du Cloud Computing et du Big Data de l'Académie chinoise des technologies de l'information et des communications, a ajouté : « L'informatique et la formation ont des exigences différentes pour l'infrastructure sous-jacente, et il est également nécessaire de déterminer dans quels scénarios les différences devraient être appliquées. être protégés et dans quels scénarios les différences devraient être reflétées.

Nécessité de développer de grands modèles au niveau souverain

Zhang Yunquan a déclaré que les États-Unis avaient récemment tenté de « coincer » mon pays dans le développement de l'intelligence artificielle par une série d'actions, notamment en interdisant la vente de GPU haut de gamme, en mettant fin au partage du code source des grands modèles et en interrompant coopération écologique. Dans le même temps, alors que l'échelle de calcul des grands modèles atteint désormais 10 000 GPU, voire 100 000 GPU, il est nécessaire de développer des supercalculateurs spéciaux pour les grands modèles afin de briser les goulots d'étranglement techniques tels que les murs de consommation d'énergie, les murs de fiabilité et les murs parallèles. Dans ce contexte, si la Chine veut briser le goulot d'étranglement de la puissance de calcul des grands modèles à court terme, elle a encore du chemin à parcourir : utiliser la technologie avancée de calcul intensif accumulée au cours des deux dernières décennies pour développer des supercalculateurs spéciaux pour les grands modèles afin de surmonter le problème. problèmes de goulot d'étranglement de la puissance de calcul des grands modèles, afin que notre pays puisse fermement saisir le niveau le plus avancé des grands modèles mondiaux et ne pas prendre de retard.

Lors de la présentation du plan « Grand modèle souverain » dans le cadre du système de fusion super-intelligent, Zhang Yunquan a déclaré que notre pays avait une profonde accumulation technologique dans le domaine du supercalculateur. Ces dernières années, il avait investi d'énormes sommes d'argent dans le développement de l'informatique intelligente. puissance, en se concentrant sur la création d'un système de puissance de calcul de fusion super-intelligent comme centre. L'ingénierie du système répond aux besoins de puissance de calcul des grands modèles, dans l'espoir de maximiser l'utilisation des avantages de la technologie de calcul intensif pour résoudre les défis de puissance de calcul. Selon le déploiement du plan « Sovereign Level Large Model », le consortium d'innovation « Sovereign Level Large Model » s'appuiera sur le supercalculateur national, des équipes de professeurs renommés de l'Académie chinoise des sciences et des principales universités nationales, des sociétés de puces intelligentes, entreprises de solutions de grand modèle, etc. pour créer conjointement des organisations ouvertes similaires. L'organisation ouverte d'OpenAI est développée par le secteur à but non lucratif pour organiser le « grand modèle de niveau souverain », et le secteur à but lucratif est organisé pour mettre en œuvre le « grand modèle de niveau souverain ». ". Il a suggéré que le superordinateur est « l'arme la plus importante du pays » et doit être utilisé pour surmonter les défis les plus grands et les plus difficiles. Le grand modèle au niveau souverain est un modèle racine qui peut soutenir le développement national, et non un grand modèle ordinaire. Des supermodèles similaires au niveau national ont également reçu une grande attention de la part d'autres pays. Par exemple, Microsoft aux États-Unis et OpenAI ont annoncé leur intention d'investir 100 milliards de dollars dans un nouveau supercalculateur d'intelligence artificielle. Le Japon a également récemment annoncé qu'il investirait massivement. dans le développement de modèles à l’échelle nationale.

Chen Runsheng estime que, compte tenu des conditions fondamentales actuelles de la Chine et de la tendance inévitable au développement des grands modèles, il n'est pas réaliste pour nous de suivre complètement l'approche occidentale et qu'il sera difficile de rattraper son retard à court terme. Il est donc encore plus important de trouver un moyen de développer des modèles à grande échelle au niveau souverain.