nouvelles

Une conversation avec l'équipe de Qi Peng de l'Institut de recherche sur l'IA de Chongqing de l'Université Jiao Tong de Shanghai : Le niveau actuel des grands modèles n'est équivalent qu'à celui d'un enfant de cinq ans |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Source de l'image : unsplash)

Récemment, une nouvelle sur « Le grand modèle ne peut pas déterminer si 9.11 ou 9.9 est plus gros » a suscité des discussions.

Lorsqu'un utilisateur a posé à 12 grands modèles d'IA nationaux et étrangers, dont GPT-4o, une question mathématique difficile pour les élèves du primaire : « Lequel est le plus grand, 9.11 ou 9.9 ? », le résultat final s'est avéré être uniquement celui d'Alibaba Tongyi. Qianwen et Baidu Wenxin. , Minimax et Tencent Yuanbao ont donné 4 réponses correctes, tandis que 8 grands modèles, dont ChatGPT-4o, ont donné des réponses erronées.

Cela signifie que les capacités mathématiques des grands modèles sont médiocres et que de nombreux problèmes doivent être résolus.

Lors d'une précédente conversation exclusive avec TMTpost AGI, le Dr Qi Peng, directeur du Centre d'IA des grands modèles de l'Institut d'intelligence artificielle de Chongqing de l'Université Jiao Tong de Shanghai (Institut d'intelligence artificielle de Shanghai-Chongqing), a déclaré que bien que les grands modèles aient une grande potentiel et peut gérer des problèmes complexes et avoir la capacité d’acquérir la capacité de généralisation. Cependant, les grands modèles de langage peuvent ressembler davantage à des « étudiants en arts libéraux » en raison des limitations de l'architecture du modèle et du manque de capacités scientifiques. De plus, la puissance de calcul limitée actuelle est insuffisante, les données textuelles sont insuffisantes, la précision et la fiabilité sont biaisées et l'échelle du modèle n'est pas assez grande. Son niveau d'intelligence est toujours celui d'un enfant, plutôt celui d'un « enfant de cinq ans ». ", et il est difficile de gérer des tâches complexes. , "l'illusion" existe depuis longtemps.

Qi Peng est titulaire d'une licence de l'Université Tsinghua et d'un doctorat de l'Université du Wisconsin aux États-Unis. Il travaille actuellement à l'Institut de recherche sur l'intelligence artificielle de Chongqing de l'Université Jiao Tong de Shanghai. Qi Peng est profondément impliqué dans la science des données, l'IA et d'autres domaines depuis de nombreuses années, a participé à de nombreux projets scientifiques et technologiques nationaux et détient un certain nombre de droits de propriété intellectuelle.

Alors que ChatGPT est devenu populaire dans le monde entier, au cours de la dernière année, Qi Peng a dirigé l'équipe du centre de grands modèles d'IA de l'Université Jiao Tong de Shanghai et de l'Institut de recherche sur l'intelligence artificielle de Chongqing pour développer indépendamment le grand modèle de langage "Zhaoyan", et en mars de cette année, l'évaluation des grands agents modèles chinois SuperCLUE s'est classée troisième au niveau mondial et deuxième au niveau national dans les benchmarks.

Dans le même temps, en juillet de cette année, Qi Peng a conduit Zhuang Shaobin, doctorant à l'Université Jiao Tong de Shanghai, et d'autres à participer à un projet communautaire open source et à reproduire avec succès un modèle vidéo Wensheng de type Sora en utilisant le Latte avancé. Architecture d'attention de découplage spatio-temporel, après une formation minutieuse, il a pu générer une vidéo de 16 secondes (128 images) sur l'ensemble de données vidéo InternVid par rapport au modèle open source précédent, qui ne peut générer qu'une vidéo de 3 secondes (24). -frame) vidéo, les performances sont améliorées de 5 fois (500%).

Le 12 juillet, Qi Peng et Zhuang Shaobin ont eu une conversation exclusive avec TMTpost pendant environ deux heures, se concentrant sur l'état actuel du développement de Sora et les défis rencontrés par le développement de grands modèles, la mise en œuvre industrielle et les orientations de développement futures.

En parlant de l'impact de la technologie Sora, Qi Peng a déclaré à TMTpost AGI que Sora ressemble davantage à un nouveau « marteau » capable de résoudre une variété de problèmes. Outre la génération vidéo, le modèle vidéo Sora Vincent peut également jouer un rôle dans de nombreux domaines tels que la conduite autonome et la simulation du monde physique. L'application la plus intuitive est la génération de vidéo. Il suffit aux utilisateurs de saisir une description textuelle pour générer rapidement un contenu vidéo répondant aux exigences, améliorant ainsi l'efficacité et la commodité de la production vidéo.

Lorsqu'il s'agit de mise en œuvre par l'industrie, Qi Peng a souligné que les grands modèles sont largement utilisés dans plusieurs secteurs verticaux, mais qu'il existe relativement peu de cas de mise en œuvre réelle. Il y a deux raisons principales : premièrement, le manque de capacités mathématiques et de capacités d'ingénierie des grands modèles ; deuxièmement, en tant que partie de la catégorie de l'apprentissage automatique, la nature des grands modèles basés sur des méthodes statistiques détermine qu'ils ne peuvent pas atteindre une précision de 100 %.

Dans l'attente du développement futur d'AGI, Qi Peng a souligné que la société humaine se trouve dans une période critique menant à l'AGI. Bien que les capacités actuelles du modèle ne répondent pas aux normes AGI, un jour dans le futur, lorsque les gens reviendront sur cette période de l'histoire, ils réaliseront peut-être que ChatGPT nous a placé à un nœud historique important.

"Un objectif important de l'institut est de réaliser la commercialisation de la technologie. Le Centre des Grands Modèles se concentre actuellement sur la mise en œuvre de l'AIGC, en particulier sur la question du "dernier kilomètre", sur la manière de transformer les résultats de la recherche en produits ou services réels pour satisfaire le marché. Demande. Bien que l'intelligence des grands modèles puisse continuer à s'améliorer, de cinq à dix ans à dix-huit ans, et même atteindre le niveau des plus grands experts, de tels systèmes nécessiteront toujours des installations et des outils de support pour prendre en charge leur fonctionnement et leur application. Les coûts de développement sont certes élevés, mais ils jouent un rôle crucial dans la promotion de l'application pratique et de la valeur sociale des grands modèles", a déclaré Qi Peng.


Dr Qi Peng, directeur du Centre des grands modèles d'IA de l'Institut d'intelligence artificielle de Chongqing, Université Jiao Tong de Shanghai

Ce qui suit est un résumé de la conversation entre TMTpost Media AGI et Qi Peng et Zhuang Shaobin :TMTpost Media AGI : Par rapport à d'autres modèles vidéo, quelles sont les principales différences du modèle vidéo récurrent Sora Vincent développé conjointement par l'Institut de recherche sur l'intelligence artificielle de Chongqing de l'Université Jiao Tong de Shanghai ?

Qi Peng : Ce projet a été développé par une équipe dirigée par le Dr Zhuang Shaobin. L'équipe a choisi d'utiliser toutes les données open source pour la formation des modèles. L'équipe a non seulement ouvert les données, mais a également rendu public le processus de formation. De cette manière, d'autres chercheurs ou développeurs peuvent reproduire le processus de formation du modèle dans leur propre environnement en fonction des mêmes étapes et paramètres, et vérifier l'efficacité et la stabilité du modèle.

Les différences fondamentales se reflètent principalement dans trois aspects :

Premièrement, l’équipe utilise toutes les données open source pour la formation des modèles, ce qui signifie que l’ensemble du processus de formation est basé sur des ensembles de données accessibles au public. Cette approche garantit la transparence et la répétabilité du processus de formation, et toute personne intéressée peut utiliser le même ensemble de données pour reproduire ou améliorer le modèle.

Deuxièmement, l’équipe a adopté une méthode de formation indirecte, qui permet de former efficacement le modèle à un coût de calcul inférieur. Cette approche convient aux ensembles de données à grande échelle et aux modèles complexes, car ils nécessitent des temps de formation plus longs et des ressources informatiques plus importantes. En utilisant une formation indirecte, le temps de formation peut être raccourci en augmentant le nombre de nœuds de calcul sans augmenter le coût en puissance de calcul d'un seul nœud de calcul.

Troisièmement, l’équipe a également effectué des travaux d’optimisation sous-jacents, notamment l’optimisation de la surcharge de mémoire vidéo. Ces optimisations permettent au modèle de former de manière stable de longues vidéos sur un cluster ou un serveur, améliorant ainsi l'efficacité de la formation et l'évolutivité du modèle.

TMTpost AGI : Quelle est la logique et les raisons du choix du modèle open source ?

Qi Peng : Contrairement aux projets commerciaux, l'avantage d'utiliser le modèle open source pour les projets de recherche auxquels collaborent des équipes et des communautés open source est qu'ils peuvent attirer davantage de personnel de R&D à participer. Puisqu'il n'y a aucune restriction de droit d'auteur et de commercialisation, toute personne intéressée par ce projet peut facilement obtenir et utiliser le modèle, proposer ses propres suggestions d'amélioration ou contribuer à un nouveau code. Ce modèle peut contribuer à l’amélioration et à l’optimisation continues des modèles, et peut également renforcer la communication et la coopération interdisciplinaires et interdisciplinaires.

TMTpost AGI : Ce modèle vidéo récurrent de type Sora utilise l'architecture d'attention à couplage spatio-temporel Latte. Quelle est la raison pour laquelle il n'est pas connecté à l'architecture DiT ?

Qi Peng : L'architecture de modèle de type Sora développée par l'équipe n'abandonne pas complètement Transformer ou d'autres modèles traditionnels, elle s'étend sur la base de DiT et ajoute la dimension temporelle pour prendre en charge le traitement vidéo. L'intérêt de cette nouvelle architecture peut être de mieux s'adapter aux caractéristiques des données vidéo et d'améliorer les performances du modèle sur les tâches de génération ou de traitement vidéo.

Titanium Media AGI : L'architecture DiT a des limites dans la génération de longues vidéos. L'architecture d'attention couplée spatio-temporelle Latte peut-elle résoudre ces problèmes ?

Zhuang Shaobin : Le meilleur modèle actuellement formé par l'équipe peut générer des vidéos d'une durée allant jusqu'à 16 secondes. Il s’agit d’une énorme amélioration par rapport aux modèles précédents basés sur l’architecture Unet, qui ne pouvaient généralement générer que deux à trois secondes de vidéo. 16 secondes, ce n'est pas une durée particulièrement longue, mais c'est un record relativement long dans le domaine de la génération vidéo.

Enjeux de continuité et de cohérence dans la génération vidéo, qui sont principalement affectés par la qualité des données. S'il existe des situations incohérentes telles que des sauts d'images dans les données vidéo, le modèle entraîné est également susceptible de générer des vidéos incohérentes. De plus, la fréquence d'images et la résolution lors de la formation du modèle ont un impact sur la qualité de la génération vidéo. Si le modèle est uniquement entraîné sur des données de résolution et de fréquence d'images inférieures, il risque de ne pas être en mesure de générer des vidéos fluides et de haute résolution.

Pourquoi ne puis-je pas générer une vidéo d'une minute ou deux de bout en bout ? Une vidéo de bout en bout d'une ou deux minutes signifie des milliers d'images, voire deux ou trois mille images de données, ce qui nécessite des centaines ou des milliers de fois la consommation de ressources informatiques. Bien que l’architecture d’attention couplée spatio-temporelle de Latte puisse théoriquement être étendue sur une telle durée, aucune institution ne dispose actuellement de suffisamment de puissance de calcul et de données pour prendre en charge une telle formation.

TMTpost AGI : Actuellement, qui utilise Sora ? Quels problèmes sont résolus ? Quelle valeur cela apporte-t-il ?

Zhuang Shaobin : Du côté C, pour les producteurs vidéo non professionnels, tels que les utilisateurs domestiques ordinaires, les modèles de génération vidéo tels que Sora peuvent réduire considérablement la difficulté de la production vidéo. Les utilisateurs n'ont qu'à saisir simplement des descriptions textuelles pour générer un beau contenu vidéo, facilitant ainsi la participation à la création vidéo.

Du côté B, pour les monteurs vidéo professionnels et les créatifs, Sora peut générer du matériel vidéo complexe ou imaginatif. Les professionnels peuvent affiner et optimiser en fonction des matériaux fournis par le modèle, améliorant ainsi l'efficacité du travail et la qualité de la création.

Sora n'est pas seulement utilisé dans la production vidéo, mais propose également une série d'explorations dans de multiples domaines tels que la conduite autonome, la génération et la modélisation 3D et la recherche en physique. Le système de conduite autonome doit prédire avec précision les changements dynamiques des objets environnants, et Sora, en tant que « simulateur du monde », peut simuler et prédire les trajectoires de mouvement des objets, fournissant ainsi une modélisation environnementale plus précise pour le système de conduite autonome.

Par exemple, dans le domaine de la conduite autonome, la solution de conduite autonome de Tesla et les systèmes avancés d'aide à la conduite similaires ont réalisé des progrès technologiques significatifs. Ils peuvent détecter l'environnement environnant en temps réel, y compris les véhicules, les piétons, les obstacles, etc., ce qui est la clé. à réaliser la conduite autonome. Les bases de la conduite. Sora aide les systèmes de conduite autonome à prendre des décisions à l'avance pour éviter les situations potentiellement dangereuses, telles que les collisions et les collisions arrière. Dans le même temps, en prédisant le mouvement des objets, le système peut également optimiser les itinéraires et les vitesses, améliorer l'efficacité du trafic et réduire les embouteillages et les émissions.

En général, Sora abaisse le seuil de production vidéo et permet à davantage de personnes de participer à la création vidéo. Les utilisateurs non professionnels du côté C et les producteurs vidéo professionnels du côté B peuvent en bénéficier.

Qi Peng : Sora ressemble plus à un « marteau », un nouvel outil capable de résoudre une variété de problèmes. Outre la génération vidéo, le modèle vidéo Sora Vincent peut également jouer un rôle dans de nombreux domaines tels que la conduite autonome et la simulation du monde physique. L'application la plus intuitive est la génération de vidéo. Il suffit aux utilisateurs de saisir une description textuelle pour générer rapidement un contenu vidéo répondant aux exigences, améliorant ainsi l'efficacité et la commodité de la production vidéo.

Bien souvent, la technologie n’est pas développée pour résoudre un problème spécifique, mais des solutions puissantes sont découvertes accidentellement au cours du processus de recherche. Une fois cette méthode mûrie, elle pourra être largement utilisée dans de nombreux domaines pour résoudre une série de problèmes.

Actuellement, Sora est encore en version bêta et n’est pas largement disponible au public. En Chine, il peut y avoir quelques cas d'application pour des versions bêta internes ou externes, mais le nombre est relativement faible et principalement limité à la génération de courtes vidéos ou de clips vidéo. Puisqu’il s’agit d’une version bêta, elle peut être disponible gratuitement dans de nombreux cas. Si la recharge commence à l'avenir, le coût ne représentera qu'une très petite partie des coûts actuels de production vidéo, par exemple quelques centaines de yuans, réduisant ainsi considérablement le coût de production vidéo.

TMTpost AGI : Quels défis l'équipe a-t-elle rencontrés lors du développement du modèle Sora ? Comment surmonter ces défis ?

Qi Peng : Ce projet coopère principalement avec la communauté open source. Les principaux travaux de recherche et développement sont effectués par le Dr Zhuang Shaobin et un ou deux membres du personnel de recherche et développement. Le projet dans son ensemble est divisé en quatre groupes, responsables de la collecte et de l'étiquetage des données, de la formation des modèles, de l'évaluation des modèles, de l'accélération de la formation et de l'optimisation des machines.

Zhuang Shaobin : Au cours du processus de formation du modèle, le plus grand défi auquel l'équipe est confrontée est l'insuffisance des ressources informatiques. La demande en ressources informatiques est particulièrement élevée lors du traitement de données à grande échelle et de modèles complexes. Afin d'utiliser plus efficacement les ressources limitées de la machine, l'équipe d'algorithmes de l'équipe du projet a effectué de nombreux travaux d'optimisation.

Ces optimisations incluent des stratégies d'optimisation avancées telles que le parallélisme des modèles et le parallélisme des pipelines, ainsi que l'optimisation de la mémoire vidéo pour des modèles individuels.

En outre, l'équipe a également optimisé le champ vidéo, afin que le projet puisse avoir des scénarios d'application et des domaines cibles clairs pour mieux répondre aux besoins d'application réels du projet.

TMTpost Media AGI : L'Institut de recherche sur l'intelligence artificielle de Chongqing et l'Institut de recherche sur la revitalisation rurale (Chongqing) de l'Université Jiao Tong de Shanghai ont précédemment publié un vaste modèle d'agriculture de revitalisation rurale appelé « Zhaoyan·Zhaofeng ». Pourquoi ce modèle a-t-il été développé ?

Qi Peng : En tant que seule municipalité présentant des scènes rurales, Chongqing offre des scènes riches et un vaste espace pour l'application de modèles agricoles à grande échelle. Le modèle de revitalisation rurale à grande échelle utilise des données massives en ligne et des données agricoles de l'Académie des sciences agricoles. Ces données fournissent une base pour la construction et la formation du modèle et peuvent refléter plus précisément la situation réelle de la production agricole. Actuellement, ce projet est développé conjointement avec des agences gouvernementales, l'Institut de recherche sur la revitalisation rurale (Chongqing) et d'autres parties. Ce modèle de coopération permet d'intégrer les ressources, la technologie et les fonds pour promouvoir conjointement la recherche, le développement et l'application de modèles agricoles à grande échelle.

Le grand modèle de revitalisation rurale prévoit de créer 14 modèles, et il existe actuellement 3 à 4 produits associés. Le grand modèle transforme les connaissances d'experts en informations populaires et faciles à comprendre, résout les problèmes de production agricole, de gestion et de subsistance des populations, et aide. le secteur agricole. Les travailleurs peuvent accéder aux connaissances agricoles et les utiliser aussi facilement que les résidents urbains, ce qui contribuera à réduire le fossé de l’information entre les zones urbaines et rurales et à améliorer l’efficience et l’efficacité de la production agricole.

TMTpost AGI : A ce stade, quels sont les goulots d'étranglement dans le développement de la technologie des grands modèles ?

Qi Peng : Tout d’abord, il est clair ce que l’équipe définit comme un grand modèle, qui est un grand modèle de langage. Le grand modèle linguistique est le modèle dominant et son noyau réside dans la connaissance et la logique. À mesure que les grands modèles de langage continuent de se développer, leur niveau d'intelligence peut progressivement augmenter du QI d'un enfant de cinq ans au niveau d'un enfant de dix ans, d'un dix-huit ans ou même d'un surhomme. Ce processus repose principalement sur la maîtrise du modèle et l'application des connaissances et de la logique.

Différent du grand modèle de langage, le modèle vidéo Vincent est une autre ligne du grand modèle. Il n'implique pas de connaissances ni de logique complexes, mais se concentre davantage sur la compréhension et la simulation des lois du monde physique. Des modèles tels que Vincent Video Modeling peuvent prédire et répondre aux changements dans le monde physique en fonction de la perception et de l'expérience, mais manquent de compréhension logique de haut niveau et de capacités de synthèse des connaissances.

De plus, il existe des modèles multimodaux, qui peuvent encoder et traiter plusieurs formes d'informations telles que du texte, des images, des sons, etc. de manière unifiée. Les modèles multimodaux sont l'une des futures orientations de développement, qui permettront de comprendre et de traiter de manière plus globale des informations complexes dans le monde réel.

A l'heure actuelle, les grands modèles entrent dans une période de plateau, et il semble difficile de réaliser un saut qualitatif en termes d'intelligence. Nous restons convaincus que les modèles plus grands ont tendance à être capables de traiter des problèmes plus complexes et à disposer de capacités d’apprentissage et de généralisation plus fortes. Une fois qu’un modèle pourra atteindre une précision de 99,9 %, ce grand modèle deviendra un nouvel outil de productivité capable d’effectuer diverses tâches.

Le développement de grands modèles pose des problèmes tels qu'une puissance de calcul insuffisante, des données textuelles insuffisantes, des écarts de précision et de fiabilité et une échelle de modèle insuffisante. De cette façon, le « QI » du grand modèle n'est pas assez élevé, mais ressemble davantage au niveau de QI d'un enfant de cinq ou six ans. La capacité du grand modèle à gérer des tâches complexes est limitée et ne peut pas atteindre le niveau des gens. attendre.

Deuxièmement, en raison des limites de l'architecture du grand modèle de langage, le grand modèle ressemble un peu à un « étudiant en arts libéraux ». Il gère très bien le langage, mais il n'est pas bon en mathématiques et en ingénierie. Le grand modèle peut être comparé au « PDG ou COO » de l'entreprise. Même si ce « PDG ou COO » ne connaît pas grand chose en technologie, il peut mobiliser divers composants de haute technologie.

Dans le même temps, les grands fabricants nationaux et les start-ups rencontrent des difficultés à développer de grands modèles, principalement parce que le coût d'investissement est énorme et que la commercialisation n'est pas suffisante pour soutenir l'investissement continu dans la puissance de calcul et les données.

Si le niveau d’intelligence des grands modèles ne peut pas être amélioré de manière significative dans un court laps de temps, le développement d’applications devient alors une option réalisable. Dans la phase actuelle de développement de grands modèles, les clients doivent explorer et améliorer en pratique différents scénarios d’application. Grâce à la commercialisation d'applications, des revenus peuvent être générés pour soutenir le développement et l'optimisation continus de grands modèles. Cela garantit non seulement la durabilité économique du projet, mais offre également la possibilité d’innovations technologiques futures.

En outre, les grandes entreprises modèles peuvent également soutenir le développement de projets par le biais de financements. Cependant, le financement n'est pas facile. Cela dépend de la reconnaissance par le marché du potentiel et de la valeur du projet.

TMTpost AGI : Le marché est très enthousiasmé par les grands modèles, mais l'application des grands modèles a mis du temps à avancer, ce qui est en retard par rapport aux attentes du marché. Pourquoi l'application des grands modèles est-elle si lente ?

Qi Peng : Il y a deux raisons :

Premièrement, le manque actuel de capacités techniques se traduit par des améliorations limitées, ce qui réduit l'enthousiasme pour les mises à niveau proactives ;

Deuxièmement, l'application des nouvelles technologies nécessite un nouveau matériel et une nouvelle puissance de calcul, mais diverses entreprises sont mal préparées et manquent de salles informatiques et de ressources informatiques intelligentes pour déployer et exécuter de grands modèles, ce qui rend difficile la mise en œuvre de grands modèles dans les industries verticales. Le deuxième problème peut en réalité être résolu grâce à des politiques correspondantes. Si les entreprises peuvent faire confiance à la garantie de sécurité des données des instituts de recherche ou des centres de calcul financés par le gouvernement, elles peuvent commencer à développer des solutions modèles à grande échelle avant de construire leurs propres salles informatiques intelligentes.

Les grands modèles, en particulier ceux capables de générer du texte, des images, etc. de haute qualité, nécessitent souvent des ressources informatiques importantes pour fonctionner. Par exemple, lorsqu'un million d'utilisateurs utilisent simultanément un grand modèle, le coût annuel de la puissance de calcul peut dépasser des centaines de millions, ce qui rend sa commercialisation difficile. Pour les utilisateurs ordinaires, de tels produits d'application à grand modèle et très coûteux peuvent être inabordables, ce qui limite également la promotion des applications C-end.

À ce stade, les solutions peuvent inclure l'adoption d'algorithmes plus efficaces, l'optimisation des structures de modèles pour réduire la quantité de calculs ou l'utilisation de ressources informatiques distribuées telles que le cloud computing pour répartir les coûts.

À certains égards, l'agent intelligent grand modèle actuel ressemble toujours à un « enfant de cinq ans ». Il présente des problèmes tels qu'un « QI » insuffisant, des performances instables et une tendance aux hallucinations, ce qui affecte sérieusement l'expérience et la confiance des utilisateurs. Ces problèmes sont inacceptables dans les scénarios d’application qui nécessitent une grande précision, tels que les scénarios de service client gouvernemental ou financier. Même dans certains domaines de conseil ou d'exploitation et de maintenance où les exigences de précision ne sont pas si élevées, le taux de précision actuel de 80 % ou 60 % n'a pas encore atteint le point critique pour une application généralisée.

L'amélioration des performances et de la stabilité des agents nécessite une optimisation continue des algorithmes, une augmentation de la diversité et de la quantité des données de formation et l'introduction d'architectures de modèles plus complexes. Dans le même temps, les mécanismes de surveillance en temps réel et de gestion des erreurs doivent également être renforcés pour garantir la stabilité des grands modèles dans des environnements complexes.

La reconnaissance d'images est un domaine très important dans l'application de grands modèles multimodaux. Sur la base du modèle pré-entraîné, de nouveaux modèles de reconnaissance d'images peuvent être développés à très faible coût, couvrant de nombreux scénarios à longue traîne et présentant un grand potentiel de marché. Bien que la reconnaissance d'images ait de nombreux scénarios d'application, les grands modèles actuels de reconnaissance d'images se heurtent toujours au problème d'une faible précision et d'une puissance de calcul relativement élevée.

De plus, comme la génération précédente d'intelligence artificielle était relativement mature dans la compréhension des images, les gens n'ont pas pleinement accepté la valeur supplémentaire que les grands modèles peuvent produire, ce qui affecte également la rapidité de sa promotion.

TMTpost AGI : Comment voyez-vous l'innovation industrielle actuelle des grands modèles industriels verticaux ? Pourquoi y a-t-il si peu de cas industriels verticaux mis en œuvre ?

Qi Peng : En termes de mise en œuvre industrielle verticale, en prenant comme exemple les robots humanoïdes dans l'industrie manufacturière, cela peut prendre cinq à dix ans pour que les robots humanoïdes soient utilisables dans les familles. Cela est principalement dû au fait que leurs capacités de généralisation dans les logiciels sont encore limitées. Cela ne suffit pas, et le matériel nécessite également des recherches, un développement et des améliorations supplémentaires.

Une direction de recherche plus pratique consiste à se concentrer sur le problème de la généralisation des bras robotiques dans des scénarios de fabrication. Bien que les bras robotiques eux-mêmes soient très matures et soient occupés par de grands fabricants nationaux et étrangers sur le marché, les bras robotiques existants ne disposent pas de capacités de généralisation suffisantes et ne peuvent pas s'adapter de manière flexible à une variété de tâches de travail différentes. Cela entraîne la nécessité d'une reprogrammation chaque fois que le bras robotique doit effectuer une nouvelle tâche dans des applications pratiques, ce qui n'est pas pratique lorsque les tâches changent fréquemment.

La clé pour résoudre le problème de la généralisation du bras robotique réside dans le développement de logiciels, en particulier ceux qui permettent au bras robotique de gérer un plus large éventail de scénarios. On s'attend à ce que d'ici un ou deux ans, grâce à l'optimisation et au développement de logiciels, les capacités de généralisation du bras robotique soient considérablement améliorées.

Bien entendu, il existe certains défis pour atteindre l’objectif de capacités de généralisation du bras robotique, à savoir le manque de données. Afin de former un bras robotique capable de gérer une variété de scénarios, une grande quantité de données de haute qualité est nécessaire pour prendre en charge l’apprentissage et l’optimisation des algorithmes.

En fait, les grands modèles peuvent être utilisés comme agents intelligents dans l’industrie manufacturière et peuvent appeler différents logiciels dans leur ensemble. Cela signifie que dans les systèmes complexes de l'industrie manufacturière, divers logiciels qui nécessitaient à l'origine une opération manuelle ou une connexion de programmation peuvent désormais être théoriquement automatisés et intégrés via de grands modèles.

Les utilisateurs n'ont besoin d'interagir avec le grand modèle que par le biais d'un langage ou d'idées, et le grand modèle peut exécuter automatiquement les programmes correspondants et effectuer diverses tâches. Cependant, étant donné que les différentes entreprises manufacturières ont des environnements de production, des systèmes et des API différents, l'adaptabilité des grands modèles à différents scénarios est devenue un défi majeur. Même un grand modèle bien réglé dans une scène peut ne pas fonctionner correctement dans un autre environnement. Par conséquent, les développeurs d’entreprise doivent affiner des scénarios spécifiques pour améliorer les performances et la précision des grands modèles.

Cette limitation affecte directement l’application généralisée et le développement en profondeur de grands modèles dans le secteur manufacturier. Parce que la fabrication implique souvent des opérations très complexes et raffinées, nécessitant des calculs et un contrôle de haute précision. Si un grand modèle n’est pas à la hauteur de ces tâches, il n’atteindra pas son potentiel en fabrication.

Outre les limitations de capacité des grands modèles eux-mêmes, les problèmes de compatibilité entre les systèmes constituent également un facteur important limitant l'application des grands modèles dans la fabrication. Différentes entreprises ou unités de production peuvent utiliser des systèmes complètement différents, notamment des logiciels, du matériel et des API différents. Cela rend difficile l'application directe d'un grand modèle optimisé dans un scénario à un autre, car les environnements système des deux scénarios peuvent être complètement différents. Cette variabilité entre les systèmes augmente la complexité et le coût de l'application de grands modèles dans la fabrication.

Il existe effectivement une solution. Pour les secteurs verticaux tels que l’industrie manufacturière ou la finance et la vente au détail, des interfaces pour de grands modèles standardisés peuvent être définies. Ces interfaces clarifieront les capacités spécifiques que le grand modèle peut offrir, afin que tous les systèmes puissent appeler les fonctions du grand modèle via ces interfaces. L'avantage est que quelle que soit la façon dont l'environnement du système change, tant qu'ils respectent ces spécifications d'interface standardisées, ils peuvent être connectés de manière transparente aux grands modèles.

Par conséquent, en définissant des interfaces standardisées, les développeurs d'entreprise peuvent réduire considérablement la difficulté de faire correspondre les grands modèles avec différents systèmes, permettant ainsi aux grands modèles de s'adapter plus rapidement aux différents environnements de production. Les interfaces standardisées permettent de garantir que les grands modèles peuvent fonctionner de manière stable dans différents systèmes et de réduire les problèmes de compatibilité causés par les différences entre les systèmes.

En général, les grands modèles sont largement utilisés dans plusieurs secteurs verticaux, mais il existe relativement peu de cas de mise en œuvre réelle. Il y a deux raisons principales : Premièrement, les capacités mathématiques et techniques insuffisantes font qu'il est difficile pour les grands modèles d'atteindre une précision et une stabilité suffisantes dans les applications pratiques. Deuxièmement, le grand modèle lui-même fait partie de la catégorie de l’apprentissage automatique, et sa nature basée sur des méthodes statistiques détermine qu’il ne peut pas être correct à 100 %.

En fait, la structure du cerveau humain n’est pas précise à 100 %, mais le jugement humain est souvent suffisamment précis pour répondre aux besoins de la plupart des scénarios réels. En revanche, même après une formation, la précision d'un grand modèle peut encore être d'environ 95 %, ce qui peut ne pas être suffisant dans certains scénarios nécessitant une précision extrêmement élevée. De plus, les capacités mathématiques des grands modèles sont relativement faibles, ce qui limite également leur application dans certains domaines.

Si vous souhaitez surmonter ces limitations, vous devez comprendre l’importance des installations de support pour les grands modèles. En fournissant les installations et les outils de support nécessaires aux grands modèles, il peut compenser son manque de capacités mathématiques et techniques, afin de mieux s'adapter aux besoins des scénarios d'application réels. Ces installations de support peuvent inclure des ensembles de données plus précis, des algorithmes plus efficaces, des plates-formes matérielles plus stables, etc.

TMTpost AGI : Pourquoi les grands modèles créent-ils des hallucinations ?

Qi Peng : Parfois, c'est parce que les données originales elles-mêmes sont manquantes ou présentent des problèmes que le grand modèle de langage ne peut pas acquérir les connaissances correctes pendant le processus de formation et ne peut donc pas faire de déductions correctes. Cette erreur n'est pas causée par des défauts dans le grand modèle de langage lui-même, mais par des inexactitudes dans les données d'entrée.

Si un grand modèle est formé dans un environnement hypothétique où toutes les informations conduisent à des conclusions erronées, alors le grand modèle portera également des jugements erronés sur la base de ces informations erronées. Cela souligne l’influence importante des données et de l’environnement sur les performances des agents et des grands modèles.

Parfois, les grands modèles peuvent générer des réponses qui semblent logiques et réfléchies mais qui ne sont pas réellement vraies ou exactes. Cela ressemble à la façon dont les enfants de 5 ans décrivent souvent de faux souvenirs avec assurance.

Les adultes ont également souvent des hallucinations ou des erreurs de mémoire lors du traitement des informations et de la mémoire. Par exemple, lors de l'enregistrement des audiences du tribunal et de l'analyse des cas, les parties impliquées dans des situations très graves et importantes peuvent également avoir de faux souvenirs ou des hallucinations dues à diverses pressions, informations trompeuses, etc.

TMTpost AGI : Comment les différences dans l'environnement du marché des grands modèles en Allemagne et à l'étranger se reflètent-elles ?

Qi Peng : À l'heure actuelle, les pays étrangers restent très confiants dans l'amélioration de la technologie et ne se tournent pas complètement vers le développement d'applications. Cela peut être lié au fait que les marchés étrangers sont relativement matures et stables, ce qui permet aux entreprises de disposer de plus de ressources et d'espace pour se concentrer sur la recherche, le développement et l'innovation technologiques. En revanche, le marché intérieur est confronté à un environnement concurrentiel plus féroce, et la plupart des grandes entreprises de R&D basées sur des modèles se sont tournées vers des applications à grande échelle.

La concurrence sur le marché intérieur ne se reflète pas seulement dans le nombre d’entreprises, mais aussi dans la guerre des prix. Comme plusieurs entreprises proposent des services similaires en même temps, le prix des grands modèles chute rapidement, ce qui rend difficile pour les entreprises de récupérer leurs coûts en fournissant des services. Dans les pays étrangers, les entreprises représentées par ChatGPT peuvent continuer à percevoir des revenus et à les utiliser pour poursuivre la recherche, le développement et l'innovation grâce à leur position de leader en matière de technologie et de reconnaissance du marché.

Sur le marché intérieur, en raison de la guerre des prix féroce et de la relative faiblesse de la volonté de payer, les entreprises pourraient devoir se concentrer davantage sur le développement de nouvelles applications afin de rechercher des percées commerciales. Bien que cette stratégie puisse atténuer dans une certaine mesure la pression économique des entreprises, elle peut également conduire à un investissement insuffisant dans la recherche et le développement technologique, affectant ainsi leur compétitivité à long terme.

TMTpost AGI : Quelles sont les futures orientations de développement d’AGI ?

Qi Peng : Je crois que la société humaine se trouve à une période critique menant à l’AGI. Bien que l'industrie estime actuellement que certaines technologies ou modèles ne sont pas sur la bonne voie vers l'AGI, elle estime que ces technologies ou modèles n'appartiennent pas à l'AGI.Mais un jour dans le futur, lorsque nous regarderons cette période de l’histoire, nous réaliserons peut-être que nous nous trouvons à un tournant historique important.

Prenons l'exemple de la technologie de conduite autonome de Tesla. Il y a cinq ans, on aurait pu penser qu'il faudrait dix à vingt ans pour mettre en place une technologie de conduite autonome de niveau L4, mais aujourd'hui, cette technologie a fait des progrès significatifs. Ce progrès fortuit permet à l’industrie de croire que le véritable AGI pourrait être réalisé par inadvertance.

Zhuang Shaobin : Quel est l’état idéal de l’AGI ? AGI doit non seulement posséder des capacités de réflexion de haut niveau, mais, plus important encore, pouvoir être appliqué dans la vie réelle, en particulier dans l'industrie.

À l’heure actuelle, les gens ont vu de nombreuses applications de la robotique et de la technologie de l’IA sur des appareils physiques, ce qui montre que les gens travaillent dur pour libérer la technologie de l’IA des ordinateurs et la transformer en entités tangibles et actives. Ce saut est très important pour la technologie de l’IA. Ce n’est que dans les applications pratiques que l’IA peut créer une plus grande valeur.

TMTpost AGI : En plus de la voie DiT, existe-t-il d'autres voies ou stratégies possibles pour le développement de l'AGI ? Quel est le chemin de mise en œuvre de l’AGI ?

Qi Peng : Dans le processus de développement d’AGI, les humains doivent avoir une attitude diversifiée et inclusive. Si l'AGI est comparé aux devoirs d'élèves de niveaux différents dans une classe, même si les élèves ont des capacités différentes, ils peuvent tous accomplir certaines choses de base. De même, même s’il existe des différences de performances entre les architectures, elles peuvent toutes accomplir certaines tâches de base, mais elles ont des capacités différentes pour des tâches plus difficiles.

En particulier, avec la prise en charge de grandes quantités de données et de puissance de calcul, différentes architectures peuvent améliorer leurs capacités de base en augmentant le nombre de paramètres, afin qu'elles puissent toutes fonctionner à un certain niveau.Dans le même temps, il existe également de nouvelles tendances dans le domaine des grands modèles, telles que les mécanismes d'attention linéaire et d'autres méthodes d'optimisation. Ces méthodes sont conçues pour réduire la quantité de calcul du modèle Transformer traditionnel et améliorer l'efficacité.

Quant à la voie finale de mise en œuvre de l’AGI, il n’existe en réalité aucune voie fixe. Les différents modèles et technologies actuels ont leurs avantages et leurs limites. Dans le processus de développement d’AGI, une exploration et une intégration continues de plusieurs architectures et technologies sont nécessaires. Différentes architectures et technologies fourniront des références et des références importantes pour AGI dans ce processus, favorisant son développement continu. Dans le même temps, il convient de prêter attention au caractère pratique et aux capacités d’autocorrection du modèle.

TMTpost AGI : Comment trouver un équilibre entre la recherche, l'innovation et la commercialisation dans le domaine national des grands modèles ?

Qi Peng : En termes de recherche innovante, en raison de fonds limités, l'institut doit clarifier les objectifs qu'il peut s'efforcer d'atteindre, plutôt que de poursuivre aveuglément des projets qui nécessitent une grande quantité de ressources, comme de grands modèles de langage qui ne peuvent être entrepris qu'en par de grandes entreprises comme Baidu.

Deuxièmement, l'équipe de l'institut doit sélectionner des projets de recherche pouvant être réalisés avec certains efforts et ayant une valeur pratique. Par exemple, le modèle de type Sora basé sur l’architecture d’attention de couplage spatio-temporel Latte développée par l’équipe prend comme exemple la génération de vidéo haute définition de 16 secondes. Il s’agit d’un objectif que l’institut peut s’efforcer d’atteindre avec les ressources existantes. Dans le même temps, l'institut doit également choisir certaines orientations de recherche qui peuvent nécessiter moins de ressources, comme l'optimisation des modèles ou les applications de support.

En termes de commercialisation, l'institut devrait se concentrer sur la mise en œuvre de l'AIGC, notamment sur la problématique du « dernier kilomètre ». Cela signifie que les instituts de recherche doivent se concentrer sur la façon de transformer les résultats de la recherche en produits ou services réels pour répondre à la demande du marché et parvenir à la commercialisation.

Bien que le QI des grands modèles puisse continuer à augmenter, de cinq à dix à dix-huit ans, et même atteindre le niveau des plus grands experts, un tel système nécessitera toujours des installations ou des outils de support pour soutenir son fonctionnement et son application. Les coûts de R&D de ces installations de soutien sont peut-être relativement faibles, mais ils jouent un rôle crucial dans la promotion de l'application pratique et de la valeur sociale des grands modèles.

Par conséquent, les équipes des institutions de recherche nationales dans le domaine de l'IA devraient principalement se concentrer sur la recherche et le développement de ces installations de soutien pour soutenir l'exploitation et la mise en œuvre de grands modèles.

(Cet article a été publié pour la première fois sur Titanium Media App, auteur | Dou Yueyi, Lin Zhijia, éditeur | Lin Zhijia)