Ma Yi de l'Université de Hong Kong : Les grands modèles sans théorie depuis longtemps sont comme des aveugles essayant d'attraper un éléphant. De grands noms se rassemblent pour parler de la prochaine étape d'AI

Université de finance et d'économie de Hong Kong Ma Yi : Les grands modèles sans théorie depuis longtemps sont comme des aveugles sentant l'éléphant se rassembler pour discuter de la prochaine étape de l'IA ;

2024-07-24

Le vent d'ouest vient du temple Aofei
Qubits | Compte public QbitAI

"Je veux vous poser une question. Que vous soyez étudiant à l'Académie Qiuzhen ou à la classe junior de Qiu Chengtong, si vous ne connaissez pas cette question, alors vous ne devriez pas être dans cette classe !"

Lors de la Conférence internationale des sciences fondamentales 2024 « Forum des sciences fondamentales et de l'intelligence artificielle », CTO du groupe Lenovo et académicien étranger de l'Académie européenne des sciencesRui YongDès que ces mots sont sortis, tout le public est devenu un peu nerveux.

Mais ensuite, la question qu'il a posée était :Lequel est le plus grand, 13,11 ou 13,8 ?

Hé les gars, demandez simplement qui ne connaît pas encore cette blague.

Mais cette fois, il ne s’agit pas de se moquer de la folie du mannequin. Plusieurs experts en IA du monde universitaire et de l'industrie ont analysé une série de problèmes tels que "l'illusion" du modèle et ont recueilli leurs opinions sur "Quelle est la prochaine étape pour l’intelligence artificielle ?"l'avis de.

En résumé, il comprend les points suivants :

La prochaine étape dans le développement de grands modèles consiste à s'éloigner du paradigme de recherche selon lequel « aucune capacité abstraite, aucune valeur subjective et aucune connaissance émotionnelle ».
Les applications commerciales sont à la traîne par rapport à la croissance à grande échelle du modèle lui-même, et il manque un super produit capable de véritablement refléter la valeur de l'investissement.
Sous réserve de l’illusion, la prochaine étape peut consister à réfléchir à la manière d’étendre la généralisation et l’interactivité du modèle. La multimodalité est une option.
Il est très important pour l’agent intelligent de connaître les limites de ses capacités.

Doyen de la School of Data, Université de Hong Kong et président du Département d'informatique, Université de Hong KongPuis-jeAu cours de la discussion, un point d’interrogation a même été soulevé quant à « l’intelligence artificielle » actuellement utilisée par le grand public :

Le développement de la technologie de l'intelligence artificielle a accumulé beaucoup d'expériences, dont certaines peuvent être expliquées et d'autres que nous ne pouvons pas expliquer. Le moment est venu où la théorie est grandement nécessaire. En fait, on peut dire que notre recherche n’a pas fait beaucoup de progrès au cours des dix dernières années. Il est probable que le développement rapide de l’industrie et de la technologie de l’ingénierie ait affecté le rythme des universitaires.

Jetons un coup d’œil à ce que les grands ont dit spécifiquement.

Quelle est la nature de l’intelligence ?

Sur place, le doyen de la School of Data de l'Université de Hong Kong et le président du département d'informatique de l'Université de Hong KongPuis-je, a prononcé un discours intitulé « Revenir aux bases de la théorie et explorer l'essence de l'intelligence ».

Les points de vue exprimés coïncident avec les questions discutées lors de la table ronde.

Le thème du discours du professeur Ma Yi était « Revenir aux bases de la théorie et explorer l'essence de l'intelligence ». Il a passé en revue le processus de développement historique de l'IA et a présenté ses propres vues sur le développement actuel de l'IA.

Il a d'abord parlé de l'évolution de la vie et de l'intelligence.

Selon lui, la vie est porteuse d'intelligence, et la capacité de la vie à produire et à évoluer est le résultat de l'action de mécanismes intelligents. et,Le monde n'est pas aléatoire, il est prévisible, dans un processus d'évolution continue, la vie acquiert des connaissances plus prévisibles sur le monde.

La survie du plus fort grâce à la sélection naturelle est une sorte de retour d’information de l’intelligence, similaire au concept actuel d’apprentissage par renforcement.

Des plantes aux animaux, en passant par les reptiles, les oiseaux, puis les humains, la vie a amélioré son intelligence, mais il semble que plus la vie est intelligente, plus elle suivra longtemps ses parents après sa naissance. Pourquoi?

Le professeur Ma Yi a expliqué en outre : Parce que les gènes ne suffisent pas, certaines capacités doivent être acquises. Plus la capacité d’apprentissage est forte, plus il faut apprendre de choses. Il s’agit d’une forme d’intelligence plus avancée.

Si nous apprenons de manière individuelle, ce n’est pas assez rapide ni assez bon, c’est pourquoi les gens ont inventé le langage et l’intelligence humaine est devenue une forme d’intelligence de groupe.

Une intelligence de groupe a été produite et un changement qualitatif s'est produit.Non seulement nous apprenons ces phénomènes prévisibles à partir d’observations empiriques ;pensée logique abstraite, nous l’appelons intelligence humaine, ou plus tard intelligence artificielle.

Ensuite, il a parlé de l’origine de l’intelligence artificielle.

Depuis les années 1940, les humains ont commencé à essayer de laisser les machines simuler l’intelligence des êtres vivants, en particulier des animaux.

Les humains ont commencé à modéliser les neurones et à explorer « comment fonctionne la perception cérébrale ». Plus tard, tout le monde a découvert que la simulation du système nerveux animal devait être construite à partir de réseaux neuronaux artificiels, et la recherche est devenue de plus en plus complexe.

Cette affaire ne s'est pas déroulée sans heurts. Après deux hivers froids, tout le monde a découvert certaines limites des réseaux neuronaux, et certains insistent encore pour résoudre ces défis.

Par la suite, la puissance de calcul des données s'est développée et il est devenu possible de former des réseaux de neurones. Des réseaux de plus en plus profonds ont commencé à se développer et leurs performances sont devenues de plus en plus performantes.

Mais il y a le plus gros problème :Ces réseaux sont conçus de manière empirique. C’est une boîte noire, et la boîte devient de plus en plus grande. Les gens ne savent pas ce qui se passe à l’intérieur.

Quel est le problème avec une boîte noire ? D'un point de vue technique, la conception d'expériences est également possible et les essais et erreurs peuvent être poursuivis. Cependant, le coût est élevé, le cycle est long et les résultats difficiles à contrôler. aussi:

Tant qu'il y aura un phénomène important dans le monde que personne ne peut expliquer, et que de nombreuses personnes resteront dans l'ignorance, cela créera la panique.

Alors, comment ouvrir la boîte noire ? Le professeur Ma Yi propose de revenir à la question initiale : pourquoi étudier ? Pourquoi la vie peut-elle évoluer ?

Il a particulièrement souligné qu’il faut parler de choses qui peuvent être réalisées par le calcul :

Ne parlez de rien d'abstrait. C'est mon conseil à tout le monde. Vous devez parler de la façon de calculer et de la façon d'exécuter cette affaire.

Alors que faut-il apprendre ?

Le professeur Ma Yi estime que nous devrions apprendre des choses prévisibles et régulières.

Par exemple, si vous tenez un stylo dans votre main et que vous le lâchez, tout le monde sait ce qui va se passer, et si vous vous déplacez rapidement, vous pouvez l'attraper. Cela était connu avant Newton. Les humains et les animaux semblent avoir de bons modèles du monde extérieur.

Et en mathématiques,Les informations prévisibles se reflètent uniformément dans la structure de faible dimension des données dans un espace de grande dimension.。

Alors, quel est le mécanisme de calcul unifié ? Le professeur Ma Yi a donné la réponse :Des choses semblables se rassemblent et des espèces différentes se repoussent., l'essence est aussi simple que cela.

Comment mesurer si quelque chose est bien fait ? Pourquoi compresser ?

Il a donné un exemple, comme indiqué ci-dessous. Par exemple, le monde est aléatoire, rien n’est connu et tout peut arriver si des boules bleues sont utilisées à la place, toutes les boules bleues peuvent arriver dans la seconde suivante.

Mais si vous voulez vous rappeler qu'une de ces choses s'est produite, vous devez encoder tout l'espace, lui donner un code, et seule la zone avec des boules vertes peut apparaître, et les boules bleues le seront beaucoup moins.

Quand on sait que les zones où les choses vont se produire deviennent de plus en plus petites, on en sait de moins en moins sur le monde. C’est ce qu’établissait la théorie de l’information dans les années 1940.

Pour mieux retrouver ces espaces verts, il faut mieux les organiser dans le cerveau. Notre cerveau organise donc ce phénomène et cette structure de basse dimension.

Comment cela peut-il être réalisé informatiquement ?

Le professeur Ma Yi a déclaré que tous les réseaux profonds faisaient réellement cela. Comme le Transformer maintenant, il le fait en segmentant les images et en les classant.

En fait, chaque couche du réseau neuronal estCompresser les données。

Les mathématiques jouent un rôle très important à cet égard. Vous devez mesurer strictement ce que vous souhaitez optimiser et comment l'optimiser. Après avoir effectué ces deux choses, vous constaterez que l'opérateur que vous obtenez est le même que celui que vous avez trouvé. expérience actuelle. De nombreux opérateurs sont très similaires.
Qu'il s'agisse de Transformer, ResNet ou CNN, ils le font tous de différentes manières. Et ce qu’il fait peut être complètement expliqué statistiquement et géométriquement.

maisLa solution optimale d'optimisation elle-même n'est peut-être pas la bonne solution , des informations importantes peuvent être perdues pendant le processus de compression. Comment prouver que les dimensions d'informations existantes sont bonnes ? Comment prouver qu’il n’y aura pas d’hallucinations ?

Revenons aux bases de l’apprentissage, pourquoi devons-nous nous souvenir de ces choses ?C'est pour être làLe cerveau simule le monde physique,Pour mieux performer dans l’espace physiqueprédire。

Plus tard, Ma Yi a mentionné le concept d'alignement :

Donc l’alignement ne consiste pas à s’aligner sur les gens, c’est ça l’alignement.Le modèle s’aligne sur ce qu’il a appris.

Apprendre un auto-codage de l'intérieur ne suffit pas. Comment les animaux dans la nature apprennent-ils le modèle physique du monde extérieur——

Utilisez constamment vos propres observations pour prédire le monde extérieur, à condition qu'elles soient cohérentes avec les observations.cohérent , c'est ça. Cela implique le concept de boucle fermée.

Tant qu’il y a des créatures vivantes, tant qu’il y a des créatures intelligentes, elles sont toutes en boucle fermée.

Le professeur Ma Yi a ensuite souligné que nous sommes encore loin de la véritable intelligence.

Qu’est-ce que l’intelligence ? Les gens confondent souvent connaissance et intelligence. Un système a-t-il de l’intelligence s’il a des connaissances ? Un système intelligent doit disposer des bases nécessaires à son auto-amélioration et à l’augmentation de ses propres connaissances.

Enfin, le professeur Ma Yi a conclu.

En regardant l'histoire, dans les années 1940, tout le monde voulait que les machines imitent les animaux, mais dans les années 1950, Turing a proposé une chose : les machines peuvent-elles penser comme les humains ? Lors de la Conférence de Dartmouth en 1956, un groupe de personnes s'est réunie et leur objectif était de faire quelque choseL'intelligence unique qui distingue les humains des animaux：Capacité abstraite, opérations symboliques, raisonnement logique, analyse causaleattendez.

C’est ce qu’ils ont défini comme étant l’intelligence artificielle en 1956. Plus tard, ces personnes ont remporté le prix Turing. Donc, si vous souhaitez remporter le prix Turing à l'avenir, devriez-vous choisir de suivre la foule ou de faire quelque chose d'unique...

Avec le recul, qu’avons-nous fait au cours des 10 dernières années ?

L'« intelligence artificielle » actuelle effectue la reconnaissance d'images, la génération d'images, la génération de texte, la compression et le débruitage, ainsi que l'apprentissage par renforcement. Le professeur Ma Yi estime que :Fondamentalement, ce que nous faisons se situe au niveau animal., y compris la prédiction du prochain jeton et de l'image de la prochaine image.

Ce n’est pas que personne n’y a travaillé plus tard. Mais pas un grand modèle grand public.

Il a en outre expliqué que si suffisamment d'argent et suffisamment de données sont injectés, les performances de nombreux modèles continueront à se développer, mais s'il n'y a pas de théorie pendant une longue période, des problèmes surgiront, tout comme un aveugle essayant de comprendre. sortir un éléphant.

Le professeur Ma Yi a déclaré que partager son parcours personnel espère inspirer les jeunes.

Une fois que nous avons les principes, nous pouvons concevoir avec audace, et nous n'avons plus besoin d'attendre que la prochaine génération invente un réseau apparemment bon, et nous pouvons l'utiliser ensemble. Alors, où sont vos opportunités ?

Jetons un coup d'œil à la façon dont d'autres experts en IA ont répondu à la question « Quelle est la prochaine étape pour l'intelligence artificielle ? » lors de la table ronde.

Quelle est la prochaine étape pour l’intelligence artificielle ?

Les grands modèles nécessitent des changements de « paradigme »

Membre de la Royal Academy of Engineering, de l'Académie européenne des sciences, de l'Académie des sciences de l'ingénierie de Hong Kong et vice-président en chef de l'Université des sciences et technologies de Hong KongGuo YikeJe pense que nous vivons actuellement un moment très intéressant -

Parce que la loi de mise à l'échelle est largement acceptée, la guerre des Cent modèles s'est progressivement transformée en une guerre des ressources.Il semble que nous n'ayons plus qu'à faire deux choses maintenant. Après avoir eu le modèle Transformer, ce qu'il faut résoudre est la suivante.Grande puissance de calculetBig DataLe problème.

Toutefois, à son avis, ce n’est pas le cas.Le développement actuel de l’IA se heurte encore à de nombreux problèmes.Puissance de calcul limitée et demande infinieLe problème.

Dans ce cas, comment construire un grand modèle ? L'académicien Guo a partagé ses réflexions à travers certaines pratiques.

Tout d'abord, l'académicien Guo a mentionné l'utilisation d'un MOE plus économique sous la limitation de la puissance de calcul.modèle expert mixteOn peut également obtenir de très bons résultats.

De plus, comment améliorer continuellement un modèle avec de nouvelles données après la formation afin qu'il puisse se souvenir de ce qui doit être mémorisé, oublier ce qui doit être oublié et être capable de se souvenir des choses qui ont été oubliées en cas de besoin, est également une question difficile.

L'académicien Guo n'est pas d'accord avec certaines affirmations de l'industrie selon lesquelles « les données ont été épuisées ». « En fait, le modèle a simplement été compressé et les données compressées peuvent être régénérées en de nouvelles données », c'est-à-dire en utilisant des méthodes génératives. modèles pour générer des données.

Ensuite, tous les modèles ne doivent pas nécessairement être appris à partir de zéro. Vous pouvez le faire.intégration des connaissances dans le modèle de base. Il y a beaucoup de travail à faire dans ce domaine également.

En plus de la puissance de calcul, l’algorithme pose un autre problème :La culture de l’intelligence artificielle et de l’intelligence humaine elle-même comporte deux polarités.。

L'académicien Guo estime que lors de la formation de grands modèles, le problème le plus important n'est pas à l'avant, mais à l'arrière.

Comme le montre la figure ci-dessous, le chemin d'évolution du grand modèle va de l'auto-apprentissage > connaissance indirecte > valeurs > bon sens, tandis que le chemin de cultivation de l'éducation humaine est le contraire.

Pour cette raison, l’académicien Guo estime que nous devrions sortir du paradigme de recherche actuel des grands modèles sans « capacité abstraite, sans valeur subjective et sans connaissance émotionnelle ».

Nous savons tous que le langage humain est formidable. Le langage humain n'est pas seulement du contenu, pas seulement de l'information, mais aussi la nature humaine et l'énergie de l'information. Alors, comment ces choses sont-elles classées dans le modèle ? Il s’agit d’une direction importante pour nos recherches futures.

En résumé, quant à la prochaine étape de l’intelligence artificielle, l’académicien Guo estime qu’il y a trois étapes de développement :

La première étape est basée sur l'authenticité ; la deuxième étape est basée sur la valeur. La machine doit être capable d'exprimer son propre point de vue et de former sa propre valeur subjective, et ce point de vue peut être modifié en fonction de son environnement ; étape Ce n'est que lorsqu'il a des valeurs qu'il peut comprendre ce qu'est la nouveauté, et ce n'est qu'avec la nouveauté qu'il peut créer.

Lorsqu’il s’agit de créer ce modèle, la soi-disant illusion n’est pas un problème, car l’illusion n’est un problème que dans le modèle paradigmatique. Écrire un roman doit être une illusion. Sans illusion, vous ne pouvez pas écrire un roman. Il doit seulement maintenir une cohérence et n'a pas besoin d'authenticité, il doit donc simplement refléter une valeur. nécessite Il y a un changement de paradigme.

Il manque un « super produit » au développement des grands modèles

Vice-président de JD.com, professeur adjoint et directeur de doctorat à l'Université de WashingtonHe XiaodongOn pense que l’IA sera confrontée à trois problèmes au cours de la prochaine étape.

Tout d’abord, il estime que, d’une certaine manière, le développement des grands modèles est entré dans une période de plateau.

En raison des limites des données et de la puissance de calcul, si les améliorations sont simplement basées sur l’échelle, le plafond pourrait être atteint et les ressources informatiques deviendraient une charge de plus en plus lourde. Si la dernière guerre des prix (price tag) est suivie, il est très probable que les avantages économiques générés par les grands modèles ne puissent même pas couvrir la facture d'électricité, ce qui est donc naturellement insoutenable.

Deuxièmement, le professeur He estime que l'ensemble de l'application commerciale est en retard par rapport à la croissance à grande échelle du modèle lui-même, ce qui finira par devenir un problème à moyen et long terme :

Surtout quand nous voyons une si grande échelle, ce n'est plus simplement un problème scientifique, cela deviendra également un problème d'ingénierie. Par exemple, si les paramètres atteignent le niveau des milliards, les données d'appel atteignent le niveau des 10 milliards de jetons. Une question doit alors se poser : la valeur sociale qu’elle apporte.

De là, le professeur He estime qu'actuellementManque d'une super application et d'un super produit, peut véritablement refléter la valeur de l’investissement.

La troisième question est une question relativement spécifique, à savoirillusion de grand modèle。

Si nous voulons construire une industrie de l’IA basée sur de grands modèles, nous devons avoir des exigences extrêmement élevées en matière d’illusion de base des grands modèles. Si le taux d’erreur du grand modèle de base est très élevé, il est difficile d’imaginer que des applications plus commerciales puissent s’y superposer.
Les applications industrielles sérieuses doivent résoudre cette illusion.

Le professeur He estime que sous la restriction de l'illusion, la prochaine étape peut être de réfléchir à la manière d'étendre la généralisation et l'interactivité du modèle, etmultimodalC'est un choix inévitable.

Les grands modèles ne sont pas conscients des « limites des capacités »

CTO du groupe Lenovo, académicien étranger de l'Académie européenne des sciencesRui YongD’un point de vue industriel, il a donné son point de vue sur la prochaine étape de l’IA.

Il a déclaré que d'un point de vue industriel, ce qui est plus important est la manière dont le modèle est mis en œuvre. En termes de mise en œuvre, le Dr Rui Yong a principalement évoqué deux points :

Il ne suffit pas d'avoir un grand modèle, il faut le développeragent
Il ne suffit pas d'avoir un grand modèle de mesure des nuages, il faut avoir uncadre hybride

Plus précisément, le Dr Rui Yong a d'abord énuméré quelques études et souligné que les limites des grands modèles deviennent de plus en plus évidentes. Par exemple, la question « Lequel est le plus grand, 13,8 ou 13,11 » mentionnée au début, montre que le modèle ne comprend pas vraiment le problème.

À son avis, les grands modèles actuels ne connectent que les informations fragmentées massives observées dans l'espace sémantique de grande dimension. Il ne suffit pas de construire de grands réseaux dotés d'une grande puissance de calcul pour créer de grands modèles génératifs. développement d'agents intelligents.

Le Dr Rui Yong a particulièrement insisté sur le grand modèleLimite de capacitéquestion.

Les grands modèles d'aujourd'hui ne savent pas où se situent les limites de leurs capacités.
Pourquoi les grands mannequins ont-ils des hallucinations et pourquoi disent-ils des bêtises sérieusement ? En fait, il n'essaie pas de nous tromper, mais il ne sait pas ce qu'il sait ou ce qu'il ne sait pas. C'est une question très importante, donc je pense que la première étape est de faire connaître à l'agent les limites de ce qui se passe. ses capacités.

En outre, le Dr Rui Yong a déclaré que l'intelligence à elle seule ne suffit pas à la mise en œuvre de l'IA et que les grands modèles publics sur le cloud doivent être privatisés pour les entreprises. Les modèles d'IA hybrides axés sur les données et les connaissances, et les petits modèles sont également très utiles dans de nombreuses situations. Il existe également des modèles orientés vers l'individu qui peuvent connaître les préférences personnelles.

Il ne s’agira pas d’un grand modèle entièrement basé sur des tests cloud, mais d’un grand modèle combinant end-edge hybride et cloud.

nouvelles