nouvelles

Discutons de la façon de penser les grands modèles avec Yann LeCun, scientifique en apprentissage profond

2024-08-09

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Avec les progrès et la popularité de la technologie de l'IA générative au cours des deux dernières années, l'utilisation de grands modèles pour générer du contenu est progressivement devenue une partie de la vie des gens ordinaires. Ce processus semble simple : lorsque nous saisissons une instruction, le grand modèle peut directement générer la réponse pour nous. Cependant, dans les coulisses, personne ne connaît les principes de fonctionnement internes et le processus de prise de décision du modèle. Il s'agit de la fameuse « boîte noire d'apprentissage automatique ».

En raison du caractère inexplicable des modèles de boîtes noires, la sécurité de l’IA a toujours été remise en question. Les scientifiques ont donc commencé à essayer d'ouvrir la boîte noire des grands modèles, ce que l'industrie appelle « recherche en boîte blanche ». D'une part, l'étude des modèles boîte blanche peut aider les gens à comprendre les modèles boîte noire, optimisant ainsi les grands modèles et améliorant l'efficacité. D’un autre côté, l’objectif de la recherche en boîte blanche est de pousser l’IA, un sujet d’ingénierie, vers la science.

Cette fois, nous avons invitéChen Yubei, professeur adjoint, Département de génie électrique et informatique, Université de Californie, Davis, le contenu de ses recherches est lié au « modèle de la boîte blanche ». De plus, il est également boursier postdoctoral de Yann LeCun, lauréat du prix Turing et scientifique en chef du Meta. Dans cet épisode, il a discuté avec nous des derniers progrès de la recherche sur les modèles boîte blanche, et a également partagé avec nous Yann LeCun, un scientifique qu'il connaît qui a connu les hauts et les bas de l'industrie de l'IA mais qui reste purement concentré. .

Graphique de Violet Dashi. Illustrations de Nadia et Simple Line

Voici quelques interviews sélectionnées

01 Cerveau humain et grand modèle

"Silicone Vallée 101" :Pouvez-vous d’abord présenter brièvement la recherche sur le « modèle de la boîte blanche » que vous effectuez ? Au cours de vos recherches, avez-vous découvert comment expliquer les problèmes d’entrée et de sortie de GPT ?

Chen Yubei :En fait, un objectif relativement important dans cette direction est de promouvoir l’apprentissage profond d’un sujet purement empirique à un sujet scientifique, ou de transformer l’ingénierie en science, car actuellement l’ingénierie se développe relativement rapidement mais la science est relativement lente. Il existait autrefois un modèle appelé intégration de mots, qui permettait d'apprendre certaines représentations du langage.

À l’époque, tout le monde se posait une question : la performance de nos tâches s’est améliorée, mais qu’est-ce qui a exactement causé cette amélioration ? Nous avons donc fait un travail très précoce à cette époque, qui consistait à essayer d'ouvrir ces représentations des mots. Lorsque vous l'ouvrirez, vous découvrirez des phénomènes intéressants.

Par exemple, si vous prenez le mot pomme, vous pouvez y trouver des méta-significations. Par exemple, l'une des significations peut représenter un fruit et une autre peut représenter un dessert. Si vous creusez plus profondément, vous découvrirez la signification de la technologie et du dessert. produits, qui font bien sûr référence aux produits Apple. Vous constaterez donc que vous pouvez trouver ces méta-significations le long d’un mot, puis vous pourrez étendre cette méthode à un grand modèle de langage.

En d’autres termes, après avoir appris un grand modèle de langage, nous pouvons rechercher des méta-significations dans le modèle, puis essayer de l’ouvrir. Vous trouverez un grand modèle de langage, qui comporte en fait plusieurs couches.

Au niveau primaire, apparaîtra un phénomène appelé « homonymie des mots ». Par exemple, il y a un mot en anglais appelé "left". Ce mot signifie à la fois tourner à gauche et le passé de quitter. Ensuite, sa signification spécifique dépend du contexte avant et après le contexte, donc le grand langage complète la désambiguïsation des mots. dans les premières couches.

À moyen terme, vous constaterez que de nouvelles significations émergent. À cette époque, nous pensions qu'une chose très intéressante s'appelait "Conversion d'unités". Une fois que vous souhaitez convertir des kilomètres en miles et la température de Fahrenheit en Celsius, cette signification sera ouverte. de cette façon. De nombreux niveaux similaires de cette méta-signification.

En montant plus haut, vous constaterez même qu'il existe un modèle parmi ces méta-significations. Ce modèle est que lorsqu'une signification répétée apparaît dans le contexte, elle sera activée. Vous pouvez utiliser cette méthode pour ouvrir le grand langage. .modèles et petits modèles de langage. Bien sûr, ces idées ne sont pas complètement nouvelles. Elles ont en fait une histoire dans les modèles visuels. Par exemple, des explorations similaires ont eu lieu depuis Matthew Zeiler.

"Silicone Vallée 101" :En suivant cette ligne de pensée, si nous savons comment fonctionne une partie de celui-ci, pouvons-nous l’optimiser considérablement d’un point de vue technique ?

Chen Yubei :Oui, c'est une très bonne question. Je pense qu'une exigence relativement élevée pour toute théorie est qu'elle puisse guider la pratique. Ainsi, lorsque nous faisions des modèles de langage et des représentations de vocabulaire, l'un des objectifs que nous avions à l'époque était qu'après l'avoir compris, nous puissions à notre tour optimiser ces modèles. ? En fait, c'est possible.

Par exemple, si vous trouvez une méta-signification dans un grand modèle de langage, elle sera activée lorsqu'elle verra une certaine méta-signification, alors ce neurone pourra être utilisé comme discriminateur, et vous pourrez utiliser ce quelque chose pour effectuer certaines tâches. En modifiant ces méta-significations, le biais du modèle est ajusté.

C'est que si je peux le repérer, alors je peux l'ajuster. Récemment, Anthropic a effectué un travail similaire, consistant à détecter certains biais pouvant exister dans le modèle de langage, puis à y apporter quelques modifications pour rendre le modèle plus juste et plus sécurisé.

"Silicone Vallée 101" :J'ai vu qu'OpenAI a également mené une étude l'année dernière, qui a utilisé GPT4 pour expliquer GPT2 et voir comment GPT2 fonctionne. Par exemple, ils ont découvert que le neurone de GPT 2 sera activé en répondant à tout ce qui concerne l'histoire des États-Unis vers 1800. Le 12ème neurone de la ligne 5 sera activé en répondant au chinois, ce sera le 13ème neurone en ligne. la ligne 12. est activée.

Si le neurone qui répond au chinois est éteint, sa capacité à comprendre le chinois diminuera considérablement. Mais plus les neurones sont éloignés, par exemple, lorsqu'ils atteignent environ 2 000 rangées, leur crédibilité globale diminue considérablement. Avez-vous remarqué leurs recherches ?

Recherche OpenAI : laissez GPT4 expliquer les neurones GPT2

Chen Yubei :Je n'ai pas encore lu cet article, mais cette méthode s'apparente beaucoup à une opération sur les neurones du cerveau. Équivalent à maintenant s'il existe un réseau neuronal, ce réseau signifie que dans un sens il peut trouver une existence locale plutôt que d'être complètement dispersé, alors certaines opérations peuvent être effectuées dessus. Par exemple, si un certain neurone est coupé, on peut penser qu’une certaine partie de sa capacité est relativement perdue.
En fait, la même chose s'applique aux personnes. Par exemple, une personne épileptique peut avoir des barrières linguistiques après une intervention chirurgicale, mais cela n'affecte pas les autres fonctions du corps humain. Cela semble être similaire en principe.

"Silicone Vallée 101" :OpenAI et Anthropic étudient actuellement l'interprétabilité des grands modèles. Y a-t-il une différence entre vos recherches et les leurs ?

Chen Yubei :En fait, personne ne sait si les recherches sur le modèle de la boîte blanche porteront leurs fruits à l'avenir. J'en ai déjà discuté avec mon superviseur, mais tout le monde convient que cette question vaut la peine d'être essayée. Si nous revenons à ce domaine, ce que nos recherches veulent faire, c’est comprendre l’intelligence artificielle, la reconstruire grâce à notre compréhension, puis construire fondamentalement quelque chose de différent. Donc l’observation, c’est-à-dire l’interprétabilité, n’est, je pense, qu’un moyen.
En d'autres termes, que j'ouvre ce modèle, que je fasse ces expériences ou que j'apporte quelques ajustements au modèle, je pense que ce sont quelques-unes des méthodes que nous essayons dans le processus de compréhension, mais ce qui est vraiment important dans la boîte blanche Le modèle doit encore revenir au signal lui-même. Car qu’il s’agisse d’un cerveau humain ou d’une machine, l’essence de leur apprentissage repose sur des signaux.

Il existe certaines structures dans notre monde, et ils doivent aussi apprendre à travers ces structures, et ce sont ces structures qu'ils apprennent. Alors pouvons-nous trouver les lois derrière ces structures, ainsi que des outils mathématiques pour les représenter, puis réorganiser ces éléments pour construire un modèle différent ? Si cela peut être réalisé, je pense que cela suscitera des attentes en matière d’amélioration de la robustesse, de la sécurité et de la fiabilité de nos systèmes.
De plus, son efficacité augmentera. C’est un peu comme la théorie de la thermodynamique apparue après l’apparition de la machine à vapeur, favorisant ainsi sa transformation d’un artisan complet soumis à une science. De la même manière, nous semblons aujourd’hui disposer pour la première fois d’une machine à vapeur sur les données. N’ayant pas compris nos données auparavant, nous pouvons enfin commencer à développer des algorithmes d’IA pour capturer les modèles présents dans les données.

"Silicone Vallée 101" :Ce sera donc plus économe en énergie.

Chen Yubei :En matière d’économie d’énergie, je peux vous donner quelques exemples intéressants. Le premier point est sans aucun doute l’économie d’énergie, car le cerveau est équivalent à une ampoule avec une consommation électrique de 20 watts, et les superordinateurs actuels peuvent avoir plus d’un million de watts.

Le deuxième point est que si l’on regarde l’évolution de divers organismes dans la nature, leur efficacité évolutive est en réalité très élevée. Par exemple, il existe un type particulier d’araignée appelée Jumping Spider. Elle ne possède que quelques millions de neurones, mais elle peut former des lignes de groupe tridimensionnelles très complexes pour capturer ses proies.

Araignée sauteuse, Wikipédia

Et l’une des choses les plus intéressantes pour moi est l’efficacité avec laquelle les gens utilisent les données. Le volume de données actuel de Llama3 a atteint environ 13 000 milliards de jetons. Mais quelle quantité de données une personne peut-elle recevoir au cours de sa vie ? Supposons que nous puissions obtenir 30 images d'images par seconde, et que la durée d'acquisition quotidienne soit de 12 heures, et que nous le fassions pendant 20 ans, alors nous pouvons probablement obtenir 10 milliards de jetons, et le texte peut être obtenu presque le même montant. les données sont beaucoup plus petites que celles d’un grand modèle.
La question est donc de savoir comment les gens peuvent-ils obtenir une telle capacité de généralisation avec une si petite quantité de données ? C’est ce que je trouve étonnant dans l’efficacité du cerveau humain.

"Silicone Vallée 101" :Est-il plus difficile de découvrir comment fonctionnent les grands modèles ou comment fonctionne le cerveau humain ? Cela me semble difficile.

Chen Yubei :Les deux ont leurs propres difficultés, mais leur approche est similaire. Qu'il s'agisse du cerveau humain ou d'un grand modèle de langage, nous essayons de l'observer et de voir à quoi il réagit.

Cette méthode est d’ailleurs visible dans les recherches sur le cortex visuel menées par David Hubel et Torsten Weisel, prix Nobel de physiologie dans les années 1980. Ils ont trouvé une cellule simple et ont essayé d'étudier comment ces neurones génèrent des impulsions lorsque les gens voient quelque chose, et d'analyser les différents états de réponse des neurones lorsqu'ils voient différentes choses, par exemple lorsqu'ils ne répondent pas du tout et lorsqu'ils sont très excités. , puis ils ont trouvé le champ récepteur du neurone.

DH Hubel et TN Wiesel, lauréats du prix Nobel 1981 de physiologie ou médecine

Notre étude actuelle des grands modèles de langage est en fait similaire : nous recherchons différentes entrées, puis comprenons quels neurones à l'intérieur du modèle sont intéressés par quelles entrées. Mais il existe encore des différences.

La première différence est qu'il existe de nombreuses limites à l'observation du cerveau humain, que ce soit via des électrodes enfichables ou des méthodes d'interface cerveau-ordinateur. Cependant, un avantage naturel des grands modèles de langage est que les méthodes d'observation ne sont plus limitées. une meilleure méthode, vous pouvez l'analyser sur le long terme, et vous pouvez même analyser le modèle plus en profondeur grâce à certaines méthodes différentielles.

Mais son inconvénient est que la capacité des grands modèles est bien inférieure à celle du cerveau, en particulier des grands modèles de langage, car il n'apprend le monde qu'à partir du langage, sa compréhension du monde est donc incomplète, tout comme une personne. autres sens que le langage.

En revanche, le cerveau peut traiter des signaux plus dimensionnels et les sens sont très riches. Parfois, nous pensons à une question : le langage est-il complet ? S’il n’y a pas de soutien d’autres sens, tous les concepts du langage peuvent-ils exister indépendamment, ou ont-ils besoin du soutien d’autres sens pour parvenir à une véritable compréhension.

Par exemple, si l'objet « réfrigérateur » n'est pas lié aux sensations de chaud et de froid dans le monde réel, mais décrit uniquement des caractéristiques statistiques telles que le fait d'avoir une porte, cette description sera incomplète.

"Silicone Vallée 101" :Donc en fait, par rapport au cerveau, le grand modèle actuel manque encore beaucoup de choses. Mais parce que nous pouvons le démonter et l’étudier, vous pensez que cela va encore un peu plus loin que l’ambition de percer les secrets du cerveau.

Chen Yubei :La difficulté de comprendre un grand modèle de langage est qu’il existe de nombreuses façons de l’observer et de mieux le comprendre. Par exemple, s’il y a deux machines, une machine est entièrement observable et l’autre est partiellement observable, alors intuitivement, la machine entièrement observable est plus facile à comprendre. Bien sûr, elle possède certaines capacités que cette machine n’a pas, elle ne peut donc pas remplacer une certaine compréhension du cerveau humain.

"Silicone Vallée 101" :Permettez-moi également de présenter au public que Yubei a déjà étudié les neurosciences. Pensez-vous donc que votre formation vous aidera dans vos recherches actuelles dans le domaine de l’IA ? Existe-t-il des méthodes de recherche interdisciplinaires qui peuvent s’apprendre les unes des autres ?

Chen Yubei :En fait, je ne suis pas spécialisé en neurosciences computationnelles. Mon diplôme de premier cycle était au Département d'électronique de l'Université Tsinghua et au Département de génie électrique et d'informatique de Berkeley. Cependant, l'institut de recherche dans lequel je travaillais à cette époque était un institut de recherche en neurosciences, donc mon mentor était un expert en informatique. neurosciences.

Concernant la question qui vient d’être posée, je pense que l’étude des neurosciences est généralement une source d’inspiration pour moi. Parce que lorsque vous connaissez ces systèmes dans la nature et ce qu’ils peuvent faire, vous pouvez avoir des idées différentes et réexaminer le problème en question.

Par exemple, une image est un signal d’entrée bidimensionnel, ses pixels sont horizontaux et verticaux, puis elle forme une grille. Mais la rétine humaine ne ressemble pas à ça. Tout d'abord, c'est un type de récepteur avec des perceptions différentes. Ce récepteur est disposé de manière très dense mais peu régulière. Il est très dense au milieu et devient clairsemé des deux côtés.
Lorsque vous êtes confronté à un tel signal d'entrée, tout d'abord, les réseaux de neurones convolutifs auxquels nous sommes habitués ne sont pas valides, car même la convolution n'est pas définie ici. Ainsi, lorsque nous verrons cette situation dans les systèmes biologiques, nous reconsidérerons l’origine de ces soi-disant convolutions.

"Silicone Vallée 101" :Vous allez donc reconsidérer la méthode, n’est-ce pas ? Doit-il être mis en œuvre de cette façon ?

Chen Yubei :Oui. Supposons que vous vous réveilliez un jour et que tous vos neurones soient perturbés. Pouvez-vous encore comprendre le monde ? Parce que ce que vous voyez n'est plus une image et que vous ne pouvez plus utiliser un réseau neuronal convolutif pour ce faire. De quel type de méthode avez-vous besoin ?

Même si nous n’avons pas complètement résolu ce problème, nous avons en fait fait un pas en avant. Bien que tous mes neurones soient perturbés, c'est-à-dire que les pixels de notre image réceptrice soient perturbés, il existe une certaine relation entre les pixels adjacents. Par exemple, lorsque nous regardons une image, nous constaterons que si un pixel est rouge, les pixels environnants sont plus susceptibles d'être rouges. Ensuite, grâce à cette relation, vous pouvez laisser ces pixels retrouver des amis, puis vous pouvez en mettre des similaires. pixels ensemble. Les pixels s'auto-organisent selon certaines relations.

Ensuite, à ce stade, en ajoutant une structure comme Transformer dans le grand modèle de langage, nous pouvons re-représenter cette image, et les performances de cette représentation sont plutôt bonnes. Il s’agit d’un exemple de réexamen de certaines de nos pratiques d’ingénierie actuelles inspirées par la nature, puis de proposition de méthodes différentes.

Modèle de boîte noire, image AIGC via Firefly

"Silicone Vallée 101" :Il existe encore de nombreuses similitudes entre la recherche sur les grands modèles d’IA et la neuroscience du cerveau humain. Y aura-t-il des neuroscientifiques qui collaboreront avec vous sur des recherches transversales de leur point de vue ?

Chen Yubei :En fait, de nombreux neuroscientifiques, statisticiens et mathématiciens souhaitent comprendre certaines structures des signaux naturels, et également prêter attention au fonctionnement des neurones du cerveau, puis combiner les deux pour tenter de proposer des représentations minimalistes des signaux.

Par exemple, vous constaterez un phénomène dans le cerveau : bien qu’il y ait de nombreux neurones, les neurones qui travaillent en même temps sont en réalité très clairsemés. Par exemple, s’il y a 1 million de neurones, seuls quelques milliers pourraient fonctionner.

Sur cette base, une méthode de codage clairsemée a été proposée dans le domaine des neurosciences dans les premières années. Autrement dit, des représentations clairsemées de faible dimension peuvent-elles être trouvées dans ce signal de haut niveau ? L’algorithme construit sur la base de cette idée est très similaire à la représentation des neurones que vous observez dans le cerveau. Il s’agit donc d’un succès non supervisé dans les premières neurosciences computationnelles.

À l'heure actuelle, l'ensemble de notre domaine de recherche porte le nom de Natural Signal Statistics. Son objectif est de révéler certaines structures de base derrière les signaux. Cependant, par rapport aux grands modèles, le développement de la recherche combinant les neurosciences n'est pas aussi simple. tels que les modèles est en fait relativement lent. Je pense en fait que d’une part c’est peut-être parce que le problème est complexe, mais d’autre part c’est aussi parce qu’il y a relativement peu de gens qui investissent dans cette direction.

02 "Dépassement actuel" du modèle Black Box

"Silicone Vallée 101" :Pour faire simple, il y a actuellement trop peu de personnes qui étudient les modèles de boîte blanche. Mais avant l’émergence des grands modèles, l’apprentissage automatique traditionnel entre-t-il également dans la catégorie de la recherche sur des modèles en boîte blanche ?

Chen Yubei :Je pense que cette affirmation peut être considérée comme correcte. Ces modèles d'apprentissage automatique précédents sont relativement simples et relativement compréhensibles.

"Silicone Vallée 101" :Alors pourquoi les progrès actuels de la recherche sur l’ensemble du modèle de boîte noire sont-ils capables de dépasser le modèle de boîte blanche dans les virages, bien plus rapidement ?

Chen Yubei :Lorsque cette question sera posée, nous serons un instant nerveux avant de répondre.

"Silicone Vallée 101" :Pourquoi être nerveux ?


Chen Yubei :Parce que cette question est très pointue, elle consiste en réalité à se demander s’il s’agit d’un modèle de boîte blanche ou d’une voie compréhensible à laquelle nous devrions abandonner. À partir de notre époque, n’étudierons-nous plus la science dans le domaine de l’IA, et tout deviendra-t-il demain un sujet empirique ? Mais je ne le pense pas encore.
Pour revenir à votre question tout à l'heure, que s'est-il passé exactement au cours de ce processus ? Le premier point est que le modèle boîte noire comporte moins de bagages. Si vous voulez que cette méthode fonctionne et que cette méthode soit explicable, il y a trop d'exigences. Alors le modèle de boîte noire abandonne une chose pour la laisser fonctionner en premier.

La deuxième raison est relativement ignorée par tout le monde, à savoir la croissance des données à contre-courant, ou l’expansion de l’échelle.

Richard Sutton a déjà écrit un blog et a mentionné qu'il y a quelque chose qui n'a pas été brisé au cours des 20 dernières années, à savoir que lorsque nous avons plus de données et plus de calculs, nous devrions trouver des algorithmes qui peuvent véritablement s'étendre et trouver ce modèle dans tout. les données. Je pense que c’est un aspect très important du modèle de la boîte noire, ou de nos progrès empiriques actuels.

Autrement dit, lorsque nous disposons de données plus volumineuses, de meilleures données, de plus de calculs et de modèles plus volumineux, nous pouvons alors en apprendre davantage. Mais si nous revenons à cette question, tout le monde a un objectif dans le modèle de la boîte blanche, à savoir que le modèle lui-même doit être simple.

Une comparaison entre Black Box ML et White Box ML

"Silicone Vallée 101" :Pourquoi les modèles de boîtes blanches devraient-ils être simples ? Cela signifie-t-il que s’il est trop complexe, il sera difficile à concevoir ?
Chen Yubei :Oui. En fait, seules des choses concises peuvent être comprises lorsqu'on fait de la théorie, et cela doit être simplifié encore et encore. Cependant, lorsque les gens recherchent la simplicité du modèle, ils peuvent également le simplifier à l'excès, encore et encore. Une fois cette simplification excessive effectuée, le modèle ne peut pas décrire complètement la forme des données. Ensuite, lorsqu’il y aura plus de données, le modèle ne pourra plus continuer et ses capacités seront limitées.

Je pense donc que c’est aussi une difficulté à laquelle tout le monde a été confronté lors de l’étude des modèles de boîte blanche et des modèles simples dans le passé. Non seulement nous devons transporter le modèle avec le travail, mais nous avons aussi besoin de son bagage interprétable, et j'ai aussi besoin que ce soit simple. Lorsque vous apportez toutes ces choses, vous constaterez que ce bagage est trop lourd. Lorsque vous simplifiez à l'excès, vous introduisez des erreurs, et les erreurs s'accumuleront, et vous ne pourrez plus avancer plus tard.
"Silicone Vallée 101" :Mais aujourd’hui, avec le développement rapide des modèles de boîtes noires, nous commençons à nouveau à essayer de résoudre ce problème.
Chen Yubei:Oui. Et cette fois, lorsque nous l’aurons résolu, nous pourrons réexaminer ce problème. Autrement dit, nous n’avons pas nécessairement besoin de simplifier complètement le modèle à ce niveau, il peut toujours représenter le côté le plus complexe du monde.

Mais en même temps, nous espérons toujours que c'est relativement compréhensible, donc si un jour nous pouvons parvenir à un modèle de boîte blanche, alors je pense que chaque tentative avant cela est une simplification excessive, mais nous espérons que chaque simplification pourra aller de l'avant. Nous n'avons même pas besoin de créer un modèle de boîte entièrement blanche. Peut-être pouvons-nous créer un modèle de boîte blanche qui n'est pas aussi puissant que le grand modèle, mais il est relativement simple.
Il nous est utile de comprendre l’essence de l’apprentissage, et cette compréhension peut à son tour nous permettre d’améliorer l’efficacité de la formation de grands modèles. J'ai déjà discuté à plusieurs reprises des problèmes d'efficacité avec Yann, ce qui signifie que si la théorie sous-jacente est développée, nous pourrons peut-être augmenter l'efficacité de la pratique de l'ingénierie de plusieurs ordres de grandeur.
"Silicone Vallée 101" :Le point de vue de Yann est-il qu’il préfère développer un modèle boîte blanche ou un modèle boîte noire ?
Chen Yubei :Yann est un scientifique connu pour ses compétences en ingénierie, donc bon nombre de ses tentatives consistent toujours à faire fonctionner cette chose en premier. Mais Yann soutient également la recherche sur le modèle boîte blanche. Lors de ma discussion avec lui, il a estimé que cette voie méritait d’être explorée, mais il ne savait pas si elle serait réalisable pour un objectif trop ambitieux, mais il fallait que quelqu’un le fasse.
"Silicone Vallée 101" :Il semble que le modèle de la boîte noire soit un problème d’ingénierie, alors que le modèle de la boîte blanche doit l’expliquer scientifiquement. Bien que du point de vue de la commercialisation, son rapport entrées-sorties ne soit pas si élevé, si cette chose peut finalement être réalisée, elle sera toujours d'une grande valeur pour la sécurité de l'IA et de ses futures applications commerciales.
Chen Yubei :Concernant la commercialisation, je pense en fait que l'intention initiale de tous ceux qui font de la recherche fondamentale sur l'IA n'est pas d'avoir une application comme l'intention initiale, mais d'être motivés par une curiosité relativement pure pour la question de l'intelligence. Certains modèles peuvent alors être découverts. , ce qui peut à son tour aider à la pratique de l'ingénierie. La recherche elle-même n’est pas conçue pour une application particulière.

De plus, lorsque nous poursuivons ce modèle de boîte blanche et cette efficacité ultime, nous nous poserons également la question de savoir si le grand modèle de langage que nous construisons actuellement ne peut être réalisé qu'à travers ce type d'échelle ou de loi d'échelle. ça va de descendre ? Je ne pense pas. Parce que les humains ne peuvent pas accepter une si grande quantité de données, comment obtenir une capacité de généralisation relativement élevée avec une petite quantité de données est également une question importante que nous étudions.


"Silicone Vallée 101" :Cela devrait également être un problème étudié par les spécialistes du modèle de boîte noire. Quels chercheurs et écoles étudient actuellement le modèle de la boîte blanche ?

Chen Yubei :À l’heure actuelle, il existe principalement trois forces de l’IA. La première force réside dans l’expérience que nous avons générée en étudiant ces modèles d’ingénierie, puis en les visualisant, comme ce qu’Anthropic et OpenAI ont récemment participé à faire.

Recherche anthropique : extraire des caractéristiques interprétables du réseau neuronal Claude 3 Sonnet

La seconde est la neuroscience computationnelle qui tente de comprendre le cerveau humain et de trouver des moyens par lesquels certains souvenirs peuvent exister.

Une autre école de pensée consiste à examiner la structure de base du signal d’un point de vue mathématique et statistique. Bien entendu, il y aura de nombreux croisements entre ces trois types.
"Silicone Vallée 101" :À quel genre appartenez-vous ?
Chen Yubei :En fait, je suis plus ou moins influencé par les trois groupes. Quand j'étais à Berkeley, mon mentor et professeur Ma Yi appartenait tous à l'école de neurosciences et de statistiques mathématiques, et Yann était plutôt formé en ingénierie. Je pense aussi que ces trois méthodes sont acceptables, car elles nous amèneront finalement à aller dans la même direction.
"Silicone Vallée 101" :Quelle direction est la même ? Y a-t-il des résultats progressifs maintenant ?
Chen Yubei :La dernière étape consiste à comprendre le modèle. Il y a eu des résultats progressifs auparavant, par exemple si nous pouvons créer des réseaux avec même deux ou trois couches, et nous pouvons voir ce qu'ils apprennent à chaque couche. Enfin, j'ai découvert qu'il est vraiment possible de représenter un nombre. Si vous souhaitez le représenter, vous apprendrez tous ses traits, puis relierez des traits similaires entre eux, puis vous pourrez construire le niveau de représentation suivant, couche par couche. , j'ai finalement trouvé le numéro.
"Silicone Vallée 101" :Vos recherches actuelles mèneront-elles à l’optimisation du modèle de boîte noire ?

Chen Yubei :Premièrement, à mesure que votre compréhension s’approfondit, vous pourrez peut-être optimiser le modèle de boîte noire et le rendre plus efficace. La seconde consiste à unifier différents modèles de boîtes noires, réduisant ainsi beaucoup de déchets inutiles. En parallèle, il y a un autre pilier de travail impliquant mon laboratoire, qui consiste à étudier non seulement la perception mais aussi le contrôle.

Lorsque vous donnez à ces grands modèles de langage la capacité d’interagir avec le monde, pouvez-vous obtenir la même capacité de généralisation dans le système de contrôle ? Qu'est-ce que ça veut dire? C'est-à-dire que dans le système de perception, vous constaterez que j'ai appris des pommes, des poires, puis une pêche. Puisque j'ai déjà appris un concept similaire de pommes et de poires, je peux rapidement apprendre le concept de pêche.

Alors dans le domaine du contrôle, peut-on atteindre des performances similaires ? Par exemple, si un robot apprend à marcher en avant et à sauter sur place, peut-il être rapidement transformé en un robot qui saute en avant et marche en même temps ?


"Silicone Vallée 101": Si on vous demandait de donner une conclusion, pensez-vous qu'en utilisant la recherche sur des modèles en boîte blanche pour percer le secret du fonctionnement des grands modèles, où est la barre de progression actuelle ?
Chen Yubei :En fait, aucun de nous ne sait combien de temps dure cette barre de progression. J'ai l'impression qu'elle est en fait loin de cet objectif. Il ne s’agit pas nécessairement d’un développement linéaire, cela peut plutôt s’apparenter à un saut quantique. Lorsqu’une nouvelle compréhension émerge, vous pouvez immédiatement faire un grand pas en avant.

Si vous souhaitez créer un ChatGPT en boîte blanche, je pense que c'est encore assez loin, mais nous pourrons peut-être créer un modèle assez bon et entièrement compréhensible, capable de reproduire les capacités d'AlexNet à l'époque. Ce modèle peut effectuer la reconnaissance Imagenet. Nous pouvons comprendre comment il effectue chaque étape, comment il se transforme en chat et en chien étape par étape, puis quelle est la structure de ce chat et de ce chien générés.

Exemple de WordNet utilisé par ImageNet

"Silicone Vallée 101" :La reconnaissance ImageNet est-elle une boîte blanche ou une boîte noire ?

Chen Yubei :Nous n'avons pas encore vraiment découvert comment cela fonctionne. Il y avait une certaine compréhension à partir de certaines des premières visualisations réalisées par Matthew Zeiler et Rob Fergus et de nombreux chercheurs, mais personne n'avait été capable de créer un modèle où nous pourrions comprendre chaque étape tout en continuant à bien travailler.
"Silicone Vallée 101" :Alors peut-être que l’objectif du modèle de la boîte blanche est d’être mis en scène. Par exemple, la première étape consiste à expliquer le fonctionnement d'ImageNet. Une fois le mystère résolu, nous pouvons expliquer le fonctionnement de certains petits modèles, tout comme utiliser GPT 4 pour expliquer le fonctionnement de GPT 2, puis expliquer lentement le fonctionnement des modèles plus grands. travaux de modèle.
Chen Yubei :Oui. Je pense que ce processus prend encore beaucoup de temps et qu'il faut davantage de personnes pour investir dans cette direction. Parce que la plupart des emplois se situent actuellement dans le domaine de l’ingénierie. Si on le met dans les écoles, alors il faut effectivement avoir des idées originales, au lieu de dire on passe à l'échelle, et j'irai à l'échelle, alors tout le monde est à l'échelle, et au final il n'y a pas de distinction, tout dépend de qui Quelle machine est la meilleure et qui a le plus de données ?

03 Ce que je sais de Yann LeCun

"Silicone Vallée 101" :J'aimerais ensuite discuter avec vous de votre conseiller postdoctoral, Yann LeCun. Permettez-moi d'abord de vous présenter Yann LeCun. Son nom chinois est Yang Likun. Il est un informaticien français. Il a apporté de nombreuses contributions dans les domaines de l'apprentissage automatique, de la vision par ordinateur, des robots mobiles et des neurosciences computationnelles. ". "Père d'Internet".

LeCun est actuellement le scientifique en chef de l'IA chez Meta et est professeur à l'Université de New York. Il a été le pionnier des réseaux de neurones convolutifs (CNN) dans les années 1980, une technologie qui est devenue la base de la vision par ordinateur moderne. LeCun, ainsi que Geoffrey Hinton et Yoshua Bengio, ont reçu le prix Turing 2018 pour leur travail pionnier en matière d'apprentissage profond.
Pouvez-vous expliquer à nos amis non techniciens les principaux résultats des recherches scientifiques de Yann et pourquoi il est si célèbre ?

Chen Yubei :Yann étudie le domaine de l'IA des réseaux neuronaux depuis les années 1980 et a connu de nombreux hauts et bas ainsi que le déclin de différentes écoles de pensée. Cependant, il a toujours insisté sur les réseaux d'apprentissage profond et est une personne qui a traversé l'obscurité.

Par exemple, il était très difficile de publier des articles liés au deep learning en 2000. Dans quelle mesure était-ce difficile ? Si le mot Neural ou Network existe dans votre article, votre probabilité d'être rejeté est très élevée. S'il existe un réseau neuronal, il sera essentiellement rejeté.

C’était donc un moment sombre pour eux à cette époque, et le financement en était également affecté. Mais ils ont réussi à persévérer dans cette obscurité et à ne jamais abandonner, et sont finalement sortis de cette obscurité. Aujourd'hui, les réseaux neuronaux profonds ont changé le monde. Je pense que c'est en fait le fait qu'ils aient remporté le prix Turing, un souvenir de leurs premiers pionniers. jours.

Yann LeCun

"Silicone Vallée 101" :Pourquoi avoir choisi son groupe lorsque vous étiez postdoctoral ?
Chen Yubei :C'est une aventure plutôt intéressante. En fait, j’étais assez confus à l’époque et je n’avais même pas pensé à obtenir mon diplôme ce semestre-là. Parce que ma détermination est de réaliser un modèle boîte blanche pendant mon doctorat, et que les performances devraient être comparables à celles d'AlexNet, mais il n'est pas encore prêt.

Je pense que si je veux continuer mes recherches, vers qui dois-je m'adresser en postdoc ? J'étais en réunion à ce moment-là, puis j'ai rencontré Yann sur place. En fait, je ne suis pas une personne particulièrement spéculative. Je pense que tout le monde veut trouver Yann en postdoc, donc lorsque je l'ai rencontré, je voulais surtout parler de son point de vue sur mon travail et de quelques perspectives sur les orientations de recherche. .

En conséquence, la conversation lors de la réunion a été très bonne. Il avait également réfléchi à mon orientation de recherche et à certaines des questions auxquelles j'avais réfléchi, mais du point de vue des réseaux neuronaux. Alors à ce moment-là, il m'a demandé si j'étais intéressé à postuler pour un poste postdoctoral. Bien sûr, j'ai postulé, donc on a tout de suite sympathisé.


"Silicone Vallée 101" :Quel genre de mentor est-il ? Cela donne aux étudiants beaucoup d’espace libre à explorer et cela aide beaucoup à discuter avec tout le monde.
Chen Yubei :d'abordLa deuxième situation ne lui est plus possible. Beaucoup de gens ont besoin de son temps, et le temps qu'il peut allouer à chacun n'est relativement pas si important.

Il est en fait similaire à mon directeur de thèse, il est très libre d'esprit dans certaines directions générales, mais je pense qu'une autre similitude entre eux est qu'ils sont persistants dans ce en quoi ils croient, c'est-à-dire qu'il peut vous donner une direction et un objectif. Mais peu importe la manière dont vous y allez, que ce soit en bateau ou en voiture, il ne contrôlera pas ces détails.
En fait, son orientation générale n’a pas changé au fil des années. Il s’agit toujours d’un apprentissage auto-supervisé. L'apprentissage auto-supervisé est en fait divisé en deux parties. L'une est l'auto-supervision basée sur la perception. Une autre partie plus importante est de savoir comment faire de l'auto-supervision de manière incarnée, ou nous sommes maintenant en train de créer un modèle mondial, ce qui est une direction dans laquelle il croit.

En fait, je lui ai donné ce nom parce que j'ai lu un article intitulé World Model écrit par David Ha et Jürgen Schmidhuber, et j'ai trouvé ce nom plutôt cool.

Une architecture système pour l'intelligence autonome, Mata AI

"Silicone Vallée 101" :Pensez-vous que l’orientation de recherche de Yann est différente de celle d’OpenAI et d’Anthropic ?
Chen Yubei :Si je veux vraiment dire quelque chose de différent, je pense que ce que veut Yann, c'est que le modèle doit avoir plusieurs caractéristiques. La première est d'avoir la capacité de s'incarner, ce qui signifie qu'il ne s'agit pas simplement d'un tas de données, mais que le modèle peut éventuellement explorer le monde par lui-même.
"Silicone Vallée 101" :Quelle est la différence ? Il semble que tout le monde espère enfin parvenir à un tel résultat.
Chen Yubei :L'exécution est différente. Par exemple, OpenAI, je pense, est Scaling Law, ce qui signifie des données plus nombreuses et de meilleure qualité, puis plus de calculs et des modèles plus grands. Mais Yann est encore plus scientifique. Selon lui, si nous voulons véritablement conduire à une intelligence plus humaine, que faut-il exactement ? Il aura le sentiment que le simple fait d’accumuler des données ne suffit pas.
"Silicone Vallée 101" :Yann équivaut donc en fait à la recherche en boîte noire et en boîte blanche ensemble.

Chen Yubei :Je pense que Yann ne se soucie pas vraiment de savoir si cela peut devenir une science. À l'heure actuelle, je pense que ses opinions sont principalement empiriques et techniques. Il espère que ce système pourra mieux fonctionner. C'est en fait ce qu'il a toujours été. très bon pour ça.

"Silicone Vallée 101" :Lorsque OpenAI a prouvé que Scaling Law pouvait obtenir de bons résultats, pensez-vous que Yann a changé dans ses méthodes et sa réflexion en matière de recherche scientifique ? Ou est-il toujours fidèle à sa ligne originale ?

Chen Yubei :En fait, il n’est pas opposé à Scaling Law. Je ne pense pas que tout le monde soit en conflit sur cette question. La vraie différence possible est qu'une grande partie du travail d'OpenAI est en réalité encore orientée produit et exécuté à l'extrême en ingénierie, mais Yann mène en réalité des recherches sous une forme plus scientifique.

Lorsqu’il réfléchit à ces questions, il n’a pas grand-chose à voir avec les produits. Il ne pense qu’à une chose, à savoir comment atteindre l’intelligence. Parce qu'il est dans ce domaine depuis trop longtemps et qu'il est profondément impliqué dans ce domaine depuis plus de huit ans, il peut donc encore s'en tenir à ses idéaux lorsqu'il examine ces questions.

"Silicone Vallée 101" :Laisser l’intelligence apprendre de manière autonome est la première caractéristique des recherches de Yann. Quelles sont les autres caractéristiques ?

Chen Yubei :Il y a aussi quelque chose en quoi Yann a toujours cru, appelé JEPA, Joint Embedding Predictive Architecture. Autrement dit, bien sûr, le modèle doit avoir la capacité d'apprendre de manière indépendante, mais le plus important est que le modèle peut également apprendre certaines règles de niveau supérieur lors de l'apprentissage des données.

En fait, il existe actuellement deux groupes : un groupe espère reconstruire complètement les données par apprentissage, ce qui peut être considéré comme une idée de compression. Cependant, Yann ne souhaite pas revenir complètement sur cette image car la reconstruction de cette image contient trop de détails. les détails ne constituent pas l’information la plus importante pour porter un jugement sur le système.

"Silicone Vallée 101" :Ce point est-il différent de celui de votre mentor Ma Yi à Berkeley ?

Chen Yubei :En fait, il n’y a pas de conflit essentiel entre eux sur ce point de vue, mais la manière de l’exprimer est différente. Le professeur Ma estime que les lois de ce monde sont simples. Yann estime que ces détails sont en réalité préjudiciables aux tâches en aval ou à certains jugements, il est donc nécessaire de trouver ces lois de haut niveau.

En fait, les deux sont identiques, car les règles de haut niveau sont généralement simples. Le professeur Ma dit souvent que tout est compression. Si vous regardez du point de vue de Yann, vous constaterez que la compression est effectivement correcte, mais la structure hiérarchique des données est en réalité différente.

Parce que le monde réel est complexe, si vous approfondissez les détails du monde réel, vous constaterez que beaucoup de choses sont en réalité des structures de bas niveau. Il y a une structure dans les données, et tout ce qui a une structure est le reflet d'un écart par rapport au bruit, c'est-à-dire que tout ce qui n'a pas de structure est du bruit, et tout ce qui laisse du bruit signifie qu'il y a une structure.

Nous allons apprendre ces structures, mais il existe différents niveaux de structure. Mais lorsque vous montez d’un niveau, à une plus grande échelle, vous constaterez que la structure n’a plus d’importance. Si vous la regardez à ce niveau, ces choses sont devenues comme du bruit.

Donc le point de vue de Yann est que la compression est correcte, mais nous avons besoin d'un tel apprentissage hiérarchique pour apprendre toutes les structures du signal et apprendre des structures de plus en plus hautes. Cependant, la structure la plus avancée ne représente souvent pas une grande partie de la compression totale et peut être perdue au cours du processus d'optimisation, car un grand nombre d'éléments sont à des niveaux faibles et la quantité d'informations comme le bruit est la plus importante. plus vous montez, plus ces structures deviennent difficiles à repérer à mesure que vous avancez.

Pourquoi? Étant donné que votre fonction de perte optimisée est votre fonction objectif, que vous trouviez ou non cette règle, cette règle peut avoir peu d'impact sur votre perte. Je pense que les principaux sont ces deux points, l’un est le modèle du monde et l’autre est cette représentation hiérarchique.

Yann LeCun s'exprime à NYU

"Silicone Vallée 101" :Selon vous, quelles qualités vous impressionnent particulièrement ?

Chen Yubei :Ce qui m'a particulièrement impressionné, c'est probablement la concentration et la pureté avec lesquelles ils faisaient les choses.

Une fois, j'ai déjeuné avec Yann, et il m'a dit que j'avais tout ce que tu voulais quand tu étais jeune, mais que je n'ai plus beaucoup de temps, donc il ne peut utiliser le temps qui lui reste que pour faire des choses en lesquelles il croit vraiment.

Lorsque vous travaillez avec de tels scientifiques, vous pouvez être affecté par leur tempérament, de sorte qu'avant même d'atteindre la position dans laquelle ils se trouvent actuellement et les choses qu'ils ont, vous pouvez voir un peu le monde de leur point de vue.

Ainsi, lorsque vous faites des choix ou faites des choses, vous pouvez aller au-delà de votre position actuelle et vous pouvez penser à ce que je ferai si un jour j'ai tout comme lui.

"Silicone Vallée 101" :A-t-il changé certaines de vos décisions ?

Chen Yubei :Oui, cela me fera réfléchir lorsque je ferai beaucoup de choix. Je me souviens que le premier jour de mes études de doctorat, mon superviseur m'a dit deux choses.

La première est qu'il n'a pas besoin que je publie beaucoup d'articles, mais j'espère que le type d'articles que je pourrai publier pourra voyager dans le temps, de sorte que même si je lis cet article 20 ans plus tard, il sera toujours frais. C'est en fait très difficile, car beaucoup de travaux ont un sens distinct de l'époque, mais certaines pensées vraiment profondes peuvent encore durer des centaines d'années. C'est un objectif très élevé, et vous pourrez peut-être l'atteindre lorsque vous y serez. prendre sa retraite. Mais cela soulève une torture pour l'âme, à savoir si vous pouvez persister à faire un travail qui peut coexister avec le temps.

La seconde est qu’il espère qu’un érudit aura sa propre attitude. Si vous pensez que quelque chose peut être fait par a, b ou par vous-même, vous ne devriez pas le faire. C'est-à-dire que lorsque vous faites cette chose, vous découvrirez que ce n'est pas ce travail qui a besoin de vous, mais vous qui avez besoin de ce travail. C'est une mentalité spéculative. C'est en fait le même tempérament que je vois chez eux, c'est-à-dire qu'ils espèrent ne pas suivre la foule, mais avoir leur propre attitude et trouver leur propre voix.

Ainsi, lorsque je choisis une direction de recherche, je juge de temps en temps si le travail que je fais est spéculatif ou s’il s’agit d’un véritable pilier.

Je pense que ce qui est bien chez eux, surtout chez Yann, c'est qu'on peut traverser cette période presque désespérée et inaugurer l'aube. Les personnes qui n'ont jamais connu de creux peuvent ne pas être en mesure de se calmer suffisamment. Lorsque vous traversez le moment le plus sombre, utilisez votre vision et votre persévérance pour traverser cette courte période, puis prouvez que c'est vrai. tempérament très intéressant.

"Silicone Vallée 101" :Y a-t-il des opinions scientifiques de Yann avec lesquelles vous n’êtes pas d’accord ?

Chen Yubei :Parfois, il était direct. Par exemple, il a récemment déclaré que si vous êtes un chercheur, vous ne devriez pas étudier de grands modèles linguistiques. Cette phrase a de nombreuses interprétations si vous la prenez au sens littéral, beaucoup de gens ne seront pas d’accord, y compris moi. Je peux penser qu'il existe certaines structures dans les grands modèles de langage qui méritent d'être comprises et étudiées.

Bien sûr, ce que Yann voudra peut-être vraiment dire, c'est ce que je viens de mentionner, ne faites pas de travaux spéculatifs comme A et B. J'espère que les chercheurs feront preuve d'une certaine persévérance et trouveront des contributions plus originales. Si c’était dit de cette façon, je pense en fait que je serais plus d’accord. Mais tel un grand V, ses propos vont parfois vous choquer et déclencher de nombreuses discussions. C'est un endroit que je trouve très intéressant.

"Silicone Vallée 101" :Vous avez également travaillé chez Meta. Selon vous, quelle est la plus grande contribution de Yann à Meta ?

Chen Yubei :La première chose devrait être d’aider à construire la Meta AI. Lorsqu'il envisageait de créer Meta AI, Mark l'a découvert pour la première fois. De plus, parce qu'il travaillait aux Bell Labs dans ses premières années, il aspirait à l'état des Bell Labs à l'époque, il avait donc également un idéal pour reproduire un tel laboratoire. dans Méta. Adhérant à ce concept, il a également recruté et formé un groupe de très bonnes personnes en Meta AI, apportant de grandes contributions à ce domaine et favorisant le développement de l'ensemble du domaine.

"Silicone Vallée 101" :Je pense que l'open source devrait être considéré comme une de ses contributions très importantes. Par exemple, la raison pour laquelle Meta Llama a choisi la voie de l'open source devrait être très cohérente avec l'idée globale de Yarn.

Chen Yubei :Oui, oui, l'open source, c'est bien ce sur quoi Yann insiste. Mais je ne sais pas si Meta continuera à être open source à l'avenir, car après tout, Meta sera également confronté à la concurrence, mais je pense que c'est un concept de Yann dans quelle mesure cela peut être mis en œuvre au final et jusqu'où. cela peut aller en fait dépend de l’ensemble du développement.

"Silicone Vallée 101" :Pensez-vous que l’ensemble de la recherche sur les grands modèles doit désormais être piloté par des scientifiques ? Ou cela deviendra-t-il lentement une question d’ingénierie ?

Chen Yubei :J'ai l'impression que c'est devenu une question d'ingénierie. Au début, c'était une question de scientifique. Au cours des deux dernières années, je pense que le principal progrès vient de l'exécution du projet. La qualité des données s'est-elle améliorée ? Les données ont-elles augmenté ? Sa distribution s'est-elle enrichie ? Les calculs peuvent-ils être parallélisés ? Tout cela est dû à des détails très importants dans le domaine de l’ingénierie. Le développement de 0 à 1 nécessite des percées scientifiques, mais de 1 à 100 nécessite une rigueur technique et des capacités d'exécution pour le promouvoir à différentes étapes.

"Silicone Vallée 101" :Tout le monde attend avec impatience GPT 5 maintenant. Pensez-vous que si GPT 5 sort, s’agira-t-il davantage d’un problème scientifique ou d’un problème d’ingénierie ?

Chen Yubei :Je pense qu'il y a un long chemin à parcourir en ingénierie. On peut même penser que Scaling Law a un long chemin à parcourir, et il n'y a pas de fin en vue, y compris en termes de qualité des données et d'expansion de la puissance de calcul. Mais en même temps, je pense que même si la méthode la plus robuste que nous avons trouvée à l’heure actuelle est la loi de mise à l’échelle, elle n’est certainement pas suffisante.

Alors de quoi d’autre avons-nous besoin ? Je pense que ce qu’il faut, c’est une grande efficacité comme les êtres humains. Alors, comment atteindre une telle efficacité ? Cela peut être déclenché par les données, mais cela peut aussi être autre chose, donc je pense que si nous parlons du processus menant à l'AGI, il devrait y avoir des changements relativement importants de 0 à 1.

"Silicone Vallée 101" :Même s’il y a des progrès scientifiques, il reste encore beaucoup à faire en matière d’ingénierie.