nouvelles

dernière conversation de li feifei : les progrès de la technologie de l'ia apporteront de nouveaux scénarios d'application inimaginables

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

récemment, li feifeietpartenaire a16zmartin casadoainsi quechercheur justin johnsondévelopperdiscutéial'histoire, la situation actuelle et l'orientation future du développement du domaine, les sujetscouvre tous les aspects de la technologie de l'ia, en particulier le potentiel futur de l'ia générative et de l'intelligence spatiale.
li feifei a souligné que l'ia générative existait déjà pendant ses études supérieures, mais que les premières technologies n'étaient pas encore matures. avec l’essor de l’apprentissage profond et de la puissance de calcul, l’ia générative a fait des progrès remarquables ces dernières années et est devenue l’une des avancées majeures dans le domaine de l’ia.
elle a également présenté le dernier projet entrepreneurial world labs, axé sur « l'intelligence spatiale », c'est-à-dire la capacité des machines à comprendre et à interagir dans des espaces 3d et 4d.
elle a souligné que l'intelligence spatiale n'est pas seulement adaptée à la génération de mondes virtuels, mais peut également intégrer le monde réel et est largement utilisée dans les domaines de la réalité augmentée (ar), de la réalité virtuelle (vr) et de la robotique.ia les progrès technologiques nous apporteront de nouveaux scénarios d’application inimaginables, notamment la génération de mondes virtuels, la réalité augmentée et l’interaction avec le monde physique.
ce qui suit est le contenu principal de cette conversation, profitez-en~

martin casado

au cours des deux dernières années, nous avons vu émerger une vague d’entreprises et de technologies d’ia grand public, et le processus a été fou. et vous travaillez dans ce domaine depuis des décennies. nous pourrions donc parler des principales contributions et idées que vous avez apportées au cours de ce processus.

feifei li

c’est une période très excitante, et avec le recul, l’ia traverse une période passionnante. personnellement, je suis engagé dans ce domaine depuis plus de deux décennies. nous sommes sortis du dernier hiver de l’ia et avons assisté à la naissance de l’ia moderne. puis nous avons vu l’essor du deep learning, qui nous a montré ce qui était possible, comme jouer aux échecs.

ensuite, nous avons commencé à observer des développements plus profonds dans la technologie et l’application industrielle des premières possibilités, telles que les modèles linguistiques. en ce moment, je pense que nous sommes au milieu d’une « explosion cambrienne ».

dans un sens, désormais, en plus du texte, nous voyons également les pixels, la vidéo, l'audio, etc. commencer à être combinés avec des applications et des modèles d'ia, c'est donc une période très excitante.

martin casado

je vous connais tous les deux depuis longtemps, et beaucoup de gens vous connaissent parce que vous êtes très connus dans ce domaine. mais tout le monde ne sait pas comment vous avez débuté dans le domaine de l'ia, alors peut-être pouvons-nous présenter brièvement votre parcours pour aider le public à établir une compréhension de base.

justin johnson

d'accord, ma première exposition à l'ia a eu lieu vers la fin de mes études de premier cycle. j'ai étudié les mathématiques et l'informatique à caltech et c'était une période formidable. au cours de cette période, un article très célèbre a été publié, le « cat paper » sur google brain par home neck lee, andrew ng et d'autres. c'était ma première exposition au concept d'apprentissage profond.

cette technologie m'a étonné, et c'était la première fois que je rencontrais cette recette : lorsque de puissants algorithmes d'apprentissage à usage général, d'énormes ressources de calcul et de grandes quantités de données sont combinés, quelque chose de magique se produit. j’ai eu cette idée vers 2011 ou 2012, et j’ai senti à ce moment-là que ce serait quelque chose que je ferais à l’avenir.

évidemment, il fallait faire des études supérieures pour faire ce travail, alors j'ai découvert que feifei était à stanford et qu'elle était l'une des rares personnes au monde à étudier ce domaine en profondeur. c’était une période idéale pour travailler sur l’apprentissage profond et la vision par ordinateur, car c’était le moment où la technologie passait de ses balbutiements à la maturité et à une adoption généralisée.

à cette époque, nous avons vu les débuts de la modélisation du langage, ainsi que les débuts de la vision discriminante par ordinateur : on pouvait comprendre ce qui se passait dans une image. au cours de cette période, il y a eu également le développement précoce de ce que nous appelons aujourd'hui l'ia générative. les parties essentielles de l'algorithme, telles que la génération d'images et la génération de texte, ont également été résolues par la communauté universitaire au cours de mon doctorat.

à cette heure-là, chaque matin, lorsque je me réveillais, j'ouvrais arxiv pour consulter les derniers résultats de la recherche. c'était comme ouvrir des cadeaux de noël. de nouvelles découvertes étaient faites presque tous les jours. au cours des deux dernières années, le reste du monde a également commencé à se rendre compte que de nouveaux « cadeaux de noël » sont reçus chaque jour grâce à la technologie de l’ia. mais pour ceux d’entre nous qui travaillent dans ce domaine depuis plus de dix ans, cette expérience existe déjà.

feifei li

évidemment, je suis beaucoup plus âgé que justin. je suis entré dans le domaine de l’ia depuis la physique parce que ma formation de premier cycle était en physique. la physique est une matière qui vous apprend à réfléchir à des questions audacieuses, comme les mystères non résolus du monde. en physique, ces problèmes sont peut-être liés au monde atomique, à l'univers, mais cette formation m'a fait m'intéresser à un autre problème : l'intelligence. j'ai donc fait des recherches doctorales en ia et en neurosciences computationnelles à caltech. bien que justin et moi ne nous chevauchions pas à caltech, nous partagions la même alma mater.

justin johnson

et le même mentor ?

feifei li

oui, votre conseiller de premier cycle était également mon directeur de doctorat, pietro perona. lorsque j’étudiais pour mon doctorat, l’ia était au milieu d’un hiver froid aux yeux du public, mais ce n’était pas le cas à mes yeux. cela ressemble davantage à la période d’hibernation précédant le printemps, où l’apprentissage automatique et les modèles génératifs gagnent en force. je me considère comme un « natif » dans le domaine de l'apprentissage automatique, et la génération de justin est une « native » dans le domaine de l'apprentissage profond.

l’apprentissage automatique est le prédécesseur de l’apprentissage profond, et nous avons alors expérimenté différents modèles. mais vers la fin de mon doctorat et pendant mon mandat de professeur adjoint, mes étudiants et mon laboratoire ont réalisé qu’il y avait un élément négligé de l’ia qui conduisait à la généralisation et auquel le domaine n’avait pas beaucoup réfléchi à l’époque : les données. nous nous sommes concentrés sur des modèles complexes tels que les modèles bayésiens et avons négligé l'importance de laisser les données piloter le modèle.

c'est l'une des raisons pour lesquelles nous parions sur imagenet. à cette époque, la taille des ensembles de données dans tous les domaines était très petite. les ensembles de données standard pour la vision par ordinateur et le traitement du langage naturel comptaient des milliers ou des dizaines de milliers de données, mais nous avons réalisé que nous devions passer à internet. . heureusement, l’ère d’internet était également en plein essor et nous avons surfé sur cette vague. c’est à cette époque que je suis arrivé à stanford.

martin casado

ces époques, comme celles dont nous parlons beaucoup, comme imagenet, sont évidemment des époques importantes pour promouvoir ou du moins rendre la vision par ordinateur populaire et réalisable dans le domaine de l'ia générative. nous mentionnons généralement deux avancées clés : l'une est l'article transformer, qui est le « mécanisme d'attention », et l'autre est la « diffusion stable », dont on parle moins.

est-il raisonnable de comprendre ainsi ces deux avancées algorithmiques du monde universitaire (en particulier de google) ? ou s’agit-il plutôt d’un processus intentionnel ? ou y a-t-il eu d’autres avancées majeures, rarement mentionnées, qui nous ont également poussés là où nous en sommes aujourd’hui ?

justin johnson

oui, je pense que la plus grande avancée est la puissance de calcul. je sais que l’histoire de l’ia est souvent aussi celle de la puissance de calcul, mais même si elle est souvent évoquée, je pense que son impact est sous-estimé.

la croissance de la puissance de calcul que nous avons constatée au cours de la dernière décennie a été stupéfiante. le premier article considéré comme une avancée majeure pour l'apprentissage profond en vision par ordinateur a été alexnet, un article de 2012 dans lequel un réseau neuronal profond a bien performé dans le défi imagenet, surpassant de loin les autres algorithmes de l'époque.

les algorithmes auxquels vous pouvez être exposé pendant vos études supérieures sont pâles par rapport à alexnet. alexnet est un réseau neuronal profond avec 60 millions de paramètres. il a été formé pendant six jours sur deux cartes graphiques gtx 580. la gtx 580 était à l'époque la carte graphique grand public la plus puissante et a été lancée en 2010.

je cherchais des données hier soir et je voulais placer cela dans un contexte plus large. la dernière carte graphique de nvidia est la gb200. pouvez-vous deviner l'écart de puissance de calcul entre la gtx 580 et la gb200 ?

le nombre se compte en milliers, alors j’ai fait le calcul hier soir. par exemple, pendant les deux semaines de formation, les six jours se sont déroulés sur deux gtx 580. s'ils étaient prolongés, ils pourraient probablement s'exécuter en moins de cinq minutes sur un gb200.

si vous y réfléchissez de cette façon, il y a vraiment un bon argument : l'article d'alexnet de 2012 sur le imagenet challenge est en réalité un modèle très classique, c'est-à-dire le modèle de réseau neuronal convolutif.

en fait, ce concept est apparu dès les années 1980. je me souviens encore du premier article que j'ai étudié lorsque j'étais étudiant diplômé. le contenu était similaire, avec une structure en réseau de six ou sept couches. presque la seule différence entre alexnet et le modèle de réseau neuronal convolutif est le gpu : l'utilisation de deux gpu et d'énormes quantités de données.

ce que j'allais dire, c'est que la plupart des gens connaissent désormais ce qu'on appelle la « leçon amère », à savoir que si vous développez un algorithme, assurez-vous simplement de pouvoir tirer parti de vos ressources informatiques existantes, car ces ressources deviendront disponible au fil du temps. il vous suffit donc d’un système qui ne cesse de s’améliorer.

d’un autre côté, il semble y avoir un autre argument tout aussi convaincant, à savoir que les nouvelles sources de données débloquent réellement l’apprentissage profond. imagenet est un bon exemple. bien que de nombreuses personnes pensent que le mécanisme d’auto-attention est important pour le modèle transformer, ils diront également qu’il s’agit d’un moyen de tirer parti des données étiquetées par les humains.

étant donné que les humains fournissent les annotations pour la structure des phrases, si vous regardez le modèle clip, il permet en fait aux humains de marquer les images à l'aide de balises alt sur internet. il s’agit donc en réalité d’une histoire de données, pas d’informatique. alors, la réponse est-elle les deux, ou est-ce plutôt un côté ? je pense que c'est un peu des deux, mais vous avez également soulevé un autre point très critique.

martin casado

je pense qu’il existe en réalité deux époques distinctes dans le domaine des algorithmes. l'ère imagenet est l'ère de l'apprentissage supervisé. de nos jours, nous disposons de beaucoup de données, mais nous ne savons pas comment nous entraîner uniquement avec les données elles-mêmes.

l’attente avec imagenet et d’autres ensembles de données contemporains était que nous aurions beaucoup d’images, mais nous aurions besoin d’humains pour annoter chaque image. toutes les données sur lesquelles nous nous sommes entraînés ont été visualisées et annotées une par une par des annotateurs humains.

la grande avancée pour les algorithmes est que nous savons désormais comment s’entraîner sur des données qui ne reposent pas sur des annotations humaines. pour une personne moyenne sans expérience en ia, il semble que si vous vous entraînez sur des données humaines, les humains ont effectivement fait l'annotation, mais l'annotation n'est pas explicite.

justin johnson

oui, philosophiquement, c’est une question très importante, mais elle est plus vraie dans le domaine du langage que dans le domaine des images. oui, mais je pense que c'est une distinction importante. clip est en effet annoté par les humains. je pense que le mécanisme d’auto-attention réside dans le fait que les humains ont compris les relations entre les choses, et qu’ils apprennent ensuite à travers ces relations.

c'est donc toujours annoté par les humains, mais l'annotation est implicite plutôt qu'explicite. la différence est qu’à l’ère de l’apprentissage supervisé, nos tâches d’apprentissage sont plus restreintes. nous devons concevoir une ontologie des concepts que nous voulons découvrir.

par exemple, dans imagenet, fei-fei li et ses élèves ont passé beaucoup de temps à réfléchir à ce que devraient être les mille catégories du défi imagenet. dans d'autres ensembles de données en même temps, tels que l'ensemble de données coco utilisé pour la détection de cibles, ils ont également longuement réfléchi au choix des 80 catégories à y inclure.

martin casado

parlons donc d’ia générative. lorsque je faisais mon doctorat, avant votre arrivée, j'ai suivi le cours d'apprentissage automatique d'andrew ng et le cours bayésien très complexe de daphne koller, qui était très complexe pour moi.

à l’époque, il s’agissait en grande partie de modélisation prédictive. je me souviens que vous avez débloqué toute cette histoire de vision, mais l'ia générative n'existe que depuis environ quatre ans. c'est un domaine complètement différent pour moi : vous n'identifiez plus des objets, vous ne prédisez pas quelque chose, vous générez de nouvelles choses.

alors peut-être pourrions-nous parler des facteurs clés qui rendent l’ia générative possible, en quoi elle est différente d’avant et si nous devrions l’examiner différemment, s’il s’agit d’un élément de développement continu ou d’un autre domaine complètement nouveau ?

feifei li

il est très intéressant de constater que les modèles génératifs existent même depuis mes études supérieures. à l’époque, nous voulions faire de la génération, mais personne ne se souvenait que même si nous faisions de la génération avec des lettres et des chiffres, nous essayions quelque chose. jeff hinton avait à l'époque des articles sur la génération, et nous réfléchissions également à la manière de générer.

en fait, si vous le regardez du point de vue de la distribution de probabilité, cela peut être généré mathématiquement, mais ce qui a été généré à cette époque n'était pas du tout étonnant. ainsi, bien que le concept de génération existe d’un point de vue mathématique, il n’existe en réalité aucun effet de génération satisfaisant.

ensuite, je voudrais mentionner spécifiquement un doctorant qui est venu dans mon laboratoire avec un fort intérêt pour l'apprentissage profond. l’ensemble de l’expérience doctorale de ce doctorant peut presque être considéré comme un microcosme de la trajectoire de développement de ce domaine.

son premier projet concernait les données, et je l'ai forcé à le faire. même s'il n'aimait pas ça, il a admis plus tard qu'il avait appris beaucoup de choses utiles. "maintenant, je suis heureux que vous ayez dit cela." nous nous sommes donc tournés vers l'apprentissage profond, et le problème principal était de savoir comment générer du texte à partir d'images. en fait, ce processus comporte trois étapes claires.

la première étape consiste à faire correspondre les images et le texte. nous avons des images et du texte, et nous devons ensuite voir comment ils sont liés. mon premier article académique, également ma première thèse de doctorat, étudiait la récupération d'images basée sur des graphiques de scène. ensuite, nous continuons à étudier en profondeur et à générer du texte à partir de pixels. lui et andrej ont fait beaucoup de travail à cet égard, mais il s'agit toujours d'une méthode de génération très coûteuse, et les informations sont grandement perdues lorsqu'elles sont obtenues à partir du monde de pixels.

il y avait une œuvre très célèbre au milieu. a cette époque, quelqu'un réalisait le temps réel pour la première fois. en 2015, un article intitulé « the art style of neural algorithms » a été publié sous la direction de leon gatys. ils ont démontré la conversion de photos du monde réel en images de style van gogh.

nous pouvons le tenir pour acquis maintenant, mais c'était en 2015, et cet article est apparu sur arxiv et m'a choqué. j'ai l'impression qu'un « virus générateur d'ia » a été injecté dans mon cerveau. je me suis dit : « oh mon dieu, je dois comprendre cet algorithme, jouer avec et essayer de faire ressembler mes images à van gogh. »

j’ai donc passé un long week-end à réimplémenter l’algorithme afin qu’il fonctionne correctement. en fait, c'est un algorithme très simple. mon implémentation ne contient qu'environ 300 lignes de code. il a été écrit en lua à l'époque, car il n'y avait pas de pytorch à cette époque, nous avons donc utilisé lua torch. mais malgré la simplicité de l’algorithme, il est très lent. chaque fois que vous générez une image, vous devez exécuter une boucle d'optimisation, ce qui prend beaucoup de temps. les images résultantes sont magnifiques, mais j'aurais juste aimé que ce soit un peu plus rapide. finalement, nous l'avons rendu plus rapide.

une autre chose dont je suis très fier, c'est qu'il a réalisé un travail très avant-gardiste dans la dernière partie de ses recherches doctorales avant que l'ia générative ne soit réellement répandue dans le monde. ce projet génère des images complètes en saisissant un langage naturel, ce qui peut être considéré comme l'un des premiers efforts d'ia générative. nous utilisions des gan, mais à l’époque c’était très difficile à utiliser. le problème est que nous ne sommes pas encore prêts à décrire une image complète en langage naturel.

ainsi, il a utilisé une méthode de saisie de structure de graphique de scène, et le contenu d'entrée était « mouton », « herbe », « ciel », etc., et a utilisé cette méthode pour générer une image complète.

de la mise en correspondance des données au transfert de style en passant par la génération d’images, nous assistons progressivement à une transformation complète. vous demandez s’il s’agit d’un changement énorme ; pour des gens comme nous, c’est un processus continu, mais pour les masses, les résultats semblent soudains et percutants.

martin casado

j'ai lu votre livre et c'est un excellent livre que je recommande vivement à tout le monde de lire. et, fei-fei, ce que je veux dire, c'est que depuis longtemps, bon nombre de vos recherches et orientations se sont concentrées sur des domaines tels que l'intelligence spatiale et le traitement des pixels. les world labs sur lesquels vous travaillez actuellement sont également liés à l’intelligence spatiale. pouvez-vous parler de cela comme faisant partie de votre voyage à long terme ? pourquoi as-tu décidé de faire ça maintenant ? est-ce une sorte de percée technologique ou des raisons personnelles ? pouvez-vous nous faire passer du contexte de la recherche sur l’ia aux world labs ?

fei fei li

pour moi, c'est à la fois une quête personnelle et un voyage intellectuel. vous avez mentionné mon livre, et tout mon parcours intellectuel a été en réalité une recherche des « étoiles du nord » et une ferme conviction que ces étoiles du nord sont essentielles à l'avancement de notre domaine.

au début, je me souviens qu'après mes études supérieures, je pensais que mon north star «racontait des histoires pour des images», car pour moi, c'est une grande partie de l'intelligence visuelle, ce que vous appelez la partie ia.

mais quand justin et andrej ont terminé leur travail, j'ai pensé : « oh mon dieu, c'est le rêve de ma vie, que vais-je faire ensuite ? » cela progressait beaucoup plus vite que prévu – je pensais que cela prendrait du temps. il faudra des centaines d’années pour y parvenir.

l'intelligence visuelle a toujours été une de mes passions. je crois fermement que pour tout être intelligent, qu’il soit humain, robot ou autre, il est crucial d’apprendre à voir le monde, à raisonner et à interagir avec le monde. qu’il s’agisse de navigation, de contrôle, de fabrication ou encore de construction de civilisation, l’intelligence visuelle et spatiale joue un rôle fondamental.

c’est peut-être aussi fondamental que le langage, et à certains égards encore plus ancien et fondamental. par conséquent, north star de world labs doit débloquer l’intelligence spatiale, et c’est le bon moment.

comme justin l'a dit, nous disposons déjà des ressources dont nous avons besoin : une puissance de calcul et une compréhension plus approfondie des données. nous sommes devenus plus sophistiqués dans la compréhension des données qu’à l’ère imagenet.

nous disposons également d'avancées algorithmiques, comme les travaux de pointe sur nerf réalisés par nos cofondateurs ben mildenhall et christoph lassner. nous pensons que c’est le bon moment pour prendre une décision, se concentrer sur ce domaine et libérer son potentiel.

martin casado

pour que tout le monde comprenne clairement, vous avez maintenant fondé cette société - world labs, et le problème que vous souhaitez résoudre est « l'intelligence spatiale ». pouvez-vous décrire brièvement ce qu’est l’intelligence spatiale ?

fei fei li

l’intelligence spatiale fait référence à la capacité des machines à comprendre, percevoir, raisonner et agir dans l’espace et le temps 3d. plus précisément, il s’agit de comprendre comment les objets et les événements sont positionnés dans l’espace et le temps 3d, et comment les interactions dans le monde affectent ces positions 3d.

il ne s’agit pas seulement de laisser les machines rester dans des centres de données ou des hôtes, mais de les laisser entrer dans le monde réel et comprendre ce monde riche en 3d et 4d.

martin casado

le « monde » dont vous parlez fait-il référence au monde physique réel ou à un monde conceptuel abstrait ?

fei fei li

je pense que c'est les deux. cela représente également notre vision à long terme. même si vous générez un monde ou du contenu virtuel, le positionnement en 3d présente toujours de nombreux avantages. ou encore, lorsque vous identifiez le monde réel, être capable d'appliquer la compréhension de la 3d au monde réel en fait partie.

martin casado

votre équipe de co-fondateurs est vraiment très forte. alors pourquoi pensez-vous que c’est le bon moment pour faire cela ?

fei fei li

il s’agit en fait d’un processus évolutif à long terme. après avoir terminé mon doctorat, j'ai commencé à chercher une voie pour devenir chercheur indépendant et à réfléchir aux grandes questions dans les domaines de l'ia et de la vision par ordinateur. j’en avais conclu à l’époque que la dernière décennie avait été consacrée à la compréhension des données qui existaient déjà et que la prochaine décennie serait consacrée à la compréhension de nouvelles données.

les données du passé étaient principalement des images et des vidéos qui existaient déjà sur internet, mais les données du futur sont complètement nouvelles : l'émergence des smartphones, dotés de caméras, de nouveaux capteurs et pouvant être positionnés dans le monde 3d. il ne s’agit pas simplement de récupérer un tas de pixels sur internet et d’essayer de savoir s’il s’agit d’un chat ou d’un chien.

nous espérons traiter ces images comme des capteurs universels du monde physique, nous aidant à comprendre la structure 3d et 4d du monde, à la fois dans l'espace physique et génératif.

après avoir obtenu mon doctorat, j'ai fait un grand changement et je suis entré dans le domaine de la vision par ordinateur 3d, en travaillant avec mes collègues sur la façon de prédire la forme 3d des objets. plus tard, je me suis beaucoup intéressé à l'idée d'apprendre des structures 3d à partir de données 2d.

lorsque nous parlons de données, nous mentionnons souvent qu’il est difficile d’obtenir des données 3d, mais en réalité les images 2d sont des projections du monde 3d et de nombreuses structures mathématiques peuvent être exploitées. même si vous disposez de beaucoup de données 2d, vous pouvez déduire la structure du monde 3d grâce à ces structures mathématiques.

2020 est un moment décisif. notre co-fondateur ben mildenhall a proposé la méthode nerf (neural radiation field). il s’agit d’un moyen très simple et clair de déduire des structures 3d à partir d’observations 2d, ouvrant ainsi la voie à tout le domaine de la vision par ordinateur 3d.

dans le même temps, le llm a également commencé à émerger. de nombreux travaux de modélisation du langage ont en fait été développés dans le monde universitaire depuis longtemps. même pendant mon doctorat, j'ai effectué des travaux de modélisation linguistique avec andrej karpathy en 2014.

justin johnson

c'est en fait quelque chose qui est apparu avant transformer, mais à l'ère de gpt-2, il est difficile pour vous de créer de tels modèles dans le monde universitaire car ils nécessitent trop de ressources informatiques. or, fait intéressant, la méthode nerf proposée par ben ne nécessite que quelques heures de formation sur un seul gpu.

cela a amené de nombreux chercheurs universitaires à se recentrer sur ces problèmes, car certains problèmes algorithmiques fondamentaux peuvent être résolus avec des ressources informatiques limitées et vous pouvez obtenir des résultats de pointe sur un seul gpu. ainsi, à cette époque, de nombreux chercheurs universitaires se demandaient : comment pouvons-nous promouvoir le développement de ce domaine grâce à des algorithmes de base ? fei-fei et moi avons beaucoup parlé et nous en sommes tous les deux très convaincus.

fei fei li

oui, nous constatons que nos orientations de recherche évoluent dans une certaine mesure vers des objectifs similaires. je souhaite également raconter un problème technique très intéressant, ou une histoire technique sur les pixels.

de nombreuses personnes engagées dans la recherche sur le langage ne savent peut-être pas qu'avant l'ère de l'ia générative, ceux d'entre nous qui sont engagés dans le domaine de la vision par ordinateur avaient en fait une longue histoire de recherche appelée reconstruction 3d.

cela remonte aux années 1970 et vous pouviez prendre des photos. comme les humains ont deux yeux, vous pouviez utiliser des photos stéréo pour essayer de trianguler et de construire des formes 3d. cependant, il s’agit d’un problème très difficile qui n’a pas encore été complètement résolu en raison de complications telles que des problèmes d’appariement.

il y a une longue histoire de progrès dans ce domaine, mais lorsque nerf est combiné avec des méthodes génératives, notamment dans le contexte des modèles de diffusion, la reconstruction 3d et la génération commencent soudainement à fusionner. dans le domaine de la vision par ordinateur, nous avons soudainement découvert que si nous voyons ou imaginons quelque chose, les deux peuvent converger vers sa génération. c'est un moment très important, mais beaucoup de gens ne le remarquent peut-être pas parce que nous n'en parlons pas aussi longuement que nous parlons du llm.

justin johnson

oui, il y a une reconstruction dans l'espace des pixels, par exemple vous reconstruisez une scène réelle et si vous ne pouvez pas voir cette scène, vous utilisez des techniques génératives ; les deux sont en réalité très similaires. vous avez parlé de langage et de pixels tout au long de cette conversation, alors ce serait peut-être le bon moment pour parler de l'intelligence spatiale par rapport aux approches linguistiques, par exemple sont-elles complémentaires ou sont-elles complètement différentes ?

fei fei li

je pense qu'ils sont complémentaires. je ne sais pas comment définir « complètement différent », mais je peux essayer de faire une comparaison. aujourd’hui, beaucoup de gens parlent de gpt, d’ia ouverte et de modèles multimodaux. on estime que ces modèles peuvent gérer à la fois les pixels et le langage. alors peuvent-ils réaliser le raisonnement spatial que nous souhaitons ? pour répondre à cette question, nous devons ouvrir la « boîte noire » de ces systèmes et voir comment ils fonctionnent sous le capot.

la représentation sous-jacente des modèles de langage et des modèles de langage multimodaux que nous voyons actuellement est « unidimensionnelle ». on parle de longueur de contexte, de transformateurs, de séquences, de mécanismes d'attention, mais en fin de compte, la représentation de ces modèles est basée sur des jetons sérialisés unidimensionnels.

cette représentation est très naturelle lorsqu’il s’agit de langage, puisque le texte lui-même est constitué de séquences unidimensionnelles de lettres discrètes. cette représentation unidimensionnelle est la base du succès du llm, et il en va de même pour le llm multimodal que nous voyons actuellement, qui « intègre » d'autres modalités (telles que les images) dans cette représentation unidimensionnelle.

dans le domaine de l’intelligence spatiale, nous pensons exactement le contraire : nous pensons que la nature tridimensionnelle du monde devrait être au cœur de la représentation. d’un point de vue algorithmique, cela nous ouvre de nouvelles opportunités pour traiter les données et obtenir différents types de résultats, nous aidant ainsi à résoudre des problèmes très différents.

même à un niveau approximatif, on pourrait dire : « les llm multimodaux peuvent également voir des images. » en effet, ils le peuvent, mais ils ne placent pas la nature des trois dimensions au cœur de leur approche lors du traitement des images.

justin johnson

je suis tout à fait d’accord qu’il est très central de discuter de la différence fondamentale entre la représentation unidimensionnelle et tridimensionnelle. à cela s’ajoute un point un peu plus philosophique, mais pour moi non moins important : le langage est essentiellement un signal purement généré, et il n’existe pas de langage au monde. vous ne verrez pas d’écriture dans le ciel lorsque vous sortirez dans la nature. quelles que soient les données que vous fournissez, le modèle de langage peut générer presque les mêmes données avec suffisamment de généralisation. c'est la nature de la génération de langage.

mais le monde 3d est différent : il suit les lois de la physique et possède sa propre structure et ses propres matériaux. être capable essentiellement d’extraire ces informations, de les représenter et de les générer est un problème complètement différent. même si nous emprunterons quelques idées utiles aux modèles de langage, il s’agit d’une question philosophique fondamentalement différente.

martin casado

c'est vrai, le modèle de langage est donc unidimensionnel et probablement une mauvaise représentation du monde physique car il est généré par l'homme avec perte. une autre modalité pour les modèles génératifs est celle des pixels, qui sont des images et des vidéos 2d. si vous regardez une vidéo, vous pouvez voir une scène 3d car la caméra peut effectuer un panoramique. alors, quelle est la différence entre l’intelligence spatiale et la vidéo 2d ?

fei fei li

il y a deux points qui méritent réflexion ici. l’un est la représentation sous-jacente et l’autre est la commodité de l’expérience utilisateur. les deux sont parfois confondus. ce que nous percevons est en 2d : notre rétine est une structure bidimensionnelle, mais notre cerveau la voit comme une projection du monde tridimensionnel.

vous souhaiterez peut-être déplacer des objets, déplacer la caméra et, en principe, vous pouvez faire ces choses avec des représentations et des modèles 2d, mais cela n'est pas approprié au problème que vous posez. une projection bidimensionnelle d'un monde dynamique en trois dimensions peut être modélisable, mais placer la représentation tridimensionnelle au cœur du modèle répond mieux aux besoins du problème.

notre objectif est d'intégrer davantage de représentation 3d au cœur du modèle pour offrir une meilleure expérience aux utilisateurs. cela est également lié à mon « étoile du nord ». pourquoi mettons-nous l’accent sur « l’intelligence spatiale » plutôt que sur « l’intelligence des pixels plats » ?

en raison de la trajectoire de l’intelligence, si l’on regarde l’histoire de l’évolution, son objectif ultime est de permettre aux animaux et aux humains de se déplacer librement dans le monde, d’interagir, de créer une civilisation et même de se faire un sandwich. par conséquent, traduire cette essence 3d en technologie est essentiel pour débloquer d’innombrables applications potentielles, même si certaines peuvent sembler des avancées superficielles.

martin casado

je pense que c'est un point très subtil mais crucial. peut-être pourrions-nous approfondir cette discussion en évoquant certains scénarios d’application. lorsque nous parlons de développer un modèle technologique permettant l’intelligence spatiale, à quoi cela pourrait-il ressembler spécifiquement ? quels sont les scénarios d’application potentiels ?

fei fei li

le modèle d’intelligence spatiale que nous envisageons peut faire beaucoup de choses, dont l’une qui me passionne particulièrement est la « génération mondiale ». semblables aux générateurs de texte-image, nous disposons désormais de générateurs de texte-vidéo : saisissez une image ou une vidéo et le système générera un superbe clip de deux secondes. mais je pense que nous pouvons transférer cette expérience dans un monde en 3d.

nous pouvons imaginer que l’intelligence spatiale nous aidera à faire évoluer ces expériences vers la 3d à l’avenir, non seulement en générant une image ou une vidéo, mais en générant un monde 3d interactif complet, simulé et riche. peut-être qu'il est utilisé pour les jeux, peut-être pour la photographie virtuelle, les domaines d'application sont si larges que c'est inimaginable.

justin johnson

je pense que la technologie s'améliorera avec le temps. il est très difficile de construire ces choses, donc le problème statique peut être relativement simple, mais à long terme, nous voulons qu'il soit entièrement dynamique, interactif, tout ce que vous venez de décrire.

fei fei li

oui, c’est la définition même de l’intelligence spatiale. nous commencerons par des questions plus statiques, mais tout ce que vous avez mentionné concerne l'avenir de l'intelligence spatiale.

justin johnson

cela se reflète également dans le nom de notre entreprise « world labs » – le nom évoque la construction et la compréhension du monde. lorsque nous donnons le nom aux gens, ils ne le comprennent pas toujours au début, car dans les domaines de la vision par ordinateur, de la reconstruction et de la génération, nous faisons souvent la différence entre ce que nous pouvons faire. le premier niveau consiste à reconnaître des objets, tels que des microphones, des chaises et d'autres objets discrets dans le monde. une grande partie du travail d'imagenet est liée à la reconnaissance d'objets.

mais ensuite nous passons au niveau des scènes : les scènes sont constituées d’objets. par exemple, nous avons maintenant un studio d’enregistrement avec une table, un microphone et des personnes assises sur des chaises, qui sont une combinaison d’objets. mais le « monde » que nous imaginons transcende les scènes. la scène est peut-être une seule chose, mais nous voulons briser ces frontières et sortir, dans la rue, voir la circulation passer, voir les feuilles se balancer dans le vent et pouvoir interagir avec ces choses.

fei fei li

une autre chose très intéressante concerne le terme « nouveaux médias ». avec cette technologie, les frontières entre le monde réel, le monde virtuel imaginé ou le monde augmenté et prédit deviennent floues. le monde réel est en 3d, donc dans le monde numérique, une représentation 3d est nécessaire pour se fondre dans le monde réel. vous ne pouvez pas interagir efficacement avec le monde 3d réel uniquement en 2d ou même en 1d.

cette fonctionnalité débloque des scénarios d’application illimités. tout comme le premier scénario d’application évoqué par justin, la génération de monde virtuel peut être utilisée à n’importe quelle fin. le deuxième pourrait êtreréalité augmentée. à l’époque de la création de world labs, apple a lancé vision pro et a utilisé le terme « informatique spatiale ». on parle presque de la même chose, ce que nous soulignons c'est "l'intelligence spatiale". il ne fait aucun doute que l’informatique spatiale nécessite une intelligence spatiale.

nous ne savons pas à quoi ressembleront les futures formes de matériel – il pourrait s’agir de lunettes, de lunettes ou même de lentilles de contact. mais à l'interface entre les mondes réel et virtuel, qu'il s'agisse d'améliorer votre capacité de travail, de vous aider à réparer votre voiture même si vous n'êtes pas un mécanicien professionnel, ou simplement de fournir une expérience de divertissement de type "pokemon go++", cette technologie deviendra le système d’exploitation pour ar/vr.

justin johnson

dans les cas extrêmes, l'appareil ar doit toujours vous accompagner, comprendre le monde que vous voyez en temps réel et vous aider à accomplir les tâches de la vie quotidienne. je suis vraiment enthousiasmé par cela, notamment par la fusion entre virtuel et réalité. lorsque vous pourrez parfaitement comprendre votre environnement en 3d et en temps réel, cela pourrait même remplacer certaines choses du monde réel.

par exemple, nous disposons désormais d’écrans de différentes tailles (ipad, écrans d’ordinateur, téléviseurs, montres, etc.) qui présentent des informations dans différents scénarios. mais si nous parvenons à fusionner de manière transparente le contenu virtuel avec le monde physique, ces appareils ne seront plus nécessaires. les mondes virtuels peuvent vous montrer les informations dont vous avez besoin au bon moment et de la manière la plus appropriée.

une autre application majeure consiste à mélanger le monde virtuel numérique avec le monde physique 3d, notamment en robotique. les robots doivent agir dans le monde physique, tandis que leurs ordinateurs et leur cerveau se trouvent dans le monde numérique. le pont entre apprentissage et comportement doit être construit par l’intelligence spatiale.

martin casado

vous avez évoqué les mondes virtuels, la réalité augmentée, et maintenant vous parlez du monde purement physique, par exemple en robotique. il s’agit d’un domaine très vaste, surtout si vous envisagez de vous diversifier dans ces différents domaines. comment voyez-vous la technologie profonde liée à ces domaines d’application spécifiques ?

fei fei li

nous nous considérons comme une entreprise de technologie approfondie, en tant qu'entreprise de plateforme, fournissant des modèles pouvant servir ces différents scénarios d'application. quant au scénario d'application le plus adapté à ce sur quoi nous nous sommes concentrés au début, je pense que l'équipement actuel n'est pas assez parfait.

en fait, j'ai acheté mon premier casque vr lorsque j'étais aux études supérieures. quand je l'ai mis, je me suis dit : « oh mon dieu, c'est fou ! » je suis sûr que beaucoup de gens vivent une expérience similaire lorsqu'ils utilisent la vr pour la première fois.

j'aime tellement le vision pro que je suis resté éveillé tard le jour de sa sortie pour en acheter un, mais pour le moment, il n'est pas complètement mature en tant que plate-forme grand public. par conséquent, en tant qu’entreprise, nous pouvons choisir de pénétrer un marché déjà plus mature.

il y a parfois de la simplicité dans la polyvalence. nous avons une vision d'entreprise de technologie approfondie et pensons qu'il existe certains problèmes fondamentaux qui doivent être bien résolus et qui, s'ils sont bien résolus, peuvent être appliqués à de nombreux domaines différents. nous considérons que l'objectif à long terme de l'entreprise est de construire et de réaliser le rêve de l'intelligence spatiale.

justin johnson

en fait, je pense que c'est là que réside l'impact de ce que vous faites. je ne pense pas que nous y parviendrons un jour, car c'est une chose tellement fondamentale : l'univers est essentiellement une structure quadridimensionnelle évolutive, et l'intelligence spatiale au sens large consiste à comprendre toute la profondeur de cette structure et à trouver l'ensemble de la demande. ainsi, même si nous avons aujourd’hui un ensemble d’idées spécifiques, je crois que ce voyage nous mènera vers des endroits que nous ne pouvons tout simplement pas imaginer pour le moment.

fei fei li

ce qui est étonnant avec la technologie, c’est qu’elle continue d’ouvrir davantage de possibilités. à mesure que nous progressons, ces possibilités continueront de s’élargir.