nouvelles

« Marraine de l'IA » Li Feifei : Sora est toujours une image en deux dimensions, et seule l'intelligence spatiale en trois dimensions peut atteindre l'AGI|Titanium Media

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


L'application TMTpost a rapporté le 2 août que lors d'une réunion à huis clos du Asian American Scholar Forum organisé par l'Université de Stanford,Li Feifei, professeur à l'Université de Stanford, connue comme la "Marraine de l'IA", a déclaré en exclusivité à TMTpost App que bien que le modèle Sora de la société américaine OpenAI puisse générer des vidéos, il s'agit essentiellement d'un modèle plat en deux dimensions et n'a pas la capacité de comprendre les objets tridimensionnels. Seule « l'intelligence spatiale » est l'orientation future de l'AGI.

Li Feifei a fait la réponse ci-dessus en discutant de la relation entre le modèle « d'intelligence spatiale » et le grand modèle de langage évoqué par le fondateur de TMTpost Media, Zhao Hejuan. Elle a en outre expliqué que la plupart des modèles actuels, tels que GPT4o et Gemini 1.5, sont toujours des modèles de langage, c'est-à-dire un langage d'entrée et un langage de sortie. Bien qu'il existe également des modèles multimodaux, ils sont toujours limités au langage, même s'il existe une vidéo. , ils sont basés sur une image plate bidimensionnelle. Mais la clé pour réaliser l’AGI à l’avenir est « l’intelligence spatiale », qui nécessite un modèle visuel tridimensionnel.

Elle a utilisé comme exemple la vidéo d'IA de « Femmes japonaises marchant dans les rues de Tokyo éclairées au néon » montrée par Sora.


"Si vous voulez que l'algorithme change l'angle pour montrer la vidéo de la femme marchant dans la rue, par exemple en plaçant la caméra derrière la femme, Sora ne peut pas le faire. Parce que ce modèle n'a pas vraiment une compréhension profonde de "Imaginez la scène derrière la femme." Li Feifei a déclaré: "Les êtres humains peuvent comprendre comment se déplacer dans des environnements complexes. Nous savons comment saisir, comment contrôler, comment pour construire des outils et comment construire des villes. Fondamentalement, l'intelligence spatiale est la géométrie. La relation entre les objets est un espace tridimensionnel. L'intelligence spatiale consiste à libérer la capacité de générer (des cartes visuelles) et de raisonner et de planifier des actions dans un espace tridimensionnel. Ses applications sont très variées, par exemple pour la réalité augmentée et la réalité virtuelle, pour les robots, et la conception d'applications est également nécessaire.

Li Feifei a souligné sur l'application TMTpost : « L'évolution naturelle permet aux animaux de comprendre le monde tridimensionnel, de vivre, de prédire et d'interagir dans l'espace tridimensionnel. Cette capacité a une longue histoire de 540 millions d'années lorsque les trilobites ont vu la lumière pour la première fois dans l'eau. , il doit « naviguer » dans le monde tridimensionnel. S'il ne peut pas « naviguer » dans le monde tridimensionnel, il deviendra rapidement un régal pour les autres animaux. Au fur et à mesure de l'évolution, l'intelligence spatiale des animaux se renforce. notre capacité à comprendre les formes.

Li Feifei, 48 ans, est un célèbre informaticien, académicien de la National Academy of Engineering et de la National Academy of Medicine, et directeur de l'Institut de recherche sur l'IA centrée sur l'humain à l'Université de Stanford aux États-Unis. Elle a dirigé le développement de la base de données d'images ImageNet et du concours de reconnaissance visuelle en 2009, annotant et classant avec précision des images massives, promouvant l'avancement des capacités de reconnaissance de vision par ordinateur, et est également l'un des facteurs clés favorisant le développement rapide de l'IA. L'année dernière, VoxPoser, qu'elle a annoncé, est devenu une direction technologique clé dans le développement de l'IA incorporée.

En juillet de cette année, World Labs, une société d'IA fondée par Li Feifei, a annoncé la finalisation de deux tours de table. Les investisseurs incluent a16z (Andreessen Horowitz), etc.La dernière valorisation de l’entreprise a atteint 1 milliard de dollars (environ 7,26 milliards de yuans).

Lors du Forum des scientifiques américains d'origine asiatique à huis clos fin juillet, le discours de Li Feifei a également permis à davantage de gens de comprendre ce que sont Word Labs et son concept de développement de « l'intelligence spatiale », c'est-à-dire faire de l'IA véritablement « du voir au faire ». ».

Comment passer du « voir » au « faire »

Ce qu'on appelle « l'intelligence spatiale » fait référence à la capacité des personnes ou des machines à percevoir, comprendre et interagir dans un espace tridimensionnel.

Ce concept a été proposé pour la première fois par le psychologue américain Howard Gardner dans la théorie des intelligences multiples, qui permet de former dans le cerveau un modèle du monde spatial externe, puis de l'utiliser et de le manipuler. En fait, l'intelligence spatiale permet aux gens de penser de manière tridimensionnelle, permettant aux gens de percevoir des images externes et internes, et de reproduire, transformer ou modifier des images, afin de pouvoir se déplacer sereinement dans l'espace et faire ce qu'ils veulent. la position des objets pour générer ou interpréter des informations graphiques.

D'une manière générale, l'intelligence spatiale comprend non seulement la capacité de percevoir l'orientation spatiale, mais également la discrimination visuelle et les capacités de réflexion sur les images. Pour les machines, l’intelligence spatiale fait référence à leur capacité à traiter des données visuelles dans un espace tridimensionnel, à faire des prédictions avec précision et à prendre des mesures basées sur ces prédictions. Cette capacité permet aux machines de naviguer, de fonctionner et de prendre des décisions dans un monde tridimensionnel complexe comme celui des humains, transcendant ainsi les limites de la vision bidimensionnelle traditionnelle.

Dans une conférence TED tenue en avril de cette année, Li Feifei a déclaré franchement que la capacité visuelle a déclenché l'explosion cambrienne et que l'évolution du système nerveux a apporté l'intelligence. « Nous ne voulons pas seulement une IA capable de voir et de parler, nous voulons une IA capable de le faire. »

Selon Li Feifei, l'intelligence spatiale est « l'arme magique clé pour résoudre les problèmes techniques de l'IA ».

Lors de cet événement à huis clos fin juillet, Li Feifei a pour la première fois passé en revue les trois principaux moteurs de l'IA moderne qui a débuté il y a 10 ans : les « réseaux de neurones » composés d'algorithmes, c'est-à-dire le « deep learning », principalement des puces modernes ; Puces GPU NVIDIA et Big Data.

Depuis 2009, le domaine de la vision par ordinateur a fait des progrès fulgurants. Les machines peuvent reconnaître rapidement les objets et correspondre aux performances humaines. Mais ce n'est que la pointe de l'iceberg. La vision par ordinateur peut non seulement identifier des objets stationnaires et suivre des objets en mouvement, mais également séparer les objets en différentes parties et même comprendre la relation entre les objets. Par conséquent, sur la base du Big Data d’images, le domaine de la vision par ordinateur a progressé à pas de géant.

Li Feifei se souvient clairement qu'il y a environ 10 ans, son élève Andrej Karpathy a participé à des recherches visant à établir des algorithmes d'émoticônes. Ils ont montré une image à l'ordinateur, puis via le réseau neuronal, l'ordinateur a pu émettre un langage naturel, tel que : « C'est un chat allongé sur le lit. »

"Je me souviens avoir dit à Andrej d'inverser la situation. Par exemple, prononcez une phrase et demandez à l'ordinateur de donner une image. Nous avons tous ri, pensant que cela ne se réaliserait peut-être jamais, ou que cela se réaliserait dans un avenir lointain", Li Feifei rappelé.

La technologie de l’IA générative s’est développée rapidement au cours des deux dernières années. Il y a quelques mois notamment, OpenAI a publié l'algorithme de génération vidéo Sora. Elle a présenté un produit similaire développé par ses étudiants chez Google, qui était d'excellente qualité. Ce produit existait plusieurs mois avant la sortie de Sora et utilisait un GPU (unité de traitement graphique) beaucoup plus petit que Sora. La question est : où ira l’IA ensuite ?

« Depuis des années, je dis que « voir », c’est « comprendre le monde ». Mais j’aimerais pousser ce concept un peu plus loin et « voir » n’est pas seulement comprendre, mais faire. La nature crée des choses comme nous. Des animaux dotés de sensibilité, mais de tels animaux existent en réalité depuis 450 millions d'années, car c'est une condition nécessaire à l'évolution : voir et faire sont une boucle fermée", a déclaré Li Feifei.

Elle a utilisé son chat préféré comme exemple.


Photo d'un chat, d'un verre de lait et de plantes sur une table. Lorsque vous voyez cette photo, une vidéo en trois dimensions apparaît réellement dans votre esprit. Vous voyez des formes, vous voyez la géométrie.

En fait, vous voyez ce qui s’est passé il y a quelques secondes et ce qui pourrait arriver quelques secondes plus tard. Vous voyez cette photo en trois dimensions. Vous planifiez quoi faire ensuite. Votre cerveau s'emballe, calculant ce que vous pouvez faire pour sauver votre tapis, d'autant plus que le chat est à vous et le tapis est à vous.

"J'appelle tout cela l'intelligence spatiale, qui consiste à modéliser le monde tridimensionnel et à raisonner sur des objets, des lieux, des événements, etc. dans un espace et un temps tridimensionnels. Dans cet exemple, je parle du monde réel, mais aussi Cela peut faire référence au monde virtuel. Mais l’essentiel de l’intelligence spatiale est de relier « voir » et « faire ». Un jour, l’IA sera capable de le faire », a déclaré Li Feifei.

Deuxièmement, Li Feifei a montré une vidéo 3D reconstruite à partir de plusieurs photos, puis elle a présenté une vidéo 3D basée sur une seule photo. Ces technologies peuvent être utilisées dans la conception.

Li Feifei a déclaré que l'IA intelligente incarnée ou les robots humanoïdes peuvent former une boucle fermée entre « voir » et « faire ».

Elle a déclaré que des collègues de l'Université de Stanford et du géant des puces NVIDIA menaient conjointement une étude appelée BEHAVIOR pour créer un espace dynamique de référence pour les activités à domicile afin d'évaluer les performances de divers robots dans l'environnement domestique. "Nous étudions comment connecter des modèles de langage avec de grands modèles visuels afin que le robot puisse être amené à élaborer un plan et à lancer une action", a-t-elle déclaré. Elle a donné trois exemples : l’un est un robot ouvrant un tiroir, un autre est un robot débranchant le câble de chargement d’un téléphone portable et le troisième est un robot préparant un sandwich. Toutes les instructions sont données dans le langage humain naturel.

Enfin, elle a donné un exemple, estimant que l'avenir appartient au monde de « l'intelligence spatiale », où les humains peuvent s'asseoir là, porter un casque EEG avec des capteurs, et sans ouvrir la bouche pour parler, ils peuvent dire à distance aux robots avec juste leur pensées : cuisiner un repas de style japonais. Bar à manger. Une fois que le robot a reçu l’idée, il la décrypte et peut préparer un repas complet.

"Lorsque nous connectons "voir" et "faire" grâce à l'intelligence spatiale, nous pouvons le faire", a-t-elle déclaré.

Li Feifei a également déclaré qu'elle avait été témoin du développement passionnant de l'IA au cours des 20 dernières années. Cependant, elle estime que la clé de l’IA ou de l’AGI est l’intelligence spatiale. Grâce à l’intelligence spatiale, nous pouvons voir le monde, percevoir le monde, comprendre le monde et laisser le robot faire des choses, formant ainsi une boucle fermée vertueuse.

Les robots prendront-ils le contrôle de l'humanité ?

Li Feifei a déclaré lors de la réunion que les gens d'aujourd'hui sont trop exagérés quant à ce que l'IA peut faire à l'avenir. Elle met en garde contre la confusion entre des objectifs ambitieux et courageux et la réalité, un refrain que l’on entend trop souvent.

En fait, l’IA a atteint un point d’inflexion, notamment les grands modèles de langage. "Cependant, il s'agit toujours d'une technologie limitée et truffée de bugs qui nécessite toujours que les humains y soient profondément impliqués et comprennent ses limites. Un argument très dangereux est désormais le soi-disant risque d'extinction humaine, c'est-à-dire que l'IA est en train de devenir la solution. "Je pense que cela est très dangereux pour la société et que ce genre de rhétorique aura de nombreuses conséquences involontaires. Nous avons besoin d'une communication et d'une éducation réfléchies, équilibrées et impartiales sur l'IA", a déclaré Li Feifei. .a souligné.

Li Feifei estime que l’IA devrait être ancrée chez l’humain. Les êtres humains l’ont créé, les êtres humains le développent, les êtres humains l’utilisent et les êtres humains devraient également le gérer.

Li Feifei a déclaré qu'à l'Institut « Human-Centered AI » de l'Université de Stanford, ils ont adopté trois approches de l'IA, y compris les trois niveaux de l'individu, de la communauté et de la société :

  • Au niveau individuel, l’IA doit être engagée et adoptée. Il s'agit d'une technologie civilisée. L’IA change la façon dont les enfants apprennent, la façon dont les médecins utilisent les méthodes de diagnostic, la façon dont les artistes conçoivent et la façon dont les enseignants enseignent. Que vous soyez technicien ou non, vous pouvez jouer votre rôle et utiliser l’IA de manière responsable.
  • Au niveau communautaire, l'IA peut responsabiliser la communauté et répondre à ses besoins en matière de protection de l'environnement ou à ses besoins agricoles. Certaines communautés agricoles utilisent la technologie d’apprentissage automatique pour surveiller la qualité de l’eau communautaire. La communauté des artistes n’utilise pas seulement l’IA, mais elle exprime également ses préoccupations et ses idées sur la manière de résoudre les problèmes et d’atténuer les risques.
  • Au niveau sociétal, les gouvernements, les instituts de recherche, les entreprises, les agences fédérales et internationales devraient prendre cette technologie au sérieux. Il y a un problème énergétique, et cela a des implications géopolitiques. Il y a encore un grand débat entre l’open source et le non open source, qui affecte l’économie et l’écologie. Des problèmes de gestion subsistent, tels que les risques et la sécurité de l’IA. Nous devons adopter une approche positive, une approche multipartite et une approche globale de la société. Il n'y a plus de retour en arrière désormais, a déclaré Li Feifei. Elle a dirigé le projet IA chez Google de 2017 à 2018, a été membre du conseil d'administration de Twitter de 2020 à 2022 et est actuellement conseillère en IA auprès de la Maison Blanche.

Concernant l'impact de l'IA sur le travail, Li Feifei a partagé son point de vue.

Li Feifei a souligné qu'il existe un laboratoire d'économie numérique au sein de l'Institut pour l'IA centrée sur l'humain de l'Université de Stanford, dirigé par le professeur Erik Brynjolfsson. Cette question très complexe comporte de nombreux niveaux. Elle a particulièrement souligné que « travail » et « tâche » sont deux concepts différents, car en réalité le travail de chacun est constitué de multiples tâches.

Elle a cité l’exemple des infirmières américaines. On estime qu'au cours d'un quart de travail de huit heures, une infirmière doit effectuer des centaines de tâches. Par conséquent, lorsque les gens discutent de la prise en charge ou du remplacement des emplois humains par l’IA, ils doivent distinguer s’il s’agit de remplacer des tâches ou des emplois ?

Li Feifei estime que l'IA a modifié plusieurs tâches au sein d'un emploi et qu'elle va donc progressivement changer la nature du travail. Dans le scénario du centre d’appels, la qualité du travail des novices a été améliorée de 30 % par l’IA, mais la qualité du travail du personnel qualifié n’a pas été améliorée par l’IA. Les sentiments de Fei-Fei Li trouvent écho dans un article du Laboratoire d’économie numérique de l’Université de Stanford, intitulé : « L’IA ne remplacera pas les emplois des managers : les managers qui utilisent l’IA remplacent les managers qui ne le font pas. »

Li Feifei a souligné que la science et la technologie entraîneront des progrès en matière de productivité, mais que les progrès en matière de productivité ne se traduiront pas automatiquement par une prospérité commune pour la société. Elle a souligné que de tels incidents se sont produits à plusieurs reprises dans l'histoire.

(Cet article a été publié pour la première fois sur Titanium Media App, auteur|Chelsea_Sun, éditeur|Lin Zhijia)