noticias

“Madrina de la IA” Li Feifei: Sora sigue siendo una imagen bidimensional, y solo la inteligencia espacial tridimensional puede lograr AGI | Titanium Media

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


La aplicación TMTpost informó el 2 de agosto que en una reunión a puertas cerradas del Foro Académico Asiático Americano celebrada por la Universidad de Stanford,Li Feifei, profesora de la Universidad de Stanford conocida como la "madrina de la IA", dijo en exclusiva a la aplicación TMTpost que aunque el modelo Sora de la empresa estadounidense OpenAI puede generar vídeos, en esencia sigue siendo un modelo bidimensional plano y No tiene la capacidad de comprender objetos tridimensionales. Sólo la "inteligencia espacial" es la dirección futura de AGI.

Li Feifei dio la respuesta anterior al discutir la relación entre el modelo de "inteligencia espacial" y el modelo de lenguaje grande planteado por el fundador de TMTpost Media, Zhao Hejuan. Explicó además que la mayoría de los modelos actuales, como GPT4o y Gemini 1.5, siguen siendo modelos de lenguaje, es decir, lenguaje de entrada y lenguaje de salida. Aunque también existen modelos multimodales, todavía están limitados al lenguaje. , se basan en una imagen plana bidimensional. Pero la clave para realizar AGI en el futuro es la "inteligencia espacial", que requiere un modelo visual tridimensional.

Utilizó como ejemplo el vídeo de IA de "mujeres japonesas caminando por las calles de Tokio iluminadas con luces de neón" mostrado por Sora.


"Si quieres que el algoritmo cambie el ángulo para mostrar el video de la mujer caminando por la calle, como poner la cámara detrás de la mujer, Sora no puede hacerlo. Porque este modelo realmente no tiene un conocimiento profundo de los tres- mundo dimensional. Los humanos pueden hacerlo en sus mentes "Imagínese la escena detrás de la mujer". Li Feifei dijo: "Los seres humanos pueden entender cómo moverse en entornos complejos. Sabemos cómo agarrar, cómo controlar, cómo construir herramientas, y cómo construir ciudades Fundamentalmente, la inteligencia espacial es geometría. La relación entre objetos es el espacio tridimensional. La inteligencia espacial se trata de liberar la capacidad de generar (mapas visuales) y razonar y planificar acciones en el espacio tridimensional. de ancho, como AR y VR, robots y diseño de aplicaciones, también se necesita inteligencia espacial”.

Li Feifei enfatizó a la aplicación TMTpost: “La evolución natural permite a los animales comprender el mundo tridimensional, vivir, predecir e interactuar en el espacio tridimensional. Esta capacidad tiene una larga historia de 540 millones de años cuando los trilobites vieron la luz por primera vez en el agua. , tiene que "navegar" en el mundo tridimensional. Si no puede "navegar" en el mundo tridimensional, rápidamente se convertirá en un festín para otros animales. A medida que avanza la evolución, la inteligencia espacial de los animales aumenta. y entendemos las formas.

Li Feifei, de 48 años, es un famoso informático, académico de la Academia Nacional de Ingeniería y de la Academia Nacional de Medicina, y director del Instituto de Investigación de IA centrada en el ser humano de la Universidad de Stanford. Lideró el desarrollo de la base de datos de imágenes ImageNet y el concurso de reconocimiento visual en 2009, anotando y clasificando con precisión imágenes masivas, promoviendo el avance de las capacidades de reconocimiento de visión por computadora y también es uno de los factores clave que promueven el rápido desarrollo de la IA. El año pasado, VoxPoser, que anunció, se convirtió en una dirección tecnológica clave en el desarrollo de Embodied AI.

En julio de este año, World Labs, una empresa de inteligencia artificial fundada por Li Feifei, anunció la finalización de dos rondas de financiación. Los inversores incluyen a16z (Andreessen Horowitz), etc.La última valoración de la empresa ha alcanzado los mil millones de dólares (aproximadamente 7,26 mil millones de yuanes).

En el Foro de Científicos Asiático-Americanos a puertas cerradas a finales de julio, el discurso de Li Feifei también permitió que más personas comprendieran qué son Word Labs y su concepto de desarrollo de “inteligencia espacial”, es decir, hacer que la IA realmente “de ver a hacerlo”. ”.

Cómo pasar del "ver" al "hacer"

La llamada "inteligencia espacial" se refiere a la capacidad de las personas o máquinas de percibir, comprender e interactuar en un espacio tridimensional.

Este concepto fue propuesto por primera vez por el psicólogo estadounidense Howard Gardner en la teoría de las inteligencias múltiples, que permite formar en el cerebro un modelo del mundo espacial externo, usarlo y manipularlo. De hecho, la inteligencia espacial permite a las personas pensar de forma tridimensional, lo que les permite percibir imágenes externas e internas, y reproducir, transformar o modificar imágenes, para que puedan moverse tranquilamente en el espacio y hacer lo que quieran. la posición de los objetos para generar o interpretar información gráfica.

En términos generales, la inteligencia espacial incluye no sólo la capacidad de percibir la orientación espacial, sino también la discriminación visual y la capacidad de pensar en imágenes. Para las máquinas, la inteligencia espacial se refiere a su capacidad para procesar datos visuales en un espacio tridimensional, hacer predicciones con precisión y tomar acciones basadas en estas predicciones. Esta capacidad permite a las máquinas navegar, operar y tomar decisiones en un mundo tridimensional complejo como los humanos, trascendiendo así las limitaciones de la visión bidimensional tradicional.

En una charla TED celebrada en abril de este año, Li Feifei dijo con franqueza que la capacidad visual desencadenó la explosión cámbrica y que la evolución del sistema nervioso trajo la inteligencia. "No sólo queremos una IA que pueda ver y hablar, queremos una IA que pueda hacerlo".

En opinión de Li Feifei, la inteligencia espacial es "el arma mágica clave para resolver los problemas técnicos de la IA".

En este evento a puerta cerrada a finales de julio, Li Feifei revisó por primera vez las tres principales fuerzas impulsoras de la IA moderna que comenzó hace 10 años: las "redes neuronales" compuestas por algoritmos, es decir, "aprendizaje profundo", principalmente chips modernos; chips GPU NVIDIA y Big Data.

Desde 2009, el campo de la visión por computadora ha logrado avances explosivos. Las máquinas pueden reconocer objetos rápidamente e igualar el desempeño humano. Pero esto es sólo la punta del iceberg. La visión por computadora no solo puede identificar objetos estacionarios y rastrear objetos en movimiento, sino que también puede separar objetos en diferentes partes e incluso comprender la relación entre objetos. Por tanto, basándose en big data de imágenes, el campo de la visión por computadora ha avanzado a pasos agigantados.

Li Feifei recuerda claramente que hace unos 10 años, su alumno Andrej Karpathy participó en la investigación para establecer algoritmos de emoticonos. Le mostraron una imagen a la computadora y luego, a través de una red neuronal, la computadora pudo generar un lenguaje natural, como por ejemplo: "Este es un gato acostado en la cama".

"Recuerdo haberle dicho a Andrej: revirtámoslo. Por ejemplo, dé una oración y pídale a la computadora que muestre una imagen. Todos nos reímos, pensando que tal vez nunca se realizaría o que se realizaría en un futuro lejano", Li Feifei. recordado.

La tecnología de IA generativa se ha desarrollado rápidamente en los últimos dos años. Especialmente hace unos meses, OpenAI lanzó el algoritmo de generación de video Sora. Mostró un producto similar que sus alumnos habían desarrollado en Google, que era de excelente calidad. Este producto existía varios meses antes del lanzamiento de Sora y utilizaba una GPU (unidad de procesamiento de gráficos) mucho más pequeña que Sora. La pregunta es: ¿hacia dónde irá la IA a continuación?

“Durante años he dicho que 'ver' es 'comprender el mundo'. Pero me gustaría llevar este concepto un paso más allá y 'ver' no es sólo entender, sino hacer. La naturaleza crea cosas como nosotros. "Animales con sensibilidad, pero tales animales en realidad han existido desde hace 450 millones de años, porque es una condición necesaria para la evolución: ver y hacer son un circuito cerrado", dijo Li Feifei.

Usó a su gato favorito como ejemplo.


Foto de un gato, un vaso de leche y plantas sobre una mesa. Cuando ves esta foto, en realidad aparece en tu mente un vídeo tridimensional. Ves formas, ves geometría.

De hecho, ves lo que pasó hace unos segundos y lo que puede pasar unos segundos después. Ves esta foto en tres dimensiones. Estás planeando qué hacer a continuación. Tu cerebro está acelerado, calculando qué puedes hacer para salvar tu alfombra, especialmente porque el gato es tuyo y la alfombra es tuya.

"A todo esto lo llamo inteligencia espacial, que es modelar el mundo tridimensional y razonar sobre objetos, lugares, eventos, etc. en un espacio y tiempo tridimensional. En este ejemplo, me refiero al mundo real, pero también Puede referirse al mundo virtual, pero el objetivo fundamental de la inteligencia espacial es conectar el "ver" y el "hacer". Un día, la IA podrá hacer esto", dijo Li Feifei.

En segundo lugar, Li Feifei mostró un video en 3D reconstruido a partir de varias fotografías y luego mostró un video en 3D basado en una fotografía. Estas tecnologías se pueden utilizar en el diseño.

Li Feifei dijo que la IA inteligente incorporada o los robots humanoides pueden formar un circuito cerrado entre "ver" y "hacer".

Dijo que colegas de la Universidad de Stanford y el gigante de chips NVIDIA están llevando a cabo conjuntamente un estudio llamado BEHAVIOR para construir un espacio dinámico de referencia para actividades domésticas con el fin de evaluar el rendimiento de varios robots en el entorno doméstico. "Estamos buscando cómo conectar modelos lingüísticos con modelos visuales grandes para que se pueda dirigir al robot para que haga un plan e inicie una acción", dijo. Dio tres ejemplos: uno era un robot que abría un cajón, otro era un robot que desconectaba el cable de carga de un teléfono móvil y el tercero era un robot que hacía un sándwich. Todas las instrucciones se dan a través del lenguaje humano natural.

Finalmente, puso un ejemplo, creyendo que el futuro pertenece al mundo de la "inteligencia espacial", donde los humanos pueden sentarse allí, usar un gorro EEG con sensores y, sin abrir la boca para hablar, pueden decirle a distancia a los robots con solo su Pensamientos: cocinar una comida al estilo japonés. Una vez que el robot recibe la idea, la descifra y puede preparar una comida completa.

"Cuando conectamos 'ver' y 'hacer' a través de la inteligencia espacial, podemos hacerlo", afirmó.

Li Feifei también dijo que ha sido testigo del apasionante desarrollo de la IA en los últimos 20 años. Sin embargo, cree que la clave de la IA o AGI es la inteligencia espacial. A través de la inteligencia espacial, podemos ver el mundo, percibir el mundo, comprender el mundo y dejar que el robot haga cosas, formando así un circuito cerrado virtuoso.

¿Se apoderarán los robots de la humanidad?

Li Feifei dijo en la reunión que la gente hoy en día es demasiado exagerada sobre lo que la IA puede hacer en el futuro. Advierte contra la confusión de objetivos ambiciosos y valientes con la realidad, un estribillo que escuchamos con demasiada frecuencia.

De hecho, la IA ha llegado a un punto de inflexión, especialmente en los modelos de lenguaje de gran tamaño. "Sin embargo, sigue siendo una tecnología limitada y plagada de errores que aún requiere que los humanos se involucren profundamente en ella y comprendan sus limitaciones. Un argumento muy peligroso ahora es el llamado riesgo de extinción humana, es decir, que la IA se está convirtiendo en una "Creo que esto es muy peligroso para la sociedad, y habrá muchas consecuencias no deseadas de este tipo de retórica. Necesitamos una comunicación y educación reflexivas, equilibradas y no sesgadas sobre la IA", dijo Li Feifei. .

Li Feifei cree que la IA debería tener sus raíces en los humanos. Los seres humanos lo crearon, los seres humanos lo están desarrollando, los seres humanos lo están utilizando y los seres humanos también deberían gestionarlo.

Li Feifei dijo que en el Instituto "IA centrada en el ser humano" de la Universidad de Stanford, han adoptado tres enfoques para la IA, incluidos los tres niveles de individuo, comunidad y sociedad:

  • A nivel individual, la IA debe involucrarse y adoptarse. Esta es una tecnología civilizada. La IA cambia la forma en que aprenden los niños, cómo los médicos utilizan los métodos de diagnóstico, cómo diseñan los artistas y cómo enseñan los profesores. Independientemente de si eres técnico o no, puedes desempeñar tu papel y utilizar la IA de forma responsable.
  • A nivel comunitario, la IA puede empoderar a la comunidad y satisfacer sus necesidades de protección ambiental o agrícolas. Algunas comunidades agrícolas utilizan tecnología de aprendizaje automático para monitorear la calidad del agua comunitaria. La comunidad de artistas no sólo utiliza la IA, sino que también expresa sus preocupaciones e ideas sobre cómo resolver problemas y mitigar riesgos.
  • A nivel social, los gobiernos, las instituciones de investigación, las empresas, las agencias federales y las agencias internacionales deberían tomar en serio esta tecnología. Hay una cuestión energética y eso tiene implicaciones geopolíticas. Todavía existe una gran discusión entre el código abierto y el no abierto, que afecta a la economía y la ecología. Todavía existen problemas de gestión, como los riesgos y la seguridad de la IA. Se debe adoptar un enfoque positivo, un enfoque que incluya a múltiples partes interesadas y un enfoque que abarque a toda la sociedad. Ya no hay vuelta atrás, dijo Li Feifei. Dirigió el proyecto de IA en Google de 2017 a 2018, fue miembro de la junta directiva de Twitter de 2020 a 2022 y actualmente es asesora de IA de la Casa Blanca.

En cuanto al impacto de la IA en el trabajo, Li Feifei compartió su opinión.

Li Feifei señaló que existe un laboratorio de economía digital dentro del Instituto de IA centrada en el ser humano de la Universidad de Stanford, dirigido por el profesor Erik Brynjolfsson. Hay muchas capas en esta cuestión tan compleja. En particular, destacó que "trabajo" y "tarea" son dos conceptos diferentes, porque en realidad el trabajo de cada uno consta de múltiples tareas.

Puso como ejemplo a las enfermeras estadounidenses. Se estima que durante el turno de ocho horas de una enfermera hay cientos de tareas. Por lo tanto, cuando la gente habla de que la IA se hace cargo o reemplaza trabajos humanos, deben distinguir si está reemplazando tareas o trabajos.

Li Feifei cree que la IA ha cambiado múltiples tareas dentro de un trabajo y, por lo tanto, cambiará gradualmente la naturaleza del trabajo. En el escenario del centro de llamadas, la IA mejoró la calidad del trabajo de los principiantes en un 30%, pero la IA no mejoró la calidad del trabajo del personal calificado. Los sentimientos de Fei-Fei Li se reflejan en un artículo del Laboratorio de Economía Digital de la Universidad de Stanford, titulado: “La IA no reemplazará los trabajos de los gerentes: los gerentes que usan la IA están reemplazando a los que no la usan”.

Li Feifei enfatizó que la ciencia y la tecnología traerán avances en la productividad, pero el progreso en la productividad no se traducirá automáticamente en prosperidad común para la sociedad. Señaló que incidentes de este tipo han ocurrido muchas veces en la historia.

(Este artículo se publicó por primera vez en la aplicación Titanium Media, autor | Chelsea_Sun, editor | Lin Zhijia)