noticias

la última conversación de li feifei sobre a16z: la inteligencia espacial no solo es adecuada para la generación de mundos virtuales, sino que también puede integrarse con el mundo real. los avances de la tecnología de ia traerán nuevos escenarios de aplicación inimaginables.

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

recientemente, li feifei discutió la historia, la situación actual y la dirección de desarrollo futuro del campo de la ia con el socio de a16z, martin casado, y el investigador justin johnson. el tema cubrió todos los aspectos de la tecnología de la ia, especialmente el potencial futuro de la ia generativa y la inteligencia espacial.

li feifei enfatizó que la ia generativa ya existía durante sus estudios de posgrado, pero que la tecnología inicial aún no estaba madura. con el salto en el aprendizaje profundo y la potencia informática, la ia generativa ha logrado avances notables en los últimos años y se ha convertido en uno de los principales avances en el campo de la ia.

también presentó el último proyecto empresarial world labs, que se centra en la "inteligencia espacial", es decir, la capacidad de las máquinas para comprender e interactuar en espacios 3d y 4d.

señaló que la inteligencia espacial no solo es adecuada para la generación de mundos virtuales, sino que también puede integrar el mundo real y se utiliza ampliamente en los campos de la realidad aumentada (ar), la realidad virtual (vr) y la robótica. la tecnología nos traerá nuevos escenarios de aplicaciones inimaginables, incluida la generación de mundos virtuales, la realidad aumentada y la interacción con el mundo físico.

el siguiente es el contenido principal de esta conversación, disfrútalo ~

martín casado

en los últimos dos años, hemos visto surgir una ola de empresas y tecnologías de inteligencia artificial para el consumidor, y el proceso ha sido una locura. y usted lleva décadas trabajando en este campo. entonces podríamos hablar sobre las contribuciones y conocimientos clave que usted hizo en este proceso.

li feifei

es un momento muy emocionante y, mirando hacia atrás, la ia se encuentra en un momento emocionante. personalmente, he estado involucrado en este campo durante más de dos décadas. salimos del último invierno de la ia y fuimos testigos del nacimiento de la ia moderna. luego vimos el surgimiento del aprendizaje profundo, que nos mostró lo que era posible, como jugar al ajedrez.

luego comenzamos a ver desarrollos más profundos en la tecnología y la aplicación industrial de posibilidades tempranas, como los modelos de lenguaje. ahora mismo creo que estamos en medio de una "explosión cámbrica".

en cierto sentido, ahora, además del texto, también estamos viendo píxeles, video, audio, etc., que comienzan a combinarse con aplicaciones y modelos de inteligencia artificial, por lo que este es un momento muy emocionante.

martín casado

los conozco a ambos desde hace mucho tiempo y mucha gente los conoce porque son muy destacados en este campo. pero no todo el mundo sabe cómo empezó en el campo de la ia, por lo que tal vez podamos presentar brevemente sus antecedentes para ayudar a la audiencia a establecer una comprensión básica.

justin johnson

bien, mi primera exposición a la ia fue hacia el final de mi carrera universitaria. estudié matemáticas e informática en caltech y fue un gran momento. durante ese período, se publicó un artículo muy famoso, el "artículo del gato" en google brain de home neck lee, andrew ng y otros. esta fue mi primera exposición al concepto de aprendizaje profundo.

esta tecnología me asombró, y esa fue la primera vez que encontré esta receta: cuando se combinan poderosos algoritmos de aprendizaje de propósito general, enormes recursos computacionales y grandes cantidades de datos, sucede algo mágico. se me ocurrió esta idea alrededor de 2011 o 2012, y sentí en ese momento que esto sería algo que haría en el futuro.

obviamente, había que ir a la escuela de posgrado para hacer este trabajo, así que descubrí que feifei estaba en stanford y era una de las pocas personas en el mundo que estaba estudiando este campo en profundidad. fue un gran momento para trabajar en aprendizaje profundo y visión por computadora, ya que era el momento en que la tecnología pasaba de su infancia a la madurez y la adopción generalizada.

durante ese tiempo, vimos los inicios del modelado del lenguaje y también vimos los inicios de la visión por computadora discriminativa: se podía entender lo que sucede en una imagen. durante este período, también se desarrolló lo que hoy llamamos ia generativa. las partes centrales del algoritmo, como la generación de imágenes y la generación de texto, también fueron resueltas por la comunidad académica durante mi doctorado.

en ese momento, cada mañana, cuando me despertaba, abría arxiv para ver los últimos resultados de la investigación. era como abrir regalos de navidad. había nuevos descubrimientos casi todos los días. en los últimos dos años, el resto del mundo también ha comenzado a darse cuenta de que todos los días se reciben nuevos “regalos de navidad” a través de la tecnología de inteligencia artificial. pero para quienes llevamos más de diez años en este campo, esta experiencia ya quedó ahí.

li feifei

obviamente, soy mucho mayor que justin. entré al campo de la ia desde la física porque mi formación universitaria era en física. la física es una materia que te enseña a pensar en cuestiones audaces, como los misterios sin resolver del mundo. en física, estos problemas pueden estar relacionados con el mundo atómico, el universo, pero esta formación hizo que me interesara en otro problema: la inteligencia. entonces hice una investigación doctoral en ia y neurociencia computacional en caltech. aunque justin y yo no coincidimos en caltech, compartimos la misma alma mater.

justin johnson

¿y el mismo mentor?

li feifei

sí, su asesor de pregrado también fue mi asesor de doctorado, pietro perona. cuando estaba estudiando para mi doctorado, la ia estaba en medio de un frío invierno a la vista del público, pero ese no era el caso en mi opinión. esto se parece más al período de hibernación antes de la primavera, donde el aprendizaje automático y los modelos generativos están cobrando fuerza. me considero un "nativo" en el campo del aprendizaje automático, y la generación de justin es un "nativo" en el aprendizaje profundo.

el aprendizaje automático es el predecesor del aprendizaje profundo y experimentamos con varios modelos en ese momento. pero hacia el final de mi doctorado y durante mi tiempo como profesor asistente, mis estudiantes y mi laboratorio se dieron cuenta de que había un elemento pasado por alto en la ia que impulsaba la generalización y en el que el campo no había pensado mucho en ese momento: los datos. nos centramos en modelos complejos como los modelos bayesianos y pasamos por alto la importancia de dejar que los datos impulsen el modelo.

esta es una de las razones por las que apostamos por imagenet. en ese momento, el tamaño de los conjuntos de datos en todos los campos era muy pequeño. los conjuntos de datos estándar para la visión por computadora y el procesamiento del lenguaje natural eran miles o decenas de miles de datos, pero nos dimos cuenta de que necesitábamos escalar a internet. . afortunadamente, la era de internet también estaba en auge y nosotros nos subimos a esta ola. fue en ese momento cuando llegué a stanford.

martín casado

estas eras, como aquellas de las que hablamos mucho, como imagenet, son obviamente eras importantes para promover o al menos hacer que la visión por computadora sea popular y factible en el campo de la ia generativa. generalmente mencionamos dos avances clave: uno es el papel transformer, que es el "mecanismo de atención", y el otro es la "difusión estable" de la que menos se habla.

¿es razonable entender estos dos avances algorítmicos del mundo académico (especialmente de google) de esta manera? ¿o es más bien un proceso intencional? ¿o hubo otros avances importantes que no se mencionan a menudo y que también nos llevaron a donde estamos hoy?

justin johnson

sí, creo que el mayor avance es la potencia informática. sé que la historia de la ia suele ser también la historia de la potencia informática, pero aunque se menciona a menudo, creo que se subestima su impacto.

el crecimiento que hemos visto en la potencia informática durante la última década ha sido asombroso. el primer artículo considerado un gran avance para el aprendizaje profundo en visión por computadora fue alexnet, un artículo de 2012 en el que una red neuronal profunda tuvo un buen desempeño en el desafío imagenet, superando con creces a otros algoritmos en ese momento.

los algoritmos a los que puede estar expuesto durante la escuela de posgrado palidecen en comparación con alexnet. alexnet es una red neuronal profunda con 60 millones de parámetros. fue entrenada durante seis días en dos tarjetas gráficas gtx 580. la gtx 580 era la tarjeta gráfica de consumo más potente en ese momento y se lanzó en 2010.

anoche estuve buscando algunos datos y quería ponerlos en un contexto más amplio. la última tarjeta gráfica de nvidia es gb200. ¿puedes adivinar la brecha de potencia informática entre gtx 580 y gb200?

el número está en miles, así que anoche hice los cálculos. por ejemplo, durante las dos semanas de entrenamiento, los seis días se ejecutaron en dos gtx 580. si se extiende, probablemente podría ejecutarse en menos de cinco minutos en un gb200.

si lo piensas de esta manera, realmente hay un buen argumento: el artículo de alexnet de 2012 sobre el desafío imagenet es en realidad un modelo muy clásico, es decir, el modelo de red neuronal convolucional.

de hecho, este concepto apareció ya en la década de 1980. todavía recuerdo el primer artículo que estudié como estudiante de posgrado. el contenido era similar, con una estructura de red de seis o siete capas. casi la única diferencia entre alexnet y el modelo de red neuronal convolucional es la gpu: el uso de dos gpu y cantidades masivas de datos.

entonces, lo que iba a decir es que la mayoría de la gente ahora está familiarizada con lo que se llama la "lección amarga", que es, si desarrollas un algoritmo, sólo asegúrate de poder aprovechar tus recursos informáticos existentes, porque estos recursos se convertirán en disponible a lo largo del tiempo. entonces sólo necesitas un sistema que siga mejorando.

por otro lado, parece haber otro argumento igualmente convincente: que las nuevas fuentes de datos en realidad desbloquean el aprendizaje profundo. imagenet es un buen ejemplo. aunque mucha gente piensa que el mecanismo de autoatención es importante para el modelo transformer, también dirán que es una forma de aprovechar los datos etiquetados por humanos.

debido a que los humanos proporcionan las anotaciones para la estructura de las oraciones, si nos fijamos en el modelo clip, en realidad permite a los humanos etiquetar imágenes usando etiquetas alt en internet. así que ésta es realmente una historia sobre datos, no sobre informática. entonces, ¿la respuesta es ambas o es más bien una de las partes? creo que es un poco de ambas cosas, pero también mencionaste otro punto muy crítico.

martín casado

creo que en realidad hay dos eras distintas en el campo de los algoritmos. la era imagenet es la era del aprendizaje supervisado. hoy en día, tenemos muchos datos, pero no sabemos cómo entrenar solo con los datos en sí.

la expectativa con imagenet y otros conjuntos de datos contemporáneos era que tendríamos muchas imágenes, pero necesitaríamos humanos para anotar cada imagen. todos los datos con los que entrenamos fueron vistos y anotados uno por uno por anotadores humanos.

el gran avance para los algoritmos es que ahora sabemos cómo entrenar con datos que no dependen de anotaciones humanas. para una persona promedio sin experiencia en ia, parece que si está entrenando con datos humanos, los humanos realmente han hecho la anotación, pero la anotación no es explícita.

justin johnson

sí, filosóficamente ésta es una cuestión muy importante, pero es más cierta en el ámbito del lenguaje que en el de las imágenes. sí, pero creo que es una distinción importante. de hecho, clip está anotado por humanos. creo que el mecanismo de autoatención es que los humanos han entendido las relaciones entre las cosas y luego aprendes a través de estas relaciones.

por lo tanto, todavía está anotado por humanos, pero la anotación es más implícita que explícita. la diferencia es que en la era del aprendizaje supervisado, nuestras tareas de aprendizaje son más restringidas. debemos idear una ontología de los conceptos que queremos descubrir.

por ejemplo, en imagenet, fei-fei li y sus estudiantes pasaron mucho tiempo pensando en cuáles deberían ser las mil categorías del desafío imagenet. al mismo tiempo, en otros conjuntos de datos, como el conjunto de datos coco utilizado para la detección de objetivos, también pensaron mucho en decidir qué 80 categorías incluir en él.

martín casado

entonces, hablemos de ia generativa. cuando estaba haciendo mi doctorado, antes de que ustedes llegaran, tomé el curso de aprendizaje automático de andrew ng y el muy complejo curso bayesiano de daphne koller, que fue muy complejo para mí.

en aquel entonces, mucho de eso era modelado predictivo. recuerdo que desbloqueaste todo este asunto de la visión, pero la ia generativa solo existe desde hace unos cuatro años. este es un campo completamente diferente para mí: ya no estás identificando objetos, no estás prediciendo algo, estás generando cosas nuevas.

entonces, tal vez podamos hablar sobre cuáles son los factores clave que hacen posible la ia generativa, en qué se diferencia de la anterior y si debemos mirarla de manera diferente, si es una parte de desarrollo continuo u otro campo completamente nuevo.

li feifei

es muy interesante que los modelos generativos hayan existido incluso desde mis días de escuela de posgrado. queríamos hacer generación en ese momento, pero nadie se acordaba de que, aunque estuviéramos haciendo generación con letras y números, estábamos intentando algo. jeff hinton tenía algunos artículos sobre generación en ese momento y también estábamos pensando en cómo generar.

de hecho, si lo miras desde la perspectiva de la distribución de probabilidad, se puede generar matemáticamente, pero lo que se generó en ese momento no fue nada sorprendente. entonces, aunque el concepto de generación existe desde una perspectiva matemática, en realidad no existe ningún efecto de generación que sea satisfactorio.

luego me gustaría mencionar específicamente a un estudiante de doctorado que vino a mi laboratorio con un gran interés en el aprendizaje profundo. casi se puede decir que toda la experiencia de estudio de doctorado de este estudiante de doctorado es un microcosmos de la trayectoria de desarrollo de este campo.

su primer proyecto fueron datos y lo obligué a hacerlo. aunque no le gustó, luego admitió que aprendió muchas cosas útiles. "me alegra que hayas dicho eso". así que recurrimos al aprendizaje profundo y el problema central era cómo generar texto a partir de imágenes. de hecho, hay tres etapas claras en este proceso.

la primera etapa es hacer coincidir imágenes y texto. tenemos imágenes y texto, y a continuación necesitamos ver cómo se relacionan. mi primer trabajo académico, también mi primera tesis doctoral, estudió la recuperación de imágenes basada en gráficos de escenas. a continuación, continuamos estudiando en profundidad y generando texto a partir de píxeles. tanto él como andrej han trabajado mucho en este sentido, pero sigue siendo un método de generación con muchas pérdidas y la información se pierde mucho cuando se obtiene del. mundo de píxeles.

había una obra muy famosa en la etapa intermedia. en ese momento, alguien se dio cuenta del tiempo real por primera vez. en 2015, se publicó un artículo titulado "el estilo artístico de los algoritmos neuronales" bajo el liderazgo de leon gatys. demostraron cómo convertir fotografías del mundo real en imágenes al estilo de van gogh.

puede que ahora lo demos por sentado, pero eso fue en 2015, y ese artículo apareció en arxiv y me sorprendió. siento como si me hubieran inyectado en el cerebro un "virus generador de ia". pensé: "dios mío, necesito entender este algoritmo, jugar con él e intentar que mis imágenes se parezcan a van gogh".

entonces, pasé un fin de semana largo reimplementando el algoritmo para que pudiera funcionar correctamente. de hecho, es un algoritmo muy simple. mi implementación solo tiene alrededor de 300 líneas de código. fue escrito en lua en ese momento, porque no había pytorch en ese momento, así que usamos lua torch. pero a pesar de la simplicidad del algoritmo, es muy lento. cada vez que generas una imagen, necesitas ejecutar un ciclo de optimización, lo que lleva mucho tiempo. las imágenes resultantes son hermosas, pero desearía que fuera un poco más rápido. finalmente, lo hicimos más rápido.

otra cosa de la que estoy muy orgulloso es que hizo un trabajo muy innovador en la última parte de su investigación doctoral antes de que la ia generativa realmente saliera al mundo. este proyecto genera imágenes completas ingresando lenguaje natural, que se puede decir que es uno de los primeros esfuerzos de ia generativa. estábamos usando gan, pero en ese momento era muy difícil de usar. el problema es que todavía no estamos preparados para describir una imagen completa utilizando lenguaje natural.

entonces, usó un método de entrada de estructura de gráfico de escena, y el contenido de entrada era "oveja", "hierba", "cielo", etc., y usó este método para generar una imagen completa.

desde la coincidencia de datos hasta la transferencia de estilos y la generación de imágenes, gradualmente estamos viendo una transformación completa. preguntas si este es un gran cambio, para personas como nosotros es un proceso continuo, pero para las masas los resultados parecen repentinos e impactantes.

martín casado

leí su libro y es un gran libro que recomiendo a todos que lean. y, fei-fei, lo que quiero decir es que durante mucho tiempo, muchas de sus investigaciones y direcciones se han centrado en áreas como la inteligencia espacial y el procesamiento de píxeles. los world labs en los que estás trabajando ahora también están relacionados con la inteligencia espacial. ¿puedes hablar de que esto sea parte de tu viaje a largo plazo? ¿por qué decidiste hacer esto ahora? ¿se trata de algún tipo de avance tecnológico o de motivos personales? ¿puedes llevarnos del contexto de la investigación de la ia a world labs?

li fei fei

para mí, esto es tanto una búsqueda personal como un viaje intelectual. usted mencionó mi libro, y todo mi viaje intelectual ha sido en realidad una búsqueda de "estrellas polares" y una firme creencia de que esas estrellas polares son fundamentales para el avance de nuestro campo.

al principio, recuerdo que después de graduarme, pensé que mi estrella del norte era "contar historias a partir de imágenes", porque para mí, eso es una gran parte de la inteligencia visual, lo que se llama ia.

pero cuando justin y andrej terminaron su trabajo, pensé: "dios mío, este es el sueño de mi vida, ¿qué voy a hacer a continuación? estaba progresando mucho más rápido de lo que esperaba; pensé que tomaría un tiempo". se necesitarán cientos de años para lograrlo.

la inteligencia visual siempre ha sido una de mis pasiones. creo firmemente que para todo ser inteligente, ya sea humano, robot u otra forma de ser, es crucial aprender a ver el mundo, a razonar y a interactuar con el mundo. ya sea navegación, control, fabricación o incluso construcción de civilización, la inteligencia visual y espacial juega un papel fundamental.

puede que sea tan fundamental como el lenguaje y, en algunos aspectos, incluso más antiguo y fundamental. por lo tanto, la estrella polar de world labs es desbloquear la inteligencia espacial, y ahora es el momento adecuado.

como dijo justin, ya tenemos los recursos que necesitamos: potencia informática y una comprensión más profunda de los datos. nos hemos vuelto más sofisticados en la comprensión de los datos que en la era imagenet.

también contamos con avances algorítmicos, como el trabajo de vanguardia en nerf de nuestros cofundadores ben mildenhall y christoph lassner. creemos que ahora es el momento adecuado para tomar la decisión, centrarnos en esta área y desbloquear su potencial.

martín casado

para que todos entiendan claramente, usted ha fundado esta empresa, world labs, y el problema que desea resolver es la "inteligencia espacial". ¿puedes describir brevemente qué es la inteligencia espacial?

li fei fei

la inteligencia espacial se refiere a la capacidad de las máquinas para comprender, percibir, razonar y actuar en el espacio y el tiempo tridimensionales. específicamente, se refiere a comprender cómo se posicionan los objetos y eventos en el espacio y el tiempo 3d, y cómo las interacciones en el mundo afectan estas posiciones 3d.

no se trata sólo de dejar que las máquinas permanezcan en centros de datos o hosts, sino de permitirles entrar al mundo real y comprender este rico mundo 3d y 4d.

martín casado

¿el "mundo" del que hablas se refiere al mundo físico real o a un mundo conceptual abstracto?

li fei fei

creo que son ambas cosas. esto también representa nuestra visión a largo plazo. incluso si estás generando un mundo virtual o contenido, todavía existen muchos beneficios al posicionarse en 3d. o cuando estás identificando el mundo real, ser capaz de aplicar la comprensión 3d al mundo real es parte de ello.

martín casado

su equipo de cofundadores es realmente fuerte. entonces, ¿por qué cree que ahora es el momento adecuado para hacer esto?

li fei fei

en realidad, este es un proceso evolutivo a largo plazo. después de completar mi doctorado, comencé a buscar un camino para convertirme en investigador independiente y a pensar en grandes cuestiones en los campos de la ia y la visión por computadora. en ese momento llegué a la conclusión de que la última década se había centrado en comprender los datos que ya existían y que la próxima década se trataría de comprender datos nuevos.

los datos del pasado eran principalmente imágenes y vídeos que ya existían en internet, pero los datos del futuro son completamente nuevos: la aparición de los teléfonos inteligentes, que tienen cámaras, nuevos sensores y pueden ubicarse en el mundo 3d. no se trata sólo de coger un montón de píxeles de internet y tratar de saber si es un gato o un perro.

esperamos tratar estas imágenes como sensores universales del mundo físico, ayudándonos a comprender la estructura 3d y 4d del mundo, tanto en el espacio físico como en el generativo.

después de graduarme de mi doctorado, hice un gran cambio y entré en el campo de la visión por computadora en 3d, trabajando con mis colegas sobre cómo predecir la forma 3d de los objetos. más tarde, me interesé mucho en la idea de aprender estructuras 3d a partir de datos 2d.

cuando hablamos de datos, a menudo mencionamos que obtener datos 3d es difícil, pero de hecho las imágenes 2d son proyecciones del mundo 3d y hay muchas estructuras matemáticas que pueden explotarse. incluso si tienes muchos datos 2d, puedes deducir la estructura del mundo 3d a través de estas estructuras matemáticas.

2020 es un momento decisivo. nuestro cofundador ben mildenhall propuso el método nerf (campo de radiación neural). esta es una forma muy simple y clara de deducir estructuras 3d a partir de observaciones 2d, activando todo el campo de la visión por computadora 3d.

al mismo tiempo, también comenzó a surgir el llm. de hecho, en el mundo académico se ha desarrollado una gran cantidad de trabajo de modelado del lenguaje durante mucho tiempo. incluso durante mi doctorado, realicé algunos trabajos de modelado de lenguaje con andrej karpathy en 2014.

justin johnson

en realidad, esto fue algo que apareció antes de transformer, pero en la era de gpt-2, es difícil crear tales modelos en el mundo académico porque requieren demasiados recursos informáticos. sin embargo, curiosamente, el método nerf propuesto por ben sólo requiere unas pocas horas de entrenamiento en una sola gpu.

esto ha provocado que muchos investigadores académicos vuelvan a centrarse en estos problemas, porque algunos problemas algorítmicos centrales se pueden resolver con recursos informáticos limitados y se pueden obtener resultados de última generación en una sola gpu. entonces, en ese momento, muchos investigadores académicos estaban pensando: ¿cómo podemos promover el desarrollo de este campo a través de algoritmos centrales? fei-fei y yo hemos hablado mucho y ambos estamos muy convencidos de ello.

li fei fei

sí, encontramos que nuestras direcciones de investigación avanzan hacia objetivos similares hasta cierto punto. también quiero contar un tema técnico muy interesante, o una historia técnica sobre píxeles.

es posible que muchas personas que se dedican a la investigación del lenguaje no sepan que antes de la era de la ia generativa, aquellos de nosotros que nos dedicamos al campo de la visión por computadora en realidad teníamos una larga historia de investigación llamada reconstrucción 3d.

esto se remonta a la década de 1970, y se podían tomar fotografías; como los humanos tienen dos ojos, se podían usar fotografías estéreo para intentar triangular y construir formas 3d. sin embargo, este es un problema muy difícil que aún no se ha resuelto completamente debido a complicaciones como los problemas de coincidencia.

ha habido una larga historia de avances en este campo, pero cuando nerf se combina con métodos generativos, especialmente en el contexto de los modelos de difusión, la reconstrucción 3d y la generación de repente comienzan a fusionarse. en el campo de la visión por computadora, de repente descubrimos que si vemos algo o imaginamos algo, ambos pueden converger en la dirección de generarlo. este es un momento muy importante, pero es posible que muchas personas no lo noten porque no hablamos de ello tan extensamente como hablamos de llm.

justin johnson

sí, existe la reconstrucción en el espacio de píxeles, por ejemplo, reconstruyes una escena real y si no puedes ver esa escena, utilizas técnicas generativas; en realidad, los dos son muy similares. ha estado hablando sobre el lenguaje y los píxeles a lo largo de esta conversación, por lo que tal vez este sería un buen momento para hablar sobre los enfoques de inteligencia espacial versus lenguaje, ¿son complementarios o son completamente diferentes?

li fei fei

creo que son complementarios. no estoy seguro de cómo definir "completamente diferente", pero puedo intentar hacer una comparación. hoy en día, mucha gente habla de gpt, ia abierta y modelos multimodales. se cree que estos modelos pueden manejar tanto píxeles como lenguaje. entonces, ¿pueden lograr el razonamiento espacial que queremos? para responder a esta pregunta, necesitamos abrir la "caja negra" de estos sistemas y ver cómo funcionan bajo el capó.

la representación subyacente de los modelos de lenguaje y los modelos de lenguaje multimodal que vemos ahora es "unidimensional". hablamos de longitud del contexto, transformers, secuencias, mecanismos de atención, pero al final del día, la representación de estos modelos se basa en tokens serializados unidimensionales.

esta representación es muy natural cuando se trata del lenguaje, ya que el texto mismo consta de secuencias unidimensionales de letras discretas. esta representación unidimensional es la base del éxito del llm, y lo mismo ocurre con el llm multimodal que vemos ahora, que "integra" otras modalidades (como imágenes) en esta representación unidimensional.

en el campo de la inteligencia espacial pensamos exactamente lo contrario: creemos que la naturaleza tridimensional del mundo debería ser el núcleo de la representación. desde una perspectiva algorítmica, esto nos abre nuevas oportunidades para procesar datos y obtener diferentes tipos de resultados, lo que nos ayuda a resolver algunos problemas muy diferentes.

incluso en un nivel aproximado, se podría decir: "los llm multimodales también pueden ver imágenes". de hecho, pueden, pero no ponen la naturaleza de las tres dimensiones en el centro de su enfoque al procesar imágenes.

justin johnson

estoy completamente de acuerdo en que es muy central discutir la diferencia fundamental entre representación unidimensional y tridimensional. además, hay un punto un poco más filosófico, pero para mí no menos importante: el lenguaje es esencialmente una señal puramente generada y no hay lenguaje en el mundo. no verás escrituras en el cielo cuando salgas a la naturaleza. no importa qué datos introduzca, el modelo de lenguaje puede generar casi los mismos datos con suficiente generalización. ésta es la naturaleza de la generación del lenguaje.

pero el mundo 3d es diferente. sigue las leyes de la física y tiene su propia estructura y materiales. básicamente, poder extraer esta información, representarla y generarla es un tipo de problema completamente diferente. aunque tomaremos prestadas algunas ideas útiles de los modelos lingüísticos, ésta es fundamentalmente una cuestión filosófica diferente.

martín casado

bien, entonces el modelo de lenguaje es unidimensional y probablemente una mala representación del mundo físico porque es generado por humanos con pérdida. otra modalidad de modelos generativos son los píxeles, que son imágenes y vídeos en 2d. si miras un vídeo, puedes ver una escena en 3d porque la cámara puede realizar movimientos panorámicos. entonces, ¿cuál es la diferencia entre inteligencia espacial y vídeo 2d?

li fei fei

hay dos puntos en los que vale la pena pensar aquí. una es la representación subyacente y la otra es la conveniencia de la experiencia del usuario. a veces ambos se confunden. lo que percibimos es 2d: nuestra retina es una estructura bidimensional, pero nuestro cerebro la ve como una proyección del mundo tridimensional.

es posible que quieras mover objetos, mover la cámara y, en principio, podrías hacer esas cosas con representaciones y modelos 2d, pero no es apropiado para el problema que estás planteando. una proyección bidimensional de un mundo tridimensional dinámico puede ser modelable, pero colocar la representación tridimensional en el centro del modelo se adapta mejor a las necesidades del problema.

nuestro objetivo es integrar más representación 3d en el núcleo del modelo para brindar una mejor experiencia a los usuarios. esto también se relaciona con mi "estrella del norte". ¿por qué enfatizamos la "inteligencia espacial" en lugar de la "inteligencia de píxeles planos"?

debido a la trayectoria de la inteligencia, si miramos hacia atrás en la historia de la evolución, su objetivo final es permitir que los animales y los humanos se muevan libremente en el mundo, interactúen, creen civilización e incluso hagan un sándwich. por lo tanto, traducir esta esencia 3d en tecnología es clave para desbloquear innumerables aplicaciones potenciales, incluso si algunas pueden parecer avances superficiales.

martín casado

creo que este es un punto muy sutil pero crucial. quizás podamos profundizar más en esta discusión hablando de algunos escenarios de aplicación. cuando hablamos de desarrollar un modelo tecnológico que permita la inteligencia espacial, ¿cómo sería eso específicamente? ¿cuáles son los posibles escenarios de aplicación?

li fei fei

el modelo de inteligencia espacial que imaginamos puede hacer muchas cosas, una de las cuales me entusiasma particularmente es la "generación mundial". de manera similar a los generadores de imágenes de texto, ahora tenemos generadores de video de texto: ingrese una imagen o un video y el sistema generará un impresionante clip de dos segundos. pero creo que podemos llevar esta experiencia a un mundo 3d.

podemos imaginar que la inteligencia espacial nos ayudará a actualizar estas experiencias a 3d en el futuro, no solo generando una imagen o un video, sino generando un mundo 3d interactivo completo, simulado y rico. tal vez se use para juegos, tal vez se use para fotografía virtual, los campos de aplicación son tan amplios que es inimaginable.

justin johnson

creo que la tecnología mejorará con el tiempo. es muy difícil construir estas cosas, por lo que el problema estático puede ser relativamente simple, pero a largo plazo queremos que sea completamente dinámico, interactivo, todo lo que acabas de describir.

li fei fei

sí, esta es la definición misma de inteligencia espacial. comenzaremos con cuestiones más estáticas, pero todo lo que mencionaste pertenece al futuro de la inteligencia espacial.

justin johnson

esto también se refleja en el nombre de nuestra empresa "world labs": el nombre trata de construir y comprender el mundo. cuando le decimos a la gente el nombre, no siempre lo entienden al principio, porque en los campos de la visión por computadora, la reconstrucción y la generación, a menudo diferenciamos entre lo que podemos hacer. el primer nivel consiste en reconocer objetos, como micrófonos, sillas y otros objetos discretos del mundo. gran parte del trabajo de imagenet está relacionado con el reconocimiento de objetos.

pero luego pasamos al nivel de las escenas: las escenas se componen de objetos. por ejemplo, ahora tenemos un estudio de grabación con una mesa, un micrófono y gente sentada en sillas, que es una combinación de objetos. pero el “mundo” que imaginamos trasciende las escenas. la escena puede ser una sola cosa, pero queremos romper esos límites y salir a la calle, ver el tráfico pasar, ver las hojas meciéndose con el viento y poder interactuar con esas cosas.

li fei fei

otra cosa muy interesante es el término "nuevos medios". con esta tecnología, las líneas entre el mundo real, el mundo virtual imaginado o el mundo aumentado y predicho se vuelven borrosas. el mundo real es 3d, por lo que en el mundo digital es necesaria una representación 3d para fusionarse con el mundo real. no se puede interactuar eficazmente con el mundo real en 3d en sólo 2d o incluso en 1d.

esta capacidad desbloquea escenarios de aplicaciones ilimitados. al igual que el primer escenario de aplicación mencionado por justin, la generación de mundo virtual se puede utilizar para cualquier propósito. la segunda podría ser la realidad aumentada. en la época en que se fundó world labs, apple lanzó vision pro y utilizaron el término "computación espacial". casi hablamos de lo mismo, lo que destacamos es la "inteligencia espacial". no hay duda de que la computación espacial requiere inteligencia espacial.

no sabemos cómo serán las formas futuras de hardware: podrían ser gafas protectoras, anteojos o incluso lentes de contacto. pero en la interfaz entre el mundo real y el virtual, ya sea mejorando tu capacidad de trabajo, ayudándote a reparar tu auto incluso si no eres un mecánico profesional, o simplemente brindando una experiencia de entretenimiento similar a "pokemon go++", esta tecnología se convertirá en el sistema operativo para ar/vr.

justin johnson

en el caso extremo, lo que debe hacer el dispositivo ar es acompañarte siempre, comprender el mundo que ves en tiempo real y ayudarte a completar las tareas de la vida diaria. estoy muy entusiasmado con esto, especialmente con la fusión entre lo virtual y la realidad. cuando puedas entender perfectamente tu entorno en 3d en tiempo real, podría incluso reemplazar algunas cosas en el mundo real.

por ejemplo, ahora tenemos pantallas de varios tamaños (ipads, monitores de computadora, televisores, relojes, etc.) que presentan información en diferentes escenarios. pero si podemos fusionar sin problemas el contenido virtual con el mundo físico, estos dispositivos ya no serán necesarios. los mundos virtuales pueden mostrarte la información que necesitas en el momento adecuado y de la forma más adecuada.

otra gran aplicación es mezclar el mundo virtual digital con el mundo físico 3d, especialmente en robótica. los robots deben actuar en el mundo físico, mientras que sus ordenadores y cerebros están en el mundo digital. el puente entre el aprendizaje y el comportamiento debe construirse mediante la inteligencia espacial.

martín casado

mencionaste mundos virtuales, realidad aumentada y ahora hablas del mundo puramente físico, por ejemplo en robótica. este es un campo muy amplio, especialmente si planea expandirse a estos diferentes campos. ¿cómo ve la tecnología profunda en relación con estas áreas de aplicación específicas?

li fei fei

nos consideramos una empresa de tecnología profunda, como una empresa de plataforma, que brinda modelos que pueden servir para estos diferentes escenarios de aplicación. en cuanto a qué escenario de aplicación es más adecuado para lo que nos centramos al principio, creo que el equipo actual no es lo suficientemente perfecto.

de hecho, obtuve mi primer visor de realidad virtual cuando estaba en la escuela de posgrado. cuando me lo puse, pensé: "¡dios mío, esto es una locura!". estoy seguro de que muchas personas tienen una experiencia similar cuando usan la realidad virtual por primera vez.

amo tanto el vision pro que me quedé despierto hasta tarde el día de su lanzamiento para comprar uno, pero en este momento no está completamente maduro como plataforma para el mercado masivo. por lo tanto, nosotros, como empresa, podemos elegir un mercado ya más maduro para ingresar.

a veces hay simplicidad en la versatilidad. tenemos una visión como empresa de tecnología profunda y creemos que hay algunos problemas fundamentales que deben resolverse bien y, si se resuelven bien, se pueden aplicar a muchos campos diferentes. consideramos que el objetivo a largo plazo de la empresa es construir y hacer realidad el sueño de la inteligencia espacial.

justin johnson

de hecho, creo que ahí es donde está el impacto de lo que estás haciendo. no creo que alguna vez lleguemos allí, porque es algo fundamental: el universo es esencialmente una estructura de cuatro dimensiones en evolución, y la inteligencia espacial en un sentido amplio consiste en comprender toda la profundidad de esa estructura y encontrar toda la aplicación. entonces, si bien hoy tenemos un conjunto específico de ideas, creo que este viaje nos llevará a lugares que simplemente no podemos imaginar en este momento.

li fei fei

lo sorprendente de la tecnología es que sigue abriendo más posibilidades. a medida que sigamos avanzando, estas posibilidades seguirán ampliándose.

la inversión de capital de riesgo en nuevas empresas de ia este año alcanzó los 64.100 millones de dólares, cerca del pico de 2021, pero los ingresos anuales totales de ia a nivel mundial son solo decenas de miles de millones de dólares.