a última conversa de li feifei: o progresso da tecnologia de ia trará novos cenários de aplicação inimagináveis

2024-09-23

recentemente, li feifeieparceiro a16zmartin casadoassim comopesquisador justin johnsonexpandirdiscutidoiaa história, situação atual e direção de desenvolvimento futuro do campo, tópicosabrange todos os aspectos da tecnologia de ia, especialmente o potencial futuro da ia generativa e da inteligência espacial.

li feifei enfatizou que a ia generativa já existia durante seus estudos de pós-graduação, mas a tecnologia inicial ainda não estava madura. com o salto na aprendizagem profunda e no poder da computação, a ia generativa fez progressos notáveis nos últimos anos e tornou-se um dos principais avanços no campo da ia.

ela também apresentou o mais recente projeto empreendedor world labs, que tem como foco a “inteligência espacial”, ou seja, a capacidade das máquinas de compreender e interagir em espaços 3d e 4d.

ela destacou que a inteligência espacial não é apenas adequada para a geração de mundos virtuais, mas também pode integrar o mundo real e é amplamente utilizada nas áreas de realidade aumentada (ar), realidade virtual (vr) e robótica.ia os avanços na tecnologia nos trarão novos cenários de aplicação inimagináveis, incluindo geração de mundo virtual, realidade aumentada e interação com o mundo físico.

a seguir está o conteúdo principal desta conversa, aproveite ~

martin casado

nos últimos dois anos, vimos surgir uma onda de empresas e tecnologias de ia voltadas para o consumidor, e o processo tem sido uma loucura. e você trabalha nessa área há décadas. portanto, podemos falar sobre as principais contribuições e percepções que você fez neste processo.

feifei li

é um momento muito emocionante e, olhando para trás, a ia está passando por um momento emocionante. pessoalmente, estou envolvido neste campo há mais de duas décadas. saímos do último inverno da ia e testemunhamos o nascimento da ia moderna. depois vimos o surgimento do aprendizado profundo, que nos mostrou o que era possível, como jogar xadrez.

então começamos a ver desenvolvimentos mais profundos na tecnologia e na aplicação industrial de possibilidades iniciais, como modelos de linguagem. neste momento, penso que estamos no meio de uma “explosão cambriana”.

de certa forma, agora além do texto, também estamos vendo pixels, vídeo, áudio, etc., começando a ser combinados com aplicações e modelos de ia, então este é um momento muito emocionante.

martin casado

conheço vocês há muito tempo e muitas pessoas os conhecem porque vocês são muito proeminentes nessa área. mas nem todo mundo sabe como você começou no campo da ia, então talvez possamos apresentar brevemente sua experiência para ajudar o público a estabelecer um entendimento básico.

justin johnson

ok, meu primeiro contato com ia foi no final da minha graduação. estudei matemática e ciências da computação na caltech e foi um ótimo momento. durante esse período, foi publicado um artigo muito famoso, que foi o "artigo do gato" no google brain, de home neck lee, andrew ng e outros. esta foi minha primeira exposição ao conceito de aprendizagem profunda.

essa tecnologia me surpreendeu e foi a primeira vez que encontrei essa receita: quando algoritmos poderosos de aprendizado de uso geral, enormes recursos computacionais e grandes quantidades de dados são combinados, algo mágico acontece. me deparei com essa ideia por volta de 2011 ou 2012 e senti naquela época que isso seria algo que eu faria no futuro.

obviamente, para fazer esse tipo de trabalho era preciso fazer pós-graduação, então descobri que feifei estava em stanford, e ela era uma das poucas pessoas no mundo que estudava a fundo essa área. foi um excelente momento para trabalhar na aprendizagem profunda e na visão computacional, pois este era o momento em que a tecnologia estava a passar da sua infância para a maturidade e a adopção generalizada.

durante esse tempo, vimos o início da modelagem de linguagem e também vimos o início da visão computacional discriminativa – onde era possível entender algo a partir de uma imagem. durante esse período, houve também o desenvolvimento inicial do que hoje chamamos de ia generativa. as partes centrais do algoritmo, como geração de imagens e geração de texto, também foram resolvidas pela comunidade acadêmica durante meu doutorado.

naquela época, todas as manhãs, ao acordar, abria o arxiv para conferir os resultados das últimas pesquisas. era como abrir presentes de natal. quase todos os dias havia novas descobertas. nos últimos dois anos, o resto do mundo também começou a perceber que novos “presentes de natal” estão a ser recebidos diariamente através da tecnologia de ia. mas para aqueles de nós que estão nesta área há mais de dez anos, esta experiência já existe.

feifei li

obviamente, sou muito mais velho que justin. entrei na área de ia vindo da física porque minha formação de graduação foi em física. física é uma disciplina que ensina a pensar em questões ousadas, como os mistérios não resolvidos do mundo. na física, esses problemas podem estar relacionados ao mundo atômico, ao universo, mas esse treinamento me interessou por outro problema: a inteligência. então fiz uma pesquisa de doutorado em ia e neurociência computacional na caltech. embora justin e eu não nos sobrepusêssemos na caltech, compartilhamos a mesma alma mater.

justin johnson

e o mesmo mentor?

feifei li

sim, seu orientador de graduação também foi meu orientador de doutorado, pietro perona. durante meu doutorado, a ia estava no meio de um inverno frio aos olhos do público, mas esse não era o caso aos meus olhos. isto é mais parecido com o período de hibernação antes da primavera, onde o aprendizado de máquina e os modelos generativos estão ganhando força. eu me considero um “nativo” na área de aprendizado de máquina, e a geração de justin é um “nativo” em aprendizado profundo.

o aprendizado de máquina é o antecessor do aprendizado profundo e, naquela época, experimentamos vários modelos. mas no final do meu doutoramento e durante o meu tempo como professor assistente, os meus alunos e o meu laboratório perceberam que havia um elemento negligenciado da ia que impulsionava a generalização sobre o qual a área não tinha pensado muito na altura: os dados. estávamos focados em modelos complexos, como os modelos bayesianos, e ignoramos a importância de deixar os dados conduzirem o modelo.

este é um dos motivos pelos quais apostamos no imagenet. naquela época, o tamanho dos conjuntos de dados em todos os campos era muito pequeno. os conjuntos de dados padrão para visão computacional e processamento de linguagem natural eram milhares ou dezenas de milhares de dados, mas percebemos que precisávamos escalar para a internet. . felizmente, a era da internet também estava em ascensão e nós pegamos essa onda. foi nessa época que vim para stanford.

martin casado

essas eras como aquelas de que falamos muito, como o imagenet, são obviamente eras importantes na promoção ou pelo menos na popularização e viabilidade da visão computacional no campo da ia generativa. costumamos mencionar dois avanços importantes: um é o papel do transformer, que é o "mecanismo de atenção" (atenção), e o outro é o menos falado sobre "difusão estável" (difusão estável).

é razoável entender essas duas inovações algorítmicas da academia (especialmente do google) desta forma? ou isso é mais um processo intencional? ou houve outros avanços importantes que não são mencionados com frequência e que também nos levaram até onde estamos hoje?

justin johnson

sim, acho que o maior avanço é o poder da computação. sei que a história da ia é muitas vezes também a história do poder computacional, mas embora seja frequentemente mencionada, penso que o seu impacto é subestimado.

o crescimento que vimos no poder da computação na última década foi impressionante. o primeiro artigo considerado um momento inovador para o aprendizado profundo em visão computacional foi alexnet, um artigo de 2012 no qual uma rede neural profunda teve um bom desempenho no desafio imagenet, superando em muito outros algoritmos da época.

os algoritmos aos quais você pode ser exposto durante a pós-graduação são insignificantes em comparação com o alexnet. alexnet é uma rede neural profunda com 60 milhões de parâmetros que foi treinada durante seis dias em duas placas gráficas gtx 580. a gtx 580 era a placa gráfica de consumo mais poderosa da época e foi lançada em 2010.

eu estava pesquisando alguns dados ontem à noite e queria colocar isso em um contexto mais amplo. a placa gráfica mais recente da nvidia é gb200. você consegue adivinhar a diferença de poder de computação entre gtx 580 e gb200?

o número está na casa dos milhares, então fiz as contas ontem à noite. por exemplo, durante as duas semanas de treinamento, os seis dias foram executados em duas gtx 580. se estendido, provavelmente poderia ser executado em menos de cinco minutos em um gb200.

se você pensar desta forma, há realmente um bom argumento - o artigo da alexnet de 2012 sobre o desafio imagenet é realmente um modelo muito clássico, ou seja, o modelo de rede neural convolucional.

na verdade, esse conceito surgiu já na década de 1980. ainda me lembro do primeiro artigo que estudei quando era estudante de pós-graduação. o conteúdo era semelhante, com uma estrutura de rede de seis ou sete camadas. quase a única diferença entre alexnet e o modelo de rede neural convolucional é a gpu – o uso de duas gpus e grandes quantidades de dados.

então, o que eu ia dizer é que a maioria das pessoas agora está familiarizada com o que é chamado de "lição amarga", que é, se você desenvolver um algoritmo, apenas certifique-se de poder aproveitar os recursos de computação existentes, porque esses recursos se tornarão disponível ao longo do tempo. então você só precisa de um sistema que continue melhorando.

por outro lado, parece haver outro argumento igualmente convincente, que é o de que novas fontes de dados realmente desbloqueiam a aprendizagem profunda. imagenet é um bom exemplo. embora muitas pessoas pensem que o mecanismo de autoatenção é importante para o modelo transformer, elas também dirão que é uma forma de aproveitar os dados rotulados por humanos.

como os humanos fornecem as anotações para a estrutura das frases, se você observar o modelo clip, ele permite que os humanos marquem imagens usando tags alt na internet. portanto, esta é realmente uma história sobre dados, não sobre computação. então a resposta é ambas ou é mais unilateral? acho que é um pouco dos dois, mas você também destacou outro ponto muito crítico.

martin casado

acho que na verdade existem duas eras distintas no campo dos algoritmos. a era imagenet é a era do aprendizado supervisionado. nos dias de hoje, temos muitos dados, mas não sabemos como treinar apenas com os dados em si.

a expectativa com o imagenet e outros conjuntos de dados contemporâneos era que teríamos muitas imagens, mas precisaríamos de humanos para anotar cada imagem. todos os dados nos quais treinamos foram visualizados e anotados um por um por anotadores humanos.

o grande avanço para os algoritmos é que agora sabemos como treinar com dados que não dependem de anotações humanas. para uma pessoa comum sem experiência em ia, parece que se você estiver treinando com dados humanos, os humanos realmente fizeram a anotação, mas a anotação não é explícita.

justin johnson

sim, filosoficamente esta é uma questão muito importante, mas é mais verdadeira no domínio da linguagem do que no domínio das imagens. sim, mas acho que é uma distinção importante. o clip é de fato anotado por humanos. acho que o mecanismo de autoatenção é que os humanos compreenderam as relações entre as coisas, e então você aprende através dessas relações.

portanto, ainda é anotado por humanos, mas a anotação é implícita e não explícita. a diferença é que na era da aprendizagem supervisionada, as nossas tarefas de aprendizagem são mais restritas. devemos conceber uma ontologia de conceitos que queremos descobrir.

por exemplo, no imagenet, fei-fei li e seus alunos passaram muito tempo pensando sobre quais deveriam ser as mil categorias do desafio imagenet. ao mesmo tempo, em outros conjuntos de dados, como o conjunto de dados coco usado para detecção de alvos, eles também pensaram muito na decisão de quais 80 categorias colocar nele.

martin casado

então, vamos falar sobre ia generativa. quando eu estava fazendo meu doutorado, antes de vocês aparecerem, fiz o curso de aprendizado de máquina de andrew ng e o curso bayesiano muito complexo de daphne koller, que foi muito complexo para mim.

muito disso naquela época era modelagem preditiva. lembro-me de você ter desbloqueado toda essa coisa de visão, mas a ia generativa só existe há cerca de quatro anos. este é um campo completamente diferente para mim - você não está mais identificando objetos, não está prevendo algo, está gerando coisas novas.

então, talvez possamos falar sobre quais são os factores-chave que tornam possível a ia generativa, como é diferente de antes, e se devemos olhar para ela de forma diferente, se é uma parte de desenvolvimento contínuo ou outro campo completamente novo.

feifei li

é muito interessante que modelos generativos existam desde meus tempos de pós-graduação. na época queríamos fazer geração, mas ninguém lembrava que, mesmo que estivéssemos fazendo geração com letras e números, estávamos tentando alguma coisa. jeff hinton tinha alguns artigos sobre geração na época e também estávamos pensando em como gerar.

na verdade, se você olhar da perspectiva da distribuição de probabilidade, pode ser gerado matematicamente, mas o que foi gerado naquele momento não foi nada surpreendente. assim, embora o conceito de geração exista de uma perspectiva matemática, na verdade não existe nenhum efeito de geração que seja satisfatório.

gostaria de mencionar especificamente um aluno de doutorado que veio ao meu laboratório com grande interesse em aprendizagem profunda. quase se pode dizer que toda a experiência de estudo de doutorado deste doutorando é um microcosmo da trajetória de desenvolvimento desta área.

seu primeiro projeto foram dados, e eu o forcei a fazê-lo. embora ele não tenha gostado, mais tarde ele admitiu que aprendeu muitas coisas úteis. "agora, estou feliz que você tenha dito isso." então, recorremos ao aprendizado profundo, e o problema central era como gerar texto a partir de imagens. na verdade, existem três fases claras neste processo.

a primeira etapa é combinar imagens e texto. temos imagens e texto e a seguir precisamos ver como eles estão relacionados. meu primeiro trabalho acadêmico, também minha primeira tese de doutorado, estudou recuperação de imagens com base em gráficos de cena. a seguir, continuamos a estudar a fundo e a gerar texto a partir de pixels. tanto ele quanto andrej fizeram muito trabalho nesse sentido, mas ainda é um método de geração com muitas perdas, e a informação se perde muito quando é obtida do. mundo de pixels.

havia um trabalho muito famoso no estágio intermediário. naquela época, alguém percebeu em tempo real pela primeira vez. em 2015, um artigo chamado "the art style of neural algorithms" foi publicado sob a liderança de leon gatys. eles demonstraram a conversão de fotos do mundo real em imagens no estilo van gogh.

podemos considerar isso um dado adquirido agora, mas isso foi em 2015, e aquele artigo apareceu no arxiv e me chocou. sinto como se um “vírus gerador de ia” tivesse sido injetado em meu cérebro. pensei comigo mesmo: “meu deus, preciso entender esse algoritmo, brincar com ele e tentar fazer com que minhas fotos pareçam van gogh”.

então, passei um fim de semana prolongado reimplementando o algoritmo para que ele pudesse funcionar corretamente. na verdade, é um algoritmo muito simples. minha implementação tem apenas cerca de 300 linhas de código. ele foi escrito em lua na época, porque não existia pytorch naquela época, então usamos lua torch. mas apesar da simplicidade do algoritmo, ele é muito lento. cada vez que você gera uma imagem, é necessário executar um loop de otimização, o que leva muito tempo. as imagens resultantes são lindas, mas gostaria que fosse um pouco mais rápido. finalmente, tornamos isso mais rápido.

outra coisa de que tenho muito orgulho é que ele fez um trabalho muito inovador na última parte de sua pesquisa de doutorado, antes que a ia generativa realmente fosse lançada ao mundo. este projeto gera imagens completas inserindo linguagem natural, o que pode ser considerado um dos primeiros esforços generativos de ia. estávamos usando gans, mas na época era muito difícil de usar. o problema é que ainda não estamos prontos para descrever uma imagem completa utilizando linguagem natural.

então, ele usou um método de entrada de estrutura de gráfico de cena, e o conteúdo de entrada era “ovelha”, “grama”, “céu”, etc., e usou esse método para gerar uma imagem completa.

da correspondência de dados à transferência de estilo e à geração de imagens, estamos gradualmente vendo uma transformação completa. você pergunta se esta é uma grande mudança, para pessoas como nós é um processo contínuo, mas para as massas os resultados parecem repentinos e impactantes.

martin casado

li seu livro e é um ótimo livro que recomendo a todos que leiam. e, fei-fei, o que quero dizer é que, por muito tempo, muitas de suas pesquisas e orientações se concentraram em áreas como inteligência espacial e processamento de pixels. o world labs em que você está trabalhando agora também está relacionado à inteligência espacial. você pode falar sobre isso como parte de sua jornada de longo prazo? por que você decidiu fazer isso agora? isso é algum tipo de avanço tecnológico ou motivos pessoais? você pode nos levar do contexto da pesquisa em ia para o world labs?

fei-fei li

para mim, esta é uma busca pessoal e uma jornada intelectual. você mencionou meu livro, e toda a minha jornada intelectual tem sido realmente uma busca por “estrelas do norte” e uma forte crença de que essas estrelas do norte são fundamentais para o avanço do nosso campo.

no início, lembro-me que, depois da pós-graduação, pensei que a minha estrela do norte estava a “contar histórias através de imagens”, porque para mim isso é uma grande parte da inteligência visual, o que chamamos de parte da ia.

mas quando justin e andrej terminaram o trabalho, pensei: “meu deus, este é o sonho de toda a minha vida, o que vou fazer a seguir?” estava progredindo muito mais rápido do que eu esperava – pensei que demoraria um pouco. levará centenas de anos para conseguir isso.

a inteligência visual sempre foi uma paixão minha. acredito firmemente que é crucial para todo ser inteligente, seja humano, robô ou outra forma de ser, aprender como ver o mundo, como raciocinar e como interagir com o mundo. quer se trate de navegação, controle, fabricação ou mesmo construção de civilização, a inteligência visual e espacial desempenha um papel fundamental.

pode ser tão fundamental quanto a linguagem, ou até mais antigo e fundamental em alguns aspectos. portanto, a estrela do norte do world labs é desbloquear a inteligência espacial, e agora é o momento certo.

como disse justin, já temos os recursos de que precisamos: poder computacional e uma compreensão mais profunda dos dados. tornamo-nos mais sofisticados na compreensão dos dados do que na era imagenet.

também temos avanços algorítmicos, como o trabalho de ponta em nerf realizado por nossos cofundadores ben mildenhall e christoph lassner. sentimos que agora é o momento certo para tomar a decisão, focar nesta área e desbloquear o seu potencial.

martin casado

para que todos entendam claramente, você fundou esta empresa - world labs, e o problema que deseja resolver é “inteligência espacial”. você pode descrever brevemente o que é inteligência espacial?

fei-fei li

inteligência espacial refere-se à capacidade das máquinas de compreender, perceber, raciocinar e agir no espaço e no tempo 3d. especificamente, refere-se à compreensão de como os objetos e eventos são posicionados no espaço e no tempo 3d e como as interações no mundo afetam essas posições 3d.

não se trata apenas de permitir que as máquinas permaneçam em data centers ou hosts, mas de deixá-las entrar no mundo real e compreender esse rico mundo 3d e 4d.

martin casado

o “mundo” de que você fala se refere ao mundo físico real ou a um mundo conceitual abstrato?

fei-fei li

eu acho que são os dois. isto também representa a nossa visão de longo prazo. mesmo que você esteja gerando um mundo ou conteúdo virtual, ainda há muitos benefícios em estar posicionado em 3d. ou quando você identifica o mundo real, ser capaz de aplicar a compreensão 3d ao mundo real faz parte disso.

martin casado

sua equipe de cofundadores é muito, muito forte. então, por que você acha que agora é o momento certo para fazer isso?

fei-fei li

na verdade, este é um processo evolutivo de longo prazo. após concluir meu doutorado, comecei a procurar um caminho para me tornar um pesquisador independente e pensar em grandes questões nas áreas de ia e visão computacional. concluí na época que a década passada foi dedicada à compreensão de dados que já existiam e que a década seguinte seria dedicada à compreensão de novos dados.

os dados do passado eram principalmente imagens e vídeos que já existiam na internet, mas os dados do futuro são completamente novos – o surgimento dos smartphones, que possuem câmeras, novos sensores, e podem ser posicionados no mundo 3d. não é apenas uma questão de você pegar um monte de pixels da internet e tentar saber se é um gato ou um cachorro.

esperamos tratar estas imagens como sensores universais para o mundo físico, ajudando-nos a compreender a estrutura 3d e 4d do mundo, tanto no espaço físico como no generativo.

depois de concluir meu doutorado, fiz uma grande mudança e entrei no campo da visão computacional 3d, trabalhando com meus colegas sobre como prever a forma 3d de objetos. mais tarde, fiquei muito interessado na ideia de aprender estruturas 3d a partir de dados 2d.

quando discutimos dados, frequentemente mencionamos que a obtenção de dados 3d é difícil, mas na verdade as imagens 2d são projeções do mundo 3d e existem muitas estruturas matemáticas que podem ser exploradas. mesmo se você tiver muitos dados 2d, poderá deduzir a estrutura do mundo 3d por meio dessas estruturas matemáticas.

2020 é um momento inovador. nosso cofundador ben mildenhall propôs o método nerf (neural radiation field). esta é uma maneira muito simples e clara de deduzir estruturas 3d a partir de observações 2d, iniciando todo o campo da visão computacional 3d.

ao mesmo tempo, o llm também começou a surgir. na verdade, muito trabalho de modelagem de linguagem foi desenvolvido na academia há muito tempo. ainda durante meu doutorado, fiz alguns trabalhos de modelagem de linguagem com andrej karpathy em 2014.

justin johnson

na verdade, isso foi algo que apareceu antes do transformer, mas na era do gpt-2, é difícil para você fazer esses modelos na academia porque eles exigem muitos recursos computacionais. porém, curiosamente, o método nerf proposto por ben requer apenas algumas horas de treinamento em uma única gpu.

isso levou muitos pesquisadores acadêmicos a se concentrarem novamente nesses problemas, porque alguns problemas algorítmicos centrais podem ser resolvidos com recursos computacionais limitados e você pode obter resultados de última geração em uma única gpu. então, naquela época, muitos pesquisadores acadêmicos estavam pensando: como podemos promover o desenvolvimento deste campo através de algoritmos centrais? fei-fei e eu conversamos muito e estamos ambos muito convencidos disso.

fei-fei li

sim, descobrimos que as nossas direcções de investigação estão a caminhar em direcção a objectivos semelhantes, até certo ponto. também quero contar uma questão técnica muito interessante, ou uma história técnica sobre pixels.

muitas pessoas envolvidas na pesquisa linguística podem não saber que antes da era da ia generativa, aqueles de nós que estão envolvidos no campo da visão computacional, na verdade, tínhamos uma longa história de pesquisa chamada reconstrução 3d.

isso remonta à década de 1970, e você poderia tirar fotos - como os humanos têm dois olhos, você poderia usar fotos estéreo para tentar triangular e construir formas 3d. no entanto, este é um problema muito difícil que ainda não foi completamente resolvido devido a complicações como problemas de correspondência.

tem havido uma longa história de progresso neste campo, mas quando nerf é combinado com métodos generativos, especialmente no contexto de modelos de difusão, a reconstrução e a geração 3d começam subitamente a fundir-se. no campo da visão computacional, descobrimos de repente que se vemos algo, ou imaginamos algo, ambos podem convergir na direção de gerá-lo. este é um momento muito importante, mas muita gente pode não perceber porque não falamos sobre isso tão extensamente como falamos sobre llm.

justin johnson

sim, existe reconstrução no espaço de pixels, por exemplo você reconstrói uma cena real e se não consegue ver essa cena, você usa técnicas generativas; na verdade, os dois são muito semelhantes. você tem falado sobre linguagem e pixels ao longo desta conversa, então talvez este seja um bom momento para falar sobre inteligência espacial versus abordagens de linguagem, como se elas fossem complementares ou completamente diferentes?

fei-fei li

acho que são complementares. não sei bem como definir "completamente diferente", mas posso tentar fazer uma comparação. hoje, muitas pessoas falam sobre gpt, ia aberta e modelos multimodais. acredita-se que esses modelos podem lidar com pixels e linguagem. então, eles podem alcançar o raciocínio espacial que desejamos? para responder a esta pergunta, precisamos abrir a “caixa preta” desses sistemas e ver como eles funcionam nos bastidores.

a representação subjacente dos modelos de linguagem e dos modelos de linguagem multimodais que vemos agora é "unidimensional". falamos sobre comprimento de contexto, transformers, sequências, mecanismos de atenção, mas no final das contas, a representação desses modelos é baseada em tokens serializados unidimensionais.

esta representação é muito natural quando se trata de linguagem, uma vez que o próprio texto consiste em sequências unidimensionais de letras discretas. esta representação unidimensional é a base para o sucesso do llm, e o mesmo é verdade para o llm multimodal que vemos agora, que "incorpora" outras modalidades (como imagens) nesta representação unidimensional.

no campo da inteligência espacial, pensamos exatamente o oposto – acreditamos que a natureza tridimensional do mundo deveria ser o núcleo da representação. do ponto de vista algorítmico, isso abre novas oportunidades para processarmos dados e obtermos diferentes tipos de resultados, ajudando-nos a resolver alguns problemas muito diferentes.

mesmo em um nível aproximado, você poderia dizer: “os llms multimodais também podem ver imagens”. na verdade, eles podem, mas não colocam a natureza das três dimensões no centro de sua abordagem ao processar imagens.

justin johnson

concordo plenamente que é muito importante discutir a diferença fundamental entre representação unidimensional e tridimensional. além disso, há um ponto um pouco mais filosófico, mas para mim não menos importante: a linguagem é essencialmente um sinal puramente gerado, e não existe linguagem no mundo. você não verá nada escrito no céu quando sair para a natureza. não importa quais dados você insira, o modelo de linguagem pode produzir quase os mesmos dados com generalização suficiente. essa é a natureza da geração de linguagem.

mas o mundo 3d é diferente. ele segue as leis da física e possui estrutura e materiais próprios. ser capaz de extrair essencialmente essas informações, representá-las e gerá-las é um tipo de problema completamente diferente. embora tomemos emprestadas algumas ideias úteis de modelos de linguagem, esta é fundamentalmente uma questão filosófica diferente.

martin casado

certo, então o modelo de linguagem é unidimensional e provavelmente uma representação pobre do mundo físico porque é gerado pelo homem com perdas. outra modalidade de modelos generativos são os pixels, que são imagens e vídeos 2d. se você assistir a um vídeo, poderá ver uma cena 3d porque a câmera pode fazer panorâmica. então, qual é a diferença entre inteligência espacial e vídeo 2d?

fei-fei li

há dois pontos sobre os quais vale a pena pensar aqui. uma é a representação subjacente e a outra é a conveniência da experiência do usuário. os dois às vezes ficam confusos. o que percebemos é 2d – nossa retina é uma estrutura bidimensional, mas nosso cérebro a vê como uma projeção do mundo tridimensional.

você pode querer mover objetos, mover a câmera e, em princípio, poderia fazer essas coisas com representações e modelos 2d, mas isso não é apropriado para o problema que você está perguntando. uma projeção bidimensional de um mundo tridimensional dinâmico pode ser modelável, mas colocar a representação tridimensional no centro do modelo atende melhor às necessidades do problema.

nosso objetivo é integrar mais representação 3d ao núcleo do modelo para fornecer uma melhor experiência aos usuários. isso também está relacionado à minha “estrela do norte”. por que enfatizamos a “inteligência espacial” em vez da “inteligência de pixels planos”?

devido à trajetória da inteligência, se olharmos para a história da evolução, seu objetivo final é permitir que animais e humanos se movam livremente pelo mundo, interajam, criem civilização e até façam um sanduíche. portanto, traduzir esta essência 3d em tecnologia é fundamental para desbloquear inúmeras aplicações potenciais, mesmo que algumas possam parecer avanços superficiais.

martin casado

acho que este é um ponto muito sutil, mas crucial. talvez possamos aprofundar esta discussão falando sobre alguns cenários de aplicação. quando falamos sobre o desenvolvimento de um modelo tecnológico que possibilite a inteligência espacial, como isso seria especificamente? quais são os possíveis cenários de aplicação?

fei-fei li

o modelo de inteligência espacial que imaginamos pode fazer muitas coisas, uma das quais estou particularmente entusiasmado é a “geração mundial”. semelhante aos geradores de imagem de texto, agora temos geradores de vídeo de texto - insira uma imagem ou vídeo e o sistema irá gerar um clipe impressionante de dois segundos. mas acho que podemos levar essa experiência para um mundo 3d.

podemos imaginar que a inteligência espacial nos ajudará a atualizar essas experiências para 3d no futuro, não apenas gerando uma imagem ou um vídeo, mas gerando um mundo 3d interativo completo, simulado e rico. talvez seja usado para jogos, talvez seja usado para fotografia virtual, os campos de aplicação são tão amplos que é inimaginável.

justin johnson

acho que a tecnologia vai melhorar com o tempo. é muito difícil construir essas coisas, então o problema estático pode ser relativamente simples, mas no longo prazo queremos que seja totalmente dinâmico, interativo, tudo o que você acabou de descrever.

fei-fei li

sim, esta é a própria definição de inteligência espacial. começaremos com questões mais estáticas, mas tudo o que você mencionou está no futuro da inteligência espacial.

justin johnson

isto também se reflete no nome da nossa empresa “world labs” – o nome trata de construir e compreender o mundo. quando dizemos o nome às pessoas, elas nem sempre o entendem a princípio, porque nas áreas de visão computacional, reconstrução e geração, muitas vezes diferenciamos o que podemos fazer. o primeiro nível é reconhecer objetos, como microfones, cadeiras e outros objetos distintos no mundo. grande parte do trabalho da imagenet está relacionado ao reconhecimento de objetos.

mas então passamos para o nível das cenas – as cenas são feitas de objetos. por exemplo, agora temos um estúdio de gravação com mesa, microfone e pessoas sentadas em cadeiras, o que é uma combinação de objetos. mas o “mundo” que imaginamos transcende as cenas. a cena pode ser uma coisa única, mas queremos quebrar esses limites e sair, sair para a rua, ver o trânsito passando, ver as folhas balançando ao vento e poder interagir com essas coisas.

fei-fei li

outra coisa muito interessante é o termo “novas mídias”. com esta tecnologia, as linhas entre o mundo real, o mundo virtual imaginado ou o mundo aumentado e previsto tornam-se confusas. o mundo real é 3d, portanto, no mundo digital, é necessária uma representação 3d para se misturar com o mundo real. você não pode interagir efetivamente com o mundo 3d real apenas em 2d ou mesmo em 1d.

esse recurso desbloqueia cenários de aplicativos ilimitados. assim como o primeiro cenário de aplicação citado por justin, a geração do mundo virtual pode ser utilizada para qualquer finalidade. o segundo pode serrealidade aumentada. na época em que o world labs foi fundado, a apple lançou o vision pro e eles usaram o termo “computação espacial”. estamos quase falando da mesma coisa, o que enfatizamos é “inteligência espacial”. não há dúvida de que a computação espacial requer inteligência espacial.

não sabemos como serão as futuras formas de hardware – podem ser óculos de proteção, óculos ou até mesmo lentes de contato. mas na interface entre os mundos real e virtual, seja melhorando sua capacidade de trabalhar, ajudando você a consertar seu carro, mesmo que você não seja um mecânico profissional, ou apenas fornecendo uma experiência de entretenimento semelhante a "pokemon go++", esta tecnologia se tornará o sistema operacional para ar/vr.

justin johnson

em casos extremos, o que o dispositivo ar precisa fazer é acompanhá-lo o tempo todo, entender o mundo que você vê em tempo real e ajudá-lo a realizar tarefas do dia a dia. estou muito animado com isso, principalmente com a fusão entre o virtual e a realidade. quando você consegue entender perfeitamente o que está ao seu redor em 3d em tempo real, isso pode até substituir algumas coisas no mundo real.

por exemplo, agora temos telas de vários tamanhos – ipads, monitores de computador, tvs, relógios, etc. – que apresentam informações em diferentes cenários. mas se conseguirmos fundir perfeitamente o conteúdo virtual com o mundo físico, estes dispositivos não serão mais necessários. os mundos virtuais podem mostrar as informações que você precisa no momento certo e da maneira mais adequada.

outra grande aplicação é misturar o mundo virtual digital com o mundo físico 3d, especialmente na robótica. os robôs devem atuar no mundo físico, enquanto a sua computação e cérebros estão no mundo digital. a ponte entre aprendizagem e comportamento deve ser construída pela inteligência espacial.

martin casado

você mencionou mundos virtuais, realidade aumentada, e agora está falando sobre o mundo puramente físico, por exemplo, na robótica. este é um campo muito amplo, especialmente se você planeja se ramificar nessas diferentes áreas. como você vê a tecnologia profunda relacionada a essas áreas de aplicação específicas?

fei-fei li

nos consideramos uma empresa de tecnologia profunda, como empresa de plataforma, fornecendo modelos que podem atender esses diferentes cenários de aplicação. quanto a qual cenário de aplicação é mais adequado para o que focamos no início, acho que o equipamento atual não é perfeito o suficiente.

na verdade, ganhei meu primeiro fone de ouvido vr quando estava na pós-graduação. quando o coloquei, pensei comigo mesmo: “meu deus, isso é uma loucura!” tenho certeza que muitas pessoas têm uma experiência semelhante ao usar a rv pela primeira vez.

eu amo tanto o vision pro que fiquei acordado até tarde no dia em que foi lançado para comprá-lo, mas no momento ele não está totalmente maduro como plataforma para o mercado de massa. portanto, nós, como empresa, podemos escolher um mercado já mais maduro para entrar.

às vezes há simplicidade na versatilidade. temos uma visão de empresa de tecnologia profunda e acreditamos que existem alguns problemas fundamentais que precisam ser bem resolvidos e, se bem resolvidos, podem ser aplicados a muitos campos diferentes. consideramos que o objetivo de longo prazo da empresa é construir e realizar o sonho da inteligência espacial.

justin johnson

na verdade, acho que é aí que está o impacto do que você está fazendo. eu não acho que chegaremos lá, porque é uma coisa tão fundamental - o universo é essencialmente uma estrutura quadridimensional em evolução, e a inteligência espacial em um sentido amplo consiste em compreender toda a profundidade dessa estrutura e encontrar todo o aplicativo. assim, embora tenhamos hoje um conjunto específico de ideias, acredito que esta viagem nos levará a lugares que simplesmente não podemos imaginar neste momento.

fei-fei li

o que é surpreendente sobre a tecnologia é que ela continua a abrir mais possibilidades. à medida que continuamos a avançar, estas possibilidades continuarão a expandir-se.

notícias

a última conversa de li feifei: o progresso da tecnologia de ia trará novos cenários de aplicação inimagináveis

introdução

minhas informações de contato