notícias

“AI Madrinha” Li Feifei: Sora ainda é uma imagem bidimensional, e apenas a inteligência espacial tridimensional pode alcançar AGI

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O aplicativo TMTpost informou em 2 de agosto que em uma reunião a portas fechadas do Fórum Acadêmico Asiático-Americano realizada pela Universidade de Stanford,Li Feifei, professora da Universidade de Stanford conhecida como a "madrinha da IA", disse com exclusividade ao TMTpost App que embora o modelo Sora da empresa americana OpenAI possa gerar vídeos, em essência, ainda é um modelo bidimensional plano e não tem a capacidade de compreender objetos tridimensionais. Apenas a “inteligência espacial” é a direção futura da AGI.

Li Feifei deu a resposta acima ao discutir a relação entre o modelo de "inteligência espacial" e o grande modelo de linguagem levantado pelo fundador da TMTpost Media, Zhao Hejuan. Ela explicou ainda que a maioria dos modelos atuais, como GPT4o e Gemini 1.5, ainda são modelos de linguagem, ou seja, linguagem de entrada e linguagem de saída. Embora também existam modelos multimodais, eles ainda estão limitados à linguagem. , eles são baseados em imagens planas bidimensionais. Mas a chave para realizar a AGI no futuro é a “inteligência espacial”, que requer um modelo visual tridimensional.

Ela usou o vídeo de IA de “Mulheres japonesas andando pelas ruas iluminadas por neon de Tóquio” mostrado por Sora como exemplo.

“Se você quiser que o algoritmo mude o ângulo para mostrar o vídeo da mulher andando na rua, como colocar a câmera atrás da mulher, Sora não pode fazer isso. mundo dimensional. Os humanos podem fazer isso em suas mentes "Imagine a cena por trás da mulher." Li Feifei disse: "Os seres humanos podem entender como se mover em ambientes complexos. Sabemos como compreender, como controlar, como construir ferramentas, e como construir cidades. Fundamentalmente, a inteligência espacial é geometria. A relação entre objetos é o espaço tridimensional. Suas aplicações são. ampla, como para AR e VR, para robôs, e inteligência espacial também é necessária.”

Li Feifei enfatizou ao TMTpost App: “A evolução natural permite que os animais entendam o mundo tridimensional, vivam, prevejam e interajam no espaço tridimensional. Essa habilidade tem uma longa história de 540 milhões de anos, quando os trilobitas viram a luz pela primeira vez na água. , ele tem que “navegar” no mundo tridimensional. Se não puder “navegar” no mundo tridimensional, rapidamente se tornará um banquete para outros animais. À medida que a evolução avança, a inteligência espacial dos animais aumenta. e entendemos as formas.

Li Feifei, 48 anos, é um famoso cientista da computação, acadêmico da Academia Nacional de Engenharia e da Academia Nacional de Medicina e diretor do Instituto de Pesquisa de IA Centrada no Ser Humano da Universidade de Stanford. Ela liderou o desenvolvimento do banco de dados de imagens ImageNet e da competição de reconhecimento visual em 2009, anotando e classificando com precisão imagens massivas, promovendo o avanço das capacidades de reconhecimento de visão computacional e também é um dos principais fatores que promovem o rápido desenvolvimento da IA. No ano passado, a VoxPoser, que ela anunciou, tornou-se uma direção tecnológica chave no desenvolvimento da IA ​​incorporada.

Em julho deste ano, o World Labs, uma empresa de IA fundada por Li Feifei, anunciou a conclusão de duas rodadas de financiamento. Os investidores incluem a16z (Andreessen Horowitz), etc.A última avaliação da empresa atingiu US$ 1 bilhão (aproximadamente 7,26 bilhões de yuans).

No Fórum de Cientistas Asiático-Americanos a portas fechadas no final de julho, o discurso de Li Feifei também permitiu que mais pessoas entendessem o que são Word Labs e seu conceito de desenvolvimento de “inteligência espacial”, ou seja, tornar a IA verdadeiramente “de ver para fazer isso ”.

Como passar do “ver” ao “fazer”

A chamada “inteligência espacial” refere-se à capacidade das pessoas ou máquinas de perceber, compreender e interagir no espaço tridimensional.

Este conceito foi proposto pela primeira vez pelo psicólogo americano Howard Gardner na teoria das inteligências múltiplas, que permite que um modelo do mundo espacial externo seja formado no cérebro e seja usado e manipulado. Na verdade, a inteligência espacial permite que as pessoas pensem de forma tridimensional, permitindo que as pessoas percebam imagens externas e internas, e reproduzam, transformem ou modifiquem imagens, para que possam circular no espaço com calma e fazer o que quiserem. a posição dos objetos para gerar ou interpretar informações gráficas.

Em termos gerais, a inteligência espacial inclui não apenas a capacidade de perceber a orientação espacial, mas também a discriminação visual e a capacidade de pensar imagens. Para as máquinas, a inteligência espacial refere-se à sua capacidade de processar dados visuais no espaço tridimensional, de fazer previsões com precisão e de tomar ações com base nessas previsões. Esta capacidade permite que as máquinas naveguem, operem e tomem decisões num mundo tridimensional complexo como os humanos, transcendendo assim as limitações da visão bidimensional tradicional.

Numa palestra TED realizada em abril deste ano, Li Feifei disse francamente que a capacidade visual desencadeou a Explosão Cambriana, e a evolução do sistema nervoso trouxe inteligência. “Não queremos apenas uma IA que possa ver e falar, queremos uma IA que possa fazer isso.”

Na opinião de Li Feifei, a inteligência espacial é “a principal arma mágica para resolver problemas técnicos de IA”.

Neste evento a portas fechadas no final de julho, Li Feifei revisou pela primeira vez as três principais forças motrizes da IA ​​moderna desde há 10 anos:Redes neurais", isto é, "aprendizado profundo"; chips modernos, principalmente chips GPU NVIDIA; e big data.

Desde 2009, o campo da visão computacional fez um progresso explosivo. As máquinas podem reconhecer objetos rapidamente e corresponder ao desempenho humano. Mas esta é apenas a ponta do iceberg. A visão computacional pode não apenas identificar objetos estacionários e rastrear objetos em movimento, mas também pode separar objetos em diferentes partes e até mesmo compreender a relação entre os objetos. Portanto, com base no big data de imagens, o campo da visão computacional avançou aos trancos e barrancos.

Li Feifei lembra claramente que há cerca de 10 anos, seu aluno Andrej Karpathy participou da pesquisa para estabelecer algoritmos de emoticons. Eles mostraram uma imagem ao computador e, em seguida, por meio de uma rede neural, o computador conseguiu gerar uma linguagem natural, como: "Este é um gato deitado na cama".

"Lembro-me de dizer a Andrej, vamos inverter. Por exemplo, dê uma frase e peça ao computador para dar uma imagem. Todos nós rimos, pensando que isso poderia nunca ser realizado, ou seria realizado em um futuro distante", Li Feifei lembrado.

A tecnologia de IA generativa desenvolveu-se rapidamente nos últimos dois anos. Especialmente há alguns meses,IA aberta Lançado o algoritmo de geração de vídeo Sora. Ela exibiu um produto semelhante que seus alunos desenvolveram no Google, de excelente qualidade. Este produto existia vários meses antes do lançamento do Sora e usava uma GPU (unidade de processamento gráfico) muito menor do que o Sora. A questão é: para onde irá a IA a seguir?

“Durante anos tenho dito que ‘ver’ é ‘compreender o mundo’. Mas gostaria de levar este conceito um passo mais longe e ‘ver’ não é apenas compreender, mas sim fazer coisas como nós. Animais com senciência, mas esses animais existem desde 450 milhões de anos atrás, porque esta é uma condição necessária para a evolução: ver e fazer são um ciclo fechado", disse Li Feifei.

Ela usou seu gato favorito como exemplo.

Foto de um gato, um copo de leite e plantas sobre uma mesa. Quando você vê esta foto, um vídeo tridimensional aparece em sua mente. Você vê formas, você vê geometria.

Na verdade, você vê o que aconteceu alguns segundos atrás e o que pode acontecer alguns segundos depois. Você vê esta foto em três dimensões. Você está planejando o que fazer a seguir. Seu cérebro está acelerado, calculando o que você pode fazer para salvar seu tapete, principalmente porque o gato é seu e o tapete é seu.

"Eu chamo tudo isso de inteligência espacial, que é modelar o mundo tridimensional e raciocinar sobre objetos, lugares, eventos, etc. no espaço e no tempo tridimensionais. Neste exemplo, estou falando sobre o mundo real, mas também Pode referir-se ao mundo virtual. Mas o resultado final da inteligência espacial é conectar “ver” e “fazer”. Um dia, a IA será capaz de fazer isso”, disse Li Feifei.

Em segundo lugar, Li Feifei mostrou um vídeo 3D reconstruído com base em várias fotos e, em seguida, apresentou um vídeo 3D baseado em uma foto. Essas tecnologias podem ser usadas no design.

Li Feifei disse que a IA inteligente incorporada ou robôs humanóides podem formar um ciclo fechado entre “ver” e “fazer”.

Ela disse que colegas da Universidade de Stanford e da gigante de chips NVIDIA estão conduzindo conjuntamente um estudo chamado BEHAVIOR para construir um espaço dinâmico de referência para atividades domésticas para avaliar o desempenho de vários robôs no ambiente doméstico. “Estamos estudando como conectar modelos de linguagem com grandes modelos visuais para que o robô possa ser direcionado para fazer um plano e iniciar uma ação”, disse ela. Ela deu três exemplos, um era um robô abrindo uma gaveta, outro era um robô desconectando o cabo de carregamento de um celular e o terceiro era um robô fazendo um sanduíche. Todas as instruções são dadas através da linguagem humana natural.

Por fim, ela deu um exemplo, acreditando que o futuro pertence ao mundo da “inteligência espacial”, onde os humanos podem sentar-se, usar um chapéu de EEG com sensores e, sem abrir a boca para falar, podem dizer remotamente aos robôs apenas com o seu pensamentos: prepare uma refeição em estilo japonês. Depois que o robô recebe a ideia, ele a decifra e pode preparar uma refeição completa.

“Quando conectamos ‘ver’ e ‘fazer’ através da inteligência espacial, podemos fazer isso”, disse ela.

Li Feifei também disse que testemunhou o emocionante desenvolvimento da IA ​​nos últimos 20 anos. No entanto, ela acredita que a chave para IA ou AGI é a inteligência espacial. Através da inteligência espacial, podemos ver o mundo, perceber o mundo, compreender o mundo e deixar o robô fazer as coisas, formando assim um ciclo fechado virtuoso.

Os robôs dominarão a humanidade?

Li Feifei disse na reunião que as pessoas hoje são muito exageradas sobre o que a IA pode fazer no futuro. Ela alerta contra confundir objetivos ambiciosos e corajosos com a realidade, um refrão que ouvimos com frequência.

Na verdade, a IA atingiu um ponto de inflexão, especialmente em grandes modelos de linguagem. “No entanto, ainda é uma tecnologia limitada e cheia de bugs que ainda exige que os humanos estejam profundamente envolvidos nela e compreendam as suas limitações. Um argumento muito perigoso agora é o chamado risco de extinção humana, ou seja, a IA está a tornar-se um mestre da máquina dos humanos. "Acho que isso é muito perigoso para a sociedade e haverá muitas consequências indesejadas desse tipo de retórica. Precisamos de comunicação e educação ponderadas, equilibradas e imparciais sobre IA", disse Li Feifei. .

Li Feifei acredita que a IA deve estar enraizada nos humanos. Os seres humanos criaram-no, os seres humanos estão a desenvolvê-lo, os seres humanos estão a utilizá-lo e os seres humanos também deveriam geri-lo.

Li Feifei disse que no Instituto "IA Centrada no Homem" da Universidade de Stanford, eles adotaram três abordagens para a IA, incluindo os três níveis de indivíduo, comunidade e sociedade:

A nível individual, a IA deve ser envolvida e adotada. Esta é uma tecnologia civilizada. A IA muda a forma como as crianças aprendem, como os médicos usam métodos de diagnóstico, como os artistas desenham e como os professores ensinam. Independentemente de você ser técnico ou não, você pode desempenhar seu papel e usar a IA com responsabilidade. No nível comunitário, a IA pode capacitar a comunidade e atender às necessidades de proteção ambiental ou agrícolas da comunidade. Algumas comunidades agrícolas utilizam tecnologia de aprendizagem automática para monitorizar a qualidade da água comunitária. A comunidade artística não está apenas a utilizar a IA, mas também a expressar as suas preocupações e ideias sobre como resolver problemas e mitigar riscos. A nível social, governos, instituições de investigação, empresas, agências federais e agências internacionais devem levar esta tecnologia a sério. Há uma questão energética e isso tem implicações geopolíticas. Ainda há uma grande discussão entre código aberto e código não aberto, o que afeta a economia e a ecologia. Ainda existem questões de gestão, como os riscos e a segurança da IA. Deve ser adoptada uma abordagem positiva, uma abordagem multilateral e uma abordagem que abranja toda a sociedade. Não há como voltar atrás agora, disse Li Feifei. Ela liderou o projeto de IA no Google de 2017 a 2018, atuou como membro do conselho do Twitter de 2020 a 2022 e atualmente é consultora de IA na Casa Branca.

Em relação ao impacto da IA ​​no trabalho, Li Feifei compartilhou suas opiniões.

Li Feifei destacou que existe um laboratório de economia digital dentro do Human-Centered AI Institute da Universidade de Stanford, liderado pelo professor Erik Brynjolfsson. Existem muitas camadas nesta questão muito complexa. Ela enfatizou particularmente que “trabalho” e “tarefa” são dois conceitos diferentes, porque na realidade o trabalho de cada um consiste em múltiplas tarefas.

Ela usou enfermeiras americanas como exemplo. Estima-se que durante o turno de oito horas de uma enfermeira haja centenas de tarefas. Portanto, quando as pessoas discutem que a IA está assumindo ou substituindo empregos humanos, elas devem distinguir se ela está substituindo tarefas ou empregos.

Li Feifei acredita que a IA mudou múltiplas tarefas dentro de um trabalho e, portanto, mudará gradualmente a natureza do trabalho. No cenário do call center, a qualidade do trabalho dos novatos foi melhorada pela IA em 30%, mas a qualidade do trabalho do pessoal qualificado não foi melhorada pela IA. Os sentimentos de Fei-Fei Li são ecoados num artigo do Laboratório de Economia Digital da Universidade de Stanford, intitulado: “A IA não substituirá os empregos dos gestores: os gestores que usam a IA estão a substituir aqueles que não o fazem”.

Li Feifei enfatizou que a ciência e a tecnologia trarão progresso na produtividade, mas o progresso na produtividade não se traduzirá automaticamente em prosperidade comum para a sociedade. Ela ressaltou que tais incidentes ocorreram muitas vezes na história.