a ia pode “gerar” todas as coisas?

2024-08-29

meio ano depois do nascimento de sora, seus “desafiadores” vieram um após o outro, e até a nvidia, que “não conseguia esperar” e “não conseguia alcançar”, acabou pessoalmente.

até agora, sora lançou apenas demos e não foi aberto para uso, enquanto kuaishou keling, zhipu qingying e vidu assumiram a liderança em abrir as portas para a experiência e alcançar o público.

embora a primeira experiência de “geração com um clique” não seja perfeita, ela gerou uma fonte de água na indústria de conteúdo. muitos pequenos dramas, anúncios e animações ao nosso redor começaram a usar a ia como um “parceiro de eficiência”. tecnologia de geração de inteligência artificial, desde as imagens vicentinas de há pouco tempo até os vídeos vicentinos de hoje, vídeos tusheng e vídeos gerados por vídeo, o "universo aigc" continua a se expandir.

a ia é a “caneta mágica ma liang” na mitologia chinesa? quanta imaginação e criatividade ela pode dar vida e movimento?

"vídeo wensheng", como "viver"

"wensheng video é um sucesso de bilheteria." nos últimos seis meses, o ressurgimento de sora de grandes fabricantes a unicórnios ilustra a importância que a indústria atribui à "geração".

a geração de vídeo, em suma, utiliza tecnologia generativa de inteligência artificial para converter entradas multimodais, como texto e imagens, em sinais de vídeo.

atualmente, existem duas rotas técnicas principais para geração de vídeo. um é o modelo de difusão, que é dividido em duas categorias. uma é o modelo de difusão baseado na rede neural convolucional, como emuvideo da meta, videocrafter lançado pela tencent, etc.; como sora da openai, keling ai da kuaishou, vidu da shengshu technology, etc. a outra é a rota autorregressiva, como videopoet do google, phenaki, etc.

em 26 de julho de 2024, a empresa de tecnologia chinesa zhipu ai lançou seu modelo de vídeo autodesenvolvido gerado por inteligência artificial qingying (ying) para usuários globais. a imagem mostra a interface de login do usuário

atualmente, o modelo de difusão baseado na arquitetura transformer é a escolha principal para modelos de geração de vídeo, também conhecido como "dit" (di é a abreviatura de diffusion, t é a abreviatura de transformer).

texto "difuso" como vídeo? "a difusão aqui se refere a um método de modelagem." yuan li, professor assistente e supervisor de doutorado da escola de engenharia da informação da universidade de pequim, deu um exemplo vívido -

quando michelangelo estava esculpindo a famosa estátua de david, ele disse o seguinte: a escultura era originalmente em pedra, apenas removi as partes desnecessárias. “esta frase descreve vividamente o processo de modelagem de 'difusão'. o vídeo original de ruído puro é como uma pedra não esculpida. caminho é a 'difusão'", disse yuan li.

yuan li explicou ainda: "transformador é uma rede neural que segue a 'regra de escala' e executa o processo de quebrar pedras. ele pode processar as informações espaço-temporais de entrada, compreender o mundo real através da compreensão de suas complexas relações internas e permitir o modelo para ter capacidades de raciocínio. ele pode não apenas capturar as conexões sutis entre os quadros de vídeo, mas também garantir coerência visual e suavidade temporal.

"parceiro de eficiência", quão rápido

um ingênuo urso polar foi acordado pelo despertador, arrumou a bagagem, pegou um helicóptero, foi transferido para um trem de alta velocidade, transferido para um táxi, embarcou em um navio, atravessou montanhas, rios, lagos e mares, passou por muitos dificuldades e obstáculos, e finalmente cheguei à antártica e encontrei os pinguins...

este curta-metragem de animação de um minuto e meio intitulado "all the way south" foi concluído pelo modelo de geração de vídeo vidu. o que originalmente levava um mês de carga de trabalho, com a adição da ia como “parceira de eficiência”, demorou apenas uma semana para produzir trabalhos excelentes – a eficiência era quatro vezes maior que a do passado.

isso fez com que chen liufang, vencedor do melhor filme na seção de curtas-metragens aigc do festival de cinema de pequim e chefe do ainimate lab ai, suspirasse: a tecnologia de geração de vídeo fez com que a animação de alto nível não fosse mais um "jogo que queima dinheiro" que apenas grandes estúdios se atrevem a tocar.

a equipe criativa da animação ai "all the way south" consiste em apenas três pessoas: um diretor, um artista de storyboard e um especialista em aplicação de tecnologia aigc. para fazê-lo utilizando processos tradicionais, são necessárias 20 pessoas. após o cálculo, só o custo de produção é reduzido em mais de 90%.

como disse wan pengfei, chefe do centro de geração visual e interação de kuaishou, a essência da geração de vídeo é amostrar e calcular pixels a partir da distribuição alvo. este método pode alcançar um maior grau de liberdade de conteúdo a um custo menor.

ao entrar na página de geração de vídeo do vidu, o autor também experimentou a liberdade da “geração com um clique”. carregue uma foto e defina-a como um "quadro inicial" ou como um "caractere de referência", insira a descrição do texto da cena que deseja gerar na caixa de diálogo, clique em "gerar" e um vídeo curto inteligente e emocionante será ser gerado automaticamente. desde entrar na página até concluir o download, leva menos de 1 minuto.

envie uma foto para o modelo de vídeo doméstico vidu e um vídeo animado será gerado automaticamente. a imagem mostra uma captura de tela do vídeo

"a era de 'todos se tornam designers' e 'todos se tornam diretores' chegará, assim como 'todos têm um microfone' no passado", disse zhang peng, ceo da zhipu ai.

"simulador mundial", há algum drama?

a geração de vídeos apenas subverterá a indústria de conteúdo? obviamente, esta não é a intenção original da openai. “gerar vídeo” é apenas um “aperitivo”.

antes do nascimento do sora, a openai não o posicionava como uma ferramenta de implementação de aigc, mas como um “contêiner” para replicar o mundo físico - um simulador de mundo. neste contêiner, funcionam as leis físicas, os comportamentos ambientais e a lógica de interação do mundo real, assim como o mundo virtual retratado em "matrix", impactando nossa imaginação e sentidos.

no entanto, o mundo físico é tridimensional, e os modelos atuais como o sora são baseados apenas em operações bidimensionais e não são motores físicos reais, portanto não há simulação profunda do mundo físico.

"durante muitos anos tenho dito que 'ver' o mundo é 'compreender' o mundo. mas agora estou disposto a levar este conceito um passo adiante e 'ver' não é apenas 'compreender', mas 'fazer '. li feifei, professor catedrático da universidade de stanford, declarou publicamente que o resultado final da inteligência espacial é conectar "ver" e "fazer".

quando “ver” não é igual a “fazer”, a criação da inteligência artificial não pode parar. recentemente, surgiram novas rotas técnicas. vocês estão perseguindo uns aos outros em rotas diferentes, avançando juntos para avançar neste mundo inteligente construído de vetores e modelos.

a futura “visão de mundo” ainda é um mistério que ainda não foi revelado. como disse o físico americano feynman: “não posso criar um mundo que não compreendo”. mas isso não significa que se você compreender um mundo, será definitivamente capaz de criar um mundo.

neste momento ainda é véspera da subversão. é por isso que quando fazemos perguntas aos exploradores de tecnologia sobre o futuro, obtemos respostas totalmente diferentes. talvez a “incerteza” seja a bênção desta época.

relatório/comentários

notícias

a ia pode “gerar” todas as coisas?

introdução

minhas informações de contato