notícias

Meio ano se passou, para onde foi o vídeo da IA?

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Foco fixo (dingjiaoone) original

Autor | Wang Lu

Editor | Wei Jia

Desde que Sora apareceu no início deste ano, as pessoas no país e no exterior queriam usar a IA para subverter Hollywood. O recente círculo de vídeos de IA tem sido lançado um após o outro, e todos estão clamando para se atualizar. Sora.

Duas startups estrangeiras de vídeo de IA estão assumindo a liderança. Luma, uma empresa de tecnologia de inteligência artificial de São Francisco, lançou o modelo de geração de vídeo Dream Machine e lançou um vídeo promocional em nível de filme. Bem conhecida na área de vídeo AI, a Runway, uma empresa iniciante, também anunciou que abrirá os testes do modelo Gen-3 Alpha para alguns usuários, dizendo que ele pode produzir detalhes como luz e sombra.

Para não ficar atrás na China, Kuaishou lançou o cliente Keling Web, que permite aos usuários gerar conteúdo de vídeo de até 10 segundos de duração, e também possui funções de controle do primeiro e do último quadro e controle da lente da câmera. Seu curta-metragem original de fantasia de IA "O Estranho Espelho das Montanhas e dos Mares: Chopping Waves" também é transmitido em Kuaishou, com todas as imagens geradas pela IA. O curta-metragem de ficção científica de IA "Sanxingdui: Future Apocalypse" também foi transmitido recentemente e produzido para o produto de vídeo de IA da Byte, Jimeng.

A rápida velocidade de atualização dos vídeos de IA fez com que muitos internautas dissessem: “Pode haver outra greve geral em Hollywood”.

Hoje, na trilha de vídeo de IA, existem gigantes nacionais e estrangeiros da tecnologia e da Internet, como Google, Microsoft, Meta, Alibaba, Byte e Meitu, bem como empresas emergentes, como Runway e Aishi Technology, de acordo com estatísticas incompletas. do "Fix Focus", apenas doméstico, cerca de 20 empresas lançaram produtos/modelos de vídeo de IA autodesenvolvidos.

Dados do Toubao Research Institute mostram que o tamanho do mercado da indústria de geração de vídeo de IA da China em 2021 é de 8 milhões de yuans, e espera-se que esse tamanho de mercado atinja 9,279 bilhões de yuans em 2026. Muitas pessoas na indústria acreditam que a trilha de vídeo gerada dará início a um momento Midjourney em 2024.

Que estágio de desenvolvimento Soras alcançou em todo o mundo? Quem é o mais forte? A IA pode derrubar Hollywood?

Cerco de Sora: Embora existam muitos produtos, poucos podem ser usados

Existem muitos produtos/modelos lançados na faixa de vídeo AI, mas aqueles que realmente podem ser utilizados pelo público são muito limitados. , o representante de destaque no exterior é o Sora, que ainda está em testes internos seis meses depois e está aberto apenas para equipes de segurança e alguns artistas visuais, designers e produtores de cinema. A situação doméstica é semelhante. O produto de vídeo de IA "Xunguang" da Alibaba Damo Academy e o modelo de vídeo de IA UniVG do Baidu estão em fase de testes internos. Quanto ao atualmente popular Kuaishou Keling, os usuários precisam fazer fila para se inscrever se quiserem usá-lo. .Isso foi discutido. Eu comprei a maioria dos produtos.

Entre os restantes produtos de vídeo de IA disponíveis, alguns estabeleceram limites de utilização e os utilizadores precisam de pagar ou conhecer certas tecnologias.Por exemplo, se você não tiver um pouco de conhecimento de código sobre Open-Sora da Luchen Technology, os usuários não conseguirão começar.

"Fix Focus" classificou os produtos de vídeo AI lançados no país e no exterior e descobriu que os métodos de operação e funções de cada um são semelhantes. O usuário primeiro usa o texto para gerar instruções e, ao mesmo tempo, seleciona o tamanho do quadro e a imagem. clareza, estilo de geração, segundos de geração e outras funções e, finalmente, cliques Gere com um clique.

A dificuldade técnica por trás desses recursos varia. O mais difícil é,A resolução e segundos do vídeo gerado, esse também é o foco da competição entre empresas na faixa de vídeo de IA durante a promoção.Está intimamente relacionado à qualidade dos materiais e à quantidade de poder computacional utilizado no processo de treinamento.

O pesquisador de IA Cyrus disse ao "Fixed Focus" que atualmente a maioria dos vídeos de IA no país e no exterior suportam a geração de 480p/720p, e alguns suportam vídeos de alta definição em 1080p.

Ele introduziu que quanto mais materiais de alta qualidade e maior o poder de computação, o modelo treinado pode gerar vídeos de maior qualidade, mas isso não significa que materiais de alta qualidade e poder de computação possam gerar materiais de alta qualidade. No entanto, se um modelo treinado com materiais de baixa resolução for forçado a gerar um vídeo de alta resolução, ele entrará em colapso ou se repetirá, como ter múltiplas mãos e pernas. Esse tipo de problema pode ser resolvido ampliando, reparando e redesenhando, mas o efeito e os detalhes são medianos.

Muitas empresas também consideram a geração de segundos longos um argumento de venda.

A maioria dos vídeos domésticos de IA suporta 2 a 3 segundos, o que é considerado um produto relativamente forte se puder atingir de 5 a 10 segundos. Existem também alguns produtos que são muito longos, como o Jimeng, que pode durar até 12 segundos, mas nenhum. deles são tão bons quanto Sora. Foi dito que o vídeo mais longo de 60 segundos é gerado, mas como ainda não está aberto para uso, o desempenho específico não pode ser verificado.

O comprimento do rolo de luz não é suficiente, o conteúdo do vídeo gerado também deve ser razoável. Zhang Heng, pesquisador-chefe da Pomegranate AI, disse a "Dingjiao": Tecnicamente, a IA pode ser obrigada a produzir o tempo todo. Não é exagero dizer que mesmo que gere um vídeo por uma hora, não é um problema, mas. na maioria das vezes o que queremos não é uma peça de vigilância. O vídeo não é uma animação de paisagem em loop, mas um curta-metragem com belas fotos e histórias.

"Fixed Focus" testou 5 produtos populares de IA de vídeo Wensheng gratuitos na China, nomeadamente Jimeng da Byte, Morph Studio da Morph AI, PixVerse da Aishi Technology, Yiying AI da MewXAI e Vega AI da Right Brain Technology, deu-lhes as mesmas instruções de texto : "Uma garotinha de vestido vermelho alimentou um coelhinho branco com cenouras no parque."

A velocidade de geração de vários produtos é semelhante, levando apenas 2 a 3 minutos, mas a clareza e a duração são bem diferentes, e a precisão é ainda mais “uma dança caótica”.


Yiying IA


Vega IA


um sonho


Transformar


Pix Verso

As vantagens e desvantagens de cada um são óbvias. Embora o jogo tenha duração curta, a qualidade do jogo não era alta. A garotinha, personagem principal, deformada diretamente nas fases posteriores, também teve o mesmo problema. A qualidade da imagem do PixVerse é relativamente baixa.

Em comparação, o conteúdo gerado pelo Morph é preciso, mas apenas por apenas 2 segundos. A qualidade da imagem de Yiying também é boa, mas ele não entende bem o texto e perde diretamente o elemento-chave do coelho, e o vídeo gerado não é realista o suficiente e tem um estilo mais cômico.

Resumindo, nenhum produto pode fornecer um vídeo que atenda aos requisitos.

Desafios de vídeo de IA: precisão, consistência, riqueza

A experiência de “foco fixo” é muito diferente dos vídeos promocionais lançados por diversas empresas. Se o vídeo AI quiser ser verdadeiramente comercializado, ainda há um longo caminho a percorrer.

Zhang Heng disse ao "Fixed Focus" que, do ponto de vista técnico, eles consideram principalmente os níveis de diferentes modelos de vídeo de IA em três dimensões:Precisão, consistência, riqueza.

Como entender essas três dimensões, Zhang Heng deu um exemplo.

Por exemplo, gere um vídeo de “duas meninas assistindo a um jogo de basquete no parquinho”.

A precisão se reflete, em primeiro lugar, na compreensão precisa da estrutura do conteúdo, por exemplo, se houver duas meninas aparecendo no vídeo, em segundo lugar, na precisão do controle do processo, por exemplo, após um arremesso, a bola de basquete deve cair gradualmente; da rede, finalmente, a modelagem de dados estáticos é precisa. Por exemplo, quando há uma obstrução na lente, a bola de basquete não pode se transformar em bola de futebol.

Consistência refere-se à capacidade de modelagem da IA ​​no espaço e no tempo, que também inclui atenção ao sujeito e atenção de longo prazo.

O foco principal pode ser entendido como, durante o processo de assistir a um jogo de basquete, as duas meninas devem estar sempre na imagem e não podem correr casualmente, a atenção de longo prazo significa que durante o exercício, os diversos elementos do vídeo; não deve ser perdido. Também não deve haver nenhuma anormalidade, como deformação.

Riqueza significa que a IA também tem sua própria lógica e pode gerar alguns detalhes razoáveis, mesmo sem avisos de texto.

Basicamente, nenhuma das ferramentas de vídeo de IA no mercado pode atingir plenamente as dimensões acima, e cada empresa está constantemente propondo soluções.

Por exemplo, em termos de consistência dos personagens, que é muito importante no vídeo, Meng e Keling pensaram em usar O Vídeo Tusheng substitui o Vídeo Vincent. Ou seja, o usuário primeiro usa o texto para gerar imagens e depois usa as imagens para gerar vídeos, ou fornece diretamente uma ou duas imagens, e a IA as conecta em um vídeo em movimento.

“Mas este não é um novo avanço tecnológico, e os vídeos Tusheng são menos difíceis do que os vídeos Vincent”, disse Zhang Heng ao “Dingzhong”. O princípio dos vídeos Vincent é que a IA primeiro analisa o texto inserido pelo usuário e o desmonta em um componente. espelhe a descrição, converta a descrição em texto e depois converta-a em imagens, e você obterá os quadros-chave intermediários do vídeo. Ao conectar essas imagens, você pode obter um vídeo contínuo com ação. O Tusheng Video equivale a dar à IA uma imagem específica que pode ser imitada, e o vídeo gerado continuará as características faciais da imagem para obter consistência do protagonista.

Ele também disse que em cenários reais, o efeito dos vídeos Tusheng está mais de acordo com as expectativas dos usuários, porque o texto tem capacidade limitada de expressar detalhes da imagem. Ter imagens como referência ajudará a gerar vídeos, mas ainda não está disponível comercialmente. Falando intuitivamente, 5 segundos é o limite superior do vídeo Tusheng. Se for superior a 10 segundos, pode não significar muito.

Atualmente, muitos curtas-metragens e filmes de televisão que afirmam usar IA em todo o processo de produção usam principalmente vídeo Tusheng ou vídeo para vídeo.

A função do último quadro de Jimeng também usa vídeo Tusheng, e o "foco fixo" foi especialmente testado. Os resultados são os seguintes:



No processo de combinação, os personagens aparecem deformados e distorcidos.

Cyrus também disse que os vídeos devem ser coerentes. Muitas ferramentas de vídeo de IA que suportam a conversão de imagem em vídeo também prevêem ações subsequentes por meio de imagens de quadro único.

Entende-se queQuando se trata de alcançar a consistência dos protagonistas da Vincent Video, cada empresa não depende apenas da geração de dados.Zhang Heng disse que a maioria dos modelos é baseada no grande modelo DIT subjacente original, sobreposto a várias tecnologias, como ControlVideo (um método controlável de geração de texto e vídeo proposto pelo Harbin Institute of Technology e Huawei Cloud), aprofundando assim a compreensão da IA ​​​​sobre o protagonista . A memória das características faciais evita que o rosto mude muito durante o movimento.

Porém, ainda está em fase experimental. Mesmo com a superposição técnica, o problema da consistência do caráter não foi totalmente resolvido.

Vídeo de IA, por que está evoluindo lentamente?

No círculo da IA, os Estados Unidos e a China são atualmente os mais populares.

Pode ser visto no relatório relevante de "Os estudiosos de inteligência artificial mais influentes do mundo em 2023" (referido como a lista "AI 2000 Scholars") que entre as 1.071 instituições que foram incluídas nas "Instituições AI 2000" globais em nos quatro anos de 2020 a 2023, os Estados Unidos têm 443, seguidos pela China com 137. A julgar pela distribuição por país dos "AI 2000 Scholars" em 2023, os Estados Unidos têm o maior número de pessoas selecionadas, com 1.079 pessoas, contabilizando por 54,0% do total global, seguida pela China com 280 pessoas selecionadas.

Nos últimos dois anos, além da IA ​​ter feito grandes progressos nas imagens e na música vicentina, os vídeos de IA, que são os mais difíceis de conseguir, também fizeram alguns avanços.

Na Conferência Mundial de Inteligência Artificial realizada recentemente, Le Yuan, parceiro da Etian Capital, declarou publicamente que a tecnologia de geração de vídeo progrediu muito além das expectativas nos últimos dois ou três anos. Liu Ziwei, professor assistente da Universidade Tecnológica de Nanyang, em Cingapura, acredita que a tecnologia de geração de vídeo está atualmente na era GPT-3 e ainda está a cerca de meio ano da maturidade.

No entanto, Leyuan também enfatizou queSeu nível técnico ainda é insuficiente para apoiar a comercialização em larga escala, as metodologias utilizadas e os desafios encontrados no desenvolvimento de aplicações baseadas em modelos de linguagem também são aplicáveis ​​em campos de aplicação relacionados a vídeo.

O surgimento do Sora no início do ano chocou o mundo. Seu novo modelo de difusão DiT baseado na arquitetura do transformador traz avanços tecnológicos em difusão e geração, melhorando a qualidade e o realismo da geração de imagens, tornando o vídeo de IA um grande avanço. Cyrus disse que atualmente, a maioria dos vídeos de Vincent no país e no exterior usam tecnologia semelhante.


Fonte da imagem/site oficial da Sora

Neste momento, todos são basicamente iguais na tecnologia subjacente. Embora cada empresa também esteja buscando avanços tecnológicos com base nisso, há mais volume de dados de treinamento para enriquecer as funções do produto.

Ao usar o Jimeng da Byte e o Morph Studio da Morph AI, os usuários podem escolher como mover o vídeo. O princípio por trás disso é que os conjuntos de dados são diferentes.

“No passado, as fotos usadas por várias empresas durante o treinamento eram relativamente simples. Elas marcavam principalmente quais elementos existiam na imagem, mas não explicavam quais lentes foram usadas para fotografar esse elemento. eles usaram 3D O conjunto de dados de renderização de vídeo complementa os recursos da lente." Zhang Heng disse que os dados atuais vêm de renderizações da indústria de cinema e televisão e de empresas de jogos.

O “foco fixo” também tentou essa função, mas a troca de lente não foi muito óbvia.

A razão pela qual Sora se desenvolveu mais lentamente que GPT e Midjourney é porque ele tem outra linha do tempo e treinar modelos de vídeo é mais difícil do que texto e imagens. "Todos os dados de treinamento em vídeo que podem ser usados ​​agora foram esgotados e também estamos pensando em algumas novas maneiras de criar uma série de dados que podem ser usados ​​para treinamento", disse Zhang Heng.

E cada modelo de vídeo de IA tem seu próprio estilo no qual é bom. Por exemplo, os vídeos de alimentação e transmissão de Kuaishou Keling são melhores porque há uma grande quantidade desse suporte de dados por trás deles.

Shen Renkui, fundador da Pomegranate AI, acredita que as tecnologias de vídeo de IA incluem Texto para vídeo (texto para vídeo), Imagem para vídeo (imagem para vídeo), Vídeo para vídeo (vídeo para vídeo) e Avatar para vídeo (humano digital), que pode ser customizado Pessoas digitais com imagem e voz têm sido utilizadas na área de marketing e atingiram o nível de uso comercial, enquanto Vincent Video ainda precisa resolver os problemas de precisão e controlabilidade.

Neste momento, seja o curta-drama de ficção científica de IA "Sanxingdui: Future Apocalypse" co-produzido por Douyin e Bona, ou o curta-drama de fantasia de IA "Mountains and Seas Strange Mirror: Cutting Waves" originalmente criado por Kuaishou, cada vez mais grandes empresas modelo estão procurando ativamente equipes de produção de cinema e televisão. Para a cooperação, é necessário promover os próprios produtos tecnológicos, e as obras não estão fora da indústria.

No campo dos vídeos curtos, a IA ainda tem um longo caminho a percorrer, e é até prematuro dizer que vai matar Hollywood.

*A imagem do título vem da Pexels.