notícias

Guerra de Geração de Vídeo 2.0!Os grandes fabricantes são loucos pelos modelos subjacentes e as start-ups atraíram 4,4 bilhões em 5 meses

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Coisas inteligentes (conta pública:zhidx com
autorbaunilha
editarLi Shuiqing

Para falar das faixas mais populares para modelos grandes em 2024, a geração de vídeos deve estar na lista.

Depois que Sora abriu uma nova era de geração de vídeo de IA em fevereiro, o intenso lançamento do modelo em junho deste ano levou a guerra de geração de vídeo a um novo clímax.

“A próxima geração de cinema e televisão com IA está aqui”, “É tão volumoso, é como se você cantasse e então a gente aparecesse”, “Finalmente há esperança de se livrar da era PPT”, “Parece que a IA será usada para produzir MVs em breve "...Entre os criadores ou profissionais de vídeo de IA, a emoção mais comum que vemos é a" excitação ".

Desde o lançamento de Sora, super8LarAs empresas nacionais e estrangeiras de IA estão lançando novos produtos ou modelos, um após o outro, gerando novos produtos a cada passo.mais de 10 segundosOs vídeos estão disponíveis publicamente e diz-se que alguns foram implementados desde2 minutosA geração de vídeo ultralongo e a trilha de geração de vídeo de IA desencadeou uma guerra 2.0 acirrada.

Por aqui,byteSeja o primeiro a lançar o produto de geração de vídeo AI Jimeng, que estende o tempo de geração de vídeo dos comuns 3-4 segundos para 12 segundos;trabalhador rápidoO grande modelo de Ke Ling foi lançado repentinamente, e o efeito impressionante gerou discussões acaloradas na Internet. O número de pessoas na fila foi próximo a 1 milhão.


▲ O número de candidatos esperando na fila por Kuaishou Keling

Lá, startupsLuma IA“Abandone a projeção de vídeo 3D” e libere Dream Machine para entrar no jogo com jogadores veteranos;PistaPara não ficar para trás, lançou uma nova geração de modelos Gen-3, elevando as suas capacidades de simulação física a novos patamares.


▲ Efeito de geração de vídeo Gen-3

No campo de batalha do financiamento, a guerra é igualmente feroz. doméstico,Tecnologia Aishi, Tecnologia ShengshuDesde março, obteve sucessivamente financiamento no exterior, no nível de bilhões;PikaEm Junho, recebeu 80 milhões de dólares em financiamento, duplicando a sua avaliação para 500 milhões de dólares.PistaFoi revelado que está a preparar um financiamento de até 450 milhões de dólares americanos.

Sora é como um blockbuster que chocou o mundo da geração de vídeos com IA. Agora, após cinco meses de intensa busca, qual é o progresso dos produtos de geração de vídeo de IA no país e no exterior? Eles podem competir com Sora? Que desafios enfrentará? Através da experiência horizontal dos produtos disponíveis e de discussões com profissionais e criadores, Zhidongxi fornece uma análise aprofundada destas questões.

Na medição real, posso sentir claramente que a velocidade de geração de vídeo se tornou mais rápida, o fenômeno de "rollover" foi bastante reduzido e o movimento panorâmico simples "estilo PPT" evoluiu para movimentos com ângulos e mudanças de movimentos. Após a experiência geral, os melhores resultados entre os produtos gratuitos são Jimeng e Keling, que são líderes em duração, estabilidade e simulação física.

Em termos de financiamento, em comparação com antes do lançamento do Sora, a densidade e o montante do financiamento relacionado com a geração de vídeo de IA aumentaram significativamente, atraindo mais de 4,4 mil milhões em cinco meses. Também impulsionou outros produtos no "upstream e downstream". do processo de produção de vídeo, como edição de IA, iluminação de IA, etc., são favorecidos pelo capital. Além disso, há muitos novos jogadores entrando no jogo, e alguns levantaram centenas de milhões de fundos antes de lançar qualquer produto ou tecnologia.

1. Batalha técnica: duração do rolo, rolo de alta definição, simulação de física do rolo

Em 16 de fevereiro, a OpenAI lançou o Sora, que derrubou o caminho da geração de vídeo da IA ​​​​da noite para o dia. No entanto, cinco meses depois, Sora ainda é um produto futuro e parece distante quando estará disponível ao público em geral.

Durante este período, os principais fabricantes e start-ups nacionais e estrangeiros correram para lançar novos produtos ou atualizações de modelos, e a maioria deles foi aberta a todos os usuários. Muitos deles têm resultados surpreendentes. geração novamente. Afinal, não importa o quão bom Sora seja, qual é o valor se você não puder usá-lo?

De acordo com estatísticas incompletas de Zhidongxi, desde o lançamento de Sora, houve pelo menos8 casasA empresa lançou novos produtos ou modelos, dos quais todos, exceto Vidu da Shengshu TechnologyDisponível publicamente


▲ Lançamento de produto/atualização de modelo de geração de vídeo AI (tabulação inteligente leste-oeste)

21 de fevereiro,Estabilidade IA A versão web do produto de geração de vídeo AI Stable Video foi lançada oficialmente e está aberta a todos os usuários. Embora seu modelo subjacente, Stable Video Diffusion, tenha sido lançado como código aberto em novembro do ano passado, ele ainda tem certos limites de implantação e uso como modelo. Depois de ser empacotado e lançado como uma versão web, mais usuários podem começar de forma fácil e conveniente.

27 de abril,Tecnologia ShengshuEm conjunto com a Universidade de Tsinghua, a Vidu lançou um grande modelo de vídeo de longa duração, altamente consistente e altamente dinâmico, que é capaz de gerar vídeos de até 16 segundos de duração e com resolução de 1080P, e pode imitar o mundo físico real. .

A julgar pela demo lançada, o Vidu realmente alcançou bons resultados em termos de clareza, amplitude de movimento, simulação física, etc. No entanto, infelizmente, o Vidu, assim como o Sora, ainda não foi lançado. Zhidongxi perguntou à Shengshu Technology e soube que o produto iniciará testes internos em um futuro próximo.


▲ Vídeo de demonstração da tecnologia Shengshu Vidu

9 de maio,byteDreamina, a plataforma de criação de IA de propriedade da Jiuying, foi renomeada como "Jimeng" e lançou funções de desenho de IA e geração de vídeo de IA, suportando a geração de vídeos de até 12 segundos de duração.

6 de junho,trabalhador rápido O grande modelo de vídeo AI Keling é lançado e lançado no aplicativo Kuaiying. Os usuários só precisam preencher um questionário para se inscrever para uso. O Keling Large Model concentra-se na simulação de alta intensidade das características do mundo físico, como o problema de “comer macarrão” que confunde muitas IAs, que se refletem nos casos de vídeo que ele fornece.

Atualmente, Keling suporta a geração de vídeos com duração fixa de 5 segundos e 10 segundos. Segundo seu site oficial, o modelo pode gerar um vídeo de até 2 minutos, com taxa de quadros de 30fps e resolução de 1080P. Funções como continuação de vídeo serão lançadas futuramente.

Em 13 de junho, uma startup que anteriormente se concentrava principalmente em 3D gerado por IALuma IAAnunciou o lançamento da ferramenta de geração de vídeo Dream Machine, que suporta a geração de vídeos de 5 segundos a partir de texto e imagens. Também oferece uma função de extensão de vídeo que pode estender o vídeo gerado em 5 segundos por vez.

17 de junho,Pista A versão Alpha do modelo de nova geração Gen-3 é lançada e estará disponível para todos os usuários pagos em 2 de julho, com uma taxa de assinatura mínima de US$ 15 por mês. Gen-3 atualmente suporta a geração de vídeos de 5 e 10 segundos baseados em texto Tusheng Video e outras ferramentas controláveis ​​​​ainda não estão disponíveis.


▲ Gen-3 Alpha gera efeitos de vídeo

6 de julho,Futuro inteligente(HiDream) lançou o Intelligent Image Model 2.0 no WAIC, fornecendo três durações de geração de vídeo de 5, 10 e 15 segundos e adicionando recursos como geração de incorporação de texto, geração de vídeo multi-shot de script e consistência de IP.

Em 17 de julho, uma startup britânica de IA que anteriormente se concentrava na reconstrução de IA 3DHaiper IA, anunciou que seu produto de geração de vídeo AI Haiper foi atualizado para v1.5, com duração estendida para 8 segundos e fornecendo funções como extensão de vídeo e aprimoramento de qualidade de imagem.

A tabela a seguir mostra o tempo de geração, resolução, taxa de quadros e outros parâmetros desses modelos, bem como recursos adicionais além da geração básica.


▲ Parâmetros de produto de geração de vídeo de IA atualizados (tabulação inteligente leste-oeste)

Do ponto de vista dos parâmetros, esses produtos de geração de vídeo de IA alcançaram pela primeira vez um progresso significativo no tempo de geração. O tempo de geração básico foi estendido dos 2 a 4 segundos anteriores para 5 segundos, e mais da metade deles suporta durações superiores a 10. segundos e alguns O produto fornece funcionalidade de extensão. Entre os produtos atualmente disponíveis gratuitamente, o vídeo mais longo gerado é de 12 segundos por Jimeng.

Em termos de efeitos visuais, a resolução e a taxa de quadros foram bastante melhoradas. Existem mais produtos que suportam 720P e superiores, e a taxa de quadros também está mais próxima de 24/30fps. 576, e a taxa de quadros estava em torno de 1024*576. A taxa é principalmente de 8-12fps.

2. Guerra de produtos:Teste prático6 "spots" gratuitos, "Dikkuai" lidera

Quando Sora foi lançado pela primeira vez, Zhixixi tinha uma experiência profunda com 8 ferramentas de geração de vídeo de IA disponíveis na China. Naquela época, a lacuna ainda era relativamente óbvia e havia muitos "rollovers". (A primeira "versão chinesa do Sora" em toda a rede foi analisada! 15 empresas competiram, com a Byte liderando)

Então, depois de vários meses de atualizações iterativas, como está o desempenho dos jogadores que enviaram novas respostas? Zhidongxi experimentou os produtos de geração de vídeo AI recém-lançados ou atualizados. Por uma questão de justiça, apenas testamos os recursos gratuitos e selecionamos os vídeos gerados pela primeira vez.

Deve-se notar que a geração de vídeo em si possui um elemento de sorte semelhante ao “desenhar cartas”, e também está intimamente relacionado à escrita de palavras imediatas, portanto, um pequeno número de casos não representa totalmente a habilidade do modelo.

Eu escolhi o primeiro nívelcena de natureza morta, a palavra imediata é:Close-up de tulipas banhadas pela luz quente do pôr do sol

O Vídeo Estável mostra alta estabilidade neste prompt e, ao mesmo tempo, a clareza da imagem e a riqueza das cores são relativamente altas. Em termos de movimento, o movimento da lente é o foco principal.


▲ Vídeo estável gera vídeos

A clareza da imagem do Dream Machine obviamente diminuiu um pouco, mas o desempenho das palavras imediatas ainda é relativamente preciso, e o movimento também é baseado principalmente na tradução da lente.


▲Dream Machine gera vídeos

O vídeo gerado pelo Haiper tem bons efeitos visuais, mas a amplitude de movimento é um pouco menor.


▲Haiper gera vídeos

O desempenho do modelo grande de Zhixiang também é bom e a imagem tem um forte efeito de profundidade de campo. No entanto, se você olhar atentamente para as pétalas, descobrirá que há defeitos nos detalhes e instabilidade.


▲ Vídeo de geração de modelo grande Zhixiang

Ji Meng gerou uma imagem de lente fixa, com o movimento dominado principalmente pelo tremor das tulipas, e o efeito geral foi relativamente estável.


O vídeo gerado por Keling mostra a palavra “close-up” ao extremo. Ao mesmo tempo, a imagem tem alta definição e retrata a textura das pétalas. Mas dito isto, como entender “close-up de tulipas” não é uma questão com resposta fixa, por isso é impossível dizer quem está certo e quem está errado.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling gera vídeos

No geral, o desempenho de vários reprodutores em cenas de naturezas mortas é muito estável e a usabilidade dos vídeos gerados é muito alta.

Eu escolhi o segundo nívelcena animale elementos adicionados de estilização e ação dinâmica As palavras de alerta são:Um canguru de desenho animado dançando discoteca . Na verdade, este é um dos casos fornecidos por Sora. Primeiro, vamos dar uma olhada na prova de Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora gera vídeo case

O vídeo estável "chegou à rua" neste nível. O primeiro quadro da imagem é perfeito - isso pode estar relacionado ao caminho escolhido pelo Stable Video ao gerar o vídeo. Durante o processo de geração, ele primeiro gerará 4 imagens para o usuário escolher e depois gerará o vídeo com base no. imagem selecionada pelo usuário - e então o canguru Todo o seu corpo começou a se torcer e se deformar.

O que é mais interessante é que os personagens e animais antropomórficos no fundo da imagem não têm muitos problemas. Eu me pergunto se foi a ação da “dança discoteca” que surpreendeu o Stable Video.


▲ Vídeo estável gera efeitos de vídeo

A estabilidade geral do vídeo gerado pelo Dream Machine é boa, mas falta estabilidade em detalhes como os pés e as mãos do canguru. Em termos de amplitude de movimento, além do movimento do próprio canguru, ele também passa por uma transição de lente do close-up para o panorama.

Tentei novamente a função de extensão de vídeo do Dream Machine e o conteúdo gerado pela extensão é 5 segundos após o vídeo. Percebe-se que não se limita a uma única tomada, mas passa de um plano de corpo inteiro para um close-up da parte superior do corpo. Porém, no vídeo estendido, embora os personagens ao fundo sejam mais estáveis, o canguru fica ainda mais instável.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲ Dream Machine gera efeitos de vídeo

O canguru gerado pelo Haiper está até certo ponto distorcido e não reflete a palavra-chave “discoteca”.


▲Haiper gera vídeos

O grande modelo de Zhixiang tombou seriamente neste nível. Assim como o Stable Video, o corpo principal da imagem estava muito distorcido e não refletia o efeito “disco”.


▲ O modelo de elefante inteligente gera efeitos de vídeo

O efeito visual geral do vídeo gerado por Jimeng é relativamente bom, com alta clareza e cores ricas. Em termos de estabilidade, foi relativamente normal nos primeiros segundos, mas a distorção óbvia ocorreu nos últimos 3 segundos ou mais, e o grau de distorção foi semelhante ao do Dream Machine.

Em termos de compreensão semântica, a imagem mostra certos movimentos “dançantes”, mas pouco tem a ver com “discoteca”. Além disso, o texto no fundo da imagem parece “símbolos de desenho fantasma”.

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲ Efeitos de vídeo gerados por sonhos

Os vídeos gerados por Keling são relativamente estáveis ​​em geral, e os principais problemas estão concentrados nas mãos e nos olhos. Mas em termos de compreensão semântica, a palavra-chave “disco” não se reflete.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Pode ser usado para gerar efeitos de vídeo

No geral, Dream Machine, Ji Meng e Ke Ling tiveram melhor desempenho neste nível, mas nenhum deles conseguiu atingir o nível de Sora. Além disso, esta palavra de alerta também mostra as diferenças estéticas de cada modelo, incluindo tendência de cor, escolha de estilo, troca de lentes, etc.

O terceiro nível está definido paraClose do personagem, as palavras de alerta usadas são:Close de um astronauta flutuando fora da estação espacial com a Terra e a Lua ao fundo e estrelas refletidas na viseira de seu capacete

O Vídeo Estável teve um bom desempenho neste nível, representando com precisão palavras-chave como “astronauta”, “terra”, “lua” e “reflexo de estrela”, e sua estabilidade também foi muito alta. Em termos de movimento, não se trata de uma simples translação da lente, mas do movimento do sujeito da imagem em relação ao fundo.


▲ Vídeo estável gera vídeos

Dream Machine virou, esquecendo completamente o “astronauta” e pintou uma cena cósmica.


▲Dream Machine gera vídeos

Haiper teve um bom desempenho neste nível, embora “lua” tenha sido perdida, outras palavras-chave foram refletidas, e o reflexo no capacete também foi muito natural.


▲Haiper gera vídeos

O grande modelo de Zhixiang inicialmente recusou-se a gerar a palavra de alerta, indicando que havia conteúdo confidencial. Depois de muitos cortes, finalmente gerei um vídeo com “um close de um homem flutuando fora da estação espacial”.

O efeito geral da imagem é relativamente realista, embora a palavra final contenha apenas a palavra-chave "estação espacial" que reflete o conteúdo, ela ainda retrata elementos como a Terra e os trajes espaciais. Porém, o protagonista não usa capacete espacial, e não sabe respirar ou mesmo falar (doge).


▲ O modelo de elefante inteligente gera efeitos de vídeo

Ji Meng é relativamente bom em retratar os detalhes dos personagens. Os rostos e figurinos são relativamente delicados e a estabilidade é muito alta. No entanto, parece haver uma segunda “Terra” no fundo da imagem. é mais "close-up" do que "close-up".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲ Vídeo imediato de geração de sonhos

A princípio não havia personagens no vídeo gerado por Keling, e então o astronauta entrou lentamente na cena, mas o fundo estava parado, o que parecia ter um toque de humor. No entanto, a precisão e a estabilidade da imagem em si ainda são muito altas, refletindo todas as palavras-chave e também representando a “estação espacial” que alguns jogadores perderam.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling gera vídeos

Embora o desempenho geral do nível do personagem não seja tão estável quanto a cena de natureza morta, é muito melhor do que o nível anterior. Isso pode estar relacionado aos ricos dados de treinamento e à pequena amplitude de movimento. Os que apresentam melhor desempenho neste nível são Stable Video, Haiper, Ji Meng e Ke Ling.

No geral, entre os 6 produtos de geração de vídeo AI que Zhidongxi experimentou desta vez,Sonho, espírito A vantagem do efeito de geração é relativamente óbvia, tanto em termos de duração como de estabilidade, tendo alcançado boas capacidades. Além disso, produtos nacionais como Morph Studio e NeverEnds também são muito eficazes, mas como não tiveram novos produtos ou atualizações de modelo desde o lançamento do Sora, não estão no âmbito desta experiência.

3. A batalha pelo capital:5Lucro mensal44bilhões, novos players emergem

Quando Sora foi lançado, mais uma vez desencadeou uma mania de IA generativa, assim como o GPT-4 original, acionando o limite diário coletivo de ações conceituais da Vincent Video.

O mercado primário também está inaugurando uma nova onda de carnaval.De acordo com estatísticas incompletas de Zhidongxi, nos cinco meses desde que Sora foi libertado, pelo menos5Uma startup na faixa de geração de vídeo AI venceuMais de 100 milhões de yuansFinanciamento, totalizando aproximadamente 1,2 bilhão de yuans, e a Runway revelou estar negociando US$ 450 milhões (aproximadamente RMB 3,268 bilhões) em novos financiamentos.


▲ Grande investimento e financiamento relacionado à geração de vídeo de IA (tabulação inteligente leste-oeste)

doméstico,Tecnologia AishiLevantou fundos de dois bilhões de dólares em março e abril, respectivamente, e foi favorecido por investidores conhecidos como Ant. Anteriormente, só recebeu uma rodada anjo de financiamento no valor de dezenas de milhões de yuans em agosto do ano passado.

Em janeiro deste ano, a Aishi Technology lançou a versão internacional de seu produto de geração de vídeo AI PixVerse. Naquela época, ele se tornou um poderoso azarão competindo com Pika e Runway. Depois que Sora foi lançado, seu fundador, Wang Changhu, disse uma vez que ele se recuperaria dentro de 3 a 6 meses.

Cinco meses se passaram e a Aishi Technology ainda não lançou uma atualização iterativa do modelo subjacente, mas lançou sucessivamente novos recursos, como consistência de caracteres e pincéis de movimento. Zhidongxi perguntou sobre o progresso de seu produto e soube que seu modelo de nova geração e novas funções "Vincent Vídeo Longa-Metragem” será lançado esta semana e pode gerarDuração 8 segundosvídeos e podeGere de 3 a 5 vídeos de áudio contínuos de uma só vez


▲PixVerse lança função de pincel de movimento (Fonte: Aishi Technology)

Tecnologia Shengshu Também recebeu duas rodadas consecutivas de financiamento no valor de centenas de milhões de yuans em apenas três meses, com a Baidu Venture Capital continuando a investir como antigo acionista. Anteriormente, a Shengshu Technology recebeu 2 rodadas de financiamento com um total acumulado de mais de 100 milhões de yuans.

Areia IA É uma startup que acaba de chegar aos olhos do público recentemente e ainda não possui lançamentos de produtos. Em 10 de julho, foi revelado que a Sand AI recebeu dezenas de milhões de dólares em financiamento da Série A liderado pela Capital Today em maio.

A Sand AI foi fundada em outubro de 2023 e desenvolve principalmente tecnologia de geração de vídeo semelhante à Sora.Vale ressaltar que seu fundadorCao YuesimUm dos co-fundadores da Light Years Beyond, atuou como chefe do Centro de Pesquisa de Modelos Visuais do Instituto de Pesquisa Zhiyuan AI de Pequim e pesquisador líder da Microsoft Research Asia.

Informações públicas mostram que Cao Yue se formou na Universidade de Tsinghua com graduação e doutorado. Ele ganhou o Prêmio Marr de melhor artigo na ICCV, a principal conferência de visão computacional, e foi citado mais de 40.000 vezes no Google Scholar.


▲Cao Yue (fonte da imagem de sua página pessoal)

Haiper IA É também uma startup nova na indústria de geração de vídeo. A empresa foi fundada em 2022 e está localizada em Londres, Inglaterra. Anteriormente, ela se concentrava na reconstrução 3D baseada em IA.

De acordo com relatos da mídia estrangeira em março, a Haiper AI recebeu US$ 13,8 milhões (aproximadamente RMB 100 milhões) em financiamento inicial, tendo anteriormente arrecadado US$ 5,4 milhões em abril de 2022.

A equipe fundadora da Haiper AI é composta por dois chineses, Yishu Miao que já atuou na equipe global de confiança e segurança da TikTok, e Ziyu Wang trabalhou como cientista pesquisador na DeepMind. No final do ano passado, a equipe da Haiper AI decidiu se concentrar na geração de vídeo e lançou uma versão beta de seu primeiro produto de geração de vídeo de mesmo nome em dezembro.


▲Haiper lança uma versão beta de seu produto de mesmo nome

Pika Em Junho, anunciou que tinha recebido uma nova ronda de financiamento de aproximadamente 80 milhões de dólares (aproximadamente 581 milhões de RMB), com a sua avaliação a duplicar para quase 500 milhões de dólares. Em Novembro do ano passado, a Pika anunciou que tinha concluído um financiamento total de 55 milhões de dólares, com uma avaliação de 200-300 milhões de dólares.

2 de julho, "Player antigo" da faixa de geração de vídeo AIPistaFoi revelado que está a negociar um novo financiamento de 450 milhões de dólares (cerca de 3,268 mil milhões de RMB), com uma avaliação de 4 mil milhões de dólares.

O último financiamento da Runway foi concluído em junho do ano passado. Os investidores incluem Google, NVIDIA, etc., e atingiram US$ 1,5 bilhão em financiamento com US$ 141 milhões, elevando o financiamento total para US$ 237 milhões. Se esta ronda de financiamento for concretizada, tanto o montante do financiamento como a avaliação mais do que duplicarão.

De um modo geral, nos últimos meses após o lançamento do Sora, novos financiamentos de geração de vídeo de IA continuaram a aparecer no mercado primário. Não só a frequência se tornou mais frequente, mas o montante também aumentou significativamente. excedeu o financiamento total anterior. Mesmo que algumas startups não tenham lançamentos de produtos ou atualizações de modelos, isso não impede o entusiasmo dos investidores.

4. 150 dias de guerra de vídeo de IA, de “PPT” a “vídeo” real

Durante os 150 dias de "invisibilidade" de Sora, sob o "cerco" de muitos grandes fabricantes e startups, a lacuna entre os principais produtos de geração de vídeo de IA e Sora foi bastante reduzida, e há um ponto crucial -Pronto para usar, e até mesmo muitos recursos ainda são gratuitos.

Atualmente, o produto principal de geração de vídeo com IA alcançou boa duração e estabilidade, e o foco da próxima iteração é a simulação física. A julgar pelas demos exibidas oficialmente, Gen-3, Keling, Jimeng e Vidu simulam o mundo real em alto grau, e os casos exibidos são quase os mesmos divulgados por Sora.

Então, da perspectiva do criador, como é a experiência atual do produto?

recentemente,Diretor e criador de cinema e televisão de IA, Chen Kun(Xianren Yikun) produziu um remake do trailer de seu curta-drama de IA "Mountains and Seas" e comparou-o com a versão original.

Na estreia da curta peça, ele disse a Zhixixi e a outros meios de comunicação que o progresso da IA ​​​​em meio ano ainda é muito óbvio, especialmente emsimulação de físicaEm termos de aspectos, na sua opinião, foi alcançado "intergeracional"Iteração. Especificamente, neste estágio, modelos de geração de vídeo como Keling alcançaram alta definição nativa e não são mais movidos por conteúdo de imagem fatiado. Os principais movimentos do corpo são razoáveis, a gama de movimentos não é apenas grande, mas suave, e eles respondem positivamente às palavras imediatas Mas, ao mesmo tempo, a tecnologia de geração de vídeo de IA ainda enfrenta vários pontos problemáticos importantes: consistência dos personagens, consistência da cena, desempenho dos personagens, interação de ação e amplitude de movimento.


▲ Comparação entre o remake e o trailer original do trailer de "Mountains and Seas"

Do ponto de vista da aplicação, a IA ainda está em processo de atualização do cinema e da televisão tradicionais em cenas como a produção de cinema e televisão.

Em um processo de produção completo, a IA ainda é um meio auxiliar e não a ferramenta principal, como roteiros, dublagem, edição, pós-produção, etc.

No entanto, em termos de custo, incluindo o índice de eficiência humana, os processos baseados em IA foram bastante comprimidos, atingindo o nível dos processos de produção tradicionais.Abaixo de 1/4


▲ Chen Kun foi entrevistado na exibição

No WAIC 2024,Xie Xuzhang, cofundador da Aishi TechnologyTan disse que o que chamamos de "geração de vídeo" agora é na verdade apenas a geração de materiais de vídeo, que é apenas uma pequena parte do processo completo de produção de vídeo. Não há som, edição, transições, roteiros, etc., seja de um vídeo. perspectiva técnica ou de negócios, há um longo caminho a percorrer.

Esta é também outra direção importante para o desenvolvimento de vídeo de IA, além de continuar a iterar o modelo subjacente para superar os problemas existentes na geração de vídeo.

Existem também muitas empresas no mercado que estão experimentando diversos processos de produção de vídeo e também são favorecidas pelo mercado primário.Só na última semana, surgiram ferramentas de edição de vídeo com tecnologia de IALegendas, o ambiente virtual de IA fornece ferramentas de iluminação e composiçãoabelhaRecebeu US$ 60 milhões e US$ 4,75 milhões em financiamento, respectivamente.

Conclusão:IAGeração de vídeo, esperando por umMomento GPT-4

O lançamento do Sora despertou o entusiasmo de equipas e empresários nacionais e estrangeiros. No entanto, no geral ainda se encontra numa fase inicial, o percurso técnico ainda não atingiu um consenso e os efeitos gerados ainda estão longe dos padrões comerciais. Quanto ao estágio específico, muitas pessoas na indústria o comparam aos estágios iniciais dos modelos de linguagem e imagem, como a "era GPT-3", "vésperas de 2022 para geração de imagens", etc.

Mas o que é certo é que a tecnologia de geração de vídeo por IA está a desenvolver-se a um ritmo exponencial e novos produtos e tecnologias são constantemente lançados. Embora existam alguns pontos problemáticos e desafios técnicos, com a iteração da tecnologia e a promoção do mercado, espera-se que este campo alcance mais avanços e aplicações.

A guerra de geração de vídeos de IA não é apenas uma competição de tecnologia, mas também uma competição de capital. Teremos que esperar e ver quem rirá por último nesta tempestade de ganhar dinheiro.