Alibaba lança "versão de Sora da Magic Pen Ma Liang", que faz os gatos se virarem com apenas um toque, 20 vídeos de demonstração e 10 páginas de relatório técnico

Alibaba lançou a "versão Magic Pen Ma Liang de Sora", que faz os gatos se virarem com apenas um toque, 20 vídeos de demonstração e 10 páginas de relatórios técnicos

2024-08-03

Coisas inteligentes (conta pública:zhidx com）
autor baunilha
editar Li Shuiqing

O campo da geração de vídeo por IA está crescendo e novos produtos de vídeo, como Wensheng e Tusheng, no país e no exterior, estão surgindo em um fluxo interminável. Devido à “involução” dos grandes fabricantes, o atual modelo de geração de vídeo está próximo do efeito “falso e real” em todos os aspectos.

Mas, ao mesmo tempo, a precisão e a capacidade de seguir as instruções da maioria dos modelos de geração de vídeo ainda precisam ser melhoradas. A geração de vídeos ainda é um processo de "cartão de desenho", que muitas vezes exige que os usuários gerem muitas vezes para obter resultados que atendam às suas necessidades. . Isso também causa problemas como custos excessivos de energia computacional e desperdício de recursos.

Como melhorar a precisão da geração de vídeos, reduzir o número de “cartões de desenho” e utilizar o mínimo de recursos possível para obter vídeos que atendam às necessidades?

Zhidongxi informou em 3 de agosto que a equipe do Alibaba lançou recentementeModelo de geração de vídeo Tora, pode ser baseado emFaixas, imagens, textoOu uma combinação deles, gere rapidamente vídeos precisos de controle de movimento com apenas alguns movimentos e também suportaPrimeiro e último controle de quadro, levando a controlabilidade da geração de vídeo a outro nível.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Torá éO primeiro modelo de estrutura DiT orientado para trajetória, aproveitando a escalabilidade do DiT, o movimento do objeto gerado pelo Tora pode não apenas seguir com precisão a trajetória, mas também simular efetivamente a dinâmica do mundo físico. O artigo relacionado foi publicado no arXiv em 1º de agosto.

▲ Papel Tora

Atualmente, a Tora fornece apenas demonstrações em vídeo, e a página inicial do projeto mostra que lançará demonstrações on-line e códigos de inferência e treinamento no futuro.

Endereço do papel:

https://arxiv.org/abs/2407.21705

endereço do projeto:

https://ali-videoai.github.io/tora_video/

1. Três entradas de combinação modal para controlar com precisão as trajetórias de movimento

Suporte ToráFaixas, texto, imagensAs três modalidades, ou suas entradas combinadas, permitem o controle dinâmico e preciso do conteúdo de vídeo de diferentes durações, proporções e resoluções.

A entrada da trajetória pode ser uma variedade de linhas retas e curvas, que possuem direções, e múltiplas trajetórias em diferentes direções também podem ser combinadas. Por exemplo, você pode usar uma curva em forma de S para controlar a trajetória de um objeto flutuante e usar descrições de texto para controlar sua velocidade. No vídeo abaixo, as palavras usadas usam advérbios como "lento", "elegante" e "suavemente".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajetória.mp4

A mesma trajetória também pode se mover repetidamente sobre um eixo, criando uma imagem que balança para frente e para trás.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Faixa de ida e volta.mp4

Desenhar diferentes trajetórias na mesma imagem também permite que a Tora gere vídeos com diferentes direções de movimento.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same imagem.mp4

Com base na mesma entrada de trajetória, Tora irá gerar diferentes modos de movimento com base nas diferenças entre os sujeitos.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

O que difere da função de pincel de movimento comum atual é que mesmo que não haja imagem de entrada, o Tora pode gerar o vídeo correspondente com base na combinação de trajetória e texto.

Por exemplo, os dois vídeos 1 e 3 do vídeo abaixo são gerados sem frames iniciais, apenas trajetórias e texto.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora também suporta controle de primeiro e último quadro, mas este caso só aparece no papel como uma imagem e nenhuma demonstração em vídeo é fornecida.

▲ Tora primeiro e último controle de quadro

Então, se houver apenas duas entradas modais de texto e imagem, o mesmo efeito pode ser alcançado? Com essa questão em mente, tentei alimentar os mesmos quadros iniciais e palavras de alerta em outros geradores de vídeo de IA.

Da esquerda para a direita e de cima para baixo no vídeo abaixo estão os vídeos gerados por Tora, Vidu, Qingying e Keling. Pode-se observar que quando a trajetória é reta, a geração de vídeo sem entrada de trajetória mal atende aos requisitos.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Mas quando a trajetória de movimento necessária se torna uma curva, a entrada tradicional de texto + imagem não consegue atender à demanda.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Com base emOpenSoraFramework, dois módulos inovadores de processamento de movimento

Tora adotadaOpenSoraComo modelo básico de arquitetura DiT, OpenSora é uma estrutura de modelo de geração de vídeo projetada e de código aberto pela startup de IA Luchen Technology.

Para obter geração de vídeo de controle de trajetória baseada em DiT, a Tora apresenta dois novos módulos de processamento de movimento:Extrator de trajetória（Trajectory Extractor） efusão de orientação de movimento(Fusor de orientação de movimento), usado para codificar a trajetória fornecida em patches de movimento espaço-temporal de vários níveis.

A figura abaixo mostra a arquitetura geral do Tora. Esta abordagem é consistente com a escalabilidade do DiT, permitindo a criação de vídeos de alta resolução controlados por movimento que duram mais tempo.

▲ Arquitetura geral da Tora

em,Extrator de trajetóriaUsando um VAE de movimento 3D (autoencodificador variacional), o vetor de trajetória é incorporado no mesmo espaço latente que os patches de vídeo, o que pode reter efetivamente as informações de movimento entre quadros consecutivos e, em seguida, camadas convolucionais empilhadas são usadas para extrair recursos de movimento hierárquicos.

fusão de orientação de movimentoEm seguida, uma camada de normalização adaptativa é usada para inserir perfeitamente essas condições de movimento multinível nos blocos DiT correspondentes para garantir que a geração de vídeo sempre siga a trajetória definida.

Para combinar a geração de vídeo baseada em DiT com trajetórias, os autores exploraram três variantes da arquitetura de fusão, injetando patches de movimento em cada bloco STDiT, com Adaptive Norm demonstrando o melhor desempenho.

▲ Três projetos arquitetônicos de dispositivo de fusão de orientação de movimento

Durante o processo de treinamento específico, o autor adotou diferentes estratégias de treinamento para diferentes condições de entrada.

No treinamento de trajetória, Tora usa um método de treinamento de dois estágios para aprendizado de trajetória. O primeiro estágio extrai o fluxo óptico denso do vídeo de treinamento. O segundo estágio seleciona aleatoriamente de 1 a N objetos do fluxo óptico com base nos resultados da segmentação de movimento e no fluxo óptico. as pontuações das trajetórias são finalmente refinadas aplicando um filtro gaussiano.

No treinamento de imagens, o Tora segue a estratégia de mascaramento adotada pelo OpenSora para suportar o ajuste visual. Os quadros são desbloqueados aleatoriamente durante o processo de treinamento. Os patches de vídeo dos quadros não mascarados não são afetados por nenhum ruído, o que permite ao Tora integrar texto, imagens e trajetórias sem qualquer ruído. ruído perfeitamente integrado em um modelo unificado.

Ao comparar quantitativamente com modelos avançados de geração de vídeo controláveis por movimento, o Tora tem uma vantagem crescente de desempenho sobre os métodos baseados em UNet à medida que o número de quadros gerados aumenta, mantendo uma maior estabilidade de controle de trajetória.

▲Comparação entre Tora e outros modelos de geração de vídeo controláveis

Por exemplo, com base na mesma entrada, o vídeo gerado pelo Tora é mais suave do que o gerado pelos modelos DragNUWA e MotionCtrl e segue a trajetória do movimento com mais precisão.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Vídeo de comparação.mp4

3. “Futuros” foram realizados e o Alibaba continua a fazer planosIAvídeo

Os players de geração de vídeo de IA estão em pleno andamento e o Alibaba tem sitiado continuamente a faixa de vídeo de IA. Comparado com Sora e outros modelos gerais que se concentram na duração e qualidade da geração de vídeo, o projeto da equipe do Alibaba parece se concentrar mais na aplicação específica do algoritmo em diferentes formas de geração de vídeo.

Em janeiro deste ano, Tongyi Qianwen lançou o "National Dance King" e ficou famoso com "Terracotta Warriors and Horses Dance Subject 3"; em fevereiro, o Alibaba lançou o quadro de geração de vídeo de retrato EMO, que pode fazer as pessoas na foto aparecerem; com apenas uma foto.

Naquela época, Zhidongzhi contou o layout do Alibaba em vídeos de IA e descobriu que havia lançado pelo menos 7 novos projetos em quatro meses, cobrindo vídeos de Vincent, vídeos de Tusheng, dança de personagens, conversas de retratos, etc. (A IA doméstica de nível divino aparece! Gao Qiqiang se transforma em Luo Xiang, Cai Xukun se torna o Rei do Rap e se liga a Sora)

Agora, meio ano depois, o EMO passou de uma função de “futuros” para uma função de “canto e performance nacional” no Tongyi App, disponível para todos. O Alibaba também lançou mais projetos de vídeo de IA.

1、AtomoVídeo: Geração de imagem para vídeo de alta fidelidade

AtomoVideo foi lançado em 5 de março. É uma estrutura de vídeo Tusheng de alta fidelidade baseada na injeção de imagem multigranularidade e conjuntos de dados e estratégias de treinamento de alta qualidade, podendo manter alta fidelidade entre o vídeo gerado e a imagem de referência fornecida. alcançando intensidade de exercício rica e boa consistência de tempo.

▲AtomoVideo gera efeitos de vídeo

Página inicial do projeto:https://atomo-video.github.io/

2、EasyAnimate-v3:Imagem única+Gere vídeos longos de alta resolução a partir de texto

EasyAnimate é um processo de processamento de geração de vídeo lançado pela Alibaba em 12 de abril e iterado para a versão v3 em apenas 3 meses. Introduz um módulo de movimento estendendo o framework DiT, que aprimora a capacidade de capturar dinâmica temporal e garante a suavidade e consistência dos vídeos gerados. Pode gerar vídeos de cerca de 6 segundos com diferentes resoluções e taxa de quadros de 24fps.

▲ EasyAnimate v3 gera efeitos de vídeo

Página inicial do projeto:https://github.com/aigc-apps/EasyAnimate

Conclusão:IAA geração de vídeo agora é mais controlável

Quando a duração e a qualidade da geração de vídeo por IA atingirem um determinado nível, como tornar os vídeos gerados mais controláveis e mais alinhados às necessidades é uma proposta importante no momento.

Com a otimização contínua da precisão, controlabilidade e eficiência na utilização de recursos, a experiência de uso de produtos de geração de vídeo de IA dará início a uma nova etapa, e o preço se tornará mais acessível, permitindo a participação de mais criadores.

notícias

Alibaba lançou a "versão Magic Pen Ma Liang de Sora", que faz os gatos se virarem com apenas um toque, 20 vídeos de demonstração e 10 páginas de relatórios técnicos

Introdução

minhas informações de contato