Deixe o vídeo AI entrar na era do "GC universal", esta empresa chinesa acaba de fazer isso

2024-07-24

A casa originou-se do Templo Aofei
Qubits | Conta pública QbitAI

Limite mais baixo, qualidade mais alta, mais lógica e duração mais longa.

Essas poucas "atualizações" foram lançadas esta manhãNovo produto de vídeo doméstico de IA PixVerse V2, o calor aumentou rapidamente.

E suas origens chamam a atenção:

Da startup estrela nacional mais assistida neste caminhoTecnologia Aishi, só no primeiro semestre deste ano, a empresa concluiu duas rodadas de financiamento.

Vamos dar uma olhada diretamente nas principais “novas ideias” do Pixverse V2:

Tecnologia de modelo, adota a arquitetura DiT (Diffusion+Transformer) e usa tecnologia original em muitos aspectos para melhorar significativamente o efeito de geração.

Por exemplo, a introdução de um mecanismo de atenção espaço-temporal pode proporcionar uma geração de vídeo maior e mais natural.

Vamos dar uma olhada na pequena alpaca surfando alegremente abaixo, o que é muito apropriado já que o LIama 3.1 foi lançado e alcançou o topo hoje.

Quantidade e qualidade de vídeo, suporta a geração de até 5 peças consecutivas de conteúdo de vídeo com um clique.

E a consistência da imagem principal, do estilo da imagem e dos elementos da cena será mantida automaticamente entre os clipes.

Além disso, a introdução oficial do Aishi também afirmou que o novo produtoO limite de palavras imediatas foi severamente reduzido novamente。

Independentemente de você ter aprendido a técnica da palavra imediata ou não, contanto que expresse os requisitos da imagem de forma clara e concisa, você poderá implementá-la facilmente.eO mesmo se aplica ao contexto chinês。

Além disso, há consistência de estilo, assunto e cena entre vários vídeos gerados ao mesmo tempo——

Faça um pequeno vídeo agoraAlém de você não precisar tirar fotos sozinho, você nem precisa mais cortá-las.。

Gere-o com um clique e carregue-o diretamente em diversas plataformas para compartilhamento, garota gansa!

Tanto a qualidade quanto a quantidade são garantidas e o limite é cada vez menor.

A criação de vídeos com IA tem sido profundamente envolvida por empresas como PixVerse, Runway e Luma.Todos podem aproveitarera.

Gere até 5 vídeos para permitir criatividade contínua

Mas espere!

Nunca seremos facilmente cegados pelas demos lançadas por diversas empresas.

Então, depois de descobrir que o PixVerse V2 foi lançado esta manhã, o Qubits lançou imediatamenteTeste de carne humana.

Entre no site oficial do PixVerse e vá direto para o PixVerse V2 na barra de menu à esquerda.

atualmenteSuporta dois modos de geração de texto/imagens e vídeos, na operação real, você pode escolher um dos dois ou usar os dois juntos.

Caixa de prompt de entrada de texto, as imagens podem ser carregadas clicando na caixa amarela na imagem abaixo.

No canto inferior direito da caixa de entrada, na parte de seleção da caixa cinza, também háOpções 5s/8s, você pode escolher a duração do único videoclipe gerado de acordo com suas necessidades.

A cena selecionada com uma moldura verde refere-se ao videoclipe específico que precisa ser gerado.

Na verdade, como diz a introdução oficial, agora podem ser adicionados até 5 vídeos para gerar, nomeadamente Cena1-5.

O estilo de imagem de todos os clipes de cena seguirá a Cena 1, mesmo que outras cenas subsequentes carreguem imagens de referência, o PixVerse se referirá ao estilo de imagem da Cena 1 para redesenhar.

Resumindo, tentei o meu melhor para manter consistente o estilo dos cinco vídeos.

Além disso, as palavras/imagens de alerta de cada cena podem ser inseridas individualmente.

Depois de terminar, você pode clicar no botão de estrela no canto inferior direito da caixa de entrada para entrar no estado de geração.

Após a experiência, descobri que não importa quantas cenas precisem ser geradas, cada geração custa 50 créditos (a moeda do poder computacional do PixVerse V2).

Durante a experiência, aderindo às informaçõesO prompt mais simples possívelEm princípio, as cinco palavras de alerta que inserimos são as seguintes:

De manhã cedo, um coelhinho branco se vestiu na cama
O coelhinho branco caminhava a caminho do trabalho e passou por um jardim.
O coelhinho branco está segurando uma xícara de café fumegante
O coelhinho branco está segurando café e esperando na fila do elevador
O coelhinho branco resignado pulava para cima e para baixo na estrada

Embora após a geração você possa usar as opções para ajustar cada vídeo individualmente (ajustar o assunto, a cena, a ação e o movimento da câmera), não fizemos nenhuma intervenção e focamos no gosto original.

Os resultados gerados são os seguintes:

△Considerando a aparência, este vídeo é acelerado apenas 2,5 vezes para velocidade de reprodução.

Os 5 clipes foram unidos.Você pode baixar a versão completa diretamente,muito conveniente.

É um pouco engraçado. No vídeo, Pia, a coelhinha branca que pediu demissão, tirou a roupa de trabalho sem tirar nenhum senso de classe.

Depois de começar e executar esta etapa, sou um trabalhador como eu, que cuida do meu orçamento. Fiz uma descoberta maravilhosa e devo compartilhá-la com todos:

Se você deseja gerar apenas um videoclipe por vez, ajuste diretamente as opções do PixVerse V2 e exclua-o apenas para a Cena 1, e tudo ficará bem - chamamos isso de método 1.

Mas existe outra maneira (Método 2) de entrar em outro modo do PixVerse V2 através de outra entrada.

Depois de perguntar no escritório, se você deseja gerar um único videoclipe, todos preferem o último método.

Por que?

Primeiro, o método 2 pode fazer mais ajustes com base em parâmetros como proporção e estilo do vídeo. Quanto mais informações você “deseja” fornecer, maior será a probabilidade de o modelo entendê-lo e as imagens de vídeo geradas terão maior probabilidade de estar em. alinhe com o que você deseja.

Por outro lado, o ábaco estalou e calculou, o método 1 consome 50 créditos por uma geração, seja gerando 1 fragmento ou 5 fragmentos, isso será deduzido, mas o método 2 custa apenas 30 créditos por uma geração;

Economize dinheiro, amigos!

Pense rapidamente em um pequeno caderno e anote o processo de operação do método 2——

Clique em Texto para Vídeo na barra de menu esquerda e selecione "PixVerse V2" em "Modelo".

pode ser realizadoVídeo de Vicente.

E ao adicionar palavras como “Anime” e “Realista” às palavras imediatas, o conteúdo gerado pode ser transformado em estilo.

A questão toda é difícil, gerando algumas cenas que não existem no mundo real. Digite a palavra do prompt:

O Gigante do Marshmallow vagueia pela colorida floresta de marshmallow.

Gerar resultados:

Ok, ok, inacreditável, nunca pensei que pudesse realmente obter uma descrição tão abstrata como “Gigante de Marshmallow”!

A adivinhação cega ocorre porque a compreensão semântica por trás do PixVerse V2 foi significativamente otimizada.

Métodos semelhantes também podem ser experimentadosFunção de vídeo Tusheng。

Clique em Imagem para Vídeo na barra de menu esquerda e selecione "PixVerse V2" em "Modelo".

É uma pena que o pincel de movimento mencionado anteriormente não possa ser usado nos vídeos Tuxing do PixVerse.

Deve-se notar que o Tusheng Video atualmente não pode usar o pincel de movimento "pintar e mover" (esta é a nova função de vídeo AI lançada por Aishi no mês passado).

Qubit perguntou à equipe PixVerse V2,O motion brush também estará disponível na versão V2 em breve.。

Os pincéis de movimento do Runway e PixVerse já foram bem recebidos, porque compensam a falta de descrição imediata das palavras e melhoram a controlabilidade do movimento da imagem.

Se o PixVerse V2 lançar esta função, acho que será mais divertido para todos jogar, e o movimento dos personagens/objetos no vídeo será mais consistente com as leis da física.

Tendo em conta que a "passarela" de pessoas ou animais sempre foi uma opção obrigatória para os vídeos de IA mostrarem os seus músculos (embora não saibamos porquê), desta vez ao experimentar a função de vídeo gráfico PixVerse V2, nós fui direto para a intensidade e fiz umParkour de astronauta na rua。

Insira a imagem do prompt:

Gerar resultados:

Essa tarefa é meio que um buff de empilhamento, que se baseia em imagens para gerar a dinâmica de conteúdo irreal.

O que é mais necessário é que o modelo por trás dele tenha uma fortecompreensão visual。

Do ponto de vista do efeito, seja criação contínua de vídeo, vídeo baseado em texto ou vídeo baseado em imagem, o PixVerse V2 pode vencer facilmente.

Por fim, gostaria de mencionar que não importa se você é um Wensheng ou um Tusheng, cada vídeo 5s/8s gerado custará 30 créditos.

Porém, a velocidade de geração é relativamente rápida e a qualidade é estável e garantida. Na verdade, acho que vale a pena gastar os 30 créditos.

Suporte para atualização do molde base DiT

Na faixa de vídeo AI, que é conhecida como o rei dos reis do volume deste ano, Ai Shi de repente fez um movimento diferente.

Quando todos os jogadores de Sora ao redor do mundo estão expandindo a duração, melhorando a qualidade dos gráficos e diminuindo a dificuldade,O que Aishi faz é cortar o limite descontroladamente。

A palavra-chave não apenas não precisa ser muito profissional, mas, o mais importante, pode criar (até) 5 vídeos por vez, cada um com 8 segundos.

A consistência de estilo, assunto e cena entre esses 1 a 5 videoclipes pode ser garantida e, com base na lógica entre as palavras de alerta de cada videoclipe, um vídeo longo de cerca de 40 segundos é finalmente sintetizado.

Do tipo com enredo coerente e conteúdo consistente.

Diz-se que possui “movimentos suaves e detalhes ricos”, e a qualidade da imagem chega a 1080p.

Ou seja, o usuário pode pensar no que deseja, inserir palavras de alerta e aguardar a geração do vídeo com duração que varia de 10 a 40 segundos.

Ele não só pode realizar "transferir as ideias da mente para o vídeo" na imagem, e os clipes são coerentes e naturais; também pode economizar tempo e esforço no processo de produção de vídeo, e a eficiência criativa foi bastante melhorada.

Depois que o PixVerse V2 foi lançado, alguns internautas rapidamente começaram a usá-lo.

O surgimento do PixVerse V2 permite que muitas pessoas que nunca usaram ferramentas de vídeo de IA, ou mesmo fizeram vídeos, o utilizem para alcançar um avanço no número de trabalhos gerados de 0 a 5, e no número de trabalhos de 0 a 1.。

O direito de utilização das ferramentas AIGC é mais uma vez delegado。

A expansão dos usuários da ferramenta AIGC para fora do círculo (não mais limitado aos usuários profissionais) é alcançada por meio de atualizações iterativas da tecnologia.

Por trás do PixVerse V2 está a tecnologia AishiAtualizações iterativas para o modelo autodesenvolvido subjacente à arquitetura DiT。

Esta também é a tecnologia central por trás do PixVerse.

Para revisar a situação anterior, Qubit vasculhou as informações públicas do discurso externo de Aishi/Wang Changhu e descobriu que, no início, a empresa adotou a rota técnica da arquitetura Diffusion + Unet, que também era a abordagem principal do AIGC antes do advento do Sora , mas à medida que avançamos, com expansão de parâmetros e instruções complexas, o Unet é um pouco inadequado.

Portanto, Aishi começou a experimentar a arquitetura DiT muito cedo (antes do aparecimento de Sora) e seguiu a Lei de Escala para melhorar o desempenho do modelo.

O carro deu meia-volta muito cedo, então a aparição de Sora não pegou Aishi desprevenido. Pelo contrário, por verificar que o percurso estava correto, a velocidade de Aishi aumentou significativamente este ano.

Então, quais são as atualizações do modelo básico DiT do PixVerse V2 desta vez?

O primeiro ponto está na modelagem espaço-tempo de difusão.

Aishi criou um mecanismo exclusivo de modelagem de atenção espaço-temporal, que é "mais razoável" e superior à separação espaço-temporal e à arquitetura fullseq.

Este mecanismo tem melhor percepção de tempo e espaço e pode lidar melhor com cenas complexas.

O segundo ponto está na compreensão do texto.

A capacidade do PixVerse V2 de entender os prompts foi significativamente aprimorada. Nos bastidores está a utilização de um modelo multimodal, que pode alinhar melhor as informações do texto e do vídeo, para que os resultados gerados sejam os pretendidos pelo criador.

terceiro, para obter maior eficiência computacional, o PixVerse V2 pondera a perda com base no modelo Flow tradicional, para que o modelo possa convergir melhor e mais rápido.

Outro ponto, foi a equipe de P&D por trás do PixVerse V2 que projetou um modelo 3D VAE melhor.

Um mecanismo de atenção espaço-temporal é introduzido para melhorar a qualidade da compressão de vídeo. A tecnologia de aprendizagem contínua também é usada para melhorar ainda mais os resultados de compressão e reconstrução de vídeo;

Tendência UGC "simples e interessante" sob a bênção da IA

AIGC é simplesmente o tópico mais conhecido deste ano.

masA capacidade de aplicar AIGC ainda está nas mãos de um pequeno número de pessoas., como programadores, designers e outros profissionais.

O AIGC ainda não entrou no estágio de “GC” universal como o UGC.

Diante de tal situação, o que a Aishi Technology tem feito desde a sua criação, há mais de um ano, pode ser resumido da seguinte forma:

Melhorar continuamente os recursos da tecnologia de IA
Expanda o grupo de assuntos do verbo "G (Gerado)"
Preste atenção ao nível de qualidade de “C (Conteúdo)”.

Isso não se reflete apenas no PixVerse V2, mas também na mesma linha daqui para frente——

Uma análise descobriu que o lançamento do PixVerse V2 é, na verdade, a terceira vez neste ano que a empresa faz movimentos em funções e produtos de vídeo de IA.

Em janeiro deste ano, Aishi lançou oficialmente a versão web do PixVerse, um produto de vídeo de Vincent, com visitas mensais ultrapassando rapidamente um milhão.

Em abril, foi lançada a função C2V (Character to Video, role consistência) desenvolvida com base no modelo de vídeo autodesenvolvido e pode ser utilizada na página web.

Ao extrair com precisão os recursos dos personagens e incorporá-los profundamente no modelo de geração de vídeo, o PixVerse pode fixar os caracteres e inicialmente resolver o problema de consistência na criação de vídeos com IA.

Em junho, o pincel de movimento Magic Brush foi lançado. Use-o para espalhar na tela do vídeo e controlar com precisão o movimento e a direção dos elementos do vídeo.

Esta também é a primeira empresa de geração de vídeo de IA a lançar funções semelhantes depois da Runway.

Três vezes em meio ano não é incomum, mas as ações nas duas primeiras vezes pareceram um pouco discretas.

Isto pode estar relacionado com o desejo da empresa start-up de se concentrar no polimento dos seus trabalhos, ou pode estar relacionado com o carácter discreto de Wang Changhu e de outros líderes, não sabemos.

Mas o fenômeno é que muitas pessoas sabem que a Tecnologia Aishi é a cabeça líder no segmento de vídeo doméstico de IA, mas não sabem necessariamente por que é a cabeça e se é fácil de usar.

Agora que o PixVerses V2 apareceu, jovens e idosos, profissionais e não profissionais podem usá-lo pessoalmente e sentir que é realmente muito eficaz - esta é uma das razões pelas quais o PixVerse V2 se tornou um sucesso instantâneo após ser lançado.

E olhando para trás, para várias ações, não é difícil descobrir que essas diversas atualizações de recursos do produto estão todas centradas em um corpo principal:Torne a criação de vídeos com IA mais prática e simples。

Ao mesmo tempo, percebe-se que as capacidades dos produtos anteriores focavam na experiência de uso dos profissionais.

Isto também corrobora o discurso anterior de Wang Changhu. Ele disse uma vez:

Espera-se que o vídeo nativo de IA possa ser integrado aos links de produção e consumo da indústria de conteúdo.

Mas o PixVerse V2 é diferente. Esta geração de produtos se concentra em como tornar a criação de vídeos com IA acessível a uma gama mais ampla de pessoas comuns.

Afinal, embora o Magic Brush seja fácil de usar e útil, ele ainda exige que o usuário tenha gerado um vídeo de IA.

Os prompts de vídeo são mais difíceis do que a geração de texto e os prompts de geração de texto e muitas vezes são um obstáculo para as pessoas comuns usarem a geração de vídeo por IA.

O que o PixVerse V2 captura é maravilhoso——

A partir de vários aspectos, como redução da dificuldade de palavras imediatas, ajuste fino opcional, expansão dos limites do conteúdo gerado e eliminação da necessidade de edição na fase posterior, tentamos reduzir ao máximo o custo de criação de vídeo com IA.

Qual será o resultado?

todos,Todos têm uma oportunidade e todos podem participar, pode transformar sua imaginação selvagem em trabalhos de vídeo visíveis.

Como existe um forte sentido de participação, mais pessoas, e até mesmo todos, podem libertar a sua criatividade e participar na criação de vídeos com IA.

A longo prazo,Gradualmente, um ecossistema UGC na era da IA será formado e será mais simples e interessante que o UGC.。

Já vi uma foto de meme interessante antes e acredito que muitos amigos também a viram:

"A PixVerse tem a honra de estar na primeira fila, colocada junto com os melhores produtos de geração de vídeo da época, como Runway, Pika e SVD. É também a única empresa chinesa nesta foto que o próprio Wang Changhu já teve esta foto." Brincando: “Mas por outro lado, temos um gigante pela frente e ainda precisamos ultrapassá-lo ainda mais”.

É inegável que o vídeo AI é o foco da pista multimodal na era AI 2.0, especialmente depois que Sora causou grandes ondas.

O total entusiasmo de todos os gigantes, grandes fabricantes e empresas iniciantes ilustra um problema.

O vídeo de IA está a alargar e a estimular o potencial do mercado, e a inovação impulsionada por grandes modelos multimodais de IA está a crescer.

Aishi pode aparecer nesta imagem do meme e é a única empresa chinesa na imagem. O motivo é muito óbvio.

Por um lado, a tecnologia do modelo da Aishi Technology e os efeitos do produto cultivados em moldes de base autodesenvolvidos são de fato reconhecidos.

por outro lado,Não importa em que onda tecnológica estejam, as startups receberão atenção global.

Durante a guerra de buscas, o Google usou o inovador algoritmo de classificação de páginas da web PageRank para roubar os usuários do Yahoo e até mesmo ultrapassar os retardatários, tornando-se líder no mercado de buscas até hoje.

Nos primeiros dias do grande modelo de linguagem, embora o Transformer tenha vindo do Google, o GPT foi uma iniciativa da OpenAI, uma pequena instituição de pesquisa (na época. Ele gradualmente levou ao atual GPT-4o e se tornou alvo de perseguição).

Hoje, entre os perseguidores e concorrentes do OpenAI, está o Google.

A qualquer momento, mesmo diante do cerco de grandes empresas e gigantes, sempre há histórias de startups lançando faíscas que acendem a indústria e brilham estrelas.

O que a Aishi Technology está escrevendo com tecnologia e produtos é a trilha de vídeo de IA, que é a própria história da empresa iniciante.

notícias