notícias

PixVerse V2 está aqui!Gere 5 "Sora" de uma só vez e o "volume" da faixa de geração de vídeo voará para longe

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor |

E-mail | [email protected]

"Muito encaracolado!"

Desde junho, os produtos de geração de vídeo deram início a uma onda de explosão, de Keling a Luma e Runway Gen3, e suas capacidades de modelo e efeitos de produção estão cada vez melhores.

Agora mesmo, PixVerse lançou a versão V2. Além de atualizar a arquitetura DiT, ele pode gerar cinco conteúdos de vídeo com efeito “Sora” consecutivos!

Em testes criativos, como gatos comendo macarrão e cachorros andando de motocicleta, a clareza de vídeo, a qualidade dinâmica e a estética do PixVerse V2 tiveram um bom desempenho.

De acordo com a Silicon Star,Baseado na arquitetura DiT (Diffusion + Transformer) combinada com o mecanismo de atenção espaço-temporal, o PixVerse V2 passou por atualizações em fases nas capacidades do modelo.Ele suporta a geração de vídeos de 8 segundos por vez, enquanto melhora significativamente a faixa dinâmica, a expressão de detalhes e a autenticidade do vídeo. Outra atualização importante é que o PixVerse V2 suporta a geração com um clique de conteúdo de vídeo contínuo de 1 a 5; clipes são Manterá automaticamente a consistência da imagem principal, estilo da imagem e elementos da cena, ou seja, todos podem gerar facilmente conteúdo de vídeo de 40 segundos!

Do ponto de vista do efeito de geração, por um lado, a versão PixVerse V2 do conteúdo gerado em vídeo possui maior densidade de informação e pode transmitir mais informações em poucos segundos. conteúdo mais utilizável; por outro lado, o design do produto V2 simplifica ao máximo funções complexas, permitindo que iniciantes criem.

Descobrimos que, com a iteração contínua da tecnologia e dos produtos do modelo de geração de vídeo, os usuários comuns, sejam nacionais ou estrangeiros, têm demonstrado uma enorme demanda. A criação de conteúdo de vídeo de IA não se limita a grupos profissionais. Os usuários comuns também estão ansiosos para expressar sua criatividade e ideias por meio de ferramentas simples e intuitivas.

Observando as iterações de produtos do PixVerse V2 sob essa perspectiva, você descobrirá que cada função se esforça para se aproximar dos usuários.

1

1. Cada iteração está um passo mais perto dos usuários

Desde o seu lançamento, o PixVerse se tornou um dos produtos de geração de vídeo mais populares com base na inovação tecnológica e no conhecimento profundo das necessidades do usuário.

Na versão V2 mais recente, um dos recursos inovadores é a capacidade de gerar vários vídeos ao mesmo tempo, mantendo a consistência e a coerência dos elementos entre os vídeos. Esse recurso é de grande importância para a criação de conteúdo de vídeo de formato longo, que permite aos criadores gerar uma série de videoclipes inter-relacionados em torno de um tema ou enredo.


Em nossa avaliação, descobrimos que o PixVerse V2 teve um bom desempenho ao lidar com cenas complexas e longas sequências de vídeo. A mesma imagem de personagem pode alternar livremente entre diferentes cenários de cena. Além disso, a coerência não se limita à consistência visual, mas também inclui transições suaves em ações e enredos, o que é especialmente importante para vídeos narrativos.

Outro destaque é sua usabilidade aprimorada. Ao contrário dos "brinquedos criativos" do mercado que só podem gerar clipes curtos e exigir constante "desenho de cartão" e edição secundária, o PixVerse V2 pode não apenas gerar videoclipes de alta qualidade, mas também ampliar a criatividade de clipes curtos, produzindo assim diretamente conteúdo criativo completo e utilizável.

Esse recurso faz com que o PixVerse V2 não esteja mais limitado à geração de tomadas curtas para edição secundária, mas possa gerar diretamente vídeos completos que podem ser usados ​​em múltiplas plataformas e múltiplas cenas.

Em avaliações reais, esse recurso do PixVerse V2 melhorou significativamente a eficiência e a conveniência da criação de vídeos. Os usuários não precisam mais gastar muito tempo na edição e síntese de vídeos e podem se concentrar mais na criatividade e no conteúdo em si. Quer seja um vídeo curto para compartilhar nas redes sociais ou um vídeo dramático que requer continuidade, o PixVerse V2 pode fornecer uma solução completa. A usabilidade aprimorada amplia ainda mais o escopo de aplicação da tecnologia de geração de vídeo de IA, permitindo que usuários comuns e criadores profissionais se beneficiem dela.


Podemos ver a inovação do PixVerse V2 a nível técnico e o polimento múltiplo da experiência do usuário. De acordo com a Silicon Star, o PixVerse V2 fez um avanço na modelagem espaço-temporal de difusão ao introduzir um mecanismo inovador de atenção espaço-temporal no modelo subjacente, melhorando significativamente suas capacidades de processamento para cenas complexas. Ao mesmo tempo, seus poderosos recursos de compreensão de texto permitem que o modelo corresponda com mais precisão os prompts de texto ao conteúdo de vídeo, alcançando uma fusão multimodal profunda.

Além disso, o PixVerse V2 também foi otimizado em termos de eficiência computacional. Ao melhorar o modelo de fluxo tradicional e ponderar a função de perda, o modelo pode convergir mais rapidamente, melhorando assim a velocidade e a precisão da geração de vídeo. A introdução do modelo 3D VAE e a aplicação do mecanismo de atenção espaço-temporal melhoram ainda mais a qualidade da compressão e reconstrução de vídeo, garantindo transmissão e armazenamento eficientes de conteúdo de vídeo.

Olhando para trás, para vários marcos importantes do PixVerse desde o seu lançamento, descobriremos que por trás disso está não apenas a sua força técnica, mas também a sua compreensão aguçada do mercado e das necessidades do usuário.

Em maio, a PixVerse lançou seu revolucionário recurso de pincel de movimento. Esse recurso permite que os usuários controlem o movimento de áreas específicas do vídeo simplesmente desenhando trajetórias, melhorando bastante a flexibilidade e a intuitividade da criação de vídeos. O uso de cenários específicos inclui, entre outros, produção de animação, criatividade publicitária, geração de conteúdo em mídias sociais, etc. O feedback dos usuários tem sido geralmente positivo, dizendo que esse recurso simplifica muito o processo de edição de vídeo, tornando a criação mais livre e intuitiva.

Em termos de configurações de funções do produto, quando os usuários estão basicamente satisfeitos com os resultados gerados, mas desejam ajustar os detalhes, o PixVerse suporta edição secundária e funções de transformação livre, permitindo aos usuários ajustar com flexibilidade o efeito de exibição do vídeo de acordo com as necessidades das diferentes plataformas e cenários. Além disso, o PixVerse também pode escolher diferentes estilos e proporções, proporcionando aos usuários um maior grau de liberdade na criação de vídeos.


Do pincel de movimento à função de consistência de caracteres e à geração de vídeo coerente da versão V2, cada atualização está um passo mais perto dos usuários. Este conceito inovador centrado no usuário faz do PixVerse não apenas um produto realizado pela tecnologia, mas também um parceiro na realização da criatividade dos usuários.

1

2. A profundidade determina a inovação

Quando avaliamos se um produto de geração de vídeo é um brinquedo ou uma ferramenta de produtividade, a densidade da informação é um importante indicador da qualidade do conteúdo.

Se uma pequena bola se mover irregularmente sobre um fundo branco, ela poderá se mover por um tempo infinito, mas fornecerá muito pouca informação.

No PixVerse V2, a Aishi Technology tenta aumentar a densidade de informações da geração de vídeo por meios técnicos, liberando os usuários da tediosa edição de material de vídeo e entrando diretamente na criação criativa de conteúdo de vídeo. A busca definitiva pela consistência, garantindo que o corpo principal de vários clipes permaneça inalterado, e outras funções visam passar do material de vídeo diretamente para o conteúdo de vídeo publicável.

O gerente de produto da PixVerse disse: A equipe sempre segue a ideia do produto de “caminhar com os usuários”. Nos estágios iniciais do desenvolvimento do produto, a equipe realizará uma pré-pesquisa aprofundada, incluindo comunicação com profissionais do setor, observação de usuários reais e coleta de feedback da comunidade. Este método completo de pesquisa do usuário permite que Aishi capture as necessidades sutis, mas críticas do usuário. Mesmo os pequenos pontos de recursos propostos pelos usuários serão levados a sério e testados.

Este conceito inovador orientado ao usuário torna as funções do PixVerse mais próximas das necessidades reais dos usuários. O gerente de produto da Aishi compartilhou o processo de nascimento do Magic Brush, que é um típico representante da criação de produtos da Aishi.

No início deste ano, a Runway lançou seu primeiro pincel, Motion Brush. Os usuários podem ajustar a trajetória do movimento do sujeito selecionando diferentes pincéis e ajustando os botões de controle abaixo. Depois de ver esta função e através de pesquisas de mercado entrevistas com usuários e feedback da comunidade descobrimos que os usuários têm uma grande demanda por ferramentas de edição de vídeo mais flexíveis mas o método de interação do Motion Brush não é flexível o suficiente e a depuração não é precisa e controlável o suficiente.


Depois de descobrir essa necessidade, a equipe de produto PixVerse se concentrou em discutir: Que tipo de método de interação pode permitir aos usuários usar a função de pincel de forma mais intuitiva e concisa?

Com base na pesquisa preliminar do usuário, a equipe do produto descobriu que, primeiro, os usuários precisam depurar as trajetórias de movimento de vários assuntos e não há função de seleção de partição no Motion Brush; em segundo lugar, depois de selecionar um assunto, as trajetórias de movimento do assunto são mutáveis; , para baixo, para a esquerda e para a direita Os botões de controle não podem simular efeitos de movimento reais. Portanto, na criação do Magic Brush, a equipe do produto escolheu métodos de espalhamento, seleção inteligente de partições e um método interativo que permite aos usuários desenhar livremente trajetórias de movimento em 360 graus.


No entanto, este tipo de método de interação é conveniente para os utilizadores, mas apresenta maiores desafios técnicos. Com base na arquitetura DiT, a equipe técnica de Aishi desenvolveu o algoritmo central para suportar a função Magic Brush, que analisa a entrada do traço do usuário e a converte em efeitos de movimento no vídeo.

O Magic Brush foi lançado rapidamente em apenas um mês, desde a descoberta das necessidades do usuário até o estabelecimento do projeto do produto e soluções técnicas. Isso é inseparável do modelo operacional da empresa "curto, plano e rápido" de Aishi.

O departamento de marketing pode coletar rapidamente feedback do usuário e comunicá-lo às equipes técnicas e de produto em tempo hábil. Esse rápido fluxo de informações e processo de tomada de decisão permite que Aishi considere rapidamente a viabilidade das necessidades, conduza testes A/B e tome decisões rápidas. Essa agilidade é uma vantagem única das startups e também é a chave para a capacidade da Aishi de iterar produtos rapidamente.

Em comparação com grandes empresas de tecnologia, as startups têm certas vantagens em termos de velocidade de resposta e flexibilidade. Esta agilidade não se reflete apenas no desenvolvimento de produtos e nas estratégias de mercado, mas também afeta profundamente a cultura corporativa e a estrutura organizacional. Devido ao seu tamanho menor, as startups são mais flexíveis na alocação de recursos. Eles podem mover recursos rapidamente de uma tarefa para outra ou de um projeto para outro, garantindo a utilização máxima dos recursos.

Ao mesmo tempo, prestamos mais atenção ao feedback dos usuários e colocamos as necessidades dos usuários no centro do desenvolvimento do produto. Essa abordagem orientada ao usuário para o desenvolvimento de produtos permite que as startups lancem produtos que atendam às necessidades dos usuários com mais rapidez. Muitas startups adotam métodos de desenvolvimento ágil, que enfatizam a iteração rápida e a melhoria contínua. Coloque produtos no mercado mais rapidamente com lançamentos regulares de novos recursos e correções de bugs, e otimize com base no feedback do usuário.

A agilidade e a inovação profunda incorporadas pela Aishi são as vantagens únicas das empresas iniciantes na nova era dos grandes modelos.

1

3. Precisamos de boa tecnologia e de produtos ainda melhores.

Hoje, descobrimos que ainda há um longo caminho a percorrer antes que a tecnologia chegue aos usuários e que os produtos sejam os conectores mais importantes. A tecnologia é a força motriz da inovação, mas o seu valor só pode ser verdadeiramente refletido quando a tecnologia está ligada aos utilizadores através de produtos.

Durante o processo de desenvolvimento do PixVerse, a equipe da Aishi Technology aprimorou cuidadosamente cada detalhe. Na versão V2, para melhorar a usabilidade do vídeo, o PixVerse suporta a edição secundária dos resultados gerados. Por meio de reconhecimento inteligente de conteúdo e funções de associação automática, os usuários podem substituir e ajustar com flexibilidade o assunto, a ação, o ambiente e o movimento da câmera. vídeo, enriquecendo ainda mais as possibilidades criativas do sexo.


O responsável pelos produtos da Aishi também disse: “Os pontos fortes e as diferenças tecnológicas são importantes, mas a produção, as barreiras dos usuários e o feedback técnico formado pela conexão de mais e mais usuários por meio dos produtos são ainda mais críticos”.

Ao mesmo tempo, nas fases iniciais do desenvolvimento tecnológico, os produtos são também o ponto de partida para a implementação da tecnologia. Transforme a tecnologia avançada de IA em funções reais do produto que sejam perceptíveis e operáveis ​​pelos usuários. Esta transformação da tecnologia em produtos não só acelera a aplicação da tecnologia, mas também proporciona aos utilizadores uma conveniência e criatividade sem precedentes.

Especialmente quando a tecnologia ainda não atingiu o nível pretendido, a promoção bidirecional entre tecnologia e produtos tem um significado mais prático.

Por exemplo, em relação ao Pincel Mágico mencionado acima, alguns criadores relataram: “Neste estágio, quando a capacidade do modelo básico não consegue atingir o ponto em que vários assuntos se movem de acordo com o mundo físico, personalizar o pincel de movimento pode aumentar o espaço criativo de alguns personagens. 'piscando, expressões e movimentos relativos complexos podem ser alcançados com pincéis de movimento.”

Nesta fase, Vincent Video, embora conceitualmente atraente, enfrenta limitações na geração de conteúdo na prática. Devido à densidade limitada de informações do próprio texto, muitas vezes é difícil transmitir todos os detalhes de cenas complexas e mudanças dinâmicas ao converter diretamente descrições de texto em conteúdo de vídeo. Portanto, o Tusheng Video surgiu como uma solução faseada.

Comparado ao vídeo Vincent, o vídeo Tusheng pode fornecer maior densidade de informações porque é gerado com base em informações visuais e pode capturar e reproduzir com mais precisão a complexidade da cena. Antes que os recursos básicos do molde pudessem resolver a diferença na densidade de informações entre texto e vídeo, a introdução do Tusheng Video não foi apenas um reflexo do progresso tecnológico, mas também uma inovação nas ideias de design de produtos.

Nos primórdios da tecnologia, a estratégia da Aishi refletiu-se em fazer avanços tecnológicos e, ao mesmo tempo, prestar mais atenção à implementação do produto. Outras barreiras de usuário além das barreiras técnicas são formadas, e barreiras de produto são estabelecidas através da compreensão e percepção dos usuários, ampliando assim as fronteiras da tecnologia e os limites dos produtos.

Somente um produto de geração de vídeo que possa realmente ser utilizado pode ser deixado para trás. Ele não deve apenas atender às necessidades atuais dos usuários, mas também focar no futuro e escolher um caminho de desenvolvimento tecnológico sustentável.

Seja a "luta mortal" inicial com a tecnologia de consistência, a iteração do Magic Brush ou a nova atualização da versão PixVerse V2, a estratégia de produto da Aishi é baseada no presente e na resolução de problemas práticos, por outro lado; olha para o futuro e escolhe o caminho do desenvolvimento a longo prazo e está empenhado em construir um futuro sustentável.

Por meio de pesquisa e desenvolvimento contínuo de tecnologia, insights aprofundados dos usuários e polimento cuidadoso dos detalhes dos produtos, na indústria de geração de vídeo, as empresas, independentemente do tamanho, precisam de avanços tecnológicos contínuos para criar produtos que sejam verdadeiramente valiosos e possam inspirar a criatividade.

Assim como o slogan do PixVerse V2: Liberando o potencial criativo para todos, esta não é apenas uma oportunidade para o PixVerse, mas também uma oportunidade para todos os criadores na era dos grandes modelos.