O beta público gratuito lotou o servidor e Sora ganhou elogios por seu sentido físico

O beta público gratuito sobrecarregou o servidor e Sora ganhou elogios por seu sentido físico.

2024-07-24

Autor丨Zimo

Seguindo Sora, Runway e Pika, outro produto de IA baseado em imagens e gerado por vídeo explodiu em popularidade – Dream Machine.

Behind Dream Machine é uma empresa americana fundada em 2021 chamada Luma AI. Nos últimos três anos, conduziu com sucesso três rondas de financiamento, com um montante total de financiamento de 67,3 milhões de dólares. O mais recente financiamento da Série B de US$ 43 milhões ocorreu em janeiro deste ano, liderado pela conhecida instituição de capital de risco a16z, com a Nvidia participando do segundo investimento, e a avaliação pós-dinheiro atingiu US$ 200-300 milhões.

Em junho deste ano, Dream Machine lançou uma versão beta pública gratuita em todo o mundo. Cada usuário tem 30 oportunidades de gerar vídeos gratuitamente todos os meses, e cada vídeo tem 5 segundos de duração. Para avaliar e competir com quem entrou primeiro no jogo, destaca as características de “eficiência”, “física” e “movimento de espelho”. Um dos principais recursos é que ele pode gerar um vídeo de 120 quadros em apenas 120 segundos (no entanto, havia muitas pessoas na fila durante o período beta público e os usuários geralmente relataram que leva de 10 a 20 minutos para gerar um vídeo, e alguns até levam 2 horas). A simulação do mundo físico também dá ênfase especial à consistência do personagem e pode usar habilidades naturais de câmera para tornar a imagem mais suave e realista, integrando-se com as emoções expressas. O brainstorming dos utilizadores torna os vídeos gerados cheios de criatividade e imaginação, e a sua aplicação em publicidade, ensino e formação, criação de histórias e outros campos também tem desempenhado um papel significativo na redução de custos e no aumento da eficiência.

Qual produto de geração de vídeo AI é o melhor?

Em termos de design, a página da Dream Machine é intuitiva e simples, com duas funções: Vincent Video e Tusheng Video. Nos vídeos Wensheng, as descrições em inglês terão melhores efeitos. Se você quiser deixar os vídeos gerados mais alinhados às suas necessidades, você precisa usar descrições de texto tão precisas e detalhadas quanto possível. tornar os efeitos mais realistas.

No entanto, para usuários que não são tão fortes na capacidade de criação de texto, a função de vídeo Tusheng será mais popular, porque é mais como um processamento secundário em uma obra. Basta fazer upload de uma imagem e adicionar uma descrição de texto com base na cena em sua mente para animar a imagem estática e contar a história na forma de um vídeo.

No Twitter, podemos ver vários vídeos criativos compartilhados pelos usuários, incluindo alguns engraçados que fazem a Mona Lisa se mover, usando selfies para restaurar a cena ao tirar selfies, e ternas "ressuscitando" pessoas importantes para recriar a cena etc. Pode-se dizer que as ferramentas de criação de IA e a rica imaginação dos usuários dão uma nova vitalidade às obras.

Nesse caminho, o benchmarking sempre foi um tema indissociável. Do ponto de vista arquitetônico, Dream Machine e Sora usam a arquitetura Diffusion Transformer, e a correlação será maior do ponto de vista do conteúdo gerado, em comparação com Runway e Pika, a diferenciação do Dream Machine se reflete na maior gama de movimentos e; troca de lente Há mais ângulos e mais rápidos, em vez de apenas fazer os objetos no vídeo se moverem levemente, mas como o modelo ainda está em sua infância, também surgem problemas de controlabilidade. Por exemplo, durante o teste do usuário, ocorreu um fenômeno irracional de múltiplas cabeças ao trocar as lentes dos animais. No geral, há muitos pontos que podem ser otimizados nos dados e no modelo.

Olhando para a duração de uma única geração de vídeo, Dream Machine pode gerar um vídeo de 5 segundos em 120 segundos, Runway é mais rápido e pode gerar um vídeo de 10 segundos em 90 segundos. Na versão mais recente, pode ser estendido para 18. segundos, enquanto Pika ainda é um vídeo único. Ele só pode gerar um vídeo de 3 segundos. Sora, como criador, quebrou o limite de tempo e pode gerar um vídeo de 1 minuto, mas leva quase uma hora para renderizar. . Comparando os preços de vários produtos, após o período de teste gratuito, Dream Machine tem o preço geral mais alto, enquanto a versão profissional do Pika custa 6 vezes mais que sua versão padrão, e outros produtos custam cerca de 2 a 3,5 vezes.

(Comparação de preços de produtos de geração de vídeo AI)

Finalmente, a julgar pelo efeito de geração de vídeo, o mesmo parágrafo de texto é expresso em diferentes estilos de vídeos gerados por diferentes produtos. Em comparação com outros produtos, a sensação cinematográfica e o realismo físico são alguns dos sentimentos comuns que os usuários têm ao usar o Dream Machine. As imagens de vídeo e a sensação de imersão que ele gera são mais fortes. Para resumir, há duas razões possíveis. Primeiro, o produto usa um grande número de clipes de filme durante o treinamento do modelo, o que também torna o vídeo gerado cheio de imaginação. Não se limita às coisas da imagem original, mas adiciona alguns itens adicionais. cenas, e também O processamento de personagens animados e a adição de movimentos de boca fazem com que pareçam mais realistas; outro ponto está intimamente relacionado à tecnologia e ao acúmulo de experiência da empresa por trás disso em modelagem 3D;

As minifiguras 3D de Vincent são possíveis graças ao seu acúmulo de tecnologia.

A Luma AI tem se concentrado na geração de conteúdo 3D desde a sua criação. O aplicativo de modelo Vincent 3D Genie1.0, lançado anteriormente, já se tornou um sucesso global. O aplicativo possui uma versão web para PC e uma versão APP móvel (denominada Luma AI), podendo também ser utilizado em servidores Discord amplamente utilizados no exterior.

Basta inserir uma descrição de texto e quatro modelos 3D realistas podem ser gerados em 10 segundos, semelhantes a uma “pequena figura”. Depois de selecionar de acordo com suas preferências pessoais, você também pode editar a textura, incluindo original, suave e reflexiva. Finalmente, pode ser produzido em vários formatos, como fbx, gltf, obj, etc., para obter uma conexão perfeita com outros softwares de edição 3D (como Unity e Blender), permitindo que o modelo se mova, ajustando-se perfeitamente a jogos, animação e outros. cenas, realmente alcançando o downstream Fornece capacitação de cena.

O baixo limite técnico do Genie1.0 também permite aos usuários reconstruir cenas 3D simplesmente gravando videoclipes. De acordo com os requisitos, tire fotos de 360° do objeto em três ângulos: olhando para cima, olhando para baixo e olhando para cima. Após o upload, aguarde alguns minutos para que o Genie 1.0 conclua a renderização 3D do vídeo.

Em termos de tecnologia, pode-se dizer que Luma AI levou o NeRF (Campo de Radiação Neural) ao extremo. O NeRF tradicional requer o uso de equipamento profissional para tirar um grande número de fotos, e as localizações das coordenadas precisam ser rigorosamente seguidas. Hoje em dia, graças ao código-fonte aberto do código subjacente, modelos cada vez mais simplificados foram desenvolvidos e os requisitos de fotos e ângulos de disparo foram bastante reduzidos. O Genie1.0 alcançou um nível mais alto e se tornou um guia que pode ser usado. usado a qualquer hora, em qualquer lugar.

O acúmulo de tecnologia e produtos 3D ajudou a empresa a passar suavemente da geração 3D para a geração de vídeo, mas, inversamente, a geração de vídeo também criou condições de alta qualidade para 3D. No conceito de Luma AI, o objetivo de criar produtos de geração de vídeo é adicionar dimensões 3D e de tempo para criar melhor 4D, e o vídeo desempenha um papel intermediário aqui.

Podemos combinar os dois produtos Genie1.0 e Dream Machine. O primeiro pode construir modelos 3D através de vídeos multiângulos, e o último utiliza o acúmulo de modelos 3D para melhor gerar vídeos. E como o 3D tem limitações de dados em comparação com imagens e vídeos, se você quiser criar melhor o 3D, precisará de mais dados de modelo grandes para conduzi-lo. Para atingir o objetivo 4D final, os dados de visualização múltipla são coletados do vídeo gerado e, em seguida, usados para gerar efeitos 4D. Uma cadeia completa é aberta.

Onde está a saída no final?

Desde este ano, o caminho de geração de vídeo de IA tornou-se gradualmente lotado, especialmente as grandes empresas de Internet, sejam modelos autodesenvolvidos ou investimentos, fizeram certos acordos neste campo. À medida que o número de participantes continua a aumentar, alguns problemas são gradualmente expostos, refletidos principalmente na controlabilidade e consistência dos vídeos gerados.

Esses dois problemas ocorrem principalmente quando o ângulo do vídeo é alterado, como na cena de animais com várias cabeças mencionada anteriormente, e na cena do retrato, pois as expressões faciais e os detalhes das pessoas mudam rapidamente e são difíceis de capturar, no vídeo. o ângulo do rosto, o rosto pode ficar deformado no próximo segundo, ou até mesmo não ser o mesmo rosto, e esse é um dos motivos pelos quais a duração do vídeo é limitada. Quanto mais tempo leva para gerar um vídeo, mais difícil será garantir a consistência.

(Animais com múltiplas cabeças aparecem no vídeo gerado)

Este problema problemático também tem incomodado muitos desenvolvedores. Embora ainda não exista uma solução perfeita, pode-se ver pelas suas ações de desenvolvimento que eles já estão trabalhando nessa direção central. Por exemplo, VideoCrafter2 desenvolvido pelo Tencent AI Lab usa vídeos de baixa qualidade para garantir a consistência do movimento das coisas na imagem. O modelo de geração de personagens Vimi lançado pela SenseTime pode imitar com precisão as microexpressões dos personagens, focando em dois aspectos: personagens e controlabilidade.

Em termos de grupos de público, os produtos de geração de vídeo de IA são atualmente direcionados principalmente aos usuários finais C. Nesta fase, os usuários estão testando coisas emergentes em termos de jogabilidade e criatividade. também contará com o apoio do lado B. Actualmente, este tipo de produtos também faz com que a procura por APIs continue a aumentar, dando mais possibilidades às empresas a jusante. Quer se trate de reprocessamento ou utilização directa dos vídeos gerados, reduz significativamente o tempo e o custo de criação.

Além disso, Kuaishou recentemente se uniu a Bona para lançar o primeiro curta-metragem original da AIGC na China, que também subverteu o pensamento criativo da indústria tradicional do cinema e da televisão. A combinação das duas faixas emergentes também trouxe novos avanços nos cenários de aplicação de geração de vídeo de IA, e mais possibilidades serão abertas. Embora ambos estejam nos estágios iniciais de desenvolvimento, nem a tecnologia nem os produtos estão maduros, mas o Facing. as tendências duais e aproveitando os dois dividendos, o "co-branding" certamente impulsionará rapidamente o processo de desenvolvimento da indústria.

A inovação dos produtos criados por IA traz criatividade e surpresas ilimitadas à vida das pessoas, além de reduzir a dificuldade e o custo de produção. A julgar pelos produtos atuais, tanto o Wensheng Video quanto o Tusheng Video criaram uma jogabilidade muito interessante e inovadora, na qual a criatividade pessoal é o fator chave que impulsiona um melhor resultado de IA. Embora alguns problemas técnicos tenham levado a bugs ocasionais, e a forma do produto dependa em grande parte das capacidades reais do modelo, por meio de atualizações iterativas, concorrência saudável no mercado e combinação de trilhas, acredito que o modelo acabará sendo treinado cada vez mais perfeito. Ao mesmo tempo, também estamos ansiosos pelo futuro dos grandes modelos de produtos produzidos internamente para conquistar um nicho próprio no mercado global.

notícias

O beta público gratuito sobrecarregou o servidor e Sora ganhou elogios por seu sentido físico.

Introdução

minhas informações de contato