minimax entra na briga da geração de vídeos, é o fim do mundo para fazer vídeos com modelos grandes?

2024-09-01

outro unicórnio doméstico se junta à confusão dos modelos de geração de vídeo.

em 31 de agosto, o minimax, um dos sempre discretos "seis pequenos dragões da ia", fez oficialmente sua primeira aparição pública e realizou um evento "minimax link partner day" em xangai. na reunião, o fundador da minimax, yan junjie, anunciou o lançamento de modelos de geração de vídeo e modelos musicais. além disso, ele previu que uma nova versão do grande modelo abab7, que pode competir com o gpt-4o em termos de velocidade e efeito, será lançada nas próximas semanas.

o nome externo deste modelo de geração de vídeo é video-1, e o minimax não apresenta muito sobre os parâmetros específicos. yan junjie mencionou que, comparado aos modelos de vídeo do mercado, o vídeo-1 possui características de alta taxa de compressão, boa resposta de texto e estilos diversos, podendo gerar vídeos nativos de alta resolução e alta taxa de quadros. atualmente, o video-1 fornece apenas vídeos wensheng. no futuro, o produto irá iterar em vídeos tusheng, editabilidade, controlabilidade e outras funções.

atualmente, todos os usuários podem fazer login no site oficial da conch ai para experimentar a função de geração de vídeo do vídeo-1. o repórter experimentou no local depois de inserir uma palavra de alerta simples e esperar cerca de 1-2 minutos, um 6-. o segundo vídeo pode ser gerado. a julgar pelo efeito de saída, a imagem cobre basicamente os pontos mencionados nas palavras de alerta. a alta definição e os tons de cores são esteticamente aceitáveis. a área que pode ser melhorada são os detalhes faciais dos personagens.

durante a sessão de discussão da conferência, yan junjie mencionou que os modelos em grande escala são um campo que parece estar muito aquecido, mas também existem muitas áreas sem consenso “quer queiramos fazer 2b ou 2c, quer queiramos. fazê-lo no mercado interno ou no exterior, se a lei de escalonamento pode continuação..." e assim por diante.

apesar de tantos não-consensos, a geração de vídeo pode ser o consenso dos principais fabricantes de modelos neste ano.

desde que a openai lançou o grande modelo de vídeo sora em fevereiro deste ano, houve muitos lançamentos com nomes da indústria. em abril, a shengshu technology lançou o grande modelo de vídeo vidu. em junho, kuaishou lançou o grande modelo de geração de vídeo ai keling. semana depois, o modelo de vídeo luma ai foi lançado. dream machine, runway anunciou no início de julho que o modelo de vídeo vincent gen-3 alpha está aberto a todos os usuários. no final de julho, a aishi technology lançou o pixverse v2 e, posteriormente, a zhipu lançou oficialmente o vídeo qingying e, no início de agosto, o bytedream ai foi lançado na app store...

há um ano, havia muito poucos modelos de vídeo vincent voltados para o público no mercado. em apenas alguns meses, testemunhamos o surgimento de dezenas de modelos de geração de vídeo. um membro da indústria lamentou que o ano passado tenha sido um período sem precedentes. geração de vídeo ai.

na entrevista, um repórter do china business news questionado sobre a necessidade da geração de vídeo de layout minimax, yan junjie disse que a razão essencial é que as informações da sociedade humana são mais refletidas no conteúdo multimodal. todo dia não é texto, é todo conteúdo dinâmico. quando você abre o xiaohongshu, são todas imagens e textos, quando você abre o douyin, são todos vídeos, e mesmo quando você abre o pinduoduo, na maioria das vezes são imagens. a interação de texto é muito comum. a parte menor é mais sobre interação de voz e vídeo.

portanto, para ter uma cobertura de usuário muito alta e maior profundidade de uso, como um grande fabricante de modelos, a única maneira é ser capaz de produzir conteúdo multimodal em vez de apenas produzir conteúdo baseado em texto puro, explicou yan junjie. um julgamento central.

“é que primeiro fizemos texto, depois som e imagens muito cedo. agora que a tecnologia se tornou mais forte, também podemos fazer vídeos. esse caminho é consistente e devemos ser capazes de fazer estado multimodo yan.” junjie disse.

no entanto, o caminho da geração de vídeo é difícil. basta olhar para o lançamento do sora pela openai no início do ano, ele não foi lançado oficialmente para o mundo exterior, e também podemos ter um vislumbre de alguns desafios da indústria.

por um lado, os resultados atuais da geração de vídeo estão longe de atender às expectativas dos usuários. o modelo não entende as regras físicas e o processo de geração é difícil de controlar. algoritmos de geração de vídeo, imagem e tridimensional encontrarão muitos problemas estruturais e detalhados. por exemplo, uma coisa crescerá mais ou faltará uma coisa, ou a mão penetrará no molde no corpo humano, especialmente aqueles. com vídeos de regras físicas são atualmente difíceis de gerar.

na entrevista, yan junjie também disse que “esse assunto é bastante difícil”, caso contrário tantas empresas que afirmam fazer isso já o teriam feito. a complexidade do trabalho do vídeo é mais difícil do que a do texto, porque o texto contextual do vídeo é naturalmente muito longo. por exemplo, um vídeo tem dezenas de milhões de entradas e saídas, o que é naturalmente um processo difícil. em segundo lugar, a quantidade de vídeo é muito grande. um vídeo de 5 segundos pode ter vários megabytes de comprimento, mas um vídeo de 5 segundos com cerca de 100 palavras pode não equivaler a 1k de dados.

"o desafio aqui é como a infraestrutura subjacente construída com base em texto é usada para processar dados, como limpá-los e como rotulá-los como não adequada para vídeo." a segunda coisa é paciência. existem muitas fontes abertas para escrever textos. se você fizer isso com base em código aberto, sua própria pesquisa e desenvolvimento serão mais rápidos. feito o conteúdo, você descobrirá que ele precisa ser refeito, o que exige mais paciência.

os profissionais da indústria disseram anteriormente aos repórteres que a geração de vídeo atual é um pouco como a geração de imagens. na véspera de 2022, depois que a difusão estável se tornou código aberto em agosto de 2022, a geração de imagens aigc começou a explodir, mas atualmente não existe um "código aberto" particularmente poderoso. "no campo da geração de vídeo. sora" é lançado, todos ainda precisam explorar o caminho.

qiming venture partners lançou as "dez perspectivas para ia generativa em 2024" em julho. uma delas é que a geração de vídeo explodirá em três anos. eles acreditam que, combinada com recursos 3d, a geração de vídeo controlável terá um impacto no cinema, na televisão. animação e curtas-metragens o modelo de produção provoca mudanças. a taxa de compressão de futuras representações de espaço latente de imagem e vídeo aumentará mais de cinco vezes, resultando em uma geração cinco vezes mais rápida.

(este artigo vem do china business news)

relatório/comentários

notícias

minimax entra na briga da geração de vídeos, é o fim do mundo para fazer vídeos com modelos grandes?

introdução

minhas informações de contato