notícias

“Jimeng AI” está nas prateleiras, Byte conseguirá alcançar Kuaishou?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jornalista: Yang Xinyi Editor: Wei Guanhong

"A pressão está sobre Douyin." Quando produtos fenomenais de IA (inteligência artificial) generativa surgiram em junho deste ano, representados pelo grande modelo de geração de vídeo desenvolvido por Kuaishou, Keling, o mundo exterior estava ansioso pelo desempenho futuro da Byte.

Recentemente, a versão móvel do "Jimeng AI", uma plataforma completa de criação de IA desenvolvida pela equipe de edição da ByteDance, foi lançada oficialmente na Apple App Store.

O repórter do "Daily Economic News" aprendeu que o aplicativo atualmente possui funções como imagens baseadas em texto e vídeos baseados em texto/imagem. Além disso, Jimeng lançou um sistema de adesão e vários métodos de assinatura.

Ao comparar as aplicações reais de Ji Meng, Ke Ling e Sora, os repórteres do "Daily Economic News" descobriram que os três grandes modelos de geração de vídeo são mais precisos e completos na captura e compreensão de palavras imediatas, mas os personagens de Ji Meng Capacidades como modelagem, riqueza de conteúdo e fluência de vídeo são relativamente ausentes. Em termos de duração do conteúdo gerado, Jimeng suporta geração de vídeo de até 12 segundos.

"O número de segundos necessários para gerar um vídeo suave é um fator chave para avaliar a capacidade de um vídeo gerar um modelo grande." Um grande engenheiro de modelos disse em uma entrevista a um repórter do "Daily Economic News", " 'Suave' precisa ser medido a partir de múltiplas dimensões. Observe, por exemplo, se há algum erro factual no conteúdo gerado, quão boa é sua memória e se sua noção de espaço está correta.”


A versão móvel "Jimeng AI" está nas prateleiras. Fonte da imagem: Capturas de tela do aplicativo.


“Jimeng AI” está nas prateleiras, o efeito pode alcançar Ling?

No início deste ano, o surgimento do Sora inaugurou a "era do vídeo ChatGPT". Posteriormente, o "azarão" Keling lançado por Kuaishou aumentou as expectativas das pessoas para o desempenho de modelos de vídeo de IA domésticos em grande escala. A ByteDance, controladora da Douyin, que também é uma gigante dos vídeos curtos, é considerada um dos jogadores com maior potencial para se atualizar na pista.


Fonte da imagem da página da Keling AI: captura de tela do site oficial

No final de março, a plataforma de criação de IA “Jimeng AI” desenvolvida pela equipe de ponta da Byte foi aberta para testes internos, no dia 9 de maio, o aplicativo foi lançado na versão web. funções principais: geração de imagens, tela inteligente e geração de vídeos Atualmente, uma nova função de criação de histórias foi lançada em 6 de agosto, a versão mobile do aplicativo foi lançada oficialmente na Apple App Store, e agora conta com funções como texto; imagens baseadas e vídeos baseados em texto/imagem.


Fonte da imagem da página da web Jimeng AI: captura de tela do site oficial

Quanto ao efeito real de Jimeng, no início de julho deste ano, a primeira série curta de ficção científica narrativa contínua geradora de AIGC do país, "Sanxingdui: Future Apocalypse", foi lançada em Douyin. Nesta curta série com um total de 13 episódios, Jimeng, como principal apoiador da tecnologia de IA, usou 10 tecnologias de IA, incluindo criação de roteiro AIGC, design de conceito e storyboard, conversão de imagem em vídeo, edição de vídeo e aprimoramento de conteúdo de mídia.

De acordo com relatos da mídia, no processo de cooperação com a Bona Pictures para lançar "Sanxingdui: Future Apocalypse", Jimeng AI melhorou a função de "geração de vídeo", incluindo suporte para preenchimento de quadros de 24fps, 30fps, 60fps e a capacidade de dobrar a super pontuação. , adicionado movimento horizontal da lente, movimento para cima e para baixo, suporte para controle de direção e amplitude do movimento da lente, etc.


Fonte da imagem: Captura de tela da conta pública Jianying WeChat

Após o lançamento do aplicativo Jimeng, um repórter do "Daily Economic News" selecionou uma série de palavras de prompt de vídeo Sora lançadas oficialmente pela OpenAI para realizar um teste comparativo em Jimeng, Keling e Sora.

A julgar pelos resultados dos testes do repórter, os três grandes modelos de geração de vídeo são relativamente precisos e completos na captura e compreensão das palavras imediatas, e o desempenho da tela do conteúdo de vídeo gerado também é coerente e suave.

No entanto, em termos de precisão na representação dos personagens, Sora tem certas vantagens sobre Ji Meng e Ke Ling em termos de naturalidade dos movimentos, Ji Meng é ligeiramente inferior aos três produtos de teste. Imagens de vídeo com o tema "Streets of Tokyo" mostram que a cabeça e o pescoço do personagem gerado pelo sonho ficam levemente distorcidos ao virar a cabeça, e os movimentos das mãos ao carregar a bolsa também ficam deformados.


Fonte da imagem: Captura de tela do vídeo gerada pelo repórter

Em termos de riqueza de elementos no conteúdo da produção, Sora também tem melhor desempenho entre os três. Por exemplo, no conteúdo de vídeo gerado com o tema “Astronauta”, Sora deu muitas associações relacionadas a palavras imediatas, como naves espaciais e cenas extraveiculares, enquanto Ji Meng e Ke Ling apresentaram apenas um personagem masculino vestindo um traje espacial.


Fonte da imagem: Captura de tela do vídeo gerada pelo repórter

O parceiro de pesquisa da Analysys Analysis, Chen Chen, disse em uma entrevista com um repórter do "Daily Economic News" que em termos de efeito de geração, a qualidade geral das imagens de IA do Dream é melhor, enquanto os vídeos de IA são melhores em termos de duração, riqueza de elementos, ação coerência, etc. Ainda faltam detalhes.

"(O conteúdo do elemento não é rico o suficiente) É mais uma questão de alinhamento do modelo, mas se falta a capacidade de associar de 'astronauta' a 'nave espacial', é um problema com as capacidades do modelo básico." Um grande engenheiro de modelos disse ao repórter do "Daily Economics" News" que o número de segundos necessários para gerar um vídeo suave é um fator chave para julgar a capacidade de um vídeo gerar modelos grandes. "'Suave' precisa ser visualizado de múltiplas dimensões, como se o conteúdo gerado contém erros factuais, quão boa é a memória e se a sensação de espaço não é igual.

Os repórteres do "Daily Economic News" descobriram através de testes que quando as mesmas palavras de alerta são inseridas, quanto mais tempo o vídeo precisa ser gerado, a precisão e a suavidade da imagem principal e dos movimentos do vídeo provavelmente serão prejudicadas.

Atualmente, Jimeng suporta a geração de conteúdo de vídeo de 3 segundos, 6 segundos, 9 segundos e 12 segundos, correspondendo a diferentes pontos de consumo. Sora conseguiu sintetizar vídeos de 1 minuto desde seu lançamento em 21 de junho. Keling lançou a função de vídeo Tusheng, que suporta a conversão de imagens estáticas em vídeos vívidos de 5 segundos com base em diferentes conteúdos de texto, e continua a fazer isso. escrever A função pode fazer o vídeo durar cerca de 5 segundos, e o vídeo mais longo pode ser gerado por cerca de 3 minutos.


O vídeo AI será uma mina de ouro para modelos grandes?

O surgimento de Sora, sem dúvida, abriu um novo campo de jogo para grandes modelos - em julho deste ano, a Alibaba Damo Academy lançou uma plataforma completa de criação de vídeo AI "Xunguang", e SenseTime lançou a primeira plataforma controlável de criação de vídeo AI para C- usuários finais Vimi, um grande modelo para geração de vídeo de personagens, e Zhipu também anunciaram que o modelo de vídeo gerado por IA Qingying (Ying) será lançado oficialmente em Zhipu Qingyan⋯⋯.

Quando os principais players de IA lançam coletivamente um ataque feroz a grandes modelos gerados por vídeo, uma questão inevitável está bem diante de nós: os vídeos de IA podem fazer com que grandes empresas de modelos ganhem dinheiro?

Tomemos como exemplo a OpenAI, uma empresa estrela do setor. Depois de lançar uma série de modelos de grande escala com capacidades líderes, como Sora, em julho deste ano, alguns meios de comunicação citaram pessoas familiarizadas com o assunto e análises de dados financeiros internos não divulgados como. dizendo que a OpenAI pode enfrentar até 5 bilhões este ano. Com uma enorme perda de US$ 3,5 bilhões, a receita anual da empresa é estimada entre US$ 3,5 bilhões e US$ 4,5 bilhões, o que é muito inferior aos custos operacionais.

Ao mesmo tempo, os modelos domésticos de vídeo em grande escala também parecem um pouco “ansiosos” quando se trata de comercialização. No dia 30 de julho, Keling lançou um sistema de adesão global, semelhante ao sistema de adesão lançado no mercado nacional. Por exemplo, o cartão mensal é dividido em três níveis: 10 dólares americanos, 37 dólares americanos e 92 dólares americanos, que podem. gerar cerca de 66, 300 e 800 vídeos de 5 segundos.

O repórter do "Daily Economic News" notou que Jimeng lançou um sistema de adesão, com diferentes métodos de assinatura para adesão básica de 79 yuans por um único mês, 69 yuans para assinatura mensal contínua e 659 yuans para assinatura anual. Especificamente, os membros básicos podem usar 505 pontos por mês para gerar aproximadamente 2.020 fotos ou 168 vídeos de IA. Além disso, existem serviços de adesão padrão com 2.020 pontos por mês e serviços de adesão avançados com 6.555 pontos por mês que serão lançados em breve.

"Devido aos altos custos de treinamento e inferência de grandes modelos de IA, juntamente com a demanda relativamente dispersa por ferramentas de IA por parte dos usuários finais C e sua falta de disposição para pagar, a comercialização de grandes modelos de vídeo no mercado final C irá ainda enfrentam um longo período de cultivo." Chen Chen acredita que para o mercado C-end, a comercialização de modelos de vídeo em grande escala ainda tem um longo caminho a percorrer.

Começando no mercado do lado B, Chen Chen disse ao repórter do "Daily Economic News", "Para o lado B, a revolução da tecnologia de IA está remodelando o fluxo de trabalho original, comprimindo links redundantes e desencadeando uma nova demanda por ferramentas criativas. Neste processo, grandes modelos de vídeo de IA podem ser gradualmente integrados à produção existente de cinema e televisão, criatividade publicitária e planejamento de conteúdo de mídia para auxiliar na automação de processos complexos e produção de conteúdo inteligente, e se os recursos do modelo podem ser efetivamente incorporados em os fluxos de trabalho reais trarão substância. A melhoria da eficiência sexual e a redução de custos são fatores-chave na construção de capacidades de comercialização."

“A comercialização do Kimi começará a ser explorada gradativamente, mas não é o foco atual. O foco atual é construir um modelo de próxima geração com capacidades mais fortes. Em agosto deste ano, Dark Side of the Moon foi entrevistado por um entrevistado.” O repórter do "Daily Economic News" Shi Zeng disse que, nesta fase, não é hora de focar na comercialização.

Talvez o mesmo seja verdade para o Sonho “incipiente”, que ainda tem um marco após o outro para alcançar e superar. "As atuais funções de produto e modelos de negócios de Jimeng se concentram em servir UGC (conteúdo gerado pelo usuário), e a integração ecológica com Douyin também será o foco do desenvolvimento futuro", disse Chen Chen: "Talvez em termos de duração, taxa de quadros e imagem." detalhes e outras tecnologias O benchmarking direto em parâmetros não é o que Jimeng precisa prestar mais atenção nesta fase, a chave está na implementação de aplicações e nas capacidades de integração ecológica.”