zhang yiming chegou atrasado, mas ainda mais tarde

2024-09-25

a partir de setembro, grandes modelos de vídeo se tornaram o novo ponto de competição de ia para grandes fabricantes. mas desta vez, zhang yiming se atrasou novamente.

já se passaram 5 dias desde que o vídeo alibaba tongyi qianwen wensheng foi lançado e 3 meses desde que kuaishou lançou keling em junho. em 24 de setembro, a byte finalmente lançou seu próprio modelo de geração de vídeo doubao.

o que vale a pena notar é que zhang yiming, que sempre valorizou o retorno sobre o investimento (roi) e é pragmático, deu o tom da “comercialização” para o modelo de vídeo doubao desde o início.

no evento, tan dai, presidente da volcano engine, disse:a comercialização foi considerada desde o lançamento do modelo de geração de vídeo doubao.as áreas de aplicação incluem marketing de comércio eletrônico, educação em animação, turismo cultural urbano e microroteiros, como videoclipes musicais, microfilmes e peças curtas.

legenda: insira "uma garotinha com chapéu de papai noel segurando um gato boneco de pano" para gerar a fonte de renderização: lista alfabética

ao mesmo tempo, tan dai também enfatizou que antes do lançamento do modelo de vídeo doubao, ele já havia “aparecido” em muitos projetos de dramas curtos em douyin. no mês passado, kunlun wanwei lançou skyreels, uma plataforma de geração de curtas de ia, e em julho, meitu xiuxiu lançou moki, uma ferramenta de geração de curtas de ia.

"existem agora centenas de empresas que vendem peças curtas no exterior e se tornaram grandes usuários de modelos de ia." um fornecedor líder de serviços de ferramentas de ia também disse que para grandes fabricantes de modelos como a byte, a ia é usada para reduzir os altos custos de produção de filmes e televisão. com a bênção da ia, peças curtas e mvs se tornarão produtos de conteúdo semelhantes a artigos online e vídeos curtos com mais participação do usuário, “byte, que chegou atrasado, está jogando um jogo comercial”.

na verdade, quando sora explodiu, se ele poderia lançar um grande modelo de vídeo tornou-se o "novo padrão" para medir se a tecnologia dos grandes fabricantes de modelos está avançada em 2024.

nessa busca por sora, o "não tem pressa" da byte adiou até o final de setembro para "reservar um espaço" para o modelo de vídeo quando o doubao model pro fosse atualizado.

quando a alphabet abriu o jimeng ai, percebeu-se que após aplicar o modelo de vídeo beanbao, os usuários finais c podem experimentar a geração de vídeo no jimeng ai.

o tempo máximo de geração de 12 segundos é "justo", e o efeito de geração de qi keling "não é incrível, mas está alguns meses atrasado e não foi eliminado da lacuna técnica pelo primeiro grande modelo de vídeo." o primeiro lote de testes internos zhang yang, um praticante de ia do modelo de vídeo doubao, disse à alphabet que embora os modelos de vídeo domésticos sejam atualizados intensamente,a confiança na chegada tardia do byte pode ser devida ao fato de que os efeitos da geração anterior de vídeo de ia não “surpreenderam” os usuários.

enquanto os modelos domésticos perseguem sora, a openai já demonstrou um novo caminho de aprendizagem por reforço para modelos básicos de grande escala através do lançamento do gpt-o1, que pode estar prestes a inaugurar uma nova era com uma avaliação superior a um trilhão. fabricantes, também haverá novos match points.

o jimeng ai lançado anteriormente por jianying suporta apenas 3 segundos de duração de vídeo após carregar o modelo de bean bag grande, o jimeng ai pode gerar vídeos de 3 a 12 segundos;

em contraste, a versão 1.0 do keling pode experimentar apenas 5 segundos de geração de vídeo sem assinatura, enquanto o jimeng ai da byte oferece suporte a testes gratuitos dos usuários, emitindo 66 pontos ao fazer login todos os dias.

porém, ao contrário do modelo doubao, que passou a suscitar “compra zero yuan de modelos grandes” com preço inferior a 98% da indústria, causando discussões acaloradas, o modelo doubao não parece estar alinhado com a tradição da byte de "fazendo grandes coisas silenciosamente".

digite a palavra-chave "uma garotinha segurando um gato ragdoll". na versão beta interna antes do lançamento do modelo de vídeo doubao, pela primeira vez, a ia parece entender o gato ragdoll como uma boneca e o vídeo gerado. é de um gato falso nos braços, os rostos no vídeo também estão ligeiramente rígidos.

depois de ser gerado novamente em 25 de setembro, o gato ragdoll se transformou novamente em um gato de jardim. somente quando foi gerado pela terceira vez o grande modelo de ia completou as instruções com precisão. zhang yang disse à alphabet que, como um dos primeiros praticantes de ia em testes internos, o efeito do uso do grande modelo de vídeo doubao não é surpreendente.

no entanto, o modelo grande do doubao video pode alternar entre diferentes estilos, como animação 3d, animação 2d, pintura chinesa, preto e branco e tinta espessa. você também pode optar por mover a câmera aleatoriamente ou personalizar os modos de movimento da câmera, como aumentar o zoom. e diminuir o zoom em comparação com apenas 16:9, 9:16 e 1:1, três proporções de tela estão obviamente disponíveis para diferentes proporções de tela, incluindo 3:4, 2:3, 4:3, 3: 2 e mais opções de proporção.

na opinião de zhang yang, doubao oferece mais opções em termos de experiência de interação do usuário. no entanto, embora o modelo grande de vídeo beanbao possa realizar a troca de múltiplas lentes em um prompt, "a conexão da imagem geral ainda é um pouco instável e as expressões dos personagens estão um pouco distorcidas".

no entanto, zhang yiming gravou, sem surpresa, o "pragmatismo" no dna do modelo doubao video desta vez.

assim que o modelo grande do doubao video foi lançado, ele foi convidado para testar no mercado empresarial. ao mesmo tempo, tan daigeng, presidente da volcano engine, disse:a comercialização foi considerada desde o lançamento do modelo de geração de vídeo doubao.as áreas de aplicação incluem marketing de comércio eletrônico, educação em animação, turismo cultural urbano e microroteiros, como videoclipes musicais, microfilmes e peças curtas.

diferente de outras startups de ia que “procuram pregos com martelo”, seja bytedance ou kuaishou, “tem conteúdo e plataforma próprios, e os pregos estão na mão, então fazer grandes modelos de vídeo naturalmente tem mais cenários de aplicação”. zhang yang disse:

em 24 de julho, a postagem oficial do wechat da keling ai revelou que o número de usuários que solicitaram permissões ultrapassou 1 milhão, e um sistema de associação paga foi lançado no mesmo dia, incluindo três categorias de associação: ouro, platina e diamante. o preço anual da assinatura começa em mais de 500 yuans. varia de mais de 5.000 yuans. para byte, que está atrasado no jogo, pode estar tecnicamente no mesmo nível de keling, mas no caminho da comercialização, keling, que já começou a pagar pelo lado c, parece estar novamente um passo à frente.

em maio, diante da questão de "openai lançou o gpt-4o um dia antes do google lançar o i/o", a empresa-mãe do google, alphabet, e o ceo do google, sundar pichai, disseram sem rodeios: "quando estamos no ponto de inflexão da ia, o que vejo é oportunidades, então se você estender esse cronograma, então uma determinada coisa que acontece em um determinado dia não terá importância”.

assim como o google, que é constantemente derrotado pela openai,tchau, que chegou atrasado, segura o prego na mão e parece tentar alcançá-lo por trás.

de acordo com dados da questmobile, até julho, o número de usuários ativos mensais do ai app ultrapassou 66,3 milhões. entre eles, doubao, wen xiaoyan, kimi, hoshino e tongyi estão entre os 5 primeiros, com usuários ativos mensais de 30,42 milhões, 10,08 milhões, 6,25 milhões, 4,66 milhões e 4,24 milhões, respectivamente.

embora o doubao app tenha sido lançado significativamente depois do tongyi qianwen do alibaba, e ainda mais tarde do que wen xinyiyan e kimi do baidu, os usuários ativos mensais do doubao já são maiores do que o número total de usuários ativos dos outros quatro apps.

portanto, no campo da geração de vídeo ai,diante da situação atual de lentidão nos avanços tecnológicos nacionais, a byte também parece ter confiança para chegar atrasado.

seja keling, o primeiro a sair da indústria, ou o tão esperado modelo de vídeo byte beanbag, ninguém parece conseguir alcançar sora entre os fabricantes que lançaram modelos de vídeo em julho e setembro.

de “mountains and seas’ strange mirror: cutting the waves” de kuaishou a “sanxingdui: future apocalypse” de byte, o uso de ia para criar peças curtas tornou-se a “pedra da alquimia” para os principais efeitos de geração de vídeo de ia dos fabricantes.

obviamente, em comparação com os dramas curtos tradicionais que exigem que personagens reais apareçam e interajam, os dramas curtos de mitologia, ficção científica e outros tipos são mais adequados para grandes modelos de ia no estágio atual.

“o nível atual de geração de ia é instável e é difícil distinguir entre efeitos reais e falsos, como explosões de bombas e fogos de artifício em grandes cenas, mas ainda requer pessoal de depuração para fazer ajustes por mais 1-2 horas”, zhang yang disse à lista da alphabet, o atual grande modelo de ia gerou vídeos, expressões e ações mais detalhadas dos personagens, ainda tem problemas de expressões não naturais, pequena amplitude de movimentos e expressões mecânicas.

zhu jiang, a plataforma de curtas-metragens de ia reel.ai, também disse sem rodeios na entrevista: “espera-se que curtas-metragens sem animação atinjam níveis consumíveis no segundo semestre deste ano.

robin li disse uma vez: "não importa se você está 12 meses à frente ou 18 meses atrás. toda empresa está em um mercado perfeitamente competitivo. não importa o que você faça, haverá muitos concorrentes."

com o app douyin com uma base de usuários de 100 milhões, não é difícil explicar a facilidade do byte. até a tencent, que ainda não lançou um grande modelo de vídeo, tem o wechat, o maior app social, e parece ter mais opções para zhang yiming e ma huateng, que estão “segurando as unhas”.

"não importa qual modelo de vídeo da empresa você usa agora, o que importa é tirar cartas."

"cerca de 1 em cada 10 vezes de geração pode realmente atender aos padrões comerciais, mas o processo de depuração 10 vezes pode não ser tão eficiente quanto o trabalho manual." depois de experimentar vários modelos de vídeo grandes no mercado, shan shan, um profissional de cinema e televisão. , disse sem rodeios, o grande modelo atual não atende às expectativas do usuário em termos de efeito de geração.

"a entrada gera um vídeo de um gato ragdoll. o resultado é um gato de brinquedo ou um gato de jardim. quando os usuários não conseguem obter resultados estáveis e inesperados após 2 a 3 testes, será difícil realmente concluir a retenção do usuário."aos olhos de shan shan, isso também pode explicar por que sora ainda não foi lançado para testes públicos mais de meio ano após seu lançamento.

no início do ano, houve relatos de que altman, ceo da openai, investiria us$ 7 trilhões em cooperação com a tsmc para construir uma fábrica de wafer, com a intenção de ignorar os chips desenvolvidos pela própria nvidia. em setembro, a openai foi revelada que a tsmc estava trabalhando em seus próprios chips. "modelo de vídeo dolorido" "o objetivo de desenvolver um chip de processo de nível angstrom a16 personalizado é melhorar suas capacidades de geração de vídeo.

a densidade deste chip a16 é aumentada em 1,10 vezes. sob a mesma tensão de operação, a velocidade é aumentada em 8%-10%, o consumo de energia é reduzido em 15%-20%.usar “preço e consumo de energia mais baixos para promover a geração mais rápida de vídeo de ia” é obviamente uma razão importante pela qual a openai adiou a versão beta pública do sora.

a fim de obter melhores efeitos de geração de vídeo de ia, maiores custos de energia computacional, preços mais baixos e consumo de energia também se tornaram fatores-chave para saber se os grandes modelos de vídeo domésticos podem eventualmente "esgotar".

recentemente, foi revelado que a byte planeja cooperar com a tsmc em chips de ia, embora a byte posteriormente tenha respondido que o relatório era falso e afirmado que sua exploração no campo de chips está mais focada na otimização comercial de recomendações e publicidade.no entanto, se você inserir palavras-chave como "chip" no site de recrutamento da byte, já existem mais de 200 cargos relacionados, incluindo arquitetura de chip ai e engenheiros de teste sil de chip.

mas para zhang yiming e até mesmo para os grandes fabricantes nacionais de cabeçotes de modelos, os desafios que enfrentam podem ser mais difíceis.

em 19 de setembro, na conferência yunqi de 2024, o fundador do dark side of the moon, yang zhilin, disse que o principal significado do lançamento do gpt-o1 é aumentar o limite superior da ia. “aumentando a produtividade em 10%, ou 10 vezes o pib, a questão mais importante aqui é se isso pode ser ampliado através da aprendizagem por reforço.”

na era gpt-o1, o bate-papo instantâneo de doubao, tongyi qianwen, wenxin e kimi passou de pensar por 10 segundos ou 20 segundos para gerar respostas para ser capaz de chamar várias ferramentas para realizar tarefas em nível minucioso ou mesmo o nível diário, o formulário de produto de bate-papo instantâneo de ia com o qual os usuários domésticos já estão familiarizados dará início a uma grande mudança "a ia é mais como um humano ou um assistente." side of the moon para acompanhar o openai.

quando um novo momento de competição chega novamente, os grandes modelos básicos dos grandes fabricantes nacionais não viram "novos respingos" naquele momento, mas para zhang yiming e outros, eles se deparam mais uma vez com uma escolha.

devemos continuar a investir muitas “pessoas, dinheiro e poder computacional” em cenários funcionais como vincent video para iterar, ou devemos aprender com o openai e introduzir uma rota de iteração aprimorada? para a byte, que não falta dinheiro, é claro que pode “ter os dois”.

e quando o espaço de imaginação trazido pelo “aprendizado por reforço” é grande e tentador o suficiente, um novo tiro de partida é disparado. será que byte, que não conseguiu acordar cedo, conseguirá avançar desta vez?

(zhang yang e shan shan são pseudônimos no artigo)

notícias

zhang yiming chegou atrasado, mas ainda mais tarde

introdução

minhas informações de contato