ataque beanbao, a versão byte do sora está "atrasada, mas chegou" presidente da volcano engine, tan dai: comece a considerar a comercialização assim que for lançada

2024-09-26

“o caminho de desenvolvimento do grande modelo da byte é primeiro ir para c para aprimorar o produto e depois ir para b para expandir o mercado depois que as capacidades do modelo tiverem uma vantagem competitiva. em 25 de setembro, tan daizai, presidente da volcano engine,.” aceitou uma entrevista com o "daily economic news" disse durante uma entrevista em grupo com a mídia, incluindo repórteres.

com base neste caminho de desenvolvimento, depois que uma versão inicial foi aplicada à plataforma de criação de ia "ji meng" desenvolvida pela equipe de edição em maio deste ano, o modelo de geração de vídeo do bean bag foi oficialmente apresentado no 2024 volcano engine ai innovation tour em 24 de setembro e tem como objetivo o mercado corporativo está aberto para testes beta.

desde que sora iniciou a "era do vídeo chatgpt", grandes players nacionais como kuaishou, zhipu ai, minimax e alibaba lançaram sucessivamente produtos semelhantes. agora que a bytedance entrou no jogo, ela pode mudar o cenário competitivo existente de grandes modelos de vídeo. ?

através da demonstração dos efeitos dos dois modelos de geração de vídeo na conferência de imprensa, tan dai acredita que seja a capacidade de compreensão semântica, imagens interativas complexas de movimentos múltiplos de assuntos ou consistência de conteúdo de comutação de múltiplas lentes, a grande geração de vídeo doubao modelo atingiu o nível de liderança da indústria.

ao mesmo tempo, o “modelo de geração musical” e o “modelo de interpretação simultânea” foram lançados na conferência, expandindo ainda mais o território da byte ai.

como o primeiro player na indústria a reduzir o preço de modelos grandes, a volcano engine acelerou significativamente a sua comercialização. tan dai disse ao repórter do "daily economic news" que o número de ligações para b está crescendo rapidamente. "não estou muito claro sobre os negócios para c, mas sinto que está indo muito bem. acho que a ia pode resolver problemas de ponta a ponta, e os limites entre os negócios b e c não são tão óbvios."

um repórter do "daily economic news" soube na coletiva de imprensa que, em setembro deste ano, o uso médio diário de tokens no modelo doubao ultrapassou 1,3 trilhão, uma média de 50 milhões de imagens são geradas todos os dias, e a média o processamento diário de voz é de 850.000 horas.

byte entra em vídeo de ia, “começando a considerar a comercialização assim que chega”

em 31 de agosto, minimax, um dos "seis pequenos dragões da ia", lançou o modelo de geração de vídeo video-1; em 19 de setembro, keling ai completou sua 9ª iteração e lançou o "modelo keling 1.5". yunqi na conferência, alibaba cloud lançou um novo modelo de geração de vídeo em menos de um mês, o já turbulento campo de modelos de geração de vídeo deu as boas-vindas a um novo player.

no volcano engine ai innovation tour em 24 de setembro, dois grandes modelos de doubao video generation-pixeldance e doubao video generation-seaweed foram lançados juntos.

o repórter do "daily economic news" notou que a duração máxima da geração de conteúdo de vídeo suportada por esses dois grandes modelos ainda não foi anunciada. o jimeng app mostra que suporta a geração de conteúdo de vídeo de 3 segundos, 6 segundos, 9 segundos e 12 segundos. . em contraste, keling lançou uma função de continuação de vídeo em 21 de junho, que pode estender o vídeo por cerca de 5 segundos e gerar um vídeo de no máximo 3 minutos.

fonte da foto da coletiva de imprensa: foto de yang xinyi, repórter do daily news

"cenários diferentes têm requisitos diferentes para a duração do vídeo, e prestamos mais atenção às soluções para diferentes indústrias." tan dai disse em entrevista a um repórter do "daily economic news" que a vantagem do grande modelo de geração de vídeo doubao no a indústria reside principalmente na capacidade de seguir instruções, na consistência da comutação de múltiplas lentes e na capacidade de generalização da geração de vídeo.

na conferência de imprensa, várias demonstrações oficiais de vídeo demonstraram as capacidades acima: por exemplo, num vídeo de demonstração de um homem e uma mulher galopando a cavalo, na tela de 10 segundos, as duas pessoas tinham expressões e movimentos diferentes, mas ambos teve um bom desempenho. natural e suave.

é importante notar que o modelo grande de geração de vídeo doubao suporta a geração de preto e branco, animação 3d, animação 2d, pintura chinesa, tinta espessa e outros estilos de conteúdo.

"para modelos de geração de vídeo, é difícil criar estilos diferentes (de produção de conteúdo). além da tecnologia, depende principalmente da riqueza da fonte de dados." tan dai atribuiu isso às “vantagens dos recursos full-stack, aos avanços tecnológicos e à compreensão de vídeo de douyin e jianying”.

aderindo ao princípio do pragmatismo, tan dai disse que o novo modelo de geração de vídeos em saquinhos de feijão "tem considerado a comercialização desde o seu lançamento", e seus campos de aplicação incluem marketing de comércio eletrônico, educação em animação, turismo cultural urbano e micro-roteiros.

keling também está “ansioso” em termos de comercialização. na teleconferência sobre os resultados do segundo trimestre na noite de 20 de agosto, cheng yixiao, cofundador, presidente e ceo da kuaishou, considerou a comercialização de keling como uma prioridade máxima e "se esforça para alcançar uma escala considerável de realização comercial o mais rápido possível ."

falando sobre a estratégia de preços, tan dai revelou que o preço do modelo de geração de vídeo doubao ainda não foi determinado. “os cenários de aplicação dos modelos de vídeo e dos modelos de linguagem são diferentes, e a lógica de precificação também é diferente. o valor do produto deve ser medido por meio de novas experiências, custos de migração, etc. também depende de ter melhor produtividade (roi (retorno sobre o investimento)) do que antes) melhorou muito.”

“o preço não é mais o limite para a inovação.” os fornecedores de nuvem estão chegando ao novo campo de batalha na era da ia?

além do novo modelo de geração de vídeo, este evento também lançou modelos de pufes musicais e modelos de interpretação simultânea. até agora, a família de modelos grandes totalmente modais doubao cobriu as três categorias de grandes modelos de linguagem, grandes modelos visuais e grandes modelos de fala, e um total de 13 grandes modelos foram lançados.

mas os modelos por si só não são suficientes. muitas pessoas na indústria dizem que a implementação atual dos grandes fabricantes de modelos é “procurar pregos com martelo”. portanto, como encontrar pregos e como usar um martelo adequado para martelar pregos com menos esforço pode se tornar um novo desafio para os fornecedores de nuvem na era da ia.

a primeira é a questão dos custos que existe entre os grandes fabricantes de modelos e as empresas.

na conferência de imprensa de maio, tan dai anunciou que o preço de inferência do modelo principal de doubao é de apenas 0,0008 yuan/mil tokens, o que é 99,3% mais barato que a indústria, iniciando uma guerra de preços na área de modelos grandes.

"o custo é a chave. se o preço cair um décimo, o volume pode aumentar dez vezes." na opinião de tan dai, o volume de chamadas do modelo e a cobertura dos aplicativos são o foco atual. acredito o desbloqueio de novos cenários é mais valioso, como atualizações de cenário em chat, companheirismo, produtividade e expansão de cenários de aplicativos corporativos.”

no entanto, ele também insistiu que a premissa comercial para o mercado b-end deve ser sustentável. "não podemos considerar ganhar dinheiro com publicidade como o negócio c." confiança para fazer isso."

depois que o grande modelo doubao assumiu a liderança na redução de seu preço, alibaba tongyi qianwen, baidu wenxin yiyan e outros modelos também reduziram sucessivamente seus preços. na conferência yunqi deste ano, os preços dos três modelos principais de tongyi qianwen na plataforma alibaba cloud bailian foram reduzidos novamente, zhou jingren, cto da alibaba cloud, até disse que "em comparação com as grandes aplicações do futuro, eles ainda são muito caros".

sobre a situação atual desta indústria, tan dai disse que após a redução dos preços, a julgar pelo número de ligações, o custo não é mais um obstáculo à inovação “a próxima coisa a fazer é melhorar a qualidade e o desempenho do modelo baseado. neste preço. o índice de qualidade o objetivo é tornar o modelo mais poderoso e diversificado.”

após uma rodada de “reduções gerais”, a grande indústria de modelos não irá mais “reduzir” cegamente os preços. nesta fase, a competição é o desempenho do modelo, que também é apoiado pela demanda dos clientes.

de acordo com a observação de tan, para a implementação de grandes modelos, a demanda no mercado para b muda lentamente, e a principal demanda é reduzir custos e aumentar a eficiência. "quando as empresas aplicavam ia, costumavam planear de cima para baixo, o que tem uma grande probabilidade de fracasso. agora precisam de inovar de baixo para cima."

o repórter do "daily economic news" notou que no processo de ajudar as empresas na transformação digital, a volcano engine uniu forças com todas as partes para estabelecer a smart terminal large model alliance, a automobile large model ecological alliance e a retail large model ecological alliance e clientes externos já cobrem mais de 30 setores, como telefones celulares, automóveis, finanças, consumo e entretenimento interativo.

agora, byte tem mais alguns “martelos” úteis em suas mãos. como encontrar mais “pregos” que combinem com eles em todas as esferas da vida será o próximo teste do volcano engine.

notícias econômicas diárias

relatório/comentários

notícias