notícias

O velho que mal pode esperar por Sora corre para Kuaishou Keling

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Por que Kuaishou é o primeiro grande fabricante a lançar vídeos de IA? ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Texto | Chen Mei Xi

Editor | Diretor

Nos primeiros dias, quando a Open AI conquistou o mundo em termos de modelos grandes, Kuaishou não era uma figura deslumbrante. Naquela época, o Baidu criou o Wenxinyiyan, o Alibaba criou o Tongyi Qianwen e a Tencent criou o grande modelo Hunyuan, alcançando-se, e a velocidade de pesquisa, desenvolvimento e abertura foi muito rápida.

Kuaishou não estava na lista inicial de candidatos e, mesmo agora, poucas pessoas conseguem citar o nome do grande modelo de linguagem de Kuaishou: Ruyi.

A situação da batalha mudou em 6 de junho deste ano. Keling, o grande modelo gerado por vídeo de Kuaishou, abriu inscrições para o beta público. Naquele dia também foi o 13º aniversário de Kuaishou. A mídia frequentemente compara Keling com Sora da Open AI, mas desde sua estreia explosiva em fevereiro, Sora não foi aberto ao público. Como resultado, usuários chineses curiosos começaram a migrar para Keling.

Dez dias depois, Keling “(recebeu) dezenas de milhares de inscrições”. Esses dados vêm de Wan Pengfei, que participou da Conferência de Zhiyuan naquele dia. No momento do discurso, seu cargo era o de chefe do Centro de Geração e Interação Visual Kuaishou, e ele também era o próprio responsável por Keling. Em 19 de julho, o número de candidatos ultrapassava um milhão. Keling levou apenas mais de um mês para aumentar o número de aplicações de dezenas de milhares para um milhão. Entre o progresso dos grandes modelos no primeiro semestre do ano, este é o desempenho mais atraente.


A imagem gerada pelo espírito, a palavra alerta: abelha nas flores

Histórias de reviravoltas são sempre populares entre o público. No entanto, um inventário cuidadoso de Keling e do grande negócio de modelos Kuaishou por trás dele revelará que este não é um drama legal que permanece adormecido e emerge de repente, nem é uma narrativa heróica em que um jovem talentoso lidera uma pequena equipe para atacar. voltar.

Um vídeo é gerado posteriormente com base na imagem gerada por Keling, com a palavra de alerta: abelhas voando por aí

Por que Kuaishou é o primeiro grande fabricante a lançar vídeos de IA?São as necessidades de negócios que trazem forte motivação e alta prioridade, é o acúmulo de dados e tecnologia na forma de produto que traz velocidade de iteração e é a correspondência de cenários de negócios que traz clientes reais.

O aparecimento de Ke Ling não é um acontecimento acidental. Internamente, o maior rival de Kuaishou na área de vídeo de IA provavelmente virá da ByteDance.


Quando há demanda, há motivação

Os criadores são um dos elos mais importantes no ecossistema de conteúdo Kuaishou. Segundo dados oficiais divulgados pela Kuaishou, em 2023, serão 138 milhões de criadores que lançaram vídeos curtos no Kuaishou pela primeira vez, e os vídeos divulgados ao longo do ano receberam mais de 1 trilhão de curtidas na plataforma.

Ter um grande número de criadores de conteúdo significa que Kuaishou precisa atender às suas necessidades de ferramentas de conteúdo. Caso contrário, os criadores que buscam a produtividade emergente logo correrão para outras ferramentas e até mesmo para outras plataformas. Este também é o valor de Kuaiying para Kuaishou e Cutting para Byte.

Portanto, o investimento anterior de Kuaishou em grandes modelos linguísticos não foi radical, mas tem de lutar pelos níveis superiores na competição de grandes modelos multimodais.

Antes de Keling, o grande modelo Wenshengtu desenvolvido por Kuaishou foi integrado ao Kuaishou. O resultado dos testes internos foi que os usuários geraram uma média de mais de 500 milhões de imagens de IA na área de comentários todos os meses.


A imagem gerada por Keling, a palavra imediata: Alienígena parado às margens do rio Yangtze

A forte motivação trazida pela procura é certamente uma condição necessária para o surgimento de Keling, mas Kuaishou não é o único com estas condições. Se houver algum outro fator importante que influenciou o surgimento do Ke Ling, pode ser a determinação.

A determinação vem primeiro da alta administração da Kuaishou.

Anteriormente, os movimentos de Kuaishou em modelos grandes sempre pareciam meio passo mais lentos. Quando se trata de modelos domésticos de grandes linguagens, todos pensarão primeiro em Wen Xin Yi Yan e Tong Yi Qian Wen. Quando se trata de aplicações de modelos de grandes linguagens, Kimi e Doubao são os mais populares no mercado; No campo da gráfica vicentina, o Ririxin 5.0 da SenseTime foi o primeiro a sair do mercado nacional. Na manhã seguinte ao seu lançamento, o preço das ações da SenseTime Technology subiu mais de 30% e as negociações foram temporariamente suspensas.

Na série anterior de histórias, Kuaishou estava em uma posição aparentemente marginal. Os grandes modelos de vídeo e suas aplicações são o nó mais importante na competição e a parte mais importante do layout geral dos grandes modelos.

Em um relatório anterior da mídia de tecnologia Silicon Star, um técnico da equipe Keling disse: "O que Gai Kun costuma dizer é que todos os cartões da empresa são para você usar, e a empresa apoia totalmente isso." o vice-presidente sênior da Kuaishou e atua como executivo-chefe responsável pelos negócios da linha de estação e também responsável pela linha de ciências sociais. Após a renúncia do ex-CTO Chen Dingjia, Gai Kun tornou-se um dos principais líderes da linha de tecnologia da Kuaishou.

Wan Pengfei e sua equipe podem ter uma determinação ainda maior.Um detalhe é que após decidir assumir o projeto Keling, Wan Pengfei entregou o trabalho original de atender às necessidades de negócios de todas as partes a outros responsáveis ​​​​do mesmo nível na equipe de Zhang Di.Da mesma forma, outros membros da equipe Keling também entregaram o negócio original em questão e se dedicaram totalmente à pesquisa e desenvolvimento de Keling. É normal trabalhar horas extras nos finais de semana para acompanhar o progresso.

Um vídeo gerado posteriormente com base na imagem gerada por Keling, com palavras imediatas: Alienígena andando na água, dois alienígenas cumprimentando

“Na verdade, mais de um mês antes do lançamento oficial, os resultados dos testes de Ke Ling não foram muito bons.” Um praticante da grande indústria de modelos disse ao Hedgehog Commune: “Lao Wan e os outros estão lutando contra as probabilidades. realmente ‘resultados milagrosos com grande força’. Muitas pessoas não esperavam tal efeito no final.”

Então a determinação se tornou a última variável.


Acumulação leva à velocidade

Kuaishou, ou qualquer plataforma líder de vídeos curtos, acumulou experiência no desenvolvimento de vídeos de IA em dois aspectos: conteúdo e tecnologia.

Os vídeos são produzidos pelos usuários e, após serem anotados e compreendidos pela plataforma, o conteúdo que pode ser distribuído é filtrado. Esse é o caminho inerente à lógica de negócios da Kuaishou. O conteúdo processado torna-se uma espécie de dado. Desde a descrição do conteúdo em si até a popularidade após a distribuição, Kuaishou dominou uma enorme quantidade de dados de conteúdo.Em termos leigos, ambos têm conteúdo e sabem que “bom conteúdo” os usuários gostam de ver.

Para o treinamento de grandes modelos de vídeo generativos, esse processo é como preparar os pratos com antecedência.

Até o “cozinheiro” já está pronto.

A maioria dos principais membros de P&D da equipe do projeto Keling são antigos subordinados de Wan Pengfei do período Y-tech. No início do ano, os membros da equipe foram gradativamente tendo contato com informações e materiais relevantes e começaram a trabalhar na pesquisa e desenvolvimento do Keling.

Anteriormente, a equipe de Wan Pengfei era a principal responsável por atender às necessidades de criação inteligente de UGC no ecossistema criativo Kuaishou e trabalhou em estreita colaboração com empresas como a produção da estação principal, Kuaiying e Yitian Camera. As formas do produto incluem embelezamento de retratos, efeitos especiais de áudio e vídeo. , avatares de transmissão ao vivo, etc.

Em 2021, Wan Pengfei fez um discurso público como "Chefe da Plataforma de Tecnologia de IA do Departamento de Tecnologia Y" na Conferência Global de Tecnologia de Inteligência Artificial.Entre os casos compartilhados na época estava o “efeito especial de foto ao vivo” – um videogame Tusheng na era pré-grande modelo. Naquela época, as bibliotecas de modelos de Kuaishou e Kuaiying lançaram o efeito especial "fotos antigas em movimento". Depois que os usuários carregam uma foto, os personagens da foto podem fazer movimentos como sorrir, piscar e acenar para formar um efeito de vídeo. Segundo relatos, este efeito especial dinâmico foi usado por mais de 3,44 milhões de pessoas em Kuaiying.


As comoventes fotos e vídeos antigos divulgados pelo internauta Kuaishou @senyuhelu em 2021

Em 2021, Wan Pengfei estava muito confiante no desenvolvimento da tecnologia generativa e propôs que “os modelos generativos se tornarão cada vez mais poderosos, o conteúdo gerado será mais realista e o processo de geração será mais estável e controlável”.

Três anos depois, Keling apareceu mais uma vez com seu trabalho "Reviving Old Photos". Alguns usuários que solicitaram permissão para usá-lo usaram a função "Tusheng Video" para transformar fotos de parentes falecidos em vídeos. Em comparação com os “efeitos especiais de fotos ao vivo” de três anos atrás, por meio de instruções abertas, os usuários podem fazer com que os personagens nas fotos realizem ações mais complexas. Essa é exatamente a mudança trazida pela nova tecnologia de modelos grandes.

Sora foi lançado em fevereiro deste ano, e a equipe Kuaishou Keling começou a ser formada em um momento próximo, mas o desenvolvimento e aplicação de tecnologia de geração de vídeo multimodal sempre esteve no escopo de trabalho de Wan Pengfei e sua equipe .

Os profissionais acima mencionados expressaram opiniões semelhantes às da Hedgehog Commune: "Na verdade, o surgimento de Sora equivale a permitir que todos determinem a rota técnica ou o plano naquele nó, mas há muitas aplicações de tecnologia visual, incluindo coisas multimodais. Isso é o que eles sempre fizeram.”

O acúmulo técnico que Ke Ling precisa vem daí. O cozinheiro se deparou com o prato preparado e, depois que uma nova receita foi vista pelo mundo, Kuaishou se tornou uma das equipes que mais rápido preparou o produto acabado.

Mas, ao mesmo tempo, os profissionais acima mencionados também têm uma atitude de esperar para ver se Keling poderá ocupar uma posição de liderança em tecnologia e produtos por um longo tempo. “Os algoritmos usados ​​​​por todos agora são semelhantes. Cada empresa pode ter alguns ajustes, mas a diferença ainda é a mesma, com cartões, dados e algoritmos semelhantes, é apenas uma questão de tempo até que cada empresa. produz produtos com efeitos semelhantes.

Portanto, a velocidade é apenas uma vantagem temporária da Kuaishou. Eles precisam realmente transformar sua vantagem em clientes estáveis ​​durante o período de janela principal.


Onde há cena, há clientes

Em 29 de dezembro de 2020, Kuaishou divulgou oficialmente a "facção Kuaishou" como valor corporativo pela primeira vez em uma carta interna a todos os funcionários, dizendo que "obcecado por clientes" é o cerne dos valores de Kuaishou.

Anteriormente, seja na Kuaishou ou em outras grandes empresas de Internet, o conceito mencionado com mais frequência era “usuários”. Por esta razão, Kuaishou explicou especificamente as razões desta mudança de vocabulário. "A complexidade dos negócios da empresa tornou-se maior, expandindo-se de 'usuários' para 'clientes'. Os clientes incluem produtores e consumidores, clientes do lado B e usuários do lado C, clientes externos e clientes internos. Precisamos fortalecer nossa compreensão dos produtores e Clientes do lado B Para melhorar a compreensão e a conscientização do cliente, também precisamos enfatizar a conscientização do serviço para os clientes internos.”

Olhando para 2024, foi de facto um importante divisor de águas nas mudanças na estrutura empresarial de Kuaishou. Em 2020, entre as receitas anuais de Kuaishou, a proporção das receitas de transmissão ao vivo caiu de 80,4% no ano anterior para 56,5%, e a proporção das receitas de serviços de marketing online aumentou de 19% para 37,2%. A proporção da receita de serviços subiu rapidamente para 6,3%, de 1% no ano anterior.

Como a própria Kuaishou explicou, produtores e consumidores, clientes do lado B e utilizadores do lado C, clientes externos e clientes internos são todos clientes importantes da Kuaishou e também se tornarão os clientes-alvo do grande modelo da Kuaishou.

Produtores e consumidores constroem em conjunto a cadeia de negócios mais básica de Kuaishou. Os produtores produzem conteúdo e os consumidores consomem conteúdo.O valor dos grandes modelos de produtos reside na redução do limite de produção e, ao mesmo tempo, na melhoria da qualidade do conteúdo.

O primeiro é fácil de entender. Como Keling pode conseguir atualmente, você pode obter um vídeo inserindo texto ou imagens. Para pessoas sem condições de filmagem e capacidade de produção, o limite de produção foi bastante reduzido.

Este último parece um pouco contra-intuitivo à primeira vista - com os recursos de simulação e duração de saída dos atuais produtos de vídeo de IA, como pode ser melhor do que a filmagem real e a produção profissional em termos de qualidade? No entanto, em plataformas líderes como Kuaishou e Douyin, a maioria das dezenas de milhões de vídeos curtos produzidos todos os dias vem de usuários comuns. Aos olhos dos produtores de conteúdo profissionais, a tecnologia de IA "não sofisticada o suficiente" é suficiente para tornar os usuários comuns. 'Tire fotos aleatórias para adicionar material e riqueza.

Os comerciantes do lado B também podem se tornar clientes dos grandes modelos de Kuaishou. De acordo com dados divulgados pela Kuaishou na Conferência Mundial de Inteligência Artificial deste ano, sua receita de publicidade de IA ultrapassou 20 milhões por dia. Os materiais publicitários gerados por IA podem reduzir o custo por item para 0,47 yuan, mantendo a CTR na linha de base.


Keling gera imagens, palavras imediatas: material publicitário de suco de maçã, há um copo de suco de maçã na mesa branca, com duas maçãs vermelhas ao lado

Para muitos produtos de modelos grandes, encontrar cenários de pouso é um problema difícil ao longo do ciclo de vida do produto, mas Kuaishou obviamente não tem escassez de cenários.Como disse Zhang Di, vice-presidente da Kuaishou e chefe de grandes modelos, o sucesso de Keling vem da “mineração de valor real em cenas reais para atender às necessidades reais dos usuários”.

O problema que eles têm que enfrentar é como fazer com que os usuários se tornem usuários de alta frequência dos grandes modelos de Kuaishou no cenário atual, e estejam dispostos a continuar a pagar por isso, e primeiro realizar a comercialização de grandes modelos dentro de seu próprio ecossistema.

No dia 25 de julho, Keling abriu totalmente as inscrições. No mesmo dia, Keling lançou seu sistema de adesão e entrou na fase de cobrança.

De acordo com informações do site oficial da Keling, usuários não associados podem receber 66 pontos de inspiração ao fazer login todos os dias. De acordo com o “preço” atual, aproximadamente 6 vídeos ou 330 fotos podem ser gerados gratuitamente.

Existem dois modelos de pagamento. Um é o modelo de adesão. Os usuários podem adquirir diferentes níveis de adesão mensal, trimestral, semestral ou anual. o modelo de recarga, onde os usuários podem pagar diretamente para recarregar, o custo de produção do usuário para cada vídeo é de 1 yuan e o custo de produção de cada imagem é de 2 centavos.


A imagem gerada por Keling, a palavra alerta: nascer do sol, há lindas nuvens e brilho matinal no horizonte, o sol está escondido nas nuvens

Há dois pontos que merecem atenção em relação ao sistema de preços de Keling.

Em primeiro lugar, Kuaishou não oferece uma opção de adesão que possa gerar obras ilimitadas, o que significa que não importa se escolhem o modo de recarga ou o modo de adesão, os usuários estão na verdade “pagando dinheiro para comprar tempos”.A única diferença é o preço unitário de cada geração, além de funções diferenciadas como remoção de marca d'água, extensão de vídeo e movimentação do espelho mestre.

O custo de geração de vídeos de IA é alto e Kuaishou não fornece membros que possam gerar tempos ilimitados. Kuaishou obviamente deseja evitar um possível controle de custos e reduzir a produção cinza até certo ponto.

Em segundo lugar, o valor de inspiração como “moeda de pagamento” de Keling é equivalente em preço às moedas Kuai usadas para recompensar âncoras no ecossistema Kuaishou. Com 1 yuan de RMB, você pode comprar 10 moedas rápidas ou 10 pontos de inspiração. Este método de precificação pode preservar a possibilidade de abertura do sistema de pagamento dentro do ecossistema Kuaishou no futuro.


Kuaishou está longe de ser o único que possui necessidades, cenários, clientes, equipamentos, dados, tecnologia e reservas de talentos ao mesmo tempo.

Os membros da indústria mencionados acima prevêem que, num futuro próximo, a Byte será capaz de produzir produtos de vídeo generativos do mesmo nível. Antes disso, Kuaishou precisa completar o acúmulo de usuários e conteúdo dentro do período de janela, para que o conteúdo de IA possa operar efetivamente dentro do ecossistema Kuaishou. É melhor ser capaz de percorrer o caminho de comercialização e ocupar a posição de liderança. mais tempo.

Os meios convencionais de crescimento e operações estão na agenda. O site oficial de Keling lançou rapidamente um evento de desconto de 50% para membros. Ao mesmo tempo, os usuários podem obter 66 pontos de inspiração fazendo login todos os dias para reduzir o impacto do modelo de pagamento no crescimento e retenção de usuários, para que todos os usuários possam pelo menos. experimente sem qualquer limite.

Além disso, na operação do site Kuaishou, Keling não dá muita ênfase a conceitos como vídeo generativo, soluções de modelos de difusão e clusters de treinamento distribuídos. Em vez disso, usa "fotos antigas para se tornarem vídeos", "abraçando você". tempo e espaço" e "ressurreição há 40 anos". "Foto anterior" e outros métodos de jogo para atrair os usuários a começarem a usá-lo primeiro, de modo a reduzir o custo de compreensão do usuário.

Para usuários comuns, a nova jogabilidade tem o mesmo caminho de dificuldade da jogabilidade de efeitos especiais de Kuaiying anterior. Eles a entendem como um efeito especial mais poderoso, quer tenham ouvido falar das três palavras “modelo grande” ou não, isso não os atrapalha. Eles se tornam usuários reais de produtos de grande porte.

Este é o primeiro passo definitivo para Kuaishou e Byte fazerem vídeos de IA, se os usuários forem seus, é também a crise final que eles enfrentam na era da IA, se os usuários forem atraídos por novos produtos descontínuos;

Em vez de dizer que estão competindo pela entrada na era do vídeo de IA, é melhor dizer que são todos defensores. A nova produtividade criará novas formas de conteúdo e, em última análise, novas plataformas. Essa história é familiar tanto para Cheng Yixiao quanto para Zhang Yiming.

Eles têm que ser o primeiro nível.

(Imagem da capa gerada por Keling.)


Contato de cooperação com a mídia WeChat ID |ciweimeijiejun

Se quiser se comunicar conosco, você pode responder "juntar-se ao grupo" em segundo plano para ingressar na comunidade.