notícias

Grandes empresas estão lançando uma “corrida armamentista” na geração de vídeos. A IA pode realmente derrubar Hollywood?

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

O círculo de vídeo de IA está matando você.

Na frente, Kuaishou lançou Keling de forma destacada. Na retaguarda, Luma não ficou para trás e lançou o mais recente modelo de vídeo Dream Machine.

Impulsionados pela atmosfera sutil do FOMO, mais jogadores aderem ao propósito de “cansar-se até a morte, rolar até a morte” e mergulhar nesta faixa——

Alibaba DAMO Academy está apostando na "Plataforma de Criação de Vídeo Xunguang", ByteDance AI está explorando "dramas de filmes generativos", Meitu MOKI está se concentrando na criação de curtas-metragens de IA, Haiper AI está se concentrando na expressão criativa...

Xangai, em 5 de julho, estava muito quente, assim como a ansiedade no círculo de vídeos de IA.

Neste dia, a sala de conferências é realizada.



O fórum reúne muitas empresas renomadas e especialistas na área de vídeo de IA para discutir os mais recentes avanços na tecnologia de geração de vídeo e suas práticas inovadoras em aplicações industriais.

Compartilhamento aprofundado: as palavras sinceras de um círculo de pessoas de dentro

Desde o surgimento do ChatGPT, a tecnologia de geração de vídeo detonada por Sora é definitivamente a “frango mais quente” da indústria de tecnologia.

Embora este campo ainda esteja em sua infância, a tecnologia de geração de vídeo está constantemente expandindo os limites da criação de conteúdo digital com sua incrível velocidade de desenvolvimento e potenciais perspectivas de aplicação.

Chen Weihua, chefe de geração de vídeo da Alibaba Damo Academy, Ni Bingbing, professor do Departamento de Eletrônica da Shanghai Jiao Tong University, Chen Jianyi, vice-presidente sênior da Meitu Corporation, e Miao Yishu, fundador da Haiper AI, participaram do fórum e proferiu discursos principais.



Chen Weihua, chefe de geração de vídeo da Alibaba Damo Academy, disse que o lançamento do Sora no início do ano não só demonstrou o enorme potencial da geração de vídeo AI em termos de alta definição, alta fidelidade e alta qualidade, mas também inspirou imaginação ilimitada das pessoas sobre esta tecnologia.

Embora Sora seja muito legal, o processo de geração ainda é difícil de controlar, a consistência do protagonista é difícil de garantir e requer muita pós-edição manual para alcançar os melhores resultados.

"O controle do conteúdo de vídeo é a maior demanda na criação e também o maior desafio que nosso algoritmo enfrenta hoje."

O mais recente produto AIGC lançado pela Alibaba DAMO Academy - Xunguang Video Creation Platform, visa melhorar a eficiência da produção de vídeo e resolver problemas de pós-edição de vídeo. Por meio de organização simples de tomadas e recursos avançados de edição de vídeo, os usuários podem realizar o controle do conteúdo de vídeo. controle preciso e mantenha a consistência de personagens e cenas em vários vídeos.

Xunguang fornece uma plataforma de ferramentas completa para a aplicação generalizada de vídeo de IA. A IA não substituirá o trabalho do criador, mas otimizará o fluxo de trabalho de criação de vídeo e se tornará um novo mecanismo movido pela criatividade.



Ni Bingbing, professor do Departamento de Eletrônica da Universidade Jiao Tong de Xangai, compartilhou tecnologia de geração de conteúdo de mídia para vetorização.

Assim que o discurso começou, ele derramou água fria sobre ele.

“Os algoritmos da geração atual enfrentam problemas estruturais e detalhados. Por exemplo, o conteúdo gerado pode ter mais ou menos elementos, ou pode ser perfurado à mão, etc. ainda enfrenta desafios. "Ni Bingbing disse que a razão é que toda inteligência generativa é essencialmente um processo de amostragem, e o vídeo é um espaço de alta dimensão. Embora a qualidade do conteúdo possa ser melhorada aumentando os dados de treinamento e reduzindo a precisão da amostragem, no entanto, devido ao espaço dimensional extremamente elevado, ainda é difícil alcançar a perfeição no quadro técnico atual.

Além disso, a limitação do poder computacional também é um fator importante. Actualmente, os indicadores de poder de computação, incluindo modelos de linguagem grande e modelos de geração de imagens e vídeos, atingiram o nível de dezenas de terabytes, centenas de terabytes ou mesmo milhares de terabytes. No futuro, a tendência de desenvolvimento da inteligência generativa irá definitivamente afundar para o lado final, e é impossível para o lado final usar amostragem ilimitada de grande poder de computação para resolver problemas.

A este respeito, Ni Bingbing propôs a utilização de uma estrutura de representação vetorial para instanciar o conteúdo de vídeo em parâmetros de rede, conseguindo assim um controle preciso do conteúdo gerado e cumprindo melhor as regras do mundo físico.

Ele acredita que o sucesso atual da inteligência artificial generativa ocorre às custas do consumo excessivo de poder computacional e de dados. No futuro, devemos nos concentrar em novas representações de conteúdo de mídia e em novos paradigmas de computação generativa, e criar ativamente novas qualidades de mídia. com maior qualidade e eficiência.



Chen Jianyi, vice-presidente sênior do Grupo Meitu, analisou os cenários de aplicação e os desafios da geração de vídeo de IA da perspectiva de um gerente de produto.

Durante a pesquisa do usuário, ele descobriu dois fenômenos interessantes.

Primeiro, os insiders ficarão surpresos porque o vídeo é gerado por IA, mas para os usuários comuns, eles não se importam se o vídeo é gerado por IA, mas se concentram se o conteúdo é atraente.

“Isso significa que não importa a experiência visual que a tecnologia de geração de vídeo de IA alcance, devemos retornar ao conteúdo em si e focar nos valores e histórias que o vídeo deseja transmitir.”

Em segundo lugar, a maioria dos usuários comuns não está familiarizada com termos profissionais como "Vincent Pictures" e "Vicent Videos" e não conhece seus usos específicos. Tomemos "Wen Sheng Tu" como exemplo. Este termo é exatamente como a função "dissolver" do PhotoShop da época, que é difícil de entender, se for limitado a uma cena e descrito como uma função de "emagrecimento facial", os usuários podem entendê-lo de forma mais intuitiva. O mesmo vale para “Vincent Video”.

Ao mesmo tempo, ele disse que a tecnologia de geração de vídeo AI torna a expressão do conteúdo mais concreta e enriquece a criatividade e a experiência visual, mas ainda precisa resolver questões importantes, como controlabilidade da configuração visual, controlabilidade dinâmica e controlabilidade de áudio.

A plataforma de criação de curtas-metragens de IA da Meitu Discovery, MOKI, está superando essas grandes dificuldades.

Segundo relatos, MOKI construiu um fluxo de trabalho abrangente de curtas-metragens com tecnologia de geração de vídeo AI como núcleo. No estágio inicial, os criadores podem escrever roteiros, projetar estilos visuais e definir personagens e, em seguida, usar a tecnologia de IA para gerar materiais de vídeo. Finalmente, através das capacidades de pós-produção da IA, todos os materiais são conectados para formar um curta-metragem coerente.



Como fundador da startup de celebridades Haiper AI, Miao Yishu discutiu profundamente a importância e o valor da tecnologia de geração de vídeo.

Miao Yishu disse: “Muitas vezes ouvimos tais opiniões, como ‘Linguagem é inteligência’ ou ‘Grandes modelos de linguagem são inteligência artificial geral (AGI)’. No entanto, a aprendizagem de línguas por si só pode realmente nos levar diretamente à AGI? formas importantes para os humanos adquirirem conhecimento, mas não é a única maneira. Os humanos aprendem através de múltiplos métodos de aprendizagem, como visão, audição, leitura e cinestésica, também precisam aprender e construir uma linguagem verdadeiramente universal através da integração de múltiplas modalidades. .inteligente."

Após o lançamento do GPT-3.5, muitas pessoas apresentaram a visão de que "o Processamento de Linguagem Natural (PNL) não existe mais" porque grandes modelos de linguagem basicamente resolvem o aprendizado e a semântica do sistema de linguagem por meio de modelos generativos autorregressivos (prevendo a próxima palavra a cada vez). problemas de inferência, não precisamos mais de modelos discriminativos para ajustar problemas de inferência específicos.

Da mesma forma, os modelos de geração de vídeo também constroem modelos generativos por meio de autorregressão (prevendo o próximo quadro de vídeo a cada vez), de modo que o modelo aprende implicitamente tarefas importantes no campo da visão computacional, como previsão de profundidade, anotação semântica e segmentação semântica. Portanto, em 2024, ouviremos comentários como “Visão Computacional (CV) não existe mais” porque o modelo de geração de vídeo dominou gradualmente as capacidades perceptivas e as leis físicas no processo de aprendizagem para gerar conteúdo de vídeo.

“Precisamos entender a primeira lei de Newton como um cachorrinho para perseguir borboletas na rua? Precisamos conhecer todas as leis da física como uma criança de 5 anos para andar e andar de bicicleta? isso por meio de interação constante com o mundo e observação, aprendendo por meio de diversas modelagens. Na verdade, o modelo de geração de vídeo construiu um modelo mundial aprendendo a gerar diversos conteúdos de vídeo, e podemos interagir facilmente com o modelo mundial por meio de palavras rápidas para renderizar. o conteúdo de vídeo que queremos, e tudo isso não exige que construamos explicitamente um simulador para simular as chamadas leis físicas."

Miao Yishu enfatizou: “A geração de vídeos vai além da geração de vídeos”. Na sua opinião, o modelo de geração de vídeo pode não só gerar conteúdo de vídeo, mas também é um passo importante na aprendizagem de capacidades perceptivas básicas através da multimodalidade, e é também a única forma de a inteligência artificial avançar para a AGI.

Debate em mesa redonda: Como proceder na geração de vídeos?

Além do compartilhamento do tema por quatro especialistas e acadêmicos, o fórum também convidou convidados do meio acadêmico, empresas, startups e instituições de investimento renomadas para conduzir discussões aprofundadas em mesas redondas sobre tecnologias de ponta para geração de vídeo e práticas de aplicação inovadoras em indústrias de desembarque de cena.



Na primeira mesa redonda, Zhu Jiang, fundador e CEO da Jingying Technology, Liu Ziwei, professor assistente da Universidade Tecnológica de Nanyang em Cingapura, Li Feng, diretor de IA do Shengqu Game Technology Center, Le Yuan, sócio da Yitian Capital, e outros convidados discutido "impulsionado por grandes modelos, para onde irá o caminho de melhoria da tecnologia de geração de vídeo?" Este tópico foi discutido em profundidade e as perspectivas para a implementação da tecnologia de geração de vídeo na indústria foram discutidas.

Zhu Jiang, fundador e CEO da Jingying Technology, compara a tecnologia de geração de vídeo à explosão cambriana da vida e acredita que ela está atualmente em um estágio de rápido desenvolvimento de tecnologia e aplicações. Ele enfatizou que as empresas da camada de aplicação precisam manter sua compreensão e liderança em tecnologia e, ao mesmo tempo, prestar atenção às necessidades dos usuários para se destacarem da concorrência. Ele disse que, no final, tanto as empresas modelo quanto as empresas de aplicativos sobreviverão, mas as empresas modelo podem ser mais genéricas, enquanto as empresas de aplicativos precisam prestar mais atenção ao entendimento do usuário e do negócio.

Liu Ziwei, professor assistente da Universidade Tecnológica de Nanyang, em Cingapura, acredita que a tecnologia de geração de vídeo está atualmente na era GPT-3 e ainda está a cerca de meio ano da maturidade. Ele analisou as vantagens e desvantagens dos três caminhos técnicos de Difusão, Transformador e modelo de linguagem, e acredita que podem ser integrados e desenvolvidos no futuro. Ele também enfatizou a necessidade de explorar a "primeira lei de Newton" da tecnologia de geração de vídeo, ou seja, como obter melhorias previsíveis investindo em poder computacional e dados.

Do ponto de vista da indústria de jogos, Li Feng, chefe de IA do Shengqu Game Technology Center, acredita que a tecnologia de geração de vídeo pode melhorar a eficiência e a criatividade no desenvolvimento de jogos. Ele espera cooperar com empresas modelo para aplicar tecnologia de geração de vídeo ao processo de desenvolvimento de jogos, como referindo-se à ideia de renderização diferenciada para design de níveis e visualização de layout, alinhamento visual de métodos de comunicação durante a colaboração em P&D e alinhamento visual com outros imagens de ativos dinâmicas geradas.

Le Yuan, sócio da Yitian Capital, analisou os desafios enfrentados pela implementação comercial da tecnologia de geração de vídeo do ponto de vista do capital. Ele acredita que a tecnologia de geração de vídeo avançou muito além das expectativas nos últimos dois ou três anos, o que é surpreendente. No entanto, falando objetivamente, o nível técnico atual ainda não é suficiente para apoiar a comercialização em larga escala de aplicações baseadas em modelos de linguagem. é utilizado A metodologia e os desafios encontrados também são aplicáveis ​​aos campos de aplicação relacionados ao vídeo.



A segunda mesa redonda do fórum focou em "Inovação e oportunidades em aplicações de geração de vídeo sob a onda de IA generativa desconstruída". Convidados da Wuyuan Capital, FancyTech, Morph AI e Universidade de Stanford falaram sobre investimentos, aplicações, tecnologia e arte, etc. De vários ângulos, são exploradas a direção do desenvolvimento e os cenários de aplicação da tecnologia de geração de vídeo.

Kong Jie, fundador e CEO da FancyTech, acredita que a tecnologia de geração de vídeo trará reformas no lado da oferta, permitindo que mais pessoas participem na criação de conteúdo. Ele introduziu a plataforma de geração de vídeo To B da FancyTech, que ajuda os comerciantes a reduzir os custos de criação de conteúdo, restaurando itens reais em cenas virtuais.

Shi Yunfeng, vice-presidente da Wuyuan Capital, mencionou que a atual geração de vídeo ainda está nos estágios iniciais de desenvolvimento, semelhante ao estado de exploração quando o GPT2 foi lançado pela primeira vez. Encontrar PMF é um grande desafio quando a base da tecnologia ainda não é sólida. Ele acredita que embora a tecnologia continue avançando, os criadores estão muito entusiasmados e têm um certo alcance de divulgação, mas não há um consumo generalizado de conteúdo. Requer gerentes de produto talentosos para adaptar o produto e criar novos formatos de conteúdo que sejam incompatíveis com o fluxo de informações existente.

O fundador e CEO da Morph AI, Xu Huaizhe, acredita que a tecnologia e os aplicativos de geração de vídeo são igualmente importantes. Como uma equipe com formação técnica, é mais importante coordenar o desenvolvimento da camada de modelo e da camada de aplicativo. Ele apresentou o Morph Studio, uma ferramenta completa de produção de vídeo de IA, baseada no modelo líder de vídeo de IA da Morph. Atualmente, está sendo testado globalmente e recebeu feedback positivo. No futuro, a Morph continuará a otimizar as funções do produto e a experiência do usuário por meio do feedback do usuário, para que sua tecnologia de vídeo de IA possa ser implementada mais rapidamente por meio de produtos e ajudar melhor os criadores.

Na perspectiva de combinar arte e tecnologia, Rao Anyi, pesquisador de pós-doutorado na Universidade de Stanford, acredita que a tecnologia de geração de vídeo pode inspirar métodos de criação mais interativos. Ele enfatizou que nem as máquinas nem as pessoas podem estar 100% corretas, portanto, um mecanismo de melhoria interativo precisa ser introduzido no processo criativo para permitir que máquinas e pessoas colaborem para completar a criação.

No geral, os convidados da mesa redonda estão cheios de expectativas quanto às perspectivas de aplicação da tecnologia de geração de vídeo, mas também reconhecem que a tecnologia atual ainda está em seus estágios iniciais e novos modelos de negócios e cenários de aplicação precisam ser explorados para alcançar maior valor .









A realização bem-sucedida deste fórum não só fornece uma plataforma de comunicação e aprendizagem para profissionais na área de vídeo de IA, mas também proporciona mais oportunidades de cooperação para todos os elos da cadeia industrial relacionada. Olhando para o futuro, a tecnologia de vídeo de IA inaugurará um espaço de desenvolvimento mais amplo e cenários de aplicação mais ricos, criando uma melhor experiência visual para os humanos.