notícias

Ferramenta de vídeo de IA de código aberto, você só precisa ser um diretor, desenvolvida pelos engenheiros da HuggingFace

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Editor: Zenan, Jiaqi

Para fazer vídeos com o Clapper, você só precisa ser o diretor.

Com o lançamento do Sora, o campo do vídeo parece ter entrado na era da IA ​​generativa. Mas até hoje ainda não usamos a ferramenta oficial de geração de vídeo da OpenAI, e as pessoas que mal podem esperar começaram a procurar outros métodos.

Nas últimas semanas, o Clapper, uma ferramenta de edição de vídeo de código aberto, chamou a atenção.



Ao contrário dos geradores de vídeo oferecidos por muitas empresas de tecnologia, o Clapper é uma ferramenta de código aberto de visualização de histórias de IA que foi lançada como protótipo há um ano. Ele não foi projetado para substituir editores de vídeo tradicionais ou editores modernos de IA que usam cenas 3D como entrada.

O conceito do Clapper é reunir várias tecnologias generativas de IA para permitir que qualquer pessoa crie vídeos usando IA por meio de um processo interativo, iterativo e intuitivo. Não são necessárias ferramentas externas, produção de filmes ou habilidades de engenharia de IA. No Clapper, você não precisa editar sequências de arquivos de vídeo e áudio diretamente. Em vez disso, você pode iterar sua história com base no AI Agent ajustando conceitos abstratos de alto nível, como personagens, locais, clima, períodos de tempo, estilos, etc. .

Julian Bilcke, autor de Clapper, é engenheiro front-end de IA na HuggingFace. Ele disse que para continuar trabalhando nesse sentido também está desenvolvendo um modo diretor: o objetivo é permitir que o usuário reproduza vídeos em tela cheia, sente-se confortavelmente na cadeira (ou sofá) do diretor, grite comandos para o Agente, e deixe a IA fazer filmes.



Nos últimos dias, Julian Bilcke lançou novos recursos, como a conversão de texto arbitrário em uma linha do tempo usando modelos grandes. A popularidade do Clapper também aumentou e já conta com mais de 1.100 estrelas no GitHub.



  • Link do GitHub: https://github.com/jbilcke-hf/clapper
  • HuggingFace: https://huggingface.co/spaces/jbilcke-hf/clapper/tree/main
  • URL de teste: https://clapper.app/

Como usar

Por ser uma ferramenta de código aberto, o que verificamos principalmente é se ela é fácil de usar.

Você ainda se lembra da experiência do mestre de IA Karpathy criando vídeos curtos de IA? Para transformar as três primeiras frases de "Orgulho e Preconceito" em uma versão animada, esse grande especialista levou uma hora inteira. Embora existam apenas três frases e três cenas, este fluxo de trabalho é muito mais complicado do que três frases. Ele primeiro usou Claude para gerar uma série de palavras de prompt de imagem com base no texto original, depois inseriu essas palavras de prompt no modelo gráfico de Vincent para gerar as imagens correspondentes e, em seguida, entregou-as ao modelo de vídeo para fazer animações. foi atribuído ao Elevenlabs e, finalmente, ao Veed Studio, juntou todas as peças.

Então, depois que Karpathy terminou, ele tuitou e reclamou, dizendo: “Empreendedores, a oportunidade chegou! O mercado precisa urgentemente de uma ferramenta de IA que possa integrar e simplificar esses processos”.

Clapper é uma plataforma completa que integra todas essas funções.



Normalmente, se você quiser fazer um vídeo curto, você precisa seguir os seguintes passos. Primeiro, você precisa de uma história e um roteiro, depois desenhar storyboards com base no roteiro, depois filmar ou encontrar materiais baseados nos storyboards, reuni-los em um software de edição, adicionar efeitos de animação e efeitos especiais e, em seguida, adicionar seletivamente palavras faladas e música de fundo Ou efeitos sonoros. Portanto, surgiu a divisão do trabalho na indústria de produção cinematográfica e televisiva, como coreografia, direção, fotografia, edição, pós-produção e dublagem.

Na Clapper, a produção de vídeos segue uma lógica diferente. Cada faixa não corresponde a material de vídeo ou imagem como Premier, Cutting e outros softwares de edição, mas corresponde a um tipo específico de trabalho.

faixa de material recortado



Órbita de Clapper



Quando se trata de usar IA para fazer vídeos, nós somos o partido da IA. Clapper é como uma equipe composta pela IA mais poderosa do setor. O Clapper integrou uma série de modelos grandes de "top-notch", como GPT-4o, Claude 3.5 (Sonnet), etc. É como o diretor executivo do Partido B, responsável por conectar suas necessidades ao “diretor de IA” correspondente.



Como pode ser visto na imagem acima, a primeira faixa representa o storyboard e fala com o grande modelo embutido no Clapper. Ela chamará o modelo do diagrama Vincent por meio da API e permitirá que o professor de storyboard de IA gere a imagem correspondente como um vídeo. imagem a base de.

O modelo de gráfico textual acima pode ser acessado através do Clapper



Tomando como exemplo o filme de amostra fornecido por Clapper, as faixas a seguir correspondem à cena, narração, perspectiva da câmera, música de fundo e efeitos sonoros. Você pode pedir ao ElevenLabs ou Fal.ai para gerar alguns sons de vento de ruínas ou sons de explosão de tiroteios para esta história de deserto ocidental.

O Clapper também possui outra função que pode realmente dar um grande passo em direção ao sonho de “fazer filmes falando”. Podemos importar o roteiro diretamente para o Clapper e criar cuidadosamente um personagem para o seu protagonista na coluna “História”.



Tomando "O Mágico de Oz" como exemplo, podemos não apenas adicionar descrições de personagens mais personalizadas aos personagens, mas também fazer upload de fotos para definir a imagem visual da heroína Dorothy. Isso significa que podemos pedir a qualquer ator do mundo para desempenhar esse papel, mesmo que você queira ver DiCaprio, de 18 anos, interpretando Dorothy, você pode fazê-lo. As funções do Clapper são tão detalhadas que você pode ajustar a idade e o timbre dos personagens, os móveis de cada cena, quais móveis estão no quarto de Dorothy e como é a casa em seu destino de aventura "Cidade Esmeralda", tudo pode ser ajustado em Ajuste.



Claro, você também pode usar a IA para desenhar primeiro algumas imagens da atmosfera, o que pode estimular ainda mais sua inspiração e criatividade.

Porém, embora a função do Clapper tenha considerado plenamente as necessidades de criação de vídeos, seu efeito é um tanto insatisfatório. Os movimentos dos personagens da imagem não são apenas um pouco “fantasmagóricos”, mas também não obedecem às leis do movimento físico. O efeito geral do vídeo é mais parecido com um PPT em movimento, faltando transições e continuidade entre as tomadas, e a trilha sonora também é repleta de IA, soando sem melodia e com algum ruído.

Pode levar muito tempo para que a IA generativa mude o processo de produção de vídeo, mas o surgimento do Clapper pode fornecer uma nova ideia de implementação para grandes fabricantes que ainda estão expandindo as funções de IA para softwares tradicionais de edição de vídeo.

Conteúdo de referência:

https://news.ycombinator.com/item?id=41221399

https://x.com/aigclink/status/1818111874531205216