nouvelles

Outil vidéo IA open source, il vous suffit d'être réalisateur, conçu par les ingénieurs de HuggingFace

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Zenan, Jiaqi

Pour réaliser des vidéos avec Clapper, il vous suffit d'être le réalisateur.

Avec la sortie de Sora, le domaine de la vidéo semble être entré dans l’ère de l’IA générative. Mais jusqu'à aujourd'hui, nous n'avons toujours pas utilisé l'outil officiel de génération de vidéo d'OpenAI, et les gens qui ne peuvent pas attendre ont commencé à chercher d'autres méthodes.

Ces dernières semaines, Clapper, un outil de montage vidéo open source, a attiré l'attention.



Contrairement aux générateurs vidéo proposés par de nombreuses entreprises technologiques, Clapper est un outil open source de visualisation d'histoires d'IA lancé en tant que prototype il y a un an. Il n'est pas conçu pour remplacer les éditeurs vidéo traditionnels ou les éditeurs d'IA modernes qui utilisent des scènes 3D comme entrée.

Le concept de Clapper est de rassembler diverses technologies d'IA générative pour permettre à quiconque de créer des vidéos en utilisant l'IA via un processus interactif, itératif et intuitif. Aucun outil externe, aucune compétence en réalisation de films ou en ingénierie de l'IA n'est requis. Dans Clapper, vous n'avez pas besoin d'éditer directement les séquences de fichiers vidéo et audio, vous pouvez plutôt répéter votre histoire basée sur AI Agent en ajustant des concepts abstraits de haut niveau tels que les personnages, les lieux, la météo, les périodes, les styles, etc. .

Julian Bilcke, l'auteur de Clapper, est ingénieur front-end IA chez HuggingFace. Il a indiqué que pour continuer à travailler dans cette direction, il développe également un mode réalisateur : le but est de permettre aux utilisateurs de lire des vidéos en plein écran, de s'asseoir confortablement dans le fauteuil (ou le canapé) du réalisateur, de crier des commandes à l'Agent, et laissez l'IA faire des films.



Ces derniers jours, Julian Bilcke a lancé de nouvelles fonctionnalités telles que la conversion de texte arbitraire en une timeline à l'aide de grands modèles. La popularité de Clapper a également augmenté et compte déjà plus de 1 100 étoiles sur GitHub.



  • Lien GitHub : https://github.com/jbilcke-hf/clapper
  • HuggingFace 链接:https://huggingface.co/spaces/jbilcke-hf/clapper/tree/main
  • URL d'essai : https://clapper.app/

Comment utiliser

Puisqu’il s’agit d’un outil open source, nous examinons principalement s’il est facile à utiliser.

Vous souvenez-vous encore de l'expérience du maître de l'IA Karpathy qui a créé de courtes vidéos sur l'IA ? Afin de transformer les trois premières phrases de « Orgueil et préjugés » en une version animée, il a fallu une heure entière à cet expert de haut niveau. Bien qu'il n'y ait que trois phrases et trois scènes, ce flux de travail est bien plus compliqué que trois phrases. Il a d'abord utilisé Claude pour générer une série de mots d'invite d'image basés sur le texte original, puis a saisi ces mots d'invite dans le modèle graphique Vincent pour générer les images correspondantes, puis les a transmis au modèle vidéo pour réaliser des animations. a été affecté à Elevenlabs, et finalement dans Veed Studio, j'ai rassemblé toutes les pièces.

Ainsi, une fois Karpathy terminé, il a tweeté et s'est plaint en disant : « Entrepreneurs, l'opportunité est venue ! Le marché a un besoin urgent d'un outil d'IA capable d'intégrer et de simplifier ces processus.

Clapper est une plateforme unique qui intègre toutes ces fonctions.



Habituellement, si vous souhaitez réaliser une courte vidéo, vous devez suivre les étapes suivantes. Tout d'abord, vous avez besoin d'une histoire et d'un script, puis dessinez des storyboards basés sur le script, puis filmez ou trouvez du matériel basé sur les storyboards, rassemblez-les dans un logiciel de montage, ajoutez des effets d'animation et des effets spéciaux, puis ajoutez sélectivement des paroles et de la musique de fond. Ou des effets sonores. Par conséquent, la division du travail dans l’industrie de la production cinématographique et télévisuelle, comme la chorégraphie, la réalisation, la photographie, le montage, la post-production et le doublage, a vu le jour.

Chez Clapper, la production vidéo suit une logique différente. Chaque piste ne correspond pas à du matériel vidéo ou image comme Premier, Cutting et autres logiciels de montage, mais correspond à un type de travail spécifique.

piste de matériau coupée



L'orbite du battant



Lorsqu'il s'agit d'utiliser l'IA pour réaliser des vidéos, nous sommes le parti de l'IA. Clapper est comme un équipage composé de l’IA la plus puissante de l’industrie. Clapper a intégré une série de grands modèles "haut de gamme" tels que GPT-4o, Claude 3.5 (Sonnet), etc. C'est comme le directeur exécutif de la partie B, chargé de connecter vos besoins au « directeur IA » correspondant.



Comme le montre l'image ci-dessus, la première piste représente le storyboard et communique avec le grand modèle intégré à Clapper. Elle appellera le modèle de diagramme de Vincent via l'API et laissera le professeur de storyboard IA générer l'image correspondante sous forme de vidéo. photo.

Le modèle de graphique textuel ci-dessus est accessible via Clapper



En prenant comme exemple l'exemple de film donné par Clapper, les pistes suivantes correspondent à la scène, à la narration, à la perspective de la caméra, à la musique de fond et aux effets sonores. Vous pouvez demander à ElevenLabs ou Fal.ai de générer des bruits de vent de ruines ou des bruits d'explosion de fusillades pour cette histoire de désert occidental.

Clapper a également une autre fonction qui pourrait vraiment faire un grand pas vers le rêve de « faire des films en parlant ». Nous pouvons importer directement le script dans Clapper et créer soigneusement un personnage pour votre protagoniste dans la colonne « Histoire ».



En prenant "Le Magicien d'Oz" comme exemple, nous pouvons non seulement ajouter des descriptions de personnages plus personnalisées aux personnages, mais également télécharger des images pour définir l'image visuelle de l'héroïne Dorothy. Cela signifie que nous pouvons demander à n’importe quel acteur dans le monde de jouer ce rôle, même si vous voulez voir DiCaprio, 18 ans, jouer Dorothy, vous pouvez le faire. Les fonctions de Clapper sont si détaillées que vous pouvez ajuster l'âge et le timbre des personnages, le mobilier de chaque scène, les meubles de la chambre de Dorothy et à quoi ressemble la maison de leur destination d'aventure "Emerald City", tout peut être ajusté dans Clapper Ajustement.



Bien sûr, vous pouvez également utiliser l’IA pour dessiner d’abord des images d’ambiance, ce qui peut stimuler davantage votre inspiration et votre créativité.

Cependant, bien que la fonction de Clapper ait pleinement pris en compte les besoins de création de vidéos, son effet est quelque peu insatisfaisant. Non seulement les mouvements des personnages de l’image sont un peu « fantomatiques », mais ils ne sont pas conformes aux lois du mouvement physique. L'effet global de la vidéo ressemble plus à un PPT en mouvement, manquant de transitions et de continuité entre les plans, et la bande sonore est également pleine d'IA, sonnant sans mélodie et avec un peu de bruit.

Il faudra peut-être beaucoup de temps avant que l'IA générative change le processus de production vidéo, mais l'émergence de Clapper pourrait fournir une nouvelle idée de mise en œuvre aux grands fabricants qui continuent d'étendre les fonctions d'IA aux logiciels de montage vidéo traditionnels.

Contenu de référence :

https://news.ycombinator.com/item?id=41221399

https://x.com/aigclink/status/1818111874531205216