noticias

Herramienta de vídeo de IA de código abierto, solo necesita ser director, creada por ingenieros de HuggingFace

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Editor: Zenan, Jiaqi

Para hacer vídeos con Clapper sólo necesitas ser el director.

Con el lanzamiento de Sora, el campo del vídeo parece haber entrado en la era de la IA generativa. Pero hasta hoy, todavía no hemos utilizado la herramienta oficial de generación de videos de OpenAI, y las personas que no pueden esperar han comenzado a buscar otros métodos.

En las últimas semanas ha llamado la atención Clapper, una herramienta de edición de vídeo de código abierto.



A diferencia de los generadores de vídeo que ofrecen muchas empresas de tecnología, Clapper es una herramienta de visualización de historias de IA de código abierto que se lanzó como prototipo hace un año. No está diseñado para reemplazar los editores de video tradicionales ni los editores de inteligencia artificial modernos que utilizan escenas 3D como entrada.

El concepto de Clapper es reunir varias tecnologías de IA generativa para permitir que cualquiera pueda crear videos usando IA a través de un proceso interactivo, iterativo e intuitivo. No se requieren herramientas externas, realización cinematográfica ni habilidades de ingeniería de inteligencia artificial. En Clapper, no necesita editar secuencias de archivos de video y audio directamente, sino que puede iterar su historia basándose en AI Agent ajustando conceptos abstractos de alto nivel como personajes, ubicaciones, clima, períodos de tiempo, estilos, etc. .

Julian Bilcke, autor de Clapper, es ingeniero de interfaz de usuario de IA en HuggingFace. Dijo que para seguir trabajando en esta dirección, también está desarrollando un modo director: el objetivo es permitir a los usuarios reproducir vídeos en pantalla completa, sentarse cómodamente en la silla (o sofá) del director, gritarle órdenes al Agente, y dejar que la IA haga películas.



En los últimos días, Julian Bilcke ha lanzado nuevas funciones como la conversión de texto arbitrario en una línea de tiempo utilizando modelos de gran tamaño. La popularidad de Clapper también ha aumentado y ya cuenta con más de 1100 estrellas en GitHub.



  • Enlace de GitHub: https://github.com/jbilcke-hf/clapper
  • HuggingFace https://huggingface.co/spaces/jbilcke-hf/clapper/tree/main
  • URL de prueba: https://clapper.app/

como usar

Dado que es una herramienta de código abierto, lo que nos fijamos principalmente es, por supuesto, si es fácil de usar.

¿Aún recuerdas la experiencia del maestro de IA Karpathy al crear videos cortos de IA? Para convertir las tres primeras frases de "Orgullo y prejuicio" en una versión animada, este gran experto tardó una hora completa. Aunque sólo hay tres oraciones y tres escenas, este flujo de trabajo es mucho más complicado que tres oraciones. Primero usó a Claude para generar una serie de palabras clave de imágenes basadas en el texto original, luego ingresó estas palabras clave en el modelo gráfico de Vincent para generar las imágenes correspondientes y luego las entregó al modelo de video para realizar animaciones. Fue asignado a Elevenlabs y finalmente en Veed Studio. Juntó todas las piezas.

Entonces, después de que Karpathy terminó, tuiteó y se quejó, diciendo: "¡Emprendedores, ha llegado la oportunidad! El mercado necesita urgentemente una herramienta de inteligencia artificial que pueda integrar y simplificar estos procesos".

Clapper es una plataforma integral que integra todas estas funciones.



Por lo general, si desea hacer un video corto, debe seguir los siguientes pasos. Primero, necesita una historia y un guión, luego dibujar guiones gráficos basados ​​en el guión, luego filmar o buscar materiales basados ​​en los guiones gráficos, juntarlos en un software de edición, agregar efectos de animación y efectos especiales, y luego agregar selectivamente palabra hablada y música de fondo. O efectos de sonido. Por lo tanto, surgió la división del trabajo en la industria de producción de cine y televisión, como coreografía, dirección, fotografía, edición, postproducción y doblaje.

En Clapper, la producción de vídeo sigue una lógica diferente. Cada pista no corresponde a material de video o imagen como Premier, Cutting y otros programas de edición, sino que corresponde a un tipo específico de trabajo.

pista de material recortado



La órbita del badajo



Cuando se trata de usar IA para hacer videos, somos el partido de la IA. Clapper es como un equipo compuesto por la IA más poderosa de la industria. Clapper ha incorporado una serie de modelos grandes de "primera categoría" como GPT-4o, Claude 3.5 (Sonnet), etc. Es como el director ejecutivo del Partido B, responsable de conectar sus necesidades con el correspondiente "director de IA".



Como se puede ver en la imagen de arriba, la primera pista representa el guión gráfico y habla con el modelo grande integrado en Clapper. Llamará al modelo de diagrama de Vincent a través de la API y permitirá que el profesor de guión gráfico de IA genere la imagen correspondiente como un video. imagen.

Se puede acceder al modelo de gráfico textual anterior a través de Clapper



Tomando como ejemplo la película de muestra proporcionada por Clapper, las siguientes pistas corresponden a la escena, narración, perspectiva de la cámara, música de fondo y efectos de sonido. Puedes pedirle a ElevenLabs o Fal.ai que generen algunos sonidos de viento de ruinas o sonidos de explosiones de tiroteos para esta historia del páramo occidental.

Clapper también tiene otra función que realmente puede dar un gran paso hacia el sueño de "hacer películas hablando". Podemos importar directamente el guión a Clapper y crear cuidadosamente un personaje para tu protagonista en la columna "Historia".



Tomando "El Mago de Oz" como ejemplo, no solo podemos agregar descripciones de personajes más personalizadas a los personajes, sino también cargar imágenes para configurar la imagen visual de la heroína Dorothy. Esto significa que podemos pedirle a cualquier actor del mundo que interprete este papel, incluso si quieres ver a DiCaprio, de 18 años, interpretando a Dorothy, puedes hacerlo. Las funciones de Clapper son tan detalladas que puedes ajustar la edad y el timbre de los personajes, el mobiliario de cada escena, qué muebles hay en la habitación de Dorothy y cómo se ve la casa en su destino de aventuras "Emerald City", todo puede ser ajustado en Ajuste de claqueta.



Por supuesto, también puedes usar la IA para dibujar primero algunas imágenes de la atmósfera, lo que puede estimular aún más tu inspiración y creatividad.

Sin embargo, aunque la función de Clapper ha considerado plenamente las necesidades de hacer vídeos, su efecto es algo insatisfactorio. Los movimientos de los personajes de la película no sólo son un poco "fantasmales", sino que no se ajustan a las leyes del movimiento físico. El efecto general del vídeo se parece más a un PPT en movimiento, sin transiciones ni continuidad entre tomas, y la banda sonora también está llena de IA, sonando sin melodía y con algo de ruido.

Puede que la IA generativa tarde mucho tiempo en cambiar el proceso de producción de vídeo, pero la aparición de Clapper puede proporcionar una nueva idea de implementación para los principales fabricantes que todavía están ampliando las funciones de IA para el software de edición de vídeo tradicional.

Contenido de referencia:

https://news.ycombinator.com/item?id=41221399

https://x.com/aigclink/status/1818111874531205216