noticias

Spider-Man baila de manera encantadora y ¡la próxima generación de ControlNet ya está aquí! Lanzado por el equipo Jiajiaya, plug and play

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy proviene del templo de Aofei.
    Qubits | Cuenta pública QbitAI

¡Con menos del 10% de los parámetros de entrenamiento, se puede lograr una generación controlable como ControlNet!

Además, los modelos comunes de la familia Stable Diffusion, como SDXL y SD1.5, se pueden adaptar y siguen siendo plug-and-play.



Al mismo tiempo, se puede utilizar con SVD para controlar la generación de vídeo y los detalles de los movimientos se pueden controlar con precisión hasta los dedos.



Detrás de estas imágenes y videos se encuentra la herramienta de guía de generación de imágenes/videos de código abierto lanzada por el equipo chino Jiajiaya de Hong Kong——ControlSiguiente

Por el nombre se puede ver que el equipo de I+D lo ha posicionado como el ControlNet de próxima generación.

Por ejemplo, la obra clásica ResNeXt (una extensión de ResNet) de los grandes dioses He Kaiming y Xie Saining también utilizó este método para nombrarla.

Algunos internautas creen que este nombre es bien merecido y, de hecho, es el producto de próxima generación, que eleva ControlNet a un nivel superior.



Otros dijeron sin rodeos que ControlNeXt cambia las reglas del juego y mejora enormemente la eficiencia de la generación controlable. Esperan ver los trabajos creados por las personas que lo utilizan.



Spiderman baila danza de belleza.

ControlNeXt admite múltiples modelos de la serie SD y es plug-and-play.

Estos incluyen los modelos de generación de imágenes SD1.5, SDXL, SD3 (que admiten súper resolución) y el modelo de generación de video SVD.

Sin más, veamos los resultados.

Se puede ver que al agregar la guía de borde (Canny) en SDXL, la chica bidimensional dibujada y las líneas de control encajan casi a la perfección.



Incluso si los contornos de control son numerosos y fragmentados, el modelo aún puede dibujar imágenes que cumplan con los requisitos.



Y se puede integrar perfectamente con otras pesas LoRA sin necesidad de entrenamiento adicional.

Por ejemplo, en SD1.5, puedes usar condiciones de control de postura (Pose) con varios LoRA para formar personajes con diferentes estilos o incluso en todas las dimensiones, pero con los mismos movimientos.



Además, ControlNeXt también admite modos de control de profundidad y máscara.



SD3 también admite súper resolución, que puede generar imágenes de ultra alta definición.



Durante la generación de video, ControlNeXt puede controlar los movimientos de los personajes.

Por ejemplo, Spider-Man también puede bailar el baile de la belleza en TikTok, e incluso los movimientos de los dedos se imitan con bastante precisión.



Incluso hace que a una silla le crezcan manos y realice el mismo baile. Aunque es un poco abstracto, la reproducción de la acción es bastante buena.



Y en comparación con el ControlNet original, ControlNeXt requiere menos parámetros de entrenamiento y converge más rápido.

Por ejemplo, en SD1.5 y SDXL, ControlNet requiere 361 millones y 1251 millones de parámetros aprendibles respectivamente, pero ControlNeXt solo requiere 30 millones y 108 millones respectivamente.Menos del 10% de ControlNet



Durante el proceso de capacitación, ControlNeXt está cerca de la convergencia en aproximadamente 400 pasos, pero ControlNet requiere diez veces o incluso docenas de veces la cantidad de pasos.



La velocidad de generación también es más rápida que ControlNet. En promedio, ControlNet trae un retraso del 41,9% al modelo básico, pero ControlNeXt solo trae el 10,4%.



Entonces, ¿cómo se implementa ControlNeXt y qué mejoras se han realizado en ControlNet?

Módulo de control de condición más liviano

Primero, utilice una imagen para comprender todo el flujo de trabajo de ControlNeXt.



La clave para aligerar el peso es ControlNeXt Elimina la enorme rama de control en ControlNet y en su lugar introduce un módulo de convolución liviano compuesto por una pequeña cantidad de bloques ResNet.

Este módulo es responsable de extraer representaciones de características de las condiciones de control (como máscaras de segmentación semántica, puntos clave anteriores, etc.).

La cantidad de parámetros de entrenamiento suele ser inferior al 10% del modelo previamente entrenado en ControlNet, pero aún puede aprender bien la información de control condicional de entrada. Este diseño reduce en gran medida la sobrecarga informática y el uso de memoria.

Específicamente, toma muestras a intervalos iguales de diferentes capas de red de un modelo previamente entrenado para formar un subconjunto de parámetros utilizados para el entrenamiento, mientras que los parámetros restantes se congelan.



Además, al diseñar la arquitectura de ControlNeXt, el equipo de investigación también mantuvo la coherencia de la estructura del modelo con la arquitectura original, logrando así plug-and-play.

Ya sea ControlNet o ControlNeXt, la inyección de información de control condicional es un vínculo importante.

Durante este proceso, el equipo de investigación de ControlNeXt llevó a cabo una investigación en profundidad sobre dos cuestiones clave: la selección de lugares de inyección y el diseño de métodos de inyección.

El equipo de investigación observó que en la mayoría de las tareas de generación controlables, la forma de información condicional que guía la generación es relativamente simple y está altamente correlacionada con las características del proceso de eliminación de ruido.

Entonces el equipo piensa,No es necesario inyectar información de control en cada capa de la red de eliminación de ruido., así que elegíFunciones condicionales agregadas y funciones de eliminación de ruido solo en la capa intermedia de la red

El método de agregación también es lo más simple posible: en usonormalización cruzadaDespués de alinear las distribuciones de los dos conjuntos de características, agréguelas directamente.

Esto no solo garantiza que la señal de control afecte el proceso de eliminación de ruido, sino que también evita la introducción de parámetros de aprendizaje adicionales y la inestabilidad por operaciones complejas como el mecanismo de atención.

La normalización cruzada es otra tecnología central de ControlNeXt, que reemplaza las estrategias de inicialización progresiva comúnmente utilizadas anteriormente, como la convolución cero.

Los métodos tradicionales alivian el problema del colapso liberando gradualmente la influencia de nuevos módulos desde cero, pero esto a menudo resulta en una convergencia lenta.

La normalización cruzada utiliza directamente la media μ y la varianza σ de las características de eliminación de ruido de la red troncal para normalizar las características generadas por el módulo de control, de modo que la distribución de datos de los dos esté lo más alineada posible.



(Nota: ϵ es una pequeña constante agregada para la estabilidad numérica y γ es un parámetro de escala).

Las funciones de control normalizadas luego ajustan la amplitud y la línea de base a través de los parámetros de escala y compensación, y luego las agregan a las funciones de eliminación de ruido, lo que no solo evita la sensibilidad de la inicialización de parámetros, sino que también permite que las condiciones de control surtan efecto en las primeras etapas de formación y acelera el proceso de convergencia.

Además, ControlNeXt también utiliza el módulo de control para aprender el mapeo de información de condición a características del espacio latente, haciéndolo más abstracto y semántico, y más propicio para la generalización a condiciones de control invisibles.

Página de inicio del proyecto:
https://pbihao.github.io/projects/controlnext/index.html
Dirección del papel:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt