notícias

O Homem-Aranha dança de forma encantadora e a próxima geração da ControlNet está aqui! Lançado pela equipe Jiajiaya, plug and play

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy vem do Templo Aofei
    Qubits | Conta pública QbitAI

Com menos de 10% dos parâmetros de treinamento, a geração controlável como o ControlNet pode ser alcançada!

Além disso, modelos comuns da família Stable Diffusion, como SDXL e SD1.5, podem ser adaptados e ainda são plug-and-play.



Ao mesmo tempo, pode ser usado com SVD para controlar a geração de vídeo e os detalhes dos movimentos podem ser controlados com precisão até os dedos.



Por trás dessas imagens e vídeos está a ferramenta de orientação de geração de imagens/vídeos de código aberto lançada pela equipe chinesa Jiajiaya de Hong Kong——Controle Próximo

Pode-se perceber pelo nome que a equipe de P&D o posicionou como a próxima geração do ControlNet.

Por exemplo, a obra clássica ResNeXt (uma extensão do ResNet) dos grandes deuses He Kaiming e Xie Saining também usou esse método para nomeá-la.

Alguns internautas acreditam que este nome é bem merecido e é de fato o produto da próxima geração, elevando o ControlNet a um nível superior.



Outros disseram sem rodeios que o ControlNeXt é uma virada de jogo, que melhora muito a eficiência da geração controlável. Eles estão ansiosos para ver os trabalhos criados pelas pessoas que o utilizam.



Homem-Aranha dança dança de beleza

ControlNeXt suporta vários modelos da série SD e é plug-and-play.

Isso inclui modelos de geração de imagem SD1.5, SDXL, SD3 (com suporte para Super Resolução) e modelo de geração de vídeo SVD.

Sem mais delongas, vamos apenas dar uma olhada nos resultados.

Pode-se ver que ao adicionar orientação de borda (Canny) em SDXL, a menina bidimensional desenhada e as linhas de controle se encaixam quase perfeitamente.



Mesmo que os contornos de controle sejam numerosos e fragmentados, o modelo ainda pode desenhar imagens que atendam aos requisitos.



E pode ser perfeitamente integrado com outros pesos LoRA sem treinamento adicional.

Por exemplo, no SD1.5, você pode usar condições de controle de postura (Pose) com vários LoRAs para formar personagens com estilos diferentes ou até mesmo entre dimensões, mas com os mesmos movimentos.



Além disso, ControlNeXt também oferece suporte aos modos de máscara e controle de profundidade.



SD3 também suporta Super Resolução, que pode gerar imagens de ultra-alta definição.



Na geração de vídeo, o ControlNeXt pode controlar os movimentos dos personagens.

Por exemplo, o Homem-Aranha também pode dançar a dança da beleza no TikTok, e até os movimentos dos dedos são imitados com bastante precisão.



Até faz uma cadeira crescer e executar a mesma dança. Embora seja um pouco abstrato, a reprodução da ação é muito boa.



E comparado ao ControlNet original, o ControlNeXt requer menos parâmetros de treinamento e converge mais rapidamente.

Por exemplo, em SD1.5 e SDXL, o ControlNet requer 361 milhões e 1,251 bilhão de parâmetros que podem ser aprendidos, respectivamente, mas o ControlNeXt requer apenas 30 milhões e 108 milhões, respectivamente.Menos de 10% da ControlNet



Durante o processo de treinamento, o ControlNeXt está próximo da convergência em cerca de 400 etapas, mas o ControlNet requer dez vezes ou até dezenas de vezes o número de etapas.



A velocidade de geração também é mais rápida que o ControlNet. Em média, o ControlNet traz um atraso de 41,9% para o modelo básico, mas o ControlNeXt traz apenas 10,4%.



Então, como o ControlNeXt é implementado e quais melhorias foram feitas no ControlNet?

Módulo de controle de condição mais leve

Primeiro, use uma imagem para entender todo o fluxo de trabalho do ControlNeXt.



A chave para a redução de peso é o ControlNeXtRemove a enorme ramificação de controle no ControlNet e, em vez disso, introduz um módulo de convolução leve composto por um pequeno número de blocos ResNet

Este módulo é responsável por extrair representações de recursos de condições de controle (como máscaras de segmentação semântica, pontos-chave anteriores, etc.).

A quantidade de parâmetros de treinamento é geralmente inferior a 10% do modelo pré-treinado no ControlNet, mas ele ainda pode aprender bem as informações de controle condicional de entrada. Esse design reduz bastante a sobrecarga de computação e o uso de memória.

Especificamente, ele faz amostras em intervalos iguais de diferentes camadas de rede de um modelo pré-treinado para formar um subconjunto de parâmetros usados ​​para treinamento, enquanto os parâmetros restantes são congelados.



Além disso, ao projetar a arquitetura do ControlNeXt, a equipe de pesquisa também manteve a consistência da estrutura do modelo com a arquitetura original, alcançando assim o plug-and-play.

Seja ControlNet ou ControlNeXt, a injeção de informações de controle condicional é um elo importante.

Durante esse processo, a equipe de pesquisa da ControlNeXt conduziu pesquisas aprofundadas sobre duas questões principais: seleção do local de injeção e projeto do método de injeção.

A equipe de pesquisa observou que na maioria das tarefas de geração controláveis, a forma de informação condicional que orienta a geração é relativamente simples e altamente correlacionada com as características do processo de remoção de ruído.

Então a equipe pensa,Não há necessidade de injetar informações de controle em todas as camadas da rede de eliminação de ruído, então eu escolhiAgregue recursos condicionais e recursos de eliminação de ruído apenas na camada intermediária da rede

O método de agregação também é o mais simples possível - em usonormalização cruzadaApós alinhar as distribuições dos dois conjuntos de recursos, adicione-os diretamente.

Isto não só garante que o sinal de controle afete o processo de eliminação de ruído, mas também evita a introdução de parâmetros de aprendizagem adicionais e instabilidade por operações complexas, como o mecanismo de atenção.

A normalização cruzada é outra tecnologia central do ControlNeXt, substituindo as estratégias de inicialização progressiva comumente usadas anteriormente, como convolução zero.

Os métodos tradicionais aliviam o problema do colapso, liberando gradualmente a influência de novos módulos a partir do zero, mas isso geralmente resulta em uma convergência lenta.

A normalização cruzada usa diretamente a média μ e a variância σ dos recursos de eliminação de ruído da rede backbone para normalizar os recursos gerados pelo módulo de controle, de modo que a distribuição de dados dos dois seja o mais alinhada possível.



(Nota: ϵ é uma pequena constante adicionada para estabilidade numérica e γ é um parâmetro de escala.)

Os recursos de controle normalizados ajustam a amplitude e a linha de base por meio dos parâmetros de escala e deslocamento e, em seguida, adicionam-nos aos recursos de eliminação de ruído, o que não apenas evita a sensibilidade da inicialização dos parâmetros, mas também permite que as condições de controle entrem em vigor nos estágios iniciais do treinamento e acelera o processo de convergência.

Além disso, ControlNeXt também usa o módulo de controle para aprender o mapeamento de informações de condição para recursos espaciais latentes, tornando-o mais abstrato e semântico e mais propício à generalização para condições de controle invisíveis.

Página inicial do projeto:
https://pbihao.github.io/projects/controlnext/index.html
Endereço do papel:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt