Nachricht

Spider-Man tanzt bezaubernd und die nächste Generation von ControlNet ist da! Vom Jiajiaya-Team eingeführt, Plug-and-Play

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy stammt aus dem Aofei-Tempel
    Qubits |. Öffentliches Konto QbitAI

Mit weniger als 10 % der Trainingsparameter kann eine steuerbare Erzeugung wie ControlNet erreicht werden!

Darüber hinaus können gängige Modelle der Stable Diffusion-Familie wie SDXL und SD1.5 angepasst werden und sind weiterhin Plug-and-Play-fähig.



Gleichzeitig kann es mit SVD zur Steuerung der Videoerzeugung verwendet werden und die Details von Bewegungen können bis in die Finger genau gesteuert werden.



Hinter diesen Bildern und Videos steht das vom Hong Kong Chinese Jiajiaya-Team ins Leben gerufene Open-Source-Tool zur Bild-/Videogenerierung –ControlNeXt

Aus dem Namen geht hervor, dass das Forschungs- und Entwicklungsteam es als ControlNet der nächsten Generation positioniert hat.

Beispielsweise verwendete das klassische Werk ResNeXt (eine Erweiterung von ResNet) der großen Götter He Kaiming und Xie Saining ebenfalls diese Methode, um es zu benennen.

Einige Internetnutzer glauben, dass dieser Name wohlverdient ist, und es handelt sich tatsächlich um das Produkt der nächsten Generation, das ControlNet auf ein höheres Niveau hebt.



Andere sagten unverblümt, dass ControlNeXt ein Game Changer sei, der die Effizienz der kontrollierbaren Erzeugung erheblich verbessere. Sie freuen sich darauf, die Werke zu sehen, die von Menschen geschaffen werden, die es nutzen.



Spiderman tanzt Schönheitstanz

ControlNeXt unterstützt mehrere Modelle der SD-Serie und ist Plug-and-Play-fähig.

Dazu gehören die Bilderzeugungsmodelle SD1.5, SDXL, SD3 (unterstützt Super Resolution) und das Videoerzeugungsmodell SVD.

Schauen wir uns ohne weitere Umschweife einfach die Ergebnisse an.

Es ist ersichtlich, dass durch das Hinzufügen von Kantenführung (Canny) in SDXL das gezeichnete zweidimensionale Mädchen und die Kontrolllinien nahezu perfekt zusammenpassen.



Auch wenn die Kontrollkonturen zahlreich und fragmentiert sind, kann das Modell dennoch Bilder zeichnen, die den Anforderungen entsprechen.



Und es kann ohne zusätzliche Schulung nahtlos mit anderen LoRA-Gewichten integriert werden.

In SD1.5 können Sie beispielsweise Haltungskontrollbedingungen (Pose) mit verschiedenen LoRAs verwenden, um Charaktere mit unterschiedlichen Stilen oder sogar über Dimensionen hinweg, aber mit den gleichen Bewegungen zu formen.



Darüber hinaus unterstützt ControlNeXt auch Masken- und Tiefensteuerungsmodi.



SD3 unterstützt auch Super Resolution, wodurch ultrahochauflösende Bilder erzeugt werden können.



Bei der Videogenerierung kann ControlNeXt die Bewegungen von Charakteren steuern.

So kann Spider-Man beispielsweise auch den Schönheitstanz in TikTok tanzen, und selbst die Fingerbewegungen werden ziemlich genau nachgeahmt.



Es lässt sogar einem Stuhl die Hände wachsen und den gleichen Tanz ausführen. Obwohl es etwas abstrakt ist, ist die Action-Wiedergabe ziemlich gut.



Und im Vergleich zum ursprünglichen ControlNet erfordert ControlNeXt weniger Trainingsparameter und konvergiert schneller.

Beispielsweise benötigt ControlNet in SD1.5 und SDXL 361 Millionen bzw. 1,251 Milliarden lernbare Parameter, ControlNeXt hingegen nur 30 Millionen bzw. 108 Millionen.Weniger als 10 % von ControlNet



Während des Trainingsprozesses ist ControlNeXt in etwa 400 Schritten nahe an der Konvergenz, ControlNet erfordert jedoch das Zehnfache oder sogar Dutzende Mal so viele Schritte.



Die Generierungsgeschwindigkeit ist auch schneller als bei ControlNet. Im Durchschnitt bringt ControlNet eine Verzögerung von 41,9 % zum Basismodell, aber ControlNeXt bringt nur 10,4 %.



Wie wird ControlNeXt implementiert und welche Verbesserungen wurden an ControlNet vorgenommen?

Leichteres Zustandskontrollmodul

Nutzen Sie zunächst ein Bild, um den gesamten Arbeitsablauf von ControlNeXt zu verstehen.



Der Schlüssel zum Leichtbau ist ControlNeXtEntfernt den großen Kontrollzweig in ControlNet und führt stattdessen ein leichtes Faltungsmodul ein, das aus einer kleinen Anzahl von ResNet-Blöcken besteht

Dieses Modul ist für die Extraktion von Merkmalsdarstellungen von Kontrollbedingungen (z. B. semantischen Segmentierungsmasken, Schlüsselpunktprioritäten usw.) verantwortlich.

Die Menge der Trainingsparameter beträgt normalerweise weniger als 10 % des vorab trainierten Modells in ControlNet, aber es kann die eingegebenen bedingten Steuerinformationen trotzdem gut lernen. Dieses Design reduziert den Rechenaufwand und die Speichernutzung erheblich.

Konkret werden in gleichen Abständen Stichproben aus verschiedenen Netzwerkschichten eines vorab trainierten Modells durchgeführt, um eine Teilmenge der für das Training verwendeten Parameter zu bilden, während die übrigen Parameter eingefroren werden.



Darüber hinaus behielt das Forschungsteam beim Entwurf der Architektur von ControlNeXt auch die Konsistenz der Modellstruktur mit der ursprünglichen Architektur bei und erreichte so Plug-and-Play.

Unabhängig davon, ob es sich um ControlNet oder ControlNeXt handelt, ist die Injektion bedingter Steuerinformationen eine wichtige Verbindung.

Während dieses Prozesses führte das ControlNeXt-Forschungsteam eingehende Untersuchungen zu zwei Schlüsselthemen durch: der Auswahl des Injektionsorts und der Gestaltung der Injektionsmethode.

Das Forschungsteam stellte fest, dass bei den meisten kontrollierbaren Generierungsaufgaben die Form der bedingten Informationen zur Steuerung der Generierung relativ einfach ist und stark mit den Merkmalen im Entrauschungsprozess korreliert.

Das Team denkt also:Es besteht keine Notwendigkeit, Steuerinformationen in jede Schicht des Rauschunterdrückungsnetzwerks einzuspeisen, also habe ich mich entschiedenAggregieren Sie bedingte Features und Entrauschungsfeatures nur in der mittleren Schicht des Netzwerks

Auch die Methode der Aggregation ist so einfach wie möglich – in der AnwendungKreuznormalisierungNachdem Sie die Verteilungen der beiden Funktionssätze ausgerichtet haben, fügen Sie sie direkt hinzu.

Dies stellt nicht nur sicher, dass das Steuersignal den Rauschunterdrückungsprozess beeinflusst, sondern vermeidet auch die Einführung zusätzlicher Lernparameter und Instabilität durch komplexe Vorgänge wie den Aufmerksamkeitsmechanismus.

Die Kreuznormalisierung ist eine weitere Kerntechnologie von ControlNeXt und ersetzt die bisher häufig verwendeten progressiven Initialisierungsstrategien wie die Nullfaltung.

Herkömmliche Methoden lindern das Kollapsproblem, indem sie den Einfluss neuer Module schrittweise von Grund auf freigeben. Dies führt jedoch häufig zu einer langsamen Konvergenz.

Die Kreuznormalisierung verwendet direkt den Mittelwert μ und die Varianz σ der Entrauschungsmerkmale des Backbone-Netzwerks, um die vom Steuermodul ausgegebenen Merkmale zu normalisieren, sodass die Datenverteilung der beiden so gut wie möglich ausgerichtet ist.



(Hinweis: ϵ ist eine kleine Konstante, die für die numerische Stabilität hinzugefügt wird, und γ ist ein Skalierungsparameter.)

Die normalisierten Steuerfunktionen passen dann die Amplitude und die Grundlinie über die Skalierungs- und Offset-Parameter an und fügen sie dann den Entrauschungsfunktionen hinzu, wodurch nicht nur die Empfindlichkeit der Parameterinitialisierung vermieden wird, sondern auch ermöglicht wird, dass die Steuerbedingungen in den frühen Phasen wirksam werden Training und beschleunigt den Konvergenzprozess.

Darüber hinaus nutzt ControlNeXt das Kontrollmodul auch, um die Zuordnung von Bedingungsinformationen zu latenten Raummerkmalen zu erlernen, wodurch diese abstrakter und semantischer werden und die Verallgemeinerung auf unsichtbare Kontrollbedingungen besser möglich ist.

Projekthomepage:
https://pbihao.github.io/projects/controlnext/index.html
Papieradresse:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt