スパイダーマンが魅惑的に踊り、次世代の ControlNet が登場! Jiajiaya チームが発足、プラグアンドプレイ

スパイダーマンが魅惑的に踊り、次世代の ControlNet が登場! Jiajiaya チームによって起動、プラグアンドプレイ

2024-08-17

クレシーはアオフェイ寺院から来ています
キュービット | 公式アカウント QbitAI

トレーニングパラメーターの 10% 未満で、ControlNet のような制御可能な生成を実現できます。

さらに、SDXL や SD1.5 などの Stable Diffusion ファミリの一般的なモデルも適合でき、プラグアンドプレイです。

同時にSVDによる映像生成の制御も可能となり、指の先まで正確に動きを制御できます。

これらの画像とビデオの背後にあるのは、香港の華人 Jiajiaya チームが立ち上げたオープンソースの画像/ビデオ生成ガイダンスツールです。コントロールネクスト。

名前から、研究開発チームがこれを次世代 ControlNet として位置付けていることがわかります。

たとえば、偉大な神、He Kaiming と Xie Saining による古典的な作品 ResNeXt (ResNet の拡張) も、このメソッドを使用して名前を付けました。

一部のネチズンは、この名前は当然のことであり、まさに ControlNet をより高いレベルに引き上げた次世代の製品であると信じています。

他の人は、ControlNeXt は制御可能な生成の効率を大幅に向上させる革新的なツールであると率直に言い、それを使用して人々が作成する作品を見るのを楽しみにしています。

スパイダーマンがビューティーダンスを踊る

ControlNeXt は複数の SD シリーズモデルをサポートしており、プラグアンドプレイです。

これらには、画像生成モデル SD1.5、SDXL、SD3 (超解像度をサポート)、およびビデオ生成モデル SVD が含まれます。

早速、結果を見てみましょう。

SDXLでエッジ（キャニー）誘導を加えることで、描かれた二次元の女の子と制御線がほぼぴったりと合っていることがわかります。

制御輪郭が多数で断片的であっても、モデルは要件を満たす絵を描くことができます。

また、追加のトレーニングを行わなくても、他の LoRA ウェイトとシームレスに統合できます。

たとえば、SD1.5 では、さまざまな LoRA で姿勢 (ポーズ) 制御条件を使用して、異なるスタイル、または次元を超えて同じ動きを持つキャラクターを形成できます。

さらに、ControlNeXt はマスクおよび深度制御モードもサポートします。

SD3は、超高精細画像を生成できる超解像度にも対応しています。

ビデオ生成中に、ControlNeXt はキャラクターの動きを制御できます。

例えば、スパイダーマンもTikTokのビューティーダンスを踊ることができ、指の動きまでかなり正確に模倣されています。

椅子に手を生やして同じダンスをさせたりもしますが、ちょっと抽象的ですがアクションの再現はかなり上手です。

また、元の ControlNet と比較して、ControlNeXt は必要なトレーニングパラメーターが少なく、より速く収束します。

たとえば、SD1.5 と SDXL では、ControlNet ではそれぞれ 3 億 6,100 万個と 12 億 5,100 万個の学習可能なパラメータが必要ですが、ControlNeXt ではそれぞれ 3,000 万個と 1 億 8,000 万個しか必要ありません。ControlNet の 10% 未満。

トレーニングプロセス中、ControlNeXt は約 400 ステップで収束に近づきますが、ControlNet はその 10 倍、さらには数十倍のステップ数を必要とします。

生成速度も ControlNet よりも速く、平均すると、ControlNet は基本モデルに対して 41.9% の遅延をもたらしますが、ControlNeXt は 10.4% しかもたらしません。

では、ControlNeXt はどのように実装され、ControlNet にはどのような改善が加えられたのでしょうか?

より軽量な状態制御モジュール

まず、図を使用して ControlNeXt の全体的なワークフローを理解します。

軽量化の鍵はControlNeXControlNet の巨大な制御ブランチを削除し、代わりに少数の ResNet ブロックで構成される軽量の畳み込みモジュールを導入します。。

このモジュールは、制御条件の特徴表現 (セマンティックセグメンテーションマスク、キーポイント事前分布など) を抽出する役割を果たします。

通常、トレーニングパラメーターの量は ControlNet の事前トレーニング済みモデルの 10% 未満ですが、この設計により、コンピューティングのオーバーヘッドとメモリ使用量が大幅に削減されます。

具体的には、事前トレーニングされたモデルのさまざまなネットワーク層から等間隔でサンプリングして、トレーニングに使用されるパラメーターのサブセットを形成しますが、残りのパラメーターはフリーズされます。

さらに、研究チームはControlNeXtのアーキテクチャを設計する際に、モデル構造と元のアーキテクチャの一貫性も維持し、プラグアンドプレイを実現しました。

ControlNet であっても ControlNeXt であっても、条件付き制御情報の挿入は重要なリンクです。

このプロセス中に、ControlNeXt 研究チームは、注入位置の選択と注入方法の設計という 2 つの重要な問題について徹底的な研究を実施しました。

研究チームは、ほとんどの制御可能な生成タスクでは、生成をガイドする条件付き情報の形式が比較的単純で、ノイズ除去プロセスの機能と高度に相関していることを観察しました。

そこでチームは次のように考えました。ノイズ除去ネットワークのすべての層に制御情報を注入する必要はありません, そこで私が選んだのは条件付き機能とノイズ除去機能をネットワークの中間層にのみ集約します。。

集計方法は可能な限りシンプルです - 使用中相互正規化2 つの特徴セットの分布を調整した後、それらを直接追加します。

これにより、制御信号が確実にノイズ除去プロセスに影響を与えるだけでなく、追加の学習パラメータの導入や、アテンションメカニズムなどの複雑な操作による不安定性も回避されます。

相互正規化は、ControlNeXt のもう 1 つのコアテクノロジであり、これまで一般的に使用されていたゼロ畳み込みなどのプログレッシブ初期化戦略に代わるものです。

従来の方法では、新しいモジュールの影響を最初から徐々に解放することで崩壊の問題を軽減しますが、多くの場合、これにより収束が遅くなります。

相互正規化では、バックボーンネットワークのノイズ除去機能の平均 μ と分散 σ を直接使用して、制御モジュールによって出力された機能を正規化し、2 つのデータ分布が可能な限り揃うようにします。

(注: ϵ は数値安定性のために追加される小さな定数、γ はスケーリングパラメーターです。)

次に、正規化された制御機能は、スケールおよびオフセットパラメータを通じて振幅とベースラインを調整し、それらをノイズ除去機能に追加します。これにより、パラメータの初期化の感度が回避されるだけでなく、制御条件が初期段階で有効になることも可能になります。トレーニングを行い、収束プロセスを加速します。

さらに、ControlNeXt は、制御モジュールを使用して条件情報の潜在空間特徴へのマッピングを学習し、マッピングをより抽象的かつ意味的にし、目に見えない制御条件への一般化を促進します。

プロジェクトのホームページ:
https://pbihao.github.io/projects/controlnext/index.html
用紙のアドレス:
https://arxiv.org/abs/2408.06070
GitHub：
https://github.com/dvlab-research/ControlNeXt

ニュース

スパイダーマンが魅惑的に踊り、次世代の ControlNet が登場! Jiajiaya チームによって起動、プラグアンドプレイ

スパイダーマンがビューティーダンスを踊る

より軽量な状態制御モジュール

輸入

プライベートな連絡先の最初の情報