berita

Spider-Man menari dengan mempesona, dan generasi ControlNet berikutnya telah hadir! Diluncurkan oleh tim Jiajiaya, plug and play

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crecy berasal dari Kuil Aofei
    Qubit |. Akun publik QbitAI

Dengan kurang dari 10% parameter pelatihan, pembangkitan yang dapat dikontrol seperti ControlNet dapat dicapai!

Selain itu, model umum dari keluarga Difusi Stabil seperti SDXL dan SD1.5 dapat diadaptasi dan masih bersifat plug-and-play.



Pada saat yang sama, ini dapat digunakan dengan SVD untuk mengontrol pembuatan video, dan detail gerakan dapat dikontrol secara akurat hingga ke jari.



Di balik gambar dan video ini terdapat alat panduan pembuatan gambar/video sumber terbuka yang diluncurkan oleh tim Jiajiaya Tiongkok Hong Kong——KontrolSelanjutnya

Terlihat dari namanya yang diposisikan oleh tim R&D sebagai ControlNet generasi berikutnya.

Misalnya, karya klasik ResNeXt (perpanjangan dari ResNet) karya dewa besar He Kaiming dan Xie Saining juga menggunakan metode ini untuk menamainya.

Beberapa netizen percaya bahwa nama ini memang pantas diterima, dan memang merupakan produk generasi berikutnya, yang mengangkat ControlNet ke level yang lebih tinggi.



Yang lain secara blak-blakan mengatakan bahwa ControlNeXt adalah pengubah permainan, yang sangat meningkatkan efisiensi generasi yang dapat dikontrol. Mereka menantikan karya yang diciptakan oleh orang-orang yang menggunakannya.



Spiderman menari tarian kecantikan

ControlNeXt mendukung beberapa model seri SD dan bersifat plug-and-play.

Ini termasuk model pembuatan gambar SD1.5, SDXL, SD3 (mendukung Resolusi Super), dan model pembuatan video SVD.

Tanpa basa-basi lagi, langsung saja kita lihat hasilnya.

Terlihat bahwa dengan menambahkan panduan tepi (Canny) di SDXL, gadis dua dimensi yang digambar dan garis kontrol hampir pas dengan sempurna.



Meskipun kontur kontrolnya banyak dan terfragmentasi, model masih dapat menghasilkan gambar yang memenuhi persyaratan.



Dan dapat diintegrasikan secara mulus dengan beban LoRA lainnya tanpa pelatihan tambahan.

Misalnya saja di SD1.5, Anda dapat menggunakan kondisi kontrol postur (Pose) dengan berbagai LoRA untuk membentuk karakter dengan gaya berbeda atau bahkan lintas dimensi, namun dengan gerakan yang sama.



Selain itu, ControlNeXt juga mendukung mode kontrol topeng dan kedalaman.



SD3 juga mendukung Resolusi Super, yang dapat menghasilkan gambar definisi ultra tinggi.



Selama pembuatan video, ControlNeXt dapat mengontrol pergerakan karakter.

Misalnya, Spider-Man juga bisa menarikan tarian kecantikan di TikTok, bahkan gerakan jarinya pun ditiru dengan cukup akurat.



Bahkan membuat kursi menumbuhkan tangan dan menampilkan tarian yang sama. Meski agak abstrak, namun reproduksi aksinya cukup bagus.



Dan dibandingkan dengan ControlNet asli, ControlNeXt memerlukan lebih sedikit parameter pelatihan dan konvergen lebih cepat.

Misalnya, di SD1.5 dan SDXL, ControlNet masing-masing memerlukan 361 juta dan 1,251 miliar parameter yang dapat dipelajari, namun ControlNeXt hanya memerlukan 30 juta dan 108 juta masing-masing.Kurang dari 10% dari ControlNet



Selama proses pelatihan, ControlNeXt mendekati konvergensi dalam sekitar 400 langkah, namun ControlNet memerlukan sepuluh kali atau bahkan puluhan kali jumlah langkah.



Kecepatan pembangkitan juga lebih cepat dibandingkan ControlNet. Rata-rata, ControlNet memberikan penundaan sebesar 41,9% pada model dasar, namun ControlNeXt hanya memberikan penundaan 10,4%.



Jadi, bagaimana ControlNeXt diimplementasikan, dan perbaikan apa saja yang telah dilakukan pada ControlNet?

Modul kontrol kondisi lebih ringan

Pertama, gunakan gambar untuk memahami keseluruhan alur kerja ControlNeXt.



Kunci untuk meringankan beban adalah ControlNeXtMenghapus cabang kontrol besar di ControlNet dan sebagai gantinya memperkenalkan modul konvolusi ringan yang terdiri dari sejumlah kecil blok ResNet

Modul ini bertanggung jawab untuk mengekstraksi representasi fitur dari kondisi kontrol (seperti masker segmentasi semantik, prior titik kunci, dll.).

Jumlah parameter pelatihan biasanya kurang dari 10% dari model yang telah dilatih sebelumnya di ControlNet, namun model ini masih dapat mempelajari informasi kontrol kondisional masukan dengan baik. Desain ini sangat mengurangi overhead komputasi dan penggunaan memori.

Secara khusus, ini mengambil sampel pada interval yang sama dari lapisan jaringan berbeda dari model yang telah dilatih sebelumnya untuk membentuk subset parameter yang digunakan untuk pelatihan, sementara parameter lainnya dibekukan.



Selain itu, saat merancang arsitektur ControlNeXt, tim peneliti juga menjaga konsistensi struktur model dengan arsitektur aslinya, sehingga mencapai plug-and-play.

Baik itu ControlNet atau ControlNeXt, injeksi informasi kontrol bersyarat adalah tautan penting.

Selama proses ini, tim peneliti ControlNeXt melakukan penelitian mendalam pada dua isu utama - pemilihan lokasi injeksi dan desain metode injeksi.

Tim peneliti mengamati bahwa dalam sebagian besar tugas pembangkitan yang dapat dikontrol, bentuk pembangkitan informasi bersyarat yang memandu relatif sederhana dan sangat berkorelasi dengan fitur-fitur dalam proses denoising.

Jadi tim berpikir,Tidak perlu memasukkan informasi kontrol ke setiap lapisan jaringan denoising, jadi saya memilihGabungkan fitur kondisional dan fitur denoising hanya di lapisan tengah jaringan

Metode agregasinya juga sesederhana mungkin - dalam penggunaannyanormalisasi silangSetelah menyelaraskan distribusi kedua rangkaian fitur, tambahkan secara langsung.

Hal ini tidak hanya memastikan bahwa sinyal kontrol mempengaruhi proses denoising, namun juga menghindari masuknya parameter pembelajaran tambahan dan ketidakstabilan oleh operasi kompleks seperti mekanisme perhatian.

Normalisasi silang adalah teknologi inti lainnya dari ControlNeXt, menggantikan strategi inisialisasi progresif yang sebelumnya umum digunakan seperti zero-convolution.

Metode tradisional meringankan masalah keruntuhan dengan secara bertahap melepaskan pengaruh modul baru dari awal, namun hal ini sering mengakibatkan konvergensi yang lambat.

Normalisasi silang secara langsung menggunakan mean μ dan variance σ dari fitur-fitur denoising jaringan backbone untuk menormalkan fitur-fitur yang dikeluarkan oleh modul kontrol, sehingga distribusi data keduanya selaras mungkin.



(Catatan: ϵ adalah konstanta kecil yang ditambahkan untuk stabilitas numerik, dan γ adalah parameter penskalaan.)

Fitur kontrol yang dinormalisasi kemudian menyesuaikan amplitudo dan garis dasar melalui parameter skala dan offset, lalu menambahkannya ke fitur denoising, yang tidak hanya menghindari sensitivitas inisialisasi parameter, tetapi juga memungkinkan kondisi kontrol berlaku pada tahap awal. pelatihan dan mempercepat proses konvergensi.

Selain itu, ControlNeXt juga menggunakan modul kontrol untuk mempelajari pemetaan informasi kondisi ke fitur ruang laten, menjadikannya lebih abstrak dan semantik, serta lebih kondusif untuk generalisasi kondisi kontrol yang tidak terlihat.

Beranda proyek:
https://pbihao.github.io/projects/controlnext/index.html
Alamat kertas:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt