Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI
Με λιγότερο από το 10% των παραμέτρων εκπαίδευσης, μπορεί να επιτευχθεί ελεγχόμενη παραγωγή όπως το ControlNet!
Επιπλέον, κοινά μοντέλα της οικογένειας Stable Diffusion, όπως τα SDXL και SD1.5, μπορούν να προσαρμοστούν και εξακολουθούν να είναι plug-and-play.
Ταυτόχρονα, μπορεί να χρησιμοποιηθεί με SVD για τον έλεγχο της δημιουργίας βίντεο και οι λεπτομέρειες των κινήσεων μπορούν να ελεγχθούν με ακρίβεια μέχρι τα δάχτυλα.
Πίσω από αυτές τις εικόνες και τα βίντεο βρίσκεται το εργαλείο καθοδήγησης δημιουργίας εικόνων/βίντεο ανοιχτού κώδικα που ξεκίνησε από την κινεζική ομάδα του Χονγκ Κονγκ Jiajiaya——ControlNeXt。
Από το όνομα φαίνεται ότι η ομάδα Ε&Α το έχει τοποθετήσει ως το ControlNet επόμενης γενιάς.
Για παράδειγμα, το κλασικό έργο ResNeXt (προέκταση του ResNet) των μεγάλων θεών He Kaiming και Xie Saining χρησιμοποίησε επίσης αυτή τη μέθοδο για να το ονομάσει.
Μερικοί χρήστες του Διαδικτύου πιστεύουν ότι αυτό το όνομα αξίζει και είναι πράγματι το προϊόν επόμενης γενιάς, που ανεβάζει το ControlNet σε υψηλότερο επίπεδο.
Άλλοι είπαν ωμά ότι το ControlNeXt είναι ένα παιχνίδι αλλαγής, το οποίο βελτιώνει σημαντικά την αποτελεσματικότητα της ελεγχόμενης γενιάς. Ανυπομονούν να δουν τα έργα που δημιουργούνται από τους ανθρώπους που το χρησιμοποιούν.
Το ControlNeXt υποστηρίζει πολλά μοντέλα της σειράς SD και είναι plug-and-play.
Αυτά περιλαμβάνουν τα μοντέλα δημιουργίας εικόνας SD1.5, SDXL, SD3 (υποστηρίζει Super Resolution) και το μοντέλο δημιουργίας βίντεο SVD.
Χωρίς περαιτέρω καθυστέρηση, ας δούμε μόνο τα αποτελέσματα.
Μπορεί να φανεί ότι με την προσθήκη edge (Canny) καθοδήγησης στο SDXL, το σχεδιασμένο δισδιάστατο κορίτσι και οι γραμμές ελέγχου ταιριάζουν σχεδόν τέλεια.
Ακόμα κι αν τα περιγράμματα ελέγχου είναι πολλά και κατακερματισμένα, το μοντέλο μπορεί να σχεδιάσει εικόνες που πληρούν τις απαιτήσεις.
Και μπορεί να ενσωματωθεί απρόσκοπτα με άλλα βάρη LoRA χωρίς πρόσθετη προπόνηση.
Για παράδειγμα, στο SD1.5, μπορείτε να χρησιμοποιήσετε συνθήκες ελέγχου στάσης (Pose) με διάφορα LoRA για να σχηματίσετε χαρακτήρες με διαφορετικά στυλ ή ακόμα και σε διαστάσεις, αλλά με τις ίδιες κινήσεις.
Επιπλέον, το ControlNeXt υποστηρίζει επίσης λειτουργίες ελέγχου μάσκας και βάθους.
Το SD3 υποστηρίζει επίσης Super Resolution, το οποίο μπορεί να δημιουργήσει εικόνες εξαιρετικά υψηλής ευκρίνειας.
Στη δημιουργία βίντεο, το ControlNeXt μπορεί να ελέγξει τις κινήσεις των χαρακτήρων.
Για παράδειγμα, ο Spider-Man μπορεί επίσης να χορέψει τον χορό ομορφιάς στο TikTok και ακόμη και οι κινήσεις των δακτύλων μιμούνται με μεγάλη ακρίβεια.
Κάνει ακόμη και μια καρέκλα να μεγαλώνει τα χέρια και να εκτελεί τον ίδιο χορό Αν και είναι λίγο αφηρημένο, η αναπαραγωγή δράσης είναι αρκετά καλή.
Και σε σύγκριση με το αρχικό ControlNet, το ControlNeXt απαιτεί λιγότερες παραμέτρους εκπαίδευσης και συγκλίνει πιο γρήγορα.
Για παράδειγμα, σε SD1.5 και SDXL, το ControlNet απαιτεί 361 εκατομμύρια και 1,251 δισεκατομμύρια παραμέτρους που μπορούν να μάθουν αντίστοιχα, αλλά το ControlNeXt απαιτεί μόνο 30 εκατομμύρια και 108 εκατομμύρια αντίστοιχα.Λιγότερο από το 10% του ControlNet。
Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το ControlNeXt πλησιάζει τη σύγκλιση σε περίπου 400 βήματα, αλλά το ControlNet απαιτεί δέκα φορές ή και δεκάδες φορές τον αριθμό των βημάτων.
Η ταχύτητα παραγωγής είναι επίσης μεγαλύτερη από το ControlNet Κατά μέσο όρο, το ControlNet φέρνει καθυστέρηση 41,9% στο βασικό μοντέλο, αλλά το ControlNeXt φέρνει μόνο 10,4%.
Λοιπόν, πώς υλοποιείται το ControlNeXt και ποιες βελτιώσεις έχουν γίνει στο ControlNet;
Αρχικά, χρησιμοποιήστε μια εικόνα για να κατανοήσετε ολόκληρη τη ροή εργασίας του ControlNeXt.
Το κλειδί για ελαφρύ βάρος είναι το ControlNeXtΚαταργεί τον τεράστιο κλάδο ελέγχου στο ControlNet και αντ' αυτού εισάγει μια ελαφριά μονάδα συνέλιξης που αποτελείται από ένα μικρό αριθμό μπλοκ ResNet。
Αυτή η ενότητα είναι υπεύθυνη για την εξαγωγή αναπαραστάσεων χαρακτηριστικών συνθηκών ελέγχου (όπως μάσκες σημασιολογικής τμηματοποίησης, προτεραιότητες βασικών σημείων κ.λπ.).
Ο όγκος των παραμέτρων εκπαίδευσης είναι συνήθως μικρότερος από το 10% του προεκπαιδευμένου μοντέλου στο ControlNet, αλλά μπορεί να μάθει καλά τις πληροφορίες ελέγχου υπό όρους.
Συγκεκριμένα, λαμβάνει δείγματα σε ίσα διαστήματα από διαφορετικά επίπεδα δικτύου ενός προεκπαιδευμένου μοντέλου για να σχηματίσει ένα υποσύνολο παραμέτρων που χρησιμοποιούνται για εκπαίδευση, ενώ οι υπόλοιπες παράμετροι παγώνουν.
Επιπλέον, κατά τον σχεδιασμό της αρχιτεκτονικής του ControlNeXt, η ερευνητική ομάδα διατήρησε επίσης τη συνοχή της δομής του μοντέλου με την αρχική αρχιτεκτονική, επιτυγχάνοντας έτσι plug-and-play.
Είτε πρόκειται για ControlNet είτε για ControlNeXt, η έγχυση πληροφοριών ελέγχου υπό όρους είναι ένας σημαντικός σύνδεσμος.
Κατά τη διάρκεια αυτής της διαδικασίας, η ερευνητική ομάδα του ControlNeXt διεξήγαγε σε βάθος έρευνα σε δύο βασικά ζητήματα - την επιλογή της θέσης της ένεσης και τον σχεδιασμό της μεθόδου έγχυσης.
Η ερευνητική ομάδα παρατήρησε ότι στις περισσότερες εργασίες ελεγχόμενης παραγωγής, η μορφή της υπό όρους παραγωγής πληροφοριών που καθοδηγεί είναι σχετικά απλή και συσχετίζεται σε μεγάλο βαθμό με τα χαρακτηριστικά της διαδικασίας αποθορυβοποίησης.
Έτσι η ομάδα σκέφτεται,Δεν χρειάζεται να εισάγετε πληροφορίες ελέγχου σε κάθε επίπεδο του δικτύου απενεργοποίησης θορύβου, έτσι επέλεξαΣυγκεντρώστε χαρακτηριστικά υπό όρους και χαρακτηριστικά αποθορυβοποίησης μόνο στο μεσαίο επίπεδο του δικτύου。
Η μέθοδος συνάθροισης είναι επίσης όσο το δυνατόν πιο απλή - στη χρήσηδιασταυρούμενη κανονικοποίησηΑφού ευθυγραμμίσετε τις κατανομές των δύο συνόλων χαρακτηριστικών, προσθέστε τις απευθείας.
Αυτό όχι μόνο διασφαλίζει ότι το σήμα ελέγχου επηρεάζει τη διαδικασία απενεργοποίησης θορύβου, αλλά επίσης αποφεύγεται η εισαγωγή πρόσθετων παραμέτρων εκμάθησης και η αστάθεια από πολύπλοκες λειτουργίες όπως ο μηχανισμός προσοχής.
Η διασταυρούμενη κανονικοποίηση είναι μια άλλη βασική τεχνολογία του ControlNeXt, που αντικαθιστά τις στρατηγικές προοδευτικής αρχικοποίησης που χρησιμοποιήθηκαν στο παρελθόν, όπως η μηδενική συνέλιξη.
Οι παραδοσιακές μέθοδοι μετριάζουν το πρόβλημα της κατάρρευσης απελευθερώνοντας σταδιακά την επιρροή των νέων μονάδων από την αρχή, αλλά αυτό συχνά οδηγεί σε αργή σύγκλιση.
Η διασταυρούμενη κανονικοποίηση χρησιμοποιεί απευθείας τον μέσο όρο μ και τη διακύμανση σ των χαρακτηριστικών απόσβεσης θορύβου του βασικού δικτύου για να ομαλοποιήσει τα χαρακτηριστικά που εξάγονται από τη μονάδα ελέγχου, έτσι ώστε η κατανομή δεδομένων των δύο να είναι όσο το δυνατόν πιο ευθυγραμμισμένη.
(Σημείωση: ϵ είναι μια μικρή σταθερά που προστίθεται για αριθμητική σταθερότητα και το γ είναι μια παράμετρος κλιμάκωσης.)
Στη συνέχεια, τα κανονικοποιημένα χαρακτηριστικά ελέγχου προσαρμόζουν το πλάτος και τη γραμμή βάσης μέσω των παραμέτρων κλίμακας και μετατόπισης και, στη συνέχεια, τα προσθέτουν στα χαρακτηριστικά αποθορυβοποίησης, γεγονός που όχι μόνο αποφεύγει την ευαισθησία της αρχικοποίησης παραμέτρων, αλλά επιτρέπει επίσης στις συνθήκες ελέγχου να ισχύουν στα αρχικά στάδια του εκπαίδευση και επιταχύνει τη διαδικασία σύγκλισης.
Επιπλέον, το ControlNeXt χρησιμοποιεί επίσης τη μονάδα ελέγχου για να μάθει την αντιστοίχιση των πληροφοριών κατάστασης σε λανθάνοντα χαρακτηριστικά χώρου, καθιστώντας το πιο αφηρημένο και σημασιολογικό και πιο ευνοϊκό για γενίκευση σε αόρατες συνθήκες ελέγχου.
Αρχική σελίδα του έργου:
https://pbihao.github.io/projects/controlnext/index.html
Διεύθυνση χαρτιού:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt