Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Νέα Έκθεση Σοφίας
Επιμέλεια: alan
[Εισαγωγή στη Νέα Σοφία]Πρόσφατα, ερευνητές από το Πανεπιστήμιο της Καλιφόρνια, στο Irvine και άλλα ιδρύματα μείωσαν το κόστος εκπαίδευσης του μοντέλου διάχυσης στα 1.890 δολάρια ΗΠΑ χρησιμοποιώντας στρατηγικές όπως η καθυστερημένη κάλυψη, το MoE και η ιεραρχική επέκταση.
Πόσο κοστίζει η εκπαίδευση ενός μοντέλου διάχυσης;
Η προηγούμενη φθηνότερη μέθοδος (Wuerstchen) κόστιζε 28.400 $ και μοντέλα όπως το Stable Diffusion είναι μια τάξη μεγέθους πιο ακριβά.
Στην εποχή των μεγάλων μοντέλων, οι περισσότεροι άνθρωποι απλά δεν έχουν την πολυτέλεια να παίξουν μαζί τους. Εάν θέλετε κάθε είδους κυρίες από τη Βινσεντία, θα πρέπει να βασιστείτε στους κατασκευαστές για να μεταφέρουν το βάρος τους μπροστά.
Για να μειώσουν αυτό το τεράστιο κόστος, οι ερευνητές έχουν δοκιμάσει διάφορες λύσεις.
Για παράδειγμα, το αρχικό μοντέλο διάχυσης χρειάζεται περίπου 1.000 βήματα για να μεταβεί από θόρυβο σε εικόνα, αλλά έχει μειωθεί σε περίπου 20 βήματα ή ακόμα και λιγότερα.
Όταν η βασική μονάδα στο μοντέλο διάχυσης αντικαταστάθηκε σταδιακά από DiT (Transformer) από την Unet (CNN), ακολούθησαν επίσης ορισμένες βελτιστοποιήσεις με βάση τα χαρακτηριστικά του Transformer.
Για παράδειγμα, η ποσοτικοποίηση, όπως η παράλειψη ορισμένων περιττών υπολογισμών στο Προσοχή, όπως η διοχέτευση.
Πρόσφατα, ερευνητές από το Πανεπιστήμιο της Καλιφόρνια, Irvine και άλλα ιδρύματα έκαναν ένα μεγάλο βήμα προς τα εμπρός στον στόχο της «εξοικονόμησης χρημάτων»:
Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.15811
——Εκπαιδεύστε ένα μοντέλο διάχυσης 1,16 δισεκατομμυρίων παραμέτρων από την αρχή για μόνο 1.890 $!
Σε σύγκριση με το SOTA, έχει βελτιωθεί κατά μια τάξη μεγέθους, επιτρέποντας στους απλούς ανθρώπους να δουν την ελπίδα να πάρουν μια γεύση από την προ-προπόνηση.
Το πιο σημαντικό είναι ότι η τεχνολογία μείωσης του κόστους δεν επηρεάζει την απόδοση του μοντέλου 1,16 δισεκατομμύρια παράμετροι δίνουν τα ακόλουθα πολύ καλά αποτελέσματα.
Εκτός από την εμφάνιση και την αίσθηση, οι δείκτες δεδομένων του μοντέλου είναι επίσης εξαιρετικοί. Για παράδειγμα, η βαθμολογία FID που δίνεται στον παρακάτω πίνακα είναι πολύ κοντά στα Stable Diffusion 1.5 και DALL·E 2.
Αντίθετα, το σχέδιο μείωσης του κόστους του Wuerstchen οδήγησε σε λιγότερο από ιδανικές βαθμολογίες δοκιμών.
Συμβουλές για εξοικονόμηση χρημάτων
Με στόχο το "Stretching Every Dollar", οι ερευνητές ξεκίνησαν με το DiT, τη βασική ενότητα του μοντέλου διάχυσης.
Πρώτα απ 'όλα, το μήκος ακολουθίας είναι ο εχθρός του υπολογιστικού κόστους του Transformer και πρέπει να εξαλειφθεί.
Για τις εικόνες, είναι απαραίτητο να ελαχιστοποιηθεί ο αριθμός των ενημερώσεων κώδικα που συμμετέχουν στους υπολογισμούς (και επίσης να μειωθεί η επιβάρυνση της μνήμης) χωρίς να επηρεαστεί η απόδοση.
Υπάρχουν δύο τρόποι για να μειώσετε τον αριθμό των πλακιδίων εικόνας, ο ένας είναι να αυξήσετε το μέγεθος κάθε μπλοκ και ο άλλος είναι να αφαιρέσετε μέρος της ενημέρωσης κώδικα (μάσκα).
Επειδή το πρώτο θα μειώσει σημαντικά την απόδοση του μοντέλου, εξετάζουμε τη μέθοδο κάλυψης.
Η πιο αφελής μάσκα (Naive token masking) είναι παρόμοια με την τυχαία περικομμένη εκπαίδευση στο συνελικτικό UNet, αλλά επιτρέπει την εκπαίδευση σε μη συνεχόμενες περιοχές της εικόνας.
Η προηγούμενη πιο προηγμένη μέθοδος (MaskDiT) προσθέτει μια δομή αποκατάστασης και ανακατασκευής πριν από την έξοδο και την εκπαιδεύει μέσω μιας πρόσθετης συνάρτησης απώλειας, ελπίζοντας να αναπληρώσει τις χαμένες πληροφορίες μέσω της εκμάθησης.
Και οι δύο μάσκες απορρίπτουν τα περισσότερα από τα patches στην αρχή για να μειώσουν το υπολογιστικό κόστος. Η απώλεια πληροφοριών μειώνει σημαντικά τη συνολική απόδοση του Transformer.
——Δεν ενδείκνυται η απώλεια πληροφοριών, οπότε πώς μπορούμε να μειώσουμε την είσοδο χωρίς να χάσουμε πληροφορίες;
μάσκα καθυστέρησης
Αυτό το έγγραφο προτείνει μια στρατηγική αναβολής κάλυψης, η οποία χρησιμοποιεί ένα patch-mixer για προεπεξεργασία πριν από τη μάσκα, και ενσωματώνει τις πληροφορίες των απορριφθέντων μπαλωμάτων στα επιθέματα που έχουν διασωθεί, μειώνοντας έτσι σημαντικά τον αντίκτυπο των υψηλών επιδόσεων.
Σε αυτήν την αρχιτεκτονική, το patch-mixer υλοποιείται μέσω ενός συνδυασμού επιπέδου προσοχής και δυαδικής μάσκας για κάλυψη Η συνάρτηση απώλειας ολόκληρου του μοντέλου είναι:
Σε σύγκριση με το MaskDiT, δεν απαιτείται επιπλέον λειτουργία απώλειας εδώ και ο συνολικός σχεδιασμός και η εκπαίδευση είναι απλούστερες.
Το ίδιο το μίξερ είναι μια πολύ ελαφριά κατασκευή και πληροί τα κριτήρια εξοικονόμησης χρημάτων.
τελειοποίηση
Δεδομένου ότι ένας πολύ υψηλός λόγος κάλυψης θα μειώσει σημαντικά την ικανότητα του μοντέλου διάχυσης να μάθει την καθολική δομή της εικόνας και να εισάγει μια μετατόπιση διανομής από την εκπαίδευση στη δοκιμή, ο συγγραφέας πραγματοποίησε μια μικρή ποσότητα λεπτής ρύθμισης (απομάκρυνσης) μετά την προεκπαίδευση (μάσκα) ).
Επιπλέον, η λεπτομέρεια μπορεί να μετριάσει τυχόν ανεπιθύμητα τεχνουργήματα που προκαλούνται από τη χρήση μάσκας.
MoE και πολυεπίπεδες επεκτάσεις
Το MoE μπορεί να αυξήσει τις παραμέτρους και τις εκφραστικές δυνατότητες του μοντέλου χωρίς να αυξήσει σημαντικά το κόστος εκπαίδευσης.
Οι συγγραφείς χρησιμοποιούν ένα απλοποιημένο επίπεδο MoE που βασίζεται σε επιλεγμένη από τους ειδικούς δρομολόγηση, με κάθε ειδικό να καθορίζει τη διαδρομή προς το διακριτικό του χωρίς να χρειάζεται καμία επιπλέον βοηθητική λειτουργία απώλειας για την εξισορρόπηση του φορτίου μεταξύ των ειδικών.
Επιπλέον, οι συγγραφείς εξέτασαν επίσης μια μέθοδο ιεραρχικής κλιμάκωσης που αυξάνει γραμμικά το πλάτος του μπλοκ Transformer (δηλαδή, το κρυφό μέγεθος του στρώματος στο επίπεδο προσοχής και το επίπεδο τροφοδοσίας προς τα εμπρός).
Δεδομένου ότι τα βαθύτερα επίπεδα στα μοντέλα όρασης τείνουν να μαθαίνουν πιο σύνθετα χαρακτηριστικά, η χρήση περισσότερων παραμέτρων σε βαθύτερα επίπεδα θα οδηγήσει σε καλύτερη απόδοση.
Πειραματική ρύθμιση
Ο συγγραφέας χρησιμοποιεί δύο παραλλαγές του DiT: DiT-Tiny/2 και DiT-Xl/2, με μέγεθος patch 2.
Όλα τα μοντέλα εκπαιδεύτηκαν χρησιμοποιώντας τον βελτιστοποιητή AdamW με αποσύνθεση ρυθμού μάθησης συνημιτόνου και διάσπαση υψηλού βάρους.
Το μπροστινό μέρος του μοντέλου χρησιμοποιεί τον αυτόματο κωδικοποιητή τεσσάρων καναλιών (VAE) στο μοντέλο Stable-Diffusion-XL για εξαγωγή χαρακτηριστικών εικόνας Επιπλέον, η απόδοση του πιο πρόσφατου VAE 16 καναλιών σε μεγάλης κλίμακας εκπαίδευση (έκδοση εξοικονόμησης ) δοκιμάστηκε επίσης.
Οι συγγραφείς χρησιμοποιούν το πλαίσιο EDM ως ενοποιημένη ρύθμιση εκπαίδευσης για όλα τα μοντέλα διάχυσης και χρησιμοποιούν βαθμολογίες FID καθώς και CLIP για να μετρήσουν την απόδοση του μοντέλου δημιουργίας εικόνας.
Το πιο συχνά χρησιμοποιούμενο μοντέλο CLIP επιλέχθηκε για τον κωδικοποιητή κειμένου Αν και τα μεγαλύτερα μοντέλα όπως το T5-xxl έχουν καλύτερη απόδοση σε δύσκολες εργασίες όπως η σύνθεση κειμένου, δεν χρησιμοποιούνται εδώ για λόγους εξοικονόμησης χρημάτων.
σύνολο δεδομένων εκπαίδευσης
Χρησιμοποιούνται τρία πραγματικά σύνολα δεδομένων εικόνας (Εννοιολογικοί λεζάντες, Segment Anything, TextCaps), που περιέχουν 22 εκατομμύρια ζεύγη εικόνας-κειμένου.
Εφόσον το SA1B δεν παρέχει πραγματικούς υπότιτλους, εδώ χρησιμοποιούνται συνθετικοί υπότιτλοι που δημιουργούνται από το μοντέλο LLaVA. Οι συγγραφείς πρόσθεσαν επίσης δύο συνθετικά σύνολα δεδομένων εικόνων που περιείχαν 15 εκατομμύρια ζεύγη εικόνας-κειμένου στην εκπαίδευση μεγάλης κλίμακας: JourneyDB και DiffusionDB.
Για αφαίρεση μικρής κλίμακας, οι ερευνητές κατασκεύασαν ένα σύνολο δεδομένων κειμένου σε εικόνα που ονομάζεται cifar-captions λαμβάνοντας υποδειγματοληψία εικόνων 10 τάξεων CIFAR-10 από το μεγαλύτερο σύνολο δεδομένων COYO-700M.
Αξιολογώ
Όλα τα πειράματα αξιολόγησης πραγματοποιήθηκαν χρησιμοποιώντας το μοντέλο DiT-Tiny/2 και το σύνολο δεδομένων cifar-captions (ανάλυση 256 × 256).
Κάθε μοντέλο εκπαιδεύτηκε για βήματα βελτιστοποίησης 60K χρησιμοποιώντας τον βελτιστοποιητή AdamW και τον εκθετικό κινητό μέσο όρο (συντελεστής εξομάλυνσης 0,995 για τα τελευταία 10Κ βήματα).
μάσκα καθυστέρησης
Η βασική γραμμή του πειράματος επέλεξε το Naive masking που αναφέραμε παραπάνω, ενώ το delay masking σε αυτό το άρθρο πρόσθεσε ένα ελαφρύ patch-mixer, με τον αριθμό των παραμέτρων μικρότερο από το 10% του δικτύου κορμού.
Σε γενικές γραμμές, όσο περισσότερα μπαλώματα χάνονται (υψηλή αναλογία κάλυψης), τόσο χειρότερη θα είναι η απόδοση του μοντέλου, για παράδειγμα, η απόδοση του MaskDiT μειώνεται σημαντικά αφού ξεπεράσει το 50%.
Το πείραμα σύγκρισης εδώ χρησιμοποιεί τις προεπιλεγμένες υπερπαραμέτρους (ρυθμός μάθησης 1,6×10e-4, μείωση βάρους 0,01 και ρυθμός εκμάθησης συνημιτόνου) για την εκπαίδευση δύο μοντέλων.
Τα αποτελέσματα στο παραπάνω σχήμα δείχνουν ότι η μέθοδος κάλυψης καθυστέρησης έχει βελτιωθεί στους τρεις δείκτες FID, Clip-FID και Clip score.
Επιπλέον, το χάσμα απόδοσης με τη γραμμή βάσης διευρύνεται καθώς αυξάνεται ο ρυθμός κάλυψης. Όταν το ποσοστό κάλυψης είναι 75%, η αφελής κάλυψη θα μειώσει τη βαθμολογία FID στο 16,5, ενώ η μέθοδός μας φτάνει στο 5,03, που είναι πιο κοντά στη βαθμολογία FID χωρίς κάλυψη (3,79).
υπερπαράμετροι
Ακολουθώντας τη γενική ιδέα της εκπαίδευσης LLM, εδώ συγκρίνουμε την επιλογή υπερπαραμέτρων των δύο εργασιών.
Πρώτον, στο στρώμα προώθησης, η λειτουργία ενεργοποίησης SwiGLU είναι καλύτερη από το GELU. Δεύτερον, η μεγαλύτερη εξασθένηση βάρους οδηγεί σε καλύτερη απόδοση παραγωγής εικόνας.
Επιπλέον, σε αντίθεση με την εκπαίδευση LLM, το μοντέλο διάχυσης σε αυτό το άρθρο μπορεί να επιτύχει καλύτερη απόδοση όταν χρησιμοποιείται υψηλότερος συντελεστής μέσου όρου λειτουργίας για τη ροπή δεύτερης τάξης AdamW (β).
Τέλος, οι συγγραφείς διαπίστωσαν ότι η χρήση ενός μικρού αριθμού βημάτων εκπαίδευσης αυξάνοντας τον ρυθμό εκμάθησης στη μέγιστη δυνατή τιμή (μέχρι η εκπαίδευση να γίνει ασταθής) βελτίωσε επίσης σημαντικά την απόδοση δημιουργίας εικόνας.
Σχέδιο μίξερ
Συνήθως είναι σωστό να εργάζεστε σκληρά για να επιτύχετε θαύματα, και ο συγγραφέας έχει επίσης παρατηρήσει ότι η απόδοση του μοντέλου συνεχίζει να βελτιώνεται μετά τη χρήση ενός μεγαλύτερου μίκτη patch.
Ωστόσο, για να εξοικονομήσετε χρήματα, εξακολουθεί να επιλέγεται ένα μικρό μίξερ εδώ.
Οι συγγραφείς τροποποίησαν την κατανομή θορύβου σε (−0,6, 1,2), γεγονός που βελτίωσε την ευθυγράμμιση μεταξύ των υπότιτλων και της παραγόμενης εικόνας.
Όπως φαίνεται στο παρακάτω σχήμα, κάτω από την αναλογία κάλυψης 75%, ο συγγραφέας μελέτησε επίσης τον αντίκτυπο της χρήσης διαφορετικών μεγεθών επιθεμάτων.
Όταν ο αριθμός των συνεχών περιοχών γίνει μεγαλύτερος (οι ενημερώσεις κώδικα γίνονται μεγαλύτερες), η απόδοση του μοντέλου θα μειωθεί, επομένως η αρχική στρατηγική της τυχαίας κάλυψης κάθε ενημέρωσης κώδικα διατηρείται.
πολυεπίπεδη κλιμάκωση
Αυτό το πείραμα εκπαίδευσε δύο παραλλαγές της αρχιτεκτονικής DiT-Tiny, η μία με σταθερό πλάτος και η άλλη με ιεραρχικά κλιμακούμενη δομή.
Και οι δύο μέθοδοι χρησιμοποιούν Naive masking και προσαρμόζουν το μέγεθος του Transformer για να διασφαλίσουν ότι η υπολογιστική ισχύς του μοντέλου στις δύο περιπτώσεις είναι η ίδια, ενώ εκτελούν τα ίδια βήματα εκπαίδευσης και τον ίδιο χρόνο εκπαίδευσης.
Από τα αποτελέσματα στον παραπάνω πίνακα, φαίνεται ότι η ιεραρχική μέθοδος κλιμάκωσης είναι καλύτερη από τη μέθοδο σταθερού πλάτους βάσης και στους τρεις δείκτες απόδοσης, γεγονός που δείχνει ότι η ιεραρχική μέθοδος κλιμάκωσης είναι πιο κατάλληλη για την απόκρυψη της εκπαίδευσης του DiT.
Παραπομπές:
https://arxiv.org/abs/2407.15811