Το Fine-tuning Flux έχει κατακλύσει ολόκληρο το διαδίκτυο, με ξένους τύπους να σχηματίζουν μια ομάδα ηρώων της Marvel!

2024-08-19

Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία]Γεννιέται ο βασιλιάς της χαρτογράφησης της τεχνητής νοημοσύνης που καταλαμβάνει τον κόσμο του ανοιχτού κώδικα! Μισό μήνα μετά την κυκλοφορία του, το Flux έχει γίνει η αγαπημένη εναλλακτική του Midjourney. Προγραμματιστές από όλα τα κοινωνικά στρώματα άρχισαν να τελειοποιούν το LoRA με τις δικές τους φωτογραφίες, επιτρέποντας σε ένα άτομο να κυριαρχήσει σε πολλά στυλ.

Μετά το Midjourney, δεν έχω δει ποτέ ανθρώπους τόσο τρελούς για μια εφαρμογή απεικόνισης AI.

Η εμφάνιση του Flux σημαίνει ότι η δημιουργία εικόνων AI έχει εισέλθει σε ένα νέο στάδιο.

Ο ίδιος ο Μασκ είπε ότι δεν μπορούσε πλέον να ξεχωρίσει την αλήθεια από το ψέμα.

Πρώτον, μια ρεαλιστική φωτογραφία ενός ομιλητή του TED έκανε θύελλα στο διαδίκτυο. Αργότερα, το Grok 2, το οποίο ενσωμάτωσε το μοντέλο Flux, ξεπέρασε τους περιορισμούς του προστατευτικού κιγκλιδώματος και έγινε τρελός μεταξύ των χρηστών του Διαδικτύου.

Πρόσφατα, οι προγραμματιστές του Flux άρχισαν επίσης να τελειοποιούν τα δικά τους μοντέλα LoRA.

Ο HuggingFace Lianchuang αναφώνησε ότι το Flux έχει καταιγίσει πλήρως τον κόσμο της τεχνητής νοημοσύνης ανοιχτού κώδικα.

Ο προγραμματιστής που το βελτίωσε είπε: "Το Flux+LoRA θα ανατρέψει την παραγωγική αγορά τεχνητής νοημοσύνης. Μπορείτε να είστε οπουδήποτε, να φοράτε οτιδήποτε, να φοράτε ό,τι ρούχα θέλετε και να δημιουργήσετε διαφορετικές εκδοχές του εαυτού σας."

Για παράδειγμα, μετατρέψτε τον εαυτό σας σε Σούπερμαν.

Πάρτε το αναδιπλούμενο ξίφος φωτός και σκιάς και μεταμορφωθείτε σε έναν Ιππότη Τζεντάι.

Όχι μόνο αυτό, φωτογραφίες από γλυπτά από πάγο, κονσόλες παιχνιδιών με διακόπτη κράτησης, αυτιά ξωτικών, επιδείξεις μόδας κ.λπ. είναι όλα απλά λόγια.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Η τελειοποίηση του δικού σας LoRA έχει γίνει πλέον ένα νέο παιχνίδι για πολλούς προγραμματιστές.

Όχι, ολόκληρο το δίκτυο έχει πλημμυρίσει από το Flux+LoRA.

Ένα άτομο μπορεί να σχηματίσει τους «Εκδικητές»

Ο Rowan Cheung, ο ιδρυτής του Rundown AI, χρησιμοποίησε τις δικές του φωτογραφίες ως δεδομένα, χρησιμοποίησε το Flux για να εκπαιδεύσει ένα μοντέλο LoRA και στη συνέχεια το συνέδεσε με το Runway για να το κάνει να κινηθεί.

Όπως φαίνεται παρακάτω, δημιουργείται μια εικόνα παρόμοια με ένα ηχείο TED.

Αφού έκανε το βίντεο, το άτομο της φωτογραφίας πραγματικά ζωντανεύει και έμοιαζε με ηχείο. Το μόνο μειονέκτημα είναι ότι υπάρχουν μόνο 2-3 δάχτυλα από το δεξί χέρι προς τα πίσω.

Ο άλλος δημιούργησε τον εαυτό του σώζοντας τον κόσμο ως Σούπερμαν.

Με τα κινούμενα σχέδια, τελικά έγινα ήρωας στη Marvel.

Αναγεννηθείτε σε μια φωτογραφία που φοράτε μοντέρνα ρούχα και περπατάτε στην πασαρέλα.

Το κοινό και στις δύο πλευρές χειροκρότησε με ενθουσιασμό και θεωρήθηκε μια εμπειρία πασαρέλας T-stage.

Επιπλέον, ο Rowan Cheung έχει δημιουργήσει επίσης διαφορετικά στυλ του εαυτού του, τα οποία είναι συνεπή με τη σκηνή και δεν έχουν αίσθηση ανυπακοής.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Πιστεύει ότι παρόλο που τα γραφικά που δημιουργούνται από την τεχνητή νοημοσύνη εξακολουθούν να μην μπορούν να αντικαταστήσουν πλήρεις ταινίες/διαφημίσεις, έχουν ήδη πολλές σημαντικές χρήσεις, ειδικά για τους δημιουργούς περιεχομένου.

Για παράδειγμα, αυτές οι εικόνες τεχνητής νοημοσύνης χρησιμοποιούνται για την παραγωγή προεπισκοπήσεων και συνοδευτικών εικόνων για ειδήσεις, καθώς και για συμπληρωματικό υλικό (B-roll) σε ταινίες μικρού μήκους.

Αφού το διάβασε, ο δικτυακός χρήστης Min Choi είπε ότι θα μπορούσε να σχηματίσει ένα "Avengers".

Ο πρώην CTO της Intel βελτίωσε επίσης το δικό του μοντέλο LoRA στο A100, το οποίο του κόστισε 7 δολάρια ΗΠΑ (περίπου 50 γιουάν) σε 75 λεπτά.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Υπάρχουν επίσης προγραμματιστές που μόλις μετατράπηκαν σε ταινίες τρόμου.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Δεν μπορώ να διακρίνω τη διαφορά μεταξύ AI και πραγματικότητας

Η πιο δημοφιλής είναι η τελειοποιημένη εκδοχή του «σουρεαλισμού» - γίνεται όλο και πιο δύσκολο να διακρίνει κανείς το όριο μεταξύ φαντασίας και πραγματικότητας.

Είναι μια πραγματική φωτογραφία ή ένα άτομο που σχεδιάστηκε από AI;

Μετά την εκπαίδευση με το LoRA στο Flux-Dev, έχει σημειωθεί απίστευτη πρόοδος όσον αφορά την πολυπλοκότητα της σκηνής και τον ρεαλισμό.

Οποιοδήποτε στυλ μπορεί να βελτιωθεί

Επιπλέον, αναδύονται επίσης διάφορα διαφορετικά στυλ λεπτομέρειας.

στυλ pixel

Οι προγραμματιστές χρησιμοποίησαν το στυλ στο θρυλικό ZX Spectrum ως παράδειγμα για να τελειοποιήσουν τη γενιά εικόνων LoRA που μοιάζει με pixel.

Στην παρακάτω εικόνα που δημιουργείται, υπάρχουν εικόνες όπως Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (φαινομενικά) κ.λπ.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

κινούμενα doodles

Ο σχεδιαστής προϊόντων τεχνητής νοημοσύνης PS, Davis Brown, βελτίωσε ένα μοντέλο half_illustration που βασίζεται στο Flux.

Οι εικόνες που δημιουργεί είναι εν μέρει σε στυλ πραγματικών φωτογραφιών και εν μέρει σε στυλ κινουμένων σχεδίων γκράφιτι.

Πριν από κάθε σχέδιο, χρειάζεται μόνο να προσθέσετε - Με το στυλ TOK στην αρχή της προτροπής.

Στη συνέχεια, περιγράψτε το επιθυμητό αποτέλεσμα λεπτομερώς και η ταινία μπορεί να παραχθεί αμέσως.

Στο μέλλον, νιώθω ότι δεν χρειάζεται να χρησιμοποιώ το PS, μπορώ απλώς να χρησιμοποιήσω AI για να δημιουργήσω εικόνες.

prompt：Στο στυλ του TOK, μια πρωτοποριακή πόζα δραματικής δράσης με μια φωτογραφία σύνταξης avant-garde πόζας μιας γυναίκας με κοντά μπλε μαλλιά που φοράει στρογγυλά εκκεντρικά γυαλιά ηλίου της δεκαετίας του '70 και τραβάει τα γυαλιά προς τα κάτω κοιτάζοντας μπροστά, στο Τόκιο με μεγάλες μαρμάρινες κατασκευές και δέντρα μπονσάι στο ηλιοβασίλεμα με ένα ζωντανό εικονογραφημένο μπουφάν περιβάλλεται από εικονογραφήσεις λουλουδιών, καπνού, φλόγες, παγωτού, λάμψεις, ροκ εν ρολ

prompt：Στο στυλ του TOK, μια φωτογραφία εκδοτική πόζα δράσης με ένα άτομο που τρυπάει τα μάτια, τατουάζ στο πρόσωπο, με δημιουργικό καπέλο, στέκεται στο Τόκιο με μεγάλες μαρμάρινες κατασκευές και λευκά μοβ δέντρα σε ένα γήπεδο μπάσκετ, με έναν ζωντανό εικονογραφημένο δρόμο φορέστε φουσκωμένο vintage σακάκι, μαύρο πουκάμισο, ηφαίστειο στο βάθος, που περιβάλλεται από εικονογραφήσεις καπνού, φλόγες και λουλούδια, ομίχλη, θαυμαστικά, γραμμές που πυροβολούν προς τα έξω, χαρακτήρες μινιόν, πεταλούδες

Υπάρχουν και άλλες φωτογραφίες σε στυλ γκράφιτι.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Jiugongge

Η πλατφόρμα συνόλων δεδομένων ανοιχτού κώδικα LAION χρησιμοποίησε το μοντέλο Flux για να εκπαιδεύσει ένα μοντέλο που μπορεί να δημιουργήσει φωτογραφίες 3x3 εννέα τετραγώνων πλέγματος από διαφορετικές γωνίες.

Από εδώ και πέρα μια selfie θα είναι αρκετή.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

διαφορετικές ηλικίες

Η εμφάνιση της ζωής ενός ανθρώπου μπορεί να φανεί μέσω του Flux+LoRA.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Άλλο παράδειγμα:

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Σούπερ δυνατότητα αναπαραγωγής

Ο σημερινός πρωταγωνιστής, το FLUX.1, χρησιμοποιεί μια νέα τεχνολογία «ταιριάσματος ροής».

Ενώ τα προηγούμενα μοντέλα διάχυσης δημιουργούσαν μια εικόνα αφαιρώντας σταδιακά το θόρυβο ξεκινώντας από ένα τυχαίο σημείο εκκίνησης, η αντιστοίχιση ροής ακολουθεί μια πιο άμεση προσέγγιση, μαθαίνοντας τις ακριβείς αλλαγές που απαιτούνται για τη μετατροπή του θορύβου σε πραγματική εικόνα.

Αυτή η διαφορά προσέγγισης έχει ως αποτέλεσμα μια μοναδική αισθητική και μεγάλα πλεονεκτήματα όσον αφορά την ταχύτητα και τον έλεγχο.

Κείμενο: Τα περισσότερα από αυτά μπορούν να ληφθούν

Μία από τις προκλήσεις της δημιουργίας κειμένου σε εικόνα είναι η ακριβής μετατροπή του κειμένου σε οπτικές αναπαραστάσεις. Το FLUX.1 το χειρίζεται αρκετά καλά, ακόμη και σε περίπλοκες σκηνές όπως τα μιμίδια.

ταχύς:

Αυτό είναι ένα εξαιρετικό μιμίδιο σκύλου κάτω από το νερό Κείμενο: «Η κλιματική αλλαγή είναι μια χαρά» Κείμενο: "Η κλιματική αλλαγή δεν είναι μεγάλο πρόβλημα"

ταχύς:

Ένα μιμίδιο ενός διάσημου ηθοποιού που κάνει μια αστεία γκριμάτσα με το κείμενο "Όταν ξεχνάς τις γραμμές σου" σε μια ιδιόμορφη γραμματοσειρά Ένα μιμίδιο ενός διάσημου ηθοποιού που κάνει μια αστεία γκριμάτσα με το κείμενο "Όταν ξεχνάς τις γραμμές σου" με μια ιδιόμορφη γραμματοσειρά

Το φως και η υφή είναι και τα δύο καλά

Το FLUX.1 κατανοεί καλά το φως, τη σκιά και την υφή για να παράγει με συνέπεια εικόνες υψηλής ποιότητας.

ταχύς:

Μια λεπτομερής εικόνα ενός κήπου όπου τα λουλούδια είναι κατασκευασμένα από λεπτό γυαλί, που αντανακλούν υπέροχα το φως του ήλιου Μια λεπτομερής εικόνα ενός κήπου όπου τα λουλούδια είναι κατασκευασμένα από λεπτό γυαλί, αντανακλώντας όμορφα το φως του ήλιου

Σε αυτή την εικόνα, η εστίαση δεν είναι μόνο στην υφή του γυαλιού, αλλά και στο πώς το φως διαθλάται και μεταδίδεται μέσω των πετάλων, δημιουργώντας ένα φωτεινό αποτέλεσμα.

ταχύς:

Φτερά κουκουβάγιας που συγχωνεύονται με φθινοπωρινά φύλλα στον άνεμο Φτερά κουκουβάγιας που συγχωνεύονται με φθινοπωρινά φύλλα στον άνεμο

Στυλ τέχνης: περισσότερο από μίμηση

Το FLUX.1 φαίνεται να έχει κατακτήσει τις αρχές πίσω από διάφορα καλλιτεχνικά στυλ, καθιστώντας δυνατές τις δημιουργικές επανερμηνείες.

ταχύς:

ακουαρέλα της διάσημης κυματογραφίας ακουαρέλα της διάσημης κυματικής ζωγραφικής

Αυτή η "ακουαρέλα" έκδοση του "The Great Wave off Kanagawa" όχι μόνο υπονοεί ότι τα εμβληματικά κύματα ήταν μέρος των δεδομένων εκπαίδευσης του μοντέλου, αλλά υπογραμμίζει επίσης τον τρόπο με τον οποίο οι τεχνικές "ροής" προσεγγίζουν την κίνηση της μπογιάς μέσα από το νερό, το χαρτί και το μελάνι.

Σύνθεση: Δώστε νόημα στη σκηνή

Το FLUX.1 διαπρέπει στη δημιουργία πολύπλοκων σκηνών, τοποθετώντας αντικείμενα και χαρακτήρες με τρόπο ρεαλιστικό και οπτικά ελκυστικό.

ταχύς:

Μια ρεαλιστική εικόνα μιας μαγεμένης βιβλιοθήκης όπου τα βιβλία επιπλέουν στον αέρα και τα ράφια είναι φτιαγμένα από αρχαίες, στριφτές ρίζες Μια ρεαλιστική εικόνα μιας μαγεμένης βιβλιοθήκης όπου τα βιβλία επιπλέουν στον αέρα και τα ράφια είναι φτιαγμένα από αρχαίες, στριφτές ρίζες

«Ροή»: μια νέα οπτική γλώσσα

Η τεχνολογία αντιστοίχισης ροής που χρησιμοποιείται στο FLUX.1 δίνει στην εικόνα μια μοναδική αίσθηση οργανικής κίνησης και ρευστότητας, σαν να ρέουν τα ίδια τα pixel.

ταχύς:

Σκύλος με στροβιλιζόμενα σχέδια γούνας σε στυλ Βαν Γκογκ

Υπάρχει πάντα ένα εργαλείο που μπορεί να σας βοηθήσει να το κάνετε

Μπορούμε να συνοψίσουμε τη διαδικασία δημιουργίας εικόνας ως εξής: πάρτε μερικά pixel εισόδου, μετακινήστε τα ελαφρώς μακριά από το θόρυβο, προς το μοτίβο που δημιουργείται από την εισαγωγή κειμένου και επαναλάβετε αυτή τη διαδικασία μέχρι να φτάσετε σε έναν καθορισμένο αριθμό βημάτων.

Η διαδικασία λεπτομέρειας παίρνει κάθε ζεύγος εικόνας/σχολιασμού από το σύνολο δεδομένων και ενημερώνει ελαφρώς την εσωτερική του αντιστοίχιση.

Μπορείτε να διδάξετε σε ένα μοντέλο οτιδήποτε με αυτόν τον τρόπο, αρκεί να μπορεί να αναπαρασταθεί από ένα ζεύγος εικόνας-τίτλου: χαρακτήρας, σκηνικό, μέσο, στυλ, είδος.

Αριστερά: δημιουργήθηκε χρησιμοποιώντας το αρχικό μοντέλο FLUX.1 δεξιά: δημιουργήθηκε στο μοντέλο fofr/flux-bad-70s-food χρησιμοποιώντας τις ίδιες υποδείξεις και σπόρους.

Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο θα μάθει πώς να συσχετίζει αυτές τις έννοιες με συγκεκριμένες συμβολοσειρές κειμένου. Στη γραμμή εντολών, πρέπει να προσθέσετε αυτήν τη συμβολοσειρά για να ενεργοποιήσετε αυτήν τη συσχέτιση.

Για παράδειγμα, θέλετε να τελειοποιήσετε ένα μοντέλο "υπερήρωα σε στυλ κόμικ".

Πρώτον, ένας μεγάλος αριθμός εικόνων για τους χαρακτήρες πρέπει να συλλεχθεί ως σύνολο δεδομένων, συμπεριλαμβανομένων, ενδεικτικά,: διαφορετικές σκηνές, κοστούμια, φωτισμός και ίσως ακόμη και διαφορετικά στυλ τέχνης

Στη συνέχεια, επιλέξτε μια σύντομη και ασυνήθιστη λέξη ή φράση για να χρησιμεύσει ως το έναυσμά σας: κάτι μοναδικό που δεν θα έρχεται σε αντίθεση με άλλες έννοιες ή τροποποιήσεις. Μπορείτε να επιλέξετε όρους όπως "κακό φαγητό της δεκαετίας του '70" ή "JELLOMOLD".

Μετά την προπόνηση, απλώς δίνετε μια προτροπή που περιέχει μια λέξη σκανδάλης, όπως "Σκηνή κακού φαγητού της δεκαετίας του 1970 σε ένα πάρτι στο Σαν Φρανσίσκο" και το μοντέλο θα επικαλεστεί τις συγκεκριμένες έννοιες που προσθέσατε κατά τη λεπτομέρεια.

Είναι τόσο απλό.

Αφού κατανοήσουμε την αρχή, μπορούμε να επιλέξουμε οποιοδήποτε εργαλείο για να τελειοποιήσουμε το μοντέλο.

Για παράδειγμα, ένας τύπος ονόματι Matt Wolfe, αφού είδε την cool γενιά παραπάνω, ήταν περίεργος και το δοκίμασε.

Αποτέλεσμα ήταν να ανατραπεί...

Οι εικόνες τεχνητής νοημοσύνης που δημιουργούνται μπορούν να ονομαστούν η διαφορά μεταξύ της εκπομπής ενός αγοραστή και του σόου ενός πωλητή.

Αυτό δημιούργησε--

Αυτό είναι κάποιου άλλου -

Οι δύο εικόνες είναι συγκρίσιμες Η διαφορά έγκειται στο αν χρησιμοποιείται ή όχι η λεπτομέρεια LoRA.

Ο μικρός αδερφός που ερεθίστηκε αμέσως πήγε να κάνει κάποια έρευνα. Με ευχάριστη έκπληξη διαπίστωσε ότι το μοντέλο LoRA είναι πολύ μικρό, μόνο 2 έως 500 MB, και μπορεί να συνδυαστεί εύκολα με τα υπάρχοντα μοντέλα.

Αυτό που προκαλεί ακόμη μεγαλύτερη έκπληξη είναι ότι το μοντέλο AI μπορεί να βελτιώσει την ποιότητα της εικόνας, να παράγει ένα μοναδικό στυλ ή να δημιουργήσει ειδικούς χαρακτήρες, όπως ο Mario ή ο Μπομπ Σφουγγαράκης, χωρίς να απαιτεί πρόσθετη υπολογιστική ισχύ ή ολοκληρωμένη επανεκπαίδευση.

Δυστυχώς, στο Glif, το οποίο χρησιμοποιώ τόσο καλά, το LoRA δεν μπορεί να χρησιμοποιηθεί στο Flux.

Βρήκε ότι ένας τρόπος για να χρησιμοποιήσετε το Flux είναι να χρησιμοποιήσετε το ComfyUI.

Πιστεύω ότι πολλοί άνθρωποι είναι εξοικειωμένοι με αυτήν την εικόνα.

Εναλλακτικά, μπορείτε να χρησιμοποιήσετε πλατφόρμες όπως το Replicate, το HuggingFace Spaces ή το Fal AI.

Αφού το δοκίμασα στην πλατφόρμα Fal, διαπίστωσα ότι κοστίζει 0,035 $ ανά megapixel, επομένως, μπορείτε να εκτελέσετε το μοντέλο 29 φορές μόνο με 1 $, το οποίο είναι αρκετά οικονομικό.

Εδώ είναι όλα διαθέσιμα τα FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro κ.λπ.

Χωρίς να πει λέξη, το αδερφάκι επέλεξε το Flux Realism LoRA.

Μετά από προσεκτικό εντοπισμό σφαλμάτων, έθεσα το μέγεθος του βήματος συμπερασμάτων σε 28 και το CFG σε 2.

Οι εικόνες που προκύπτουν είναι εκπληκτικές!

Αν υπάρχει κάποιο ελάττωμα, είναι ότι ο φωτισμός των ρυτίδων του μετώπου εξακολουθεί να είναι αφύσικος.

Στη συνέχεια, ο μικρός αδερφός εισήγαγε με ενθουσιασμό την εικόνα στο Gen-3 Alpha Με βάση την προτροπή που εισήγαγε, το Gen-3 Alpha δημιούργησε ένα βίντεο.

Εκτός από μια συγκεκριμένη στιγμή, το μικρόφωνο στο χέρι μου «αιφνιδιάστηκε», και δεν υπήρχε τίποτα κακό στο υπόλοιπο βίντεο.

Ο τύπος το δοκίμασε ξανά και δημιούργησε ένα δεύτερο βίντεο.

Αυτή τη φορά, το μικρόφωνο φαινόταν πολύ ακίνητο, σαν να είχε παγώσει στη θέση του.

Επιπλέον, ο μικρός αδερφός εντάχθηκε επίσης στην τάση να αλλάζει τον εαυτό του σε όλο το Διαδίκτυο, δημιουργώντας μια σειρά από ξεκαρδιστικές φωτογραφίες.

Σύρετε προς τα αριστερά ή προς τα δεξιά για προβολή

Τέλος, χρησιμοποίησα το Gen-3 Alpha για να το μετατρέψω σε βίντεο, επιτρέποντας στον εαυτό μου και στον Deadpool να περπατήσουν στην ίδια σκηνή της ταινίας.

Παραπομπές:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

νέα

Το Fine-tuning Flux έχει κατακλύσει ολόκληρο το διαδίκτυο, με ξένους τύπους να σχηματίζουν μια ομάδα ηρώων της Marvel!

Εισαγωγή

Τα στοιχεία επικοινωνίας μου