Νέα

Το πιο ισχυρό μοντέλο γραφήματος ανοιχτού κώδικα Wensheng άλλαξε χέρια μέσα σε μια νύχτα! Δημιουργημένο από την αρχική ομάδα της SD, το μοντέλο παραγωγής βίντεο SOTA θα κυκλοφορήσει

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Έξυπνα πράγματα (δημόσιος λογαριασμός:zhidxcom
συγγραφέαςβανίλια
επεξεργασίαLi Shuiqing

Το πιο ισχυρό μοντέλο γραφήματος ανοιχτού κώδικα Wensheng άλλαξε χέρια μέσα σε μια νύχτα!

Ο Zhidongxi ανέφερε στις 2 Αυγούστου το ίδιο χθες το απόγευμα, ο ανοιχτός κώδικας κυρίαρχος του μοντέλου γραφήματος WenshengΣταθερή ΔιάχυσηΗ αρχική ομάδα ανακοίνωσε την κυκλοφορία ενός νέου μοντέλου παραγωγής εικόναςFLUX.1

Το FLUX.1 περιέχειProfessional Edition, Developer Edition, Express EditionΑπό τα τρία μοντέλα, τα δύο πρώτα μοντέλα ξεπέρασαν τα κύρια μοντέλα όπως το SD3-Ultra και το μικρότερο FLUX.1 [schnell] ξεπέρασε επίσης μεγαλύτερα μοντέλα όπως το Midjourney v6.0 και το DALL·E 3.


▲Βαθμολογία FLUX.1 ELO σε σύγκριση με τα κύρια μοντέλα

FLUX.1 inΔημιουργία κειμένου, ακολουθώντας σύνθετες οδηγίεςκαιΠαράγεται με το χέρι έχει πλεονεκτήματα. Το παρακάτω είναι ένα παράδειγμα εικόνων που δημιουργούνται από το μοντέλο της πιο ισχυρής επαγγελματικής έκδοσης FLUX.1[pro] Μπορείτε να δείτε ότι ακόμα και όταν δημιουργούνται μεγάλα τμήματα κειμένου και πολλοί χαρακτήρες, δεν υπάρχουν σφάλματα σε λεπτομέρειες όπως χαρακτήρες και ανθρώπινα χέρια. .


▲ Παράδειγμα εικόνας που δημιουργήθηκε από FLUX.1[pro]

Το FLUX.1 είναι πλέον διαθέσιμο στην πλατφόρμα ανοιχτού κώδικα Replicate, εδώ είναι οι συμβουλές μου για τη χρήση του "Η μικρότερη τούρτα του Μέλανα Δρυμού στον κόσμο, στο μέγεθος ενός δαχτύλου, που περιβάλλεται από δέντρα του Μέλανα Δρυμού”, οι εικόνες που δημιουργήθηκαν στα τρία μοντέλα λήφθηκαν αντίστοιχα17,5s, 12,2s, 1,5s


▲Σύγκριση τριών μοντέλων γενιάς

Το FLUX.1 ανοίγει επίσης ένα API (Application Programming Interface) και τιμολογείται με βάση τον αριθμό των εικόνων Οι τιμές των τριών μοντέλων είναι ανά εικόνα με τη σειρά.0,055 USD, 0,03 USD, 0,003 USD(Περίπου RMB 0,4, 0,22 και 0,022 γιουάν).

Η εταιρεία πίσω από το FLUX.1 ονομάζεταιΕργαστήρια Μέλανα Δρυμού (Black Forest Laboratory), που ιδρύθηκε από την αρχική ομάδα του Stable Diffusion και αρκετούς πρώην ερευνητές του Stability AI.Παρόμοια με το Stability AI, το Black Forest έχει δεσμευτεί να αναπτύξει υψηλής ποιότητας πολυτροπικά μοντέλα και ανοιχτού κώδικα31 εκατομμύρια δολάρια(περίπου 225 εκατ. RMB) σε χρηματοδότηση γύρου σποράς.

Το Black Forest πειράζει επίσης ότι θα κυκλοφορήσει σύντομαΜοντέλο βίντεο SOTA (Νο 1 στους τρέχοντες τεχνικούς δείκτες). . Κρίνοντας από το demo που κυκλοφόρησε, τόσο η ομαλότητα, η σταθερότητα όσο και η φυσική προσομοίωση έχουν φτάσει στο πρώτο επίπεδο. Η εταιρεία μπορεί να γίνει ένα σκοτεινό άλογο στον τομέα της παραγωγής βίντεο.


▲Προεπισκόπηση μοντέλου δημιουργίας βίντεο

Δοκιμαστική διεύθυνση τριών μοντέλων:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Καλό στη δημιουργία κειμένου και ανθρώπινων χεριών, τρία μοντέλα μπορούν να δημιουργηθούν σε δευτερόλεπτα σε κλίμακα

Το FLUX.1 έχει ανώτερη απόδοση όσον αφορά την οπτική ποιότητα, τις λεπτομέρειες της εικόνας και την ποικιλομορφία εξόδου.Δημιουργία κειμένου, σύνθετη σύνθεση, σχέδιο ανθρώπινου χεριού

Η δημιουργία κειμένου είναι πολύ σημαντική στη δημιουργία εικόνων και βίντεο και πολλά μοντέλα τείνουν να συγχέουν τα γράμματα που μοιάζουν. Το FLUX.1 μπορεί να χειριστεί δύσκολες λέξεις με επαναλαμβανόμενα γράμματα, όπως η δημιουργία αBlack Forest Flux Schnell Cake


▲ Κέικ Black Forest Flux Schnell

Όσον αφορά τη σύνθεση, το FLUX.1 υπερέχει στο να ακολουθεί περίπλοκες οδηγίες όπως το πού πρέπει να βρίσκονται τα πράγματα στην εικόνα. Για παράδειγμα, το FLUX.1 ερμηνεύει τέλεια αυτήν την προτροπή: Τρεις μαγικοί μάγοι στέκονται σε ένα κίτρινο τραπέζι, κρατώντας ο καθένας μια πινακίδα. Στα αριστερά, ένας μάγος με μαύρες ρόμπες κρατά μια πινακίδα που γράφει "AI" στη μέση, μια μάγισσα με κόκκινες ρόμπες κρατά μια πινακίδα που γράφει "IS" στα δεξιά, ένας μάγος με μπλε ρόμπες "AI" Ένα σημάδι που λέει "cool".


▲Σύνθετη σύνθεση

Τα ανθρώπινα χέρια ήταν πάντα η περιοχή που επλήγη περισσότερο για τα πολυτροπικά μοντέλα παραγωγής. Αν και η εικόνα του ανθρώπινου χεριού που δημιουργείται από το FLUX.1 δεν είναι ακόμα τέλεια, έχει επιτύχει μεγάλη πρόοδο.


▲Ανθρώπινο δυναμικό

FLUX.1 σύνολοProfessional Edition, Developer Edition, Express EditionΤρεις εκδόσεις.

σε,FLUX.1[pro]Είναι η πιο προηγμένη έκδοση με ανώτατο επίπεδο άμεσης παρακολούθησης, οπτική ποιότητα, λεπτομέρεια εικόνας και ποικιλομορφία εξόδου, παρέχοντας προσαρμοσμένες εταιρικές λύσεις για επαγγελματίες χρήστες.


▲ Παράδειγμα εικόνας που δημιουργήθηκε από FLUX.1[pro]

FLUX.1[dev]Προορίζεται για μη εμπορικές εφαρμογές, είναι εξευγενισμένο από το FLUX.1[pro] και προσφέρει παρόμοια ποιότητα και δυνατότητες ενώ είναι πιο αποτελεσματικό από τα τυπικά μοντέλα του ίδιου μεγέθους.


▲ Παράδειγμα εικόνας που δημιουργήθηκε με FLUX.1[dev]

FLUX.1[schnell]Το γρηγορότερο από τα τρία μοντέλα, είναι προσαρμοσμένο για τοπική ανάπτυξη και προσωπική χρήση και είναι δημόσια διαθέσιμο υπό την Πρότυπη Άδεια Apache 2.0.


▲ Παράδειγμα εικόνας που δημιουργήθηκε από το FLUX.1[schnell]

Το FLUX.1 είναι πλέον διαθέσιμο στην πλατφόρμα ανοιχτού κώδικα Replicate και μπορεί να εκτελεστεί στο cloud με μία μόνο γραμμή κώδικα ή οι χρήστες μπορούν να κατεβάσουν τα βάρη μοντέλων και να τα εκτελέσουν μέσω προγραμματισμού. Το API του FLUX.1 είναι επίσης ανοιχτό ταυτόχρονα και οι τιμές των τριών μοντέλων έχουν ως εξής:0,055 USD, 0,03 USD, 0,003 USD(Περίπου RMB 0,4, 0,22 και 0,022 γιουάν).

2. ΉτταMJ V6DALLΕ 3, η τεχνική έκθεση θα δημοσιευτεί σύντομα

Όσον αφορά την απόδοση, το FLUX.1 έχει βελτιστοποιηθεί ειδικά για να διατηρεί όλη την ποικιλομορφία των αποτελεσμάτων στην προεκπαίδευση, θέτοντας νέα πρότυπα σε πολλές πτυχές, όπως η συμμόρφωση με τις οδηγίες, η οπτική ποιότητα, οι αλλαγές μεγέθους/μήκους και πλάτους κ.λπ.

Μεταξύ αυτών, δύο μοντέλα, τα FLUX.1 [pro] και [dev], ξεπέρασαν δημοφιλή μοντέλα όπως το Midjourney v6.0, το DALL·E 3 και το SD3-Ultra σε πέντε κριτήρια αξιολόγησης.

Ως ελαφρύ μοντέλο, το FLUX.1[schnell] δεν είναι μόνο καλύτερο από παρόμοιους ανταγωνιστές, αλλά και καλύτερο από ισχυρά μη αποσταγμένα μοντέλα όπως το Midjourney v6.0 και το DALL·E 3.


▲Σύγκριση απόδοσης FLUX.1 με τα κύρια μοντέλα

Επιπλέον, όλα τα μοντέλα FLUX.1 υποστηρίζουν πολλαπλούς λόγους διαστάσεων και αναλύσεις 0,1 και 2,0 megapixel.


▲ Αλλαγές αναλογίας διαστάσεων/ανάλυσης

Πώς επιτυγχάνεται τόσο ισχυρή απόδοση;

Όσον αφορά την αρχιτεκτονική του μοντέλου, το FLUX.1 υιοθετεί μια υβριδική αρχιτεκτονική που βασίζεται σε μονάδες μετασχηματιστή πολλαπλών τρόπων και παράλληλης διάχυσης και την επεκτείνει σε παραμέτρους 12Β.

Η ομάδα βελτίωσε το υπερσύγχρονο μοντέλο διάχυσης δημιουργώντας το Flow Matching και βελτίωσε την απόδοση του μοντέλου και την αποδοτικότητα του υλικού συνδυάζοντας την ενσωμάτωση περιστροφικής θέσης και τα επίπεδα παράλληλης προσοχής. Μια πιο λεπτομερής τεχνική έκθεση θα δημοσιευτεί σύντομα.

τρία,SDΤο αρχικό πλήρωμα,2.25100 εκατομμύριαΣπόρος στρογγυλός, θέλετε να στείλετεSOTAμοντέλο βίντεο

Το Black Forest Lab ιδρύθηκε από την ιδρυτική ομάδα της Stable Diffusion Η προηγούμενη δουλειά της ομάδας περιελάμβανε επίσης μοντέλο παραγωγής εικόνας υψηλής ποιότητας VQGAN, μοντέλο παραγωγής βίντεο Stable Video Diffusion, κ.λπ.

Μεταξύ των αρχικών 5 συγγραφέων του Stable Diffusion,4Τα μέλη που έχουν ενταχθεί στο Stability AI και συνέχισαν να αναπτύσσουν επόμενες εκδόσεις του SD, συμπεριλαμβανομένων των Robin Rombach, Andreas Blattmann, Dominik Lorenz και Patrick Esser, ανήκουν στην ιδρυτική ομάδα των Black Forest Labs.


▲Συγγραφέας του Stable Diffusion και ιδρυτική ομάδα του Black Forest Lab

Η ομάδα είπε ότι οι βασικές της πεποιθήσεις είναι η ανάπτυξη ευρέως προσβάσιμων μοντέλων, η προώθηση της καινοτομίας και της συνεργασίας στις ερευνητικές και ακαδημαϊκές κοινότητες και η αύξηση της διαφάνειας του μοντέλου.

Η Black Forest Labs ανακοινώνει την ολοκλήρωσή της31 εκατομμύρια δολάρια(περίπου 225 εκατομμύρια RMB)Χρηματοδότηση γύρου σποράς, με επικεφαλής το γνωστό ίδρυμα επιχειρηματικών κεφαλαίων a16z (Andreessen Horowitz), ο Brendan Iribe, Διευθύνων Σύμβουλος του κατασκευαστή VR Oculus, ο Garry Tan, Διευθύνων Σύμβουλος του startup incubator YC, ο ερευνητής της NVIDIA Timo Aila και άλλοι ειδικοί και εταιρείες τεχνητής νοημοσύνης συμμετείχαν επίσης στην επένδυση, και επίσης ελήφθη Υπήρξαν επακόλουθες επενδύσεις από ταμεία πρώτης βαθμίδας όπως η General Catalyst.

Το συμβουλευτικό συμβούλιο της ομάδας περιλαμβάνει τον πρώην πρόεδρο της Disney Michael Ovitz, ο οποίος έχει μεγάλη εμπειρία στη βιομηχανία δημιουργίας περιεχομένου, και τον καθηγητή Matthias Bethge, πρωτοπόρο στη μεταφορά νευρωνικού στυλ.

Master AI που μόλις ξεκίνησε την επιχείρησή τουΑντρέι Καπάσι(Andrej Karpathy) έστειλε τις ευλογίες του στην ομάδα του Μέλανα Δρυμού και είπε ότι «το μοντέλο δημιουργίας εικόνας ανοιχτού κώδικα FLUX.1 φαίνεται πολύ ισχυρό».


▲Τα σχόλια του Καπάση

Πρώην αρχηγός της ιδρυτικής ομάδας - πρώην CEO της Stability AIΕμάντ ΜοστάκΟ (Emad Mostaque) έστειλε επίσης ένα συγχαρητήριο μήνυμα και είπε: "Ήταν τιμή μου που συνεργάστηκα στο παρελθόν μαζί τους και πιστεύω ότι θα συνεχίσουν να ξεπερνούν τα όρια στο ταξίδι της δημιουργίας κάθε pixel."


▲Σχόλια Mostaq

Στο επόμενο βήμα της δουλειάς, το Black Forest Trailer θα κυκλοφορήσει έναΜοντέλο βίντεο SOTA Vincent , "Επιτρέπει σε όλους να μετατρέψουν κείμενο σε βίντεο." Το μοντέλο θα βασίζεται στο FLUX.1, «επιτρέποντας ακριβή δημιουργία και επεξεργασία σε υψηλή ευκρίνεια και πρωτοφανή ταχύτητα».


▲Προεπισκόπηση μοντέλου δημιουργίας βίντεο

Συμπέρασμα: Τα σκοτεινά άλογα εμφανίζονται στον τομέα των πολυτροπικών μεγάλων μοντέλων

Ενώ πολλοί μεγάλοι κατασκευαστές και νεοφυείς επιχειρήσεις τρελαίνονται για τα βίντεο του Vincent, το πεδίο των εικόνων του Vincent ξαφνικά ξεκίνησε ένα σκοτεινό άλογο. Το "born out of the blue" FLUX.1 όχι μόνο επιδεικνύει εξαιρετική απόδοση, ξεπερνώντας τις δυσκολίες στη δημιουργία κειμένου, πολύπλοκη σύνθεση και χειροκίνητο σχέδιο, αλλά καλύπτει επίσης τις ανάγκες διαφορετικών χρηστών με διαφοροποιημένες εκδόσεις.

Στηριζόμενη στην ισχυρή δύναμη της αρχικής ομάδας της Stable Diffusion, το Black Forest Laboratory έχει λάβει γενναιόδωρη χρηματοδότηση και προσέλκυσε την προσοχή και την υποστήριξη πολλών ηγετών του κλάδου. Τα μοντέλα βίντεο που θα κυκλοφορήσουν στο μέλλον θα δώσουν νέα ζωντάνια στο χώρο του βίντεο Vincent.