Νέα

Όλα τα μέλη έφυγαν από το παλιό τους κλαμπ, οι Stable Diffusion ξεκίνησαν την επιχείρησή τους και νίκησαν αμέσως το MJ v6.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Machine Heart

Επιμέλεια: Du Wei, Jiaqi

Ο τομέας της δημιουργίας εικόνων και βίντεο με τεχνητή νοημοσύνη έχει προσθέσει έναν ακόμη ισχυρό παίκτη.

Θυμάστε τον Robin Rombach, έναν επιστήμονα ερευνητή που παραιτήθηκε από την startup AI Stability AI στα τέλη Μαρτίου του τρέχοντος έτους; Ως ένας από τους δύο κύριους συγγραφείς που ανέπτυξαν το μοντέλο γραφήματος Vincent Stable Diffusion, εντάχθηκε στο Stability AI το 2022.



Τώρα, σχεδόν πέντε μήνες μετά την αποχώρησή του από το Stability AI, ο Robin Rombach έγραψε στο Twitter τα καλά νέα για την έναρξη της δικής του επιχείρησης!

Ίδρυσε τα "Black Forest Labs" για να προωθήσει SOTA υψηλής ποιότητας παραγωγικά μοντέλα βαθιάς μάθησης για εικόνες και βίντεο και να τα καταστήσει διαθέσιμα σε όσο το δυνατόν περισσότερους ανθρώπους.



Τα μέλη της ομάδας αποτελούνται από εξαιρετικούς ερευνητές και μηχανικούς τεχνητής νοημοσύνης. Η προηγούμενη αντιπροσωπευτική τους εργασία περιλαμβάνει VQGAN και Latent Diffusion, μοντέλα Stable Diffusion στον τομέα της παραγωγής εικόνας και βίντεο (συμπεριλαμβανομένων Stable Diffusion XL, Stable Video Diffusion and Rectified Flow Transformers) και Adversarial Diffusion. Απόσταξη για εξαιρετικά γρήγορη σύνθεση εικόνας σε πραγματικό χρόνο.

Αξίζει να σημειωθεί ότι εκτός από τον Robin Rombach, η Stable Diffusion έχει άλλους τρεις συγγραφείς που έχουν γίνει ιδρυτικά μέλη της ομάδας, μεταξύ των οποίων οι Andreas Blattmann, Dominik Lorenz και Patrick Esser. Και οι δύο εγκατέλειψαν το Stability AI νωρίτερα φέτος, με κάποιους να εικάζουν ότι έφυγαν για να ξεκινήσουν τις δικές τους επιχειρήσεις.



Επί του παρόντος, τα Labs έχουν ολοκληρώσει έναν κύκλο χρηματοδότησης 31 εκατομμυρίων δολαρίων, με επικεφαλής τον Andreessen Horowitz. Άλλοι επενδυτές περιλαμβάνουν τους άγγελους επενδυτές Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun και ορισμένους γνωστούς εμπειρογνώμονες στην έρευνα και την επιχειρηματικότητα της τεχνητής νοημοσύνης. Επιπλέον, έλαβε επίσης επακόλουθες επενδύσεις από τη General Catalyst και την MätchVC.

Τα Labs δημιούργησαν επίσης ένα συμβουλευτικό συμβούλιο, μέλη του οποίου περιλαμβάνουν τον Michael Ovitz, μεγιστάνα της τεχνολογίας με μεγάλη εμπειρία στη βιομηχανία δημιουργίας περιεχομένου, και τον καθηγητή Matthias Bethge, πρωτοπόρο στη μεταφορά νευρωνικού στυλ και κορυφαίο ειδικό στην ανοιχτή έρευνα AI στην Ευρώπη.

Φυσικά, η Black Forest Labs κυκλοφόρησε την πρώτη της σειρά μοντέλων "FLUX.1", η οποία περιλαμβάνει τις ακόλουθες τρεις παραλλαγές μοντέλων.



Η πρώτη παραλλαγή είναιFLUX.1 [pro] , είναι ένα ολοκαίνουργιο μοντέλο διαγράμματος SOTA Vincent με εξαιρετικά πλούσιες λεπτομέρειες εικόνας, ισχυρές δυνατότητες άμεσης συμμόρφωσης και διαφορετικά στυλ. Προς το παρόν διαθέσιμο μέσω API.

Διεύθυνση API: https://docs.bfl.ml/



Το δεύτερο είναιFLUX.1 [dev] , η οποία είναι μια ανοιχτού βάρους, μη εμπορική παραλλαγή του FLUX.1 [pro] και αποστάζεται απευθείας από το τελευταίο. Αυτό το μοντέλο ξεπερνά τα άλλα μοντέλα εικόνας, όπως το Midjourney και το Stable Diffusion 3. Ο κωδικός συμπερασμάτων και τα βάρη έχουν τεθεί στο GitHub. Η παρακάτω εικόνα είναι μια σύγκριση με ανταγωνιστικά μοντέλα εικόνας.

Διεύθυνση GitHub: https://github.com/black-forest-labs/flux



Το τρίτο είναι ανοιχτού κώδικαFLUX.1 [schnell] , είναι ένα εξαιρετικά αποδοτικό μοντέλο 4 βημάτων που ακολουθεί το πρωτόκολλο Apache 2.0. Αυτό το μοντέλο είναι πολύ κοντά σε [dev] και [pro] σε απόδοση και μπορεί να χρησιμοποιηθεί στο Hugging Face.

Αγκαλιασμένο πρόσωπο 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell





Εν τω μεταξύ, η Black Forest Labs αρχίζει να προβάλλει τον εαυτό της.



Το επόμενο βήμα είναι η κυκλοφορία του μοντέλου βίντεο SOTA Vincent που είναι διαθέσιμο σε όλους και όλοι μπορούν να το περιμένουν με ανυπομονησία!



Άμεση επιτυχία: Έρχεται η σειρά μοντέλων Vincent figure "FLUX.1".

Τα τρία μοντέλα που λανσαρίστηκαν από τα Black Forest Labs αυτή τη φορά χρησιμοποιούν όλα μια υβριδική αρχιτεκτονική μετασχηματιστή πολλαπλών τρόπων και παράλληλης διάχυσης. Σε αντίθεση με άλλες εταιρείες που χωρίζουν μια σειρά μοντέλων σε "medium cup", "large cup" και "extra large cup" ανάλογα με τον αριθμό των παραμέτρων, τα μέλη της οικογένειας FLUX.1 έχουν επεκταθεί ομοιόμορφα σε μια τεράστια κλίμακα 12 δισεκατομμύρια παραμέτρους.



Η ερευνητική ομάδα υιοθέτησε το πλαίσιο Flow Matching για να αναβαθμίσει το προηγούμενο μοντέλο διάχυσης SOTA. Από τα σχόλια στο επίσημο ιστολόγιο μπορεί να συναχθεί ότι η ερευνητική ομάδα ακολούθησε τη μέθοδο Rectified flow+Transformer που προτάθηκε ενώ εργαζόταν ακόμη στο Stability AI (τον Μάρτιο του τρέχοντος έτους).



Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2403.03206.pdf

Εισήγαγαν επίσης την ενσωμάτωση περιστροφικής θέσης και τα παράλληλα στρώματα προσοχής. Αυτές οι μέθοδοι βελτιώνουν αποτελεσματικά την απόδοση του μοντέλου στη δημιουργία εικόνων και η ταχύτητα δημιουργίας εικόνων σε συσκευές υλικού έχει γίνει επίσης ταχύτερη.

Η Black Forest Labs δεν αποκάλυψε τη λεπτομερή τεχνολογία του μοντέλου αυτή τη φορά, αλλά μια πιο λεπτομερής τεχνική αναφορά θα κυκλοφορήσει σύντομα.

Και τα τρία μοντέλα θέτουν νέα πρότυπα στους αντίστοιχους τομείς τους. Είτε είναι η ομορφιά των εικόνων που δημιουργούνται, το πόσο καλά ταιριάζουν οι εικόνες στα μηνύματα κειμένου, η μεταβλητότητα του λόγου μεγέθους/διαστάσεων ή η ποικιλία των μορφών εξόδου, το FLUX.1 [pro] και το FLUX.1 [dev] υπερβαίνουν ένα εύρος δημοφιλών μοντέλων δημιουργίας εικόνας, όπως Midjourney v6.0, DALL・E 3 (HD) και SD3-Ultra.

Το FLUX.1 [schnell] είναι το πιο προηγμένο μοντέλο λίγων βημάτων μέχρι σήμερα, ξεπερνώντας όχι μόνο τους ανταγωνιστές του αλλά και ισχυρά μη αποσταγμένα μοντέλα όπως το Midjourney v6.0 και το DALL・E 3 (HD).

Το μοντέλο είναι ειδικά βελτιστοποιημένο για να διατηρεί την πλήρη ποικιλομορφία παραγωγής του σταδίου προεκπαίδευσης. Τα μοντέλα της σειράς FLUX.1 αφήνουν επίσης πολλά περιθώρια βελτίωσης σε σύγκριση με την τρέχουσα τεχνολογία αιχμής.



Όλα τα μοντέλα της σειράς FLUX.1 υποστηρίζουν μια ποικιλία αναλογιών και αναλύσεων, από 0,1 έως 2 megapixel.



Ορισμένοι χρήστες του Διαδικτύου που ενήργησαν γρήγορα το έχουν ήδη δοκιμάσει.

Οι απλές άμεσες λέξεις μπορούν να δημιουργήσουν ένα τέτοιο εφέ Αν κοιτάξετε προσεκτικά το σχέδιο του χαλιού του αλπακά, δεν υπάρχει παραμόρφωση ή παραμόρφωση.



Προειδοποιητική λέξη: Ένα σμαραγδένιο Emu καβάλα πάνω σε ένα λευκό λάμα.

Χωρίς να πούμε ότι αυτή είναι μια φωτογραφία που δημιουργήθηκε από την τεχνητή νοημοσύνη, είναι δύσκολο να πούμε αν πρόκειται για φωτογραφία που τραβήχτηκε από φωτογράφο.



Προειδοποιητική λέξη: Ένα άλογο παίζει με δύο αλιγάτορες στο ποτάμι.

Μπορείτε επίσης να χειριστείτε εύκολα τις εικόνες που περιέχουν κείμενο και το βάθος πεδίου υποβάλλεται σε επεξεργασία ώστε να ταιριάζει με την πραγματική αίσθηση του φακού.



Μεταξύ των τριών μοντέλων, το FLUX.1 [schnell] με ελαφρώς πιο αδύναμη απόδοση είναι επίσης γρήγορο και ισχυρό στη χρήση.



Οι χρήστες του Διαδικτύου που δεν γνώριζαν πολλά για τα «παράπονα» μεταξύ των συγγραφέων του Stable Diffusion και του Stability AI θρηνούσαν: Ένα μοντέλο γραφήματος Vincentian εμφανίστηκε από το πουθενά και ήταν απλά τρομακτικά ισχυρό.



Σχετικά με την ιστορία του συγγραφέα του Stable Diffusion και της πρώην εταιρείας του Stability AI, μπορείτε να διαβάσετε προηγούμενες αναφορές από το Machine Heart: Όταν η αξία του ήταν 100 εκατομμύρια δολάρια, οι ομάδες πίσω από το Stable Diffusion άρχισαν να πολεμούν η μία την άλλη ?

Εκτός από τα τρία πιο ισχυρά μοντέλα Vincentian, η Black Forest Labs αναστέλλει επίσης τη «μεγάλη της κίνηση». Με την ικανότητα δημιουργίας τέτοιων ισχυρών μοντέλων δημιουργίας εικόνων, η Black Forest Labs έχει θέσει γερές βάσεις για μοντέλα παραγωγής βίντεο, όπως προλέγουν, αυτοί οι κορυφαίοι επιστήμονες στην όραση υπολογιστών προχωρούν προς την πιο προηγμένη τεχνολογία παραγωγής βίντεο που είναι διαθέσιμη σε όλους.

Ιστολόγιο εταιρείας: https://blackforestlabs.ai/announcements/