νέα

Εμφανίζεται το Midjourney Challenge! Έλαβε 32 εκατομμύρια χρηματοδότηση σε 15 ημέρες και μπήκε στο εσωτερικό του Grok

2024-08-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Συγγραφέας| Xuushan, εκδότης|Manmanzhou

Πολλοί περιμένουν ότι θα γίνει το επόμενο Midjourney.

Αυτή μπορεί να είναι η πιο εκτελεστική εκκίνηση AI στην ιστορία.

Μόλις 15 ημέρες μετά την ίδρυσή της, η startup τεχνητής νοημοσύνης Black Forest Labs έχει ήδη συγκεντρώσει 32 εκατομμύρια δολάρια σε χρηματοδότηση εκκίνησης και κυκλοφόρησε τη σειρά FLUX.1 μεγάλων μοντέλων AI Vincent.

Όχι μόνο αυτό, ακόμη και το Grok-2, ένα μεγάλο μοντέλο τεχνητής νοημοσύνης που μόλις παρήχθη από τον Musk, ξεκίνησε γρήγορα μια λειτουργία γραφήματος Vincentian με την υποστήριξή του, προσελκύοντας εκατομμύρια χρήστες του Διαδικτύου να συμμετάσχουν στην αλληλεπίδραση.

Και σε αντίθεση με τη λειτουργία εικόνας Vincent άλλων μοντέλων AI, δεν υπάρχουν σχεδόν περιορισμοί στις εικόνες που δημιουργούνται στο Grok-2 και είναι αρκετά ρεαλιστικοί.

Είτε θέλετε ο Steve Jobs να πειράζει τη γάτα, είτε θέλετε ο Zuckerberg και ο Musk να συναντηθούν εκτός σύνδεσης στο "Octagonal Cage", το Grok-2 μπορεί να ικανοποιήσει τις επιθυμίες σας. Μπορεί να φανεί ότι το μοντέλο αποδίδει πολύ καλά όσον αφορά τη σημασιολογική κατανόηση, την ευθυγράμμιση και τις δυνατότητες δημιουργίας εικόνας (εκτός από την ασφάλεια).

Ποια είναι η προέλευση αυτής της εταιρείας; Πώς έκανε τους χρήστες του Διαδικτύου να τρελαθούν γι' αυτό, και ακόμη και ο Μασκ ήταν πρόθυμος να το επιλέξει για να τροφοδοτήσει τα βασικά του προϊόντα; Μετά από μια εις βάθος έρευνα, ο κύριος Silicon Rabbit αποκάλυψε τελικά το μυστήριο των εργαστηρίων Black Forest.

01

15 άτομα διέφυγαν συλλογικά από το Stability AI

Η Black Forest Labs κυκλοφορεί τρία μοντέλα AI διαδοχικά

Η ευκαιρία για την ίδρυση των εργαστηρίων Black Forest Labs ξεκινά με τη Stability AI, μια άλλη εταιρεία AI unicorn.

Στην πραγματικότητα, η τρέχουσα ομάδα εκκίνησης 15 ατόμων της Black Forest Labs προέρχεται από το Stability AI. Μπορεί να ειπωθεί ότι η ίδρυση των εργαστηρίων του Black Forest ήταν μια συλλογική φυγή εργαζομένων.

Ο ιδρυτής της Black Forest Labs, Robin Rombach, ήταν πρώην ερευνητής στο Stability AI και ένας από τους δύο βασικούς πυλώνες της Stability AI.

Σπούδασε φυσική στο Πανεπιστήμιο της Χαϊδελβέργης και ξεκίνησε τις διδακτορικές του σπουδές στην ομάδα υπολογιστικής όρασης του πανεπιστημίου το 2020. Ο Robin έχει επικεντρωθεί σε μοντέλα βαθιάς μάθησης, ειδικά στον τομέα των Vincentian γραφημάτων, και στη συνέχεια εντάχθηκε στο Πανεπιστήμιο του Μονάχου το 2021 με την επιστημονική ερευνητική ομάδα.

Ενώ βρισκόταν στο Stability AI, ηγήθηκε της ανάπτυξης του Vincentian graph AI μεγάλου μοντέλου.Σταθερή Διάχυση. Στην αρχή, η Stable Diffusion θα μπορούσε να ονομαστεί ο κυρίαρχος στον τομέα της απεικόνισης AI, προκαλώντας σοκ στον κλάδο. Η αποτίμηση του Stability AI έχει επίσης ξεπεράσει το 1 δισεκατομμύριο δολάρια ΗΠΑ, καθιστώντας το έναν από τους μονόκερους AI.

Αλλά η ανάπτυξη του Stability AI θα λάβει μια απότομη τροπή το 2024. Σύμφωνα με αναφορές, το ετήσιο κόστος του Stability AI είναι περίπου 99 εκατομμύρια δολάρια ΗΠΑ, αλλά τα έσοδά του είναι μόνο 11 εκατομμύρια δολάρια, με αποτέλεσμα μια σοβαρή ανισορροπία μεταξύ εσόδων και δαπανών. Στη συνέχεια, ο πρώην διευθύνων σύμβουλος της Stability AI, Emad Mostaque, έβγαλε τουλάχιστον 19 ανώτερα στελέχη από την εταιρεία τον Μάρτιο του τρέχοντος έτους.

Ο Ρόμπιν Ρόμπαχ άρχισε και πάλι να ψάχνει διέξοδο. Το Black Forest Labs είναι μια νέα αρχή για αυτόν και ένα νέο σημείο εκκίνησης για πολλούς πρώην υπαλλήλους της Stability AI. Όταν ιδρύθηκε το Black Forest Labs, πολλοί υπάλληλοι της Stability AI είπαν ενθουσιασμένοι: "We're live!".

Επί του παρόντος, υπάρχουν τρεις εκδόσεις των μοντέλων της σειράς FLUX.1, τόσο ανοιχτού κώδικα όσο και κλειστού κώδικα. Μεταξύ αυτών, το FLUX.1 [pro] είναι η πιο ισχυρή έκδοση κλειστού κώδικα, σχεδιασμένη για επαγγελματικές εφαρμογές που επιδιώκουν κορυφαία απόδοση λέξεων, αλλά όχι για εμπορική χρήση.

Και τα τρία μοντέλα έχουν ανοιχτές δοκιμαστικές εκδόσεις σε Replicate και Models. Σε μόλις μισό μήνα, το FLUX.1 [dev]Αγκαλιασμένο πρόσωποΟ αριθμός των λήψεων έχει ξεπεράσει τις 200.000 και ο αριθμός των λήψεων του FLUX.1 [schnell] έχει ξεπεράσει τις 580.000 και ο αριθμός των εμπειριών έχει φτάσει τις 380 εκατομμύρια φορές.

Σύνδεσμος εμπειρίας εγγραφής: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell

02

Ανασκόπηση Hengping των τεσσάρων σημαντικών γεννητριών εικόνας AI

Η ροή κερδίζει στις λεπτομέρειες και τη χωρική κατανόηση

Αν και τα μοντέλα της σειράς FLUX.1 έχουν δημιουργηθεί από την αρχική ομάδα του Stable Diffusion, αυτό δεν σημαίνει ότι είναι αντίγραφα του Stable Diffusion.

Τα μέσα συνθέτουν το Flux, το SD3 Medium, το Auraflow και το Midjourney για έλεγχο. Μπορεί να φανεί ότι το τρέχον εξαιρετικό μοντέλο γραφήματος Vincentian δημιουργεί διαφορετικές φωτογραφίες για το ίδιο μήνυμα κειμένου.

Πρώτα, ζητήστε ένα: "Χειροποίητη απεικόνιση μιας γιγάντιας αράχνης που κυνηγά μια γυναίκα στη ζούγκλα. Εξαιρετικά τρομακτική, επώδυνη, σκοτεινή και ανατριχιαστική σκηνή, με μια τρομακτική, υποβλητική ατμόσφαιρα."

Μπορεί να φανεί ότι το Flux χρησιμοποιεί πολύ καλά τα φώτα και τις σκιές για να δημιουργήσει μια αίσθηση τρόμου. Το σχέδιο της αράχνης είναι πράγματι τρομακτικό, τα πόδια είναι αιχμηρά και το πρόσωπο της αράχνης είναι πολύ ρεαλιστικό. Ο κυανός τόνος του Auraflow δεν επιτυγχάνει ένα σκοτεινό και τρομακτικό αποτέλεσμα και η συνολική εικόνα είναι στυλιζαρισμένη. Το ασπρόμαυρο στυλ του SD3 Medium δίνει στους ανθρώπους μια έντονη αίσθηση σαν σκίτσο. Ο σχεδιασμός της αράχνης είναι λεπτομερής και τρομακτικός, αλλά ο χαρακτηρισμός είναι λίγο ασυνεπής.

Η δεύτερη αξιολόγηση εξετάζει κυρίως την ικανότητα των παραγωγών εικόνων να κατανοούν το χώρο. Το μήνυμα κειμένου λέει: "Ένας σκύλος στέκεται πάνω από μια τηλεόραση με τη λέξη "Αποκρυπτογράφηση" στην οθόνη. Στα αριστερά είναι μια γυναίκα με κοστούμι που κρατά ένα νόμισμα και στα δεξιά είναι ένα ρομπότ που στέκεται σε μια πρώτη βοήθεια κιτ. Όλη η σκηνή ήταν σουρεαλιστική.»

Η εικόνα που δημιουργείται από το Flux είναι πιο κοντά στην περιγραφή, τοποθετεί όλα τα στοιχεία εκεί που πρέπει. Η συνολική σύνθεση είναι ισορροπημένη, ο σχεδιασμός κάθε στοιχείου και το ρετρό-φουτουριστικό στυλ ανταποκρίνονται στις απαιτήσεις του σουρεαλισμού. Έχει όμως και κάποιες ελλείψεις, όπως ο χαρακτήρας να έχει ένα επιπλέον χέρι. Το SD3 Medium κατετάγη στη δεύτερη θέση Ο συνολικός σχεδιασμός πληρούσε επίσης τις απαιτήσεις περιγραφής του κειμένου, αλλά η ακρίβεια δεν ήταν καλή. Το Auraflow έχει κενά στην ακρίβεια της κατανόησης του κειμένου και στην ποιότητα των εικόνων που παρουσιάζει.

Η τρίτη συμβουλή λέει "Μια φωτογραφία υψηλής ανάλυσης ενός πολυσύχναστου δρόμου της πόλης τη νύχτα. Τα φώτα νέον φωτίζουν τη σκηνή. Οι άνθρωποι περπατούν στο πεζοδρόμιο, τα αυτοκίνητα περνούν και οι πλανόδιοι πωλητές πουλάνε χοτ-ντογκ. Τα φώτα αντανακλώνται στο ολισθηρό πεζοδρόμιο. γενικό στυλ Υπερρεαλιστικό, προσοχή στη λεπτομέρεια και φωτισμό, η πινακίδα νέον λέει «Αποκρυπτογραφημένο»» Αυτή η συμβουλή εστιάζει στην εξέταση των βασικών παραγωγών εικόνας για τον ρεαλισμό.

Η εικόνα που δημιουργείται από το Flux είναι πλούσια σε λεπτομέρειες και καλά φωτισμένη Η εικόνα απεικονίζει καλά τον πολυσύχναστο δρόμο, με σαφείς βασικές πινακίδες και ζωντανές εικόνες πεζών. Το SD3 μπορεί επίσης να δείξει ισορροπημένη σύνθεση, ρεαλιστικό φωτισμό και προσεκτικά ενσωματωμένα στοιχεία, αλλά η απεικόνιση των πεζών είναι λίγο λεπτή.

Τέλος, το ξένο μέσο Decrypt έβαλε επίσης το Flux και το Midjourney σε δύο αξιολογήσεις και τελικά έκρινε το Flux πιο δυνατό.

Το πρώτο μήνυμα κειμένου λέει: "Μια ασπρόμαυρη φωτογραφία μιας γυναίκας με μακριά ίσια μαλλιά που κάθεται στο πάτωμα μπροστά από έναν μοντέρνο καναπέ, φορώντας μια ολόμαυρη στολή που αναδεικνύει τις καμπύλες της. Κοιτάζει με σιγουριά την κάμερα Ποζάροντας, Τα λεπτά πόδια είναι εκτεθειμένα καθώς έσκυψε σε ένα μινιμαλιστικό σκηνικό που τόνιζε την κομψή της πόζα.

Το Decrypt πιστεύει ότι το Flux συλλαμβάνει τις απαιτήσεις της προτροπής με φυσικές πόζες, υπόβαθρα με βάση τα συμφραζόμενα και λεπτομερή απόδοση. Μορφολογικά μιλώντας είναι το πιο ακριβές. Το Midjourney εμφανίζει ζωντανές εικόνες και πλούσιες λεπτομέρειες στις εικόνες, αλλά δεν διαθέτει στρωματοποίηση εικόνας όπως το Flux και η αναπαράσταση της στάσης του σώματος δεν είναι τόσο ακριβής όσο το Flux.

Το δεύτερο μήνυμα κειμένου έγραφε: "Ολόσωμη φωτογραφία μιας λευκής γάτας που παίζει πιάνο, φοράει γυαλιά ηλίου και καπέλο, φοράει μωβ στολή σε στυλ Χαβάης, σε φόντο γκρι στούντιο, για εμπορική χρήση."

Η Decrypt πιστεύει ότι το Flux πληροί τις απαιτήσεις μιας φωτογραφίας με πλήρες σώμα, του γκρι φόντου στούντιο και των καθορισμένων ρούχων. Η σύνθεση είναι επαγγελματική και εξαιρετική και ικανοποιεί πλήρως τις άμεσες απαιτήσεις. Το Midjourney παρέχει κοντινές λήψεις και η εικόνα είναι εκφραστική, αλλά δεν ανταποκρίνεται στις απαιτήσεις λήψεων με πλήρες σώμα και φόντου στούντιο.

Μπορεί να φανεί ότι το Flux ήταν στην πρώτη γραμμή της βιομηχανίας όσον αφορά τις λεπτομέρειες των φωτογραφιών και την κατανόηση του χώρου και του στυλιζαρίσματος. Μπορεί να ανταγωνιστεί το Midjourney και είναι ακόμη καλύτερο από το Midjourney σε ορισμένες πτυχές.

03

Θέλετε να γαμήσετε το Midjourney;

Ο Μέλανας Δρυμός πρέπει ακόμα να εμπορευματοποιηθεί

Το πεδίο του AI Wenshengtu μπορούμε να πούμε ότι είναι αυτή τη στιγμήGenerative AIΈνα από τα πιο καυτά κομμάτια στον χώρο. Επί του παρόντος, η Google, το Meta και το OpenAI παρακολουθούν όλα αυτό το πεδίο. Οι δυνατότητες που επιδεικνύει το FLUX.1 έχουν οδηγήσει πολλούς ανθρώπους να περιμένουν ότι θα γίνει το επόμενο Midjourney.

Αλλά το κλειδί για να γίνεις το επόμενο Midjourney βρίσκεται στην εμπορευματοποίηση.

Το βασικό σχέδιο του Midjourney, του πρωτοπόρου στο ίδιο κομμάτι, κοστίζει 96 δολάρια ΗΠΑ ετησίως και μπορεί να δημιουργήσει περίπου 200 εικόνες το μήνα, που ισοδυναμούν με 25 εικόνες ανά δολάριο. Το βασικό σχέδιο του Ideogram κοστίζει 84 $ ετησίως και μπορεί να δημιουργήσει έως και 400 εικόνες ανά μήνα ή 50 εικόνες ανά δολάριο.

Το Black Forest συνεργάστηκε με την Fal AI, τον προγραμματιστή του μοντέλου ανοιχτού κώδικα Auraflow, για την υποστήριξη της δημιουργίας cloud. Αυτά τα μοντέλα είναι επίσης διαθέσιμα για δωρεάν δοκιμή στο Replicate.com. Μόλις οι χρήστες συμπληρώσουν το δωρεάν ημερήσιο όριο τους, μπορούν να επιλέξουν να χρησιμοποιήσουν το μοντέλο Flux Pro για να δημιουργήσουν 33 εικόνες με 1 $ ή να χρησιμοποιήσουν το Flux Schell για να δημιουργήσουν 333 εικόνες με 1 $.

Σε σύγκριση με το Midjourney και το Ideogram, το Black Forest παρέχει στους χρήστες περισσότερες επιλογές. Αλλά αυτό δεν αντιπροσωπεύει την εμπορική επιτυχία του Μέλανα Δρυμού Το κόστος της διατήρησης ενός παραγωγικού μοντέλου τεχνητής νοημοσύνης είναι πολύ υψηλό. Πάρτε για παράδειγμα το Stability AI Σύμφωνα με το Forbes, το Stability AI ξοδεύει περίπου 8 εκατομμύρια δολάρια το μήνα σε κόστος και μισθούς, αλλά τα έσοδά του είναι μόνο 1,2 εκατομμύρια δολάρια, που απέχει πολύ από το να καλύψει το κόστος. Σήμερα, η εμπορευματοποίηση έχει γίνει επίσης ένας «κολλημένος» σύνδεσμος για την Ideogram και την Pika Labs AI.

Επομένως, για να ξεπεράσει πραγματικά το Midjourney, ο τρόπος με τον οποίο το Black Forest εξισορροπεί τα έσοδα και τα έξοδα θα είναι το κλειδί για την κυριαρχία του στο μεγάλο μοντέλο Vincentian AI.

04

Πηγαίνετε ενάντια στην αρχική σας πρόθεση σε λιγότερο από μισό μήνα;

Ο Μέλανας Δρυμός έχει διφορούμενη στάση απέναντι στην ασφάλεια στο Vincent Figure

Η Black Forest Labs και ο Musk φαίνεται να συμφωνούν για τη δημιουργία ενός "αντι-αφυπνιστικού chatbot AI" και κανένας από τους δύο δεν θέλει να επιβάλει πάρα πολλούς περιορισμούς στην τεχνητή νοημοσύνη.

Το "αντι-αφυπνισμένο chatbot AI" εδώ αναφέρεται σε ένα chatbot AI που σκόπιμα αποφεύγει να υιοθετήσει ορισμένες πολιτικά ορθές ή κοινωνικά αφυπνισμένες απόψεις Θα αντιμετωπίσει αμφιλεγόμενα θέματα χωρίς φιλτράρισμα. Ο Grok είναι προφανώς ο φορέας της ιδέας του Musk "anti-wakening AI chatbot".

Όσον αφορά την αξιολόγηση της ασφάλειας, αν και ο Grok ανέφερε τις έξι «απαγορεύσεις» του, συμπεριλαμβανομένων περιορισμών περιεχομένου, πνευματικών δικαιωμάτων, πολυπλοκότητας επεξεργασίας εικόνας κ.λπ., στην πραγματικότητα, αν κρίνουμε από τις φωτογραφίες που δημιουργούνται, ο Grok δεν έχει σχεδόν κανένα ταμπού, συμπεριλαμβανομένων διασημοτήτων, πορνογραφίας, βίας, κ.λπ. Οι δημιουργημένες εικόνες έχουν γίνει δημοφιλείς στην κοινωνική πλατφόρμα X.

Παρόλο που πολλοί ρυθμιστικοί φορείς έχουν εκφράσει τη δυσαρέσκειά τους για την Κοινωνική Πλατφόρμα X, ο Μασκ φαίνεται να εξακολουθεί να μην ανησυχεί. Μετά την κυκλοφορία του Grok-2, ο Μασκ επέτρεψε επίσης στους χρήστες να δημοσιεύουν εικόνες τεχνητής νοημοσύνης που δημιουργήθηκαν από το Grok απευθείας στην πλατφόρμα χωρίς ειδοποιήσεις υδατογραφήματος που δημιουργούνται από AI ή Grok.

Ο Μασκ ανέφερε στην κοινωνική πλατφόρμα X το 2022 ότι ο καθορισμός ορίων για την τεχνητή νοημοσύνη θα μείωνε την ασφάλεια του μοντέλου AI. "Η εκπαίδευση της τεχνητής νοημοσύνης είναι εύκολο να ξυπνήσει. Με άλλα λόγια, ο κίνδυνος (AI) να πει ψέματα είναι μοιραίος. για να αναλάβετε τα μοντέλα της σειράς FLUX.1.

σύμφωνα μεThe VergeΣύμφωνα με την αξιολόγηση πολλών μέσων ενημέρωσης, το παρόμοιο μοντέλο τεχνητής νοημοσύνης εικόνας της Google Imagen και το DALL·E 3 του OpenAI αρνήθηκαν επίσης να δημιουργήσουν άμεσες λέξεις με "επικίνδυνους τόνους", αλλά ο Grok απάντησε γρήγορα και γρήγορα δημιούργησε εικόνες.

Μόλις πριν από μισό μήνα, όταν ιδρύθηκε για πρώτη φορά η Black Forest Labs, ανακοίνωσε ότι στόχος της εταιρείας ήταν να «αυξήσει την εμπιστοσύνη των ανθρώπων στην ασφάλεια αυτών των μοντέλων». Μισό μήνα αργότερα, η Black Forest Labs και ο Musk τάχθηκαν στο πλευρό του «χωρίς περιορισμούς στην τεχνητή νοημοσύνη» και άνοιξαν το μαύρο κουτί του μοντέλου Vincentian AI.

Αντιμέτωποι με πολλές διαμάχες, η Black Forest Labs επιλέγει τώρα να αποφύγει να μιλήσει για αυτό, προσπαθώντας να μετατοπίσει το επίκεντρο της συζήτησης σε άλλες κατευθύνσεις. Το μέλος του διοικητικού συμβουλίου της Anjney Midha επέκρινε την Google στην κοινωνική πλατφόρμα X στις 14 Αυγούστου ΔίδυμοιΌταν κυκλοφόρησε για πρώτη φορά, υπήρχαν κρυφές φυλετικές διακρίσεις και άλλες καταστάσεις στον τομέα των Vincentian γραφικών και αναφέρθηκε ότι τέτοιες καταστάσεις δεν θα συνέβαιναν στα μοντέλα της σειράς FLUX.1.

Μπορούμε να δούμε ότι όσον αφορά τις δυνατότητες γραφημάτων Vincentian, τα μοντέλα της σειράς FLUX.1 είναι όντως ισχυρά και μπορούν ήδη να ανταγωνιστούν το Midjourney. Όμως, όσον αφορά την ασφάλεια, η Black Forest Labs φαίνεται να έχει επιλέξει διαφορετικό μονοπάτι από τους παίκτες της ίδιας πίστας.

Το «δεν στήνουμε προστατευτικά κιγκλιδώματα» θα κάνει τα Black Forest Labs τον απόλυτο κυρίαρχο παίκτη στον τομέα των Vincentian γραφικών; Ή θα καταστρέψει τη νέα δημοτικότητα των μοντέλων της σειράς FLUX.1 με μια πτώση; Θα δούμε.