Nachricht

Alle Mitglieder verließen ihren alten Verein, Stable Diffusion startete ihr Geschäft und besiegte MJ v6 sofort.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Herausgeber: Du Wei, Jiaqi

Der Bereich der KI-Bild- und Videogenerierung hat einen weiteren starken Player hinzugewonnen.

Erinnern Sie sich an Robin Rombach, einen Forscher, der Ende März dieses Jahres aus dem KI-Startup Stability AI ausschied? Als einer der beiden Hauptautoren, die das Vincent-Graphenmodell Stable Diffusion entwickelt haben, kam er 2022 zu Stability AI.



Jetzt, fast fünf Monate nachdem er Stability AI verlassen hatte, twitterte Robin Rombach die gute Nachricht, sein eigenes Unternehmen zu gründen!

Er gründete „Black Forest Labs“, um die hochwertigen generativen Deep-Learning-Modelle von SOTA für Bilder und Videos zu fördern und sie möglichst vielen Menschen zugänglich zu machen.



Die Teammitglieder setzen sich aus herausragenden KI-Forschern und Ingenieuren zusammen. Zu ihren bisherigen repräsentativen Arbeiten gehören VQGAN und Latent Diffusion, Stable Diffusion-Modelle im Bereich der Bild- und Videoerzeugung (einschließlich Stable Diffusion XL, Stable Video Diffusion und Rectified Flow Transformers) und Adversarial Diffusion Destillation für ultraschnelle Bildsynthese in Echtzeit.

Erwähnenswert ist, dass Stable Diffusion neben Robin Rombach drei weitere Autoren hat, die zu Gründungsmitgliedern geworden sind, darunter Andreas Blattmann, Dominik Lorenz und Patrick Esser. Beide haben Stability AI Anfang des Jahres verlassen, wobei einige spekulieren, dass sie gegangen sind, um ein eigenes Unternehmen zu gründen.



Derzeit haben die Labs eine Seed-Finanzierungsrunde in Höhe von 31 Millionen US-Dollar unter der Leitung von Andreessen Horowitz abgeschlossen. Zu den weiteren Investoren zählen die Angel-Investoren Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun und einige bekannte Experten für KI-Forschung und Unternehmertum. Darüber hinaus erhielt das Unternehmen Folgeinvestitionen von General Catalyst und MätchVC.

Die Labs haben außerdem einen Beirat eingerichtet, zu dessen Mitgliedern Michael Ovitz, ein Technologie-Tycoon mit umfassender Erfahrung in der Content-Erstellungsbranche, und Professor Matthias Bethge, ein Pionier im Bereich neuronaler Stiltransfer und Top-Experte für offene KI-Forschung in Europa, gehören.

Natürlich hat Black Forest Labs seine erste Modellreihe „FLUX.1“ auf den Markt gebracht, die folgende drei Variantenmodelle umfasst.



Die erste Variante istFLUX.1 [pro] Es handelt sich um ein brandneues SOTA-Vincent-Diagrammmodell mit extrem reichhaltigen Bilddetails, starken Prompt-Compliance-Funktionen und vielfältigen Stilen. Derzeit über API verfügbar.

API-Adresse: https://docs.bfl.ml/



Der zweite istFLUX.1 [Entwickler] , das eine offene, nichtkommerzielle Variante von FLUX.1 [pro] ist und direkt aus letzterem destilliert wird. Dieses Modell übertrifft andere Bildmodelle wie Midjourney und Stable Diffusion 3. Der Inferenzcode und die Gewichtungen wurden auf GitHub gestellt. Das Bild unten ist ein Vergleich mit konkurrierenden Bildmodellen.

GitHub-Adresse: https://github.com/black-forest-labs/flux



Der dritte ist Open SourceFLUX.1 [schnell] Es handelt sich um ein äußerst effizientes 4-Stufen-Modell, das dem Apache 2.0-Protokoll folgt. Dieses Modell kommt in der Leistung [dev] und [pro] sehr nahe und kann auf Hugging Face verwendet werden.

Hugging Face siehe: https://huggingface.co/black-forest-labs/FLUX.1-schnell





Mittlerweile beginnt Black Forest Labs, für sich selbst zu werben.



Der nächste Schritt besteht darin, das SOTA Vincent-Videomodell auf den Markt zu bringen, das für alle verfügbar ist und auf das sich jeder freuen kann!



Sofortiger Erfolg: Die Vincent-Figuren-Modellreihe „FLUX.1“ kommt

Die drei von Black Forest Labs dieses Mal eingeführten Modelle verwenden alle eine Hybridarchitektur aus multimodalen und parallelen Diffusionstransformatoren. Im Gegensatz zu anderen Unternehmen, die eine Modellreihe nach der Anzahl der Parameter in „Medium Cup“, „Large Cup“ und „Extra Large Cup“ einteilen, wurden die Mitglieder der FLUX.1-Familie einheitlich auf einen riesigen Maßstab von 12 erweitert Milliarden Parameter.



Das Forschungsteam übernahm das Flow-Matching-Framework, um das vorherige SOTA-Diffusionsmodell zu aktualisieren. Aus den Kommentaren im offiziellen Blog lässt sich schließen, dass das Forschungsteam die vorgeschlagene Methode „Rectified flow+Transformer“ befolgte, als es noch bei Stability AI arbeitete (im März dieses Jahres).



Link zum Papier: https://arxiv.org/pdf/2403.03206.pdf

Sie führten außerdem die Einbettung von Rotationspositionen und parallele Aufmerksamkeitsebenen ein. Diese Methoden verbessern effektiv die Leistung des Modells bei der Generierung von Bildern, und auch die Geschwindigkeit der Bildgenerierung auf Hardwaregeräten ist schneller geworden.

Black Forest Labs hat die detaillierte Technologie des Modells dieses Mal nicht bekannt gegeben, ein detaillierterer technischer Bericht wird jedoch bald veröffentlicht.

Alle drei Modelle setzen in ihren jeweiligen Bereichen neue Maßstäbe. Ob es um die Schönheit der generierten Bilder geht, wie gut die Bilder in die Textaufforderungen passen, die Variabilität von Größe/Seitenverhältnis oder die Vielfalt der Ausgabeformate – FLUX.1 [pro] und FLUX.1 [dev] sprengen die Bandbreite von beliebten Bilderzeugungsmodellen wie Midjourney v6.0, DALL・E 3 (HD) und SD3-Ultra.

FLUX.1 [schnell] ist das bislang fortschrittlichste Modell mit wenigen Schritten und übertrifft nicht nur seine Konkurrenten, sondern auch leistungsstarke nicht destillierte Modelle wie Midjourney v6.0 und das DALL・E 3 (HD)-Modell.

Das Modell ist speziell darauf abgestimmt, die volle Ausgabevielfalt der Vortrainingsphase beizubehalten. Auch die Modelle der FLUX.1-Serie lassen im Vergleich zum aktuellen Stand der Technik noch viel Raum für Verbesserungen.



Alle Modelle der FLUX.1-Serie unterstützen verschiedene Seitenverhältnisse und Auflösungen von 0,1 bis 2 Megapixel.



Einige Internetnutzer, die schnell gehandelt haben, haben es bereits ausprobiert. Es scheint, dass das „Stärkste“, was Black Forest Labs immer wieder betont hat, nicht nur Eigenwerbung ist.

Einfache Aufforderungsworte können einen solchen Effekt erzeugen. Wenn Sie sich das Muster der Alpaka-Matte genau ansehen, gibt es keine Verzerrung oder Verformung.



Aufforderung: Ein smaragdgrüner Emu reitet auf einem weißen Lama.

Ohne zu sagen, dass es sich um ein von KI erzeugtes Bild handelt, ist es schwierig zu sagen, ob es sich um ein von einem Fotografen aufgenommenes Foto handelt.



Aufforderung: Ein Pferd spielt mit zwei Aligatoren am Fluss.

Bilder mit Text können ebenfalls problemlos bearbeitet werden, und die Schärfentiefe wird ebenfalls so verarbeitet, dass sie dem tatsächlichen Objektivgefühl entspricht.



Unter den drei Modellen ist das FLUX.1 [schnell] mit etwas schwächerer Leistung ebenfalls schnell und leistungsstark. Einige Internetnutzer teilten ihre Erfahrungen mit der Ausführung auf einem Mac und konnten sich einen Seufzer nicht verkneifen: Es lohnt sich wirklich.



Internetnutzer, die nicht viel über die „Missstände“ zwischen den Autoren von Stable Diffusion und Stability AI wussten, beklagten: Ein vinzentinisches Graphenmodell tauchte aus dem Nichts auf und es war einfach erschreckend mächtig.



Zur Geschichte des Autors von Stable Diffusion und seiner früheren Firma Stability AI können Sie frühere Berichte von Machine Heart lesen: Als es einen Wert von 100 Millionen US-Dollar hatte, begannen die Teams hinter Stable Diffusion miteinander zu streiten, wer der eigentliche Beamte ist ?

Neben den drei leistungsstärksten Vincentian-Modellen hält Black Forest Labs auch seinen „großen Schritt“ zurück. Mit der Fähigkeit, solche leistungsstarken Bilderzeugungsmodelle zu generieren, haben Black Forest Labs eine solide Grundlage für Videoerzeugungsmodelle gelegt. Wie sie voraussagen, bewegen sich diese Top-Wissenschaftler im Bereich Computer Vision auf die fortschrittlichste Videoerzeugungstechnologie zu, die für jedermann verfügbar ist.

Unternehmensblog: https://blackforestlabs.ai/announcements/