Nachricht

Das ursprüngliche Team des neuen Unternehmens von StableDiffusion wird offiziell bekannt gegeben!Ständig neue Modelle erfrischen die KI-Mallandschaft

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Das Haus stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Nur,Das ursprüngliche Team von Stable Diffusion gab das neue Unternehmen offiziell bekannt

Robin Rombach, der im März seinen Abschied von Stability AI bekannt gab, ist einer der beiden Hauptautoren von Stable Diffusion, und ein Dutzend seiner ursprünglichen Unternehmenspartner gaben offiziell die Nachricht bekannt, eine Gruppe zur Gründung eines Unternehmens zu gründen.

Neuer FirmennameSchwarzwaldlabor, Schwarzwaldlabor . Gleich nach seiner Einführung veröffentlichte Kuku eine Reihe von drei Bilderzeugungsmodellen, von denen zwei Open Source sind.

UndUnterstützt chinesische Eingaben

Was ist der Effekt? Internetnutzer, die es gesehen haben, sagten, es sei wild!

Geben Sie das Eingabeaufforderungswort ein und testen Sie sofort die Bildschirmeffekte, Gesichtsdaten und andere Sicherheitsmaßnahmen:

Ein junges Mädchen mit Skimaske bastelt in einer Scheune Origami. Am unteren Rand des Bildes befindet sich ein markierter gelber Text. Im Hintergrund befindet sich ein Rahmen mit einem Bild von Obama darin.



Kurz nachdem er diese Reihe von Bildern und Texten gesehen hatte, beklagten einige Internetnutzer, dass dies der beste Bilderzeugungseffekt sei, den er je gesehen habe.



Das Besondere an diesem Unternehmen ist, dass es nicht geheimnisvoll ist.

Die Gründung wurde heute offiziell bekannt gegeben, eine Reihe von Modellen wurde heute veröffentlicht und auch der Finanzierungsfortschritt wurde bekannt gegeben——

Finanzierung in Höhe von 32 Millionen US-Dollar abgeschlossen, geleitet von a16z, mit Investitionen von Oculus VR-Mitbegründer Brendan Iribe, dem ehemaligen YC-Partner Garry Tan, Timo Aila, der die Computergrafik-Forschungsgruppe bei NVIDIA Research leitet, und dem angesehenen Apple-Wissenschaftler (ehemaliger Chefwissenschaftler von Intel Intelligent Systems) Vladlen Koltun und andere.

Man kann sagen, dass Schwarzwald nicht nur Wetten vom Kapitalmarkt erhalten hat, sondern auch die Gunst der Branchenführer gewonnen hat.

Auch KI-Meister Kapasi schickte online eine Glückwunschbotschaft und lobte auch das neue Modell von Black Forest:

Vorsicht, gut! Das Open-Source-Bildgenerierungsmodell FLUX.1 sieht sehr leistungsstark aus.



Und bitte beachten Sie, dass es sich bei der Open-Source-Vereinbarung um das lose Apache2.0 handelt.

Das Debüt des Schwarzwälder Bildgenerierungsmodells

Kapasi ist begeistert. Lassen Sie uns die Vorbildwirkung des Schwarzwalds visuell erleben.

Hier hat Qubit fünf Arten von Generierungseffekten zur Anzeige ausgewählt. Die Bilder werden alle vom Beamten bereitgestellt, und es wird nicht angegeben, welches Modell verwendet wird.

Die erste Ebene ist die Textgenerierung.

Aufforderung: Foto einer alten Klassenzimmertafel. An der Tafel steht mit Kreide geschrieben: „Lasst uns zusammen ein paar wirklich hübsche Sachen machen“, mit einem roten Kreideherz nach den Worten. Die Sonne scheint durch das Fenster herein.



Die zweite Ebene ist eine nicht-reale Szene + Textgenerierung.

Aufforderung: In der Unterwasserszene sitzen zwei Eulen an einem schönen Esstisch. In der Mitte des Tisches brennt eine Kerze. Die beiden Eulen genießen gemeinsam ein köstliches Abendessen. Die Eule links trägt einen Smoking und die Eule rechts ein wunderschönes Kleid. Im Hintergrund fährt ein U-Boot vorbei, auf dessen Seite die Worte „What a Hoot“ aufgemalt sind. Auf dem Bild unter dem Tisch schwimmen winzige Quallen am Boden, ein filmisches und wunderschönes digitales Kunstwerk.



Die dritte Ebene ist eine reale Szene in der realen Welt.

Aufforderung: Ein Foto einer schönen Straße in Freiburg, mit einer vorbeifahrenden Straßenbahn und Menschen, die zu Fuß und mit dem Fahrrad unterwegs sind.



Die vierte Ebene ist die Generierung echter Charaktere und Anime-Charaktere.

Aufforderung: Foto von drei Frauen auf einer Straße im Stadtzentrum, die Hände in Richtung Kamera strecken.



Aufforderung: Wunderschönes Anime-Kunstwerk eines süßen Katzenmädchens, das deprimiert aussieht und ein Blatt Papier mit einem darauf gezeichneten Lächeln in der Hand hält, als wäre sie kurz davor zu weinen.



Die fünfte Ebene ist die Erzeugung von Tierbildern.

Aufforderung: Ein Rotluchs im Wald, fotografiert von einem professionellen Fotografen bei hellem Licht.



Tipp: Nahaufnahme eines Fabelwesens, bestehend aus detaillierten Spiralfraktalen und Ranken, detaillierte rekursive Hauttextur



Modelle der FLUX.1-Serie

Diesmal hat Black Forest drei Modelle der FLUX.1-Serie herausgebracht: pro, dev und schnell.



FLUX.1 [pro]: Der stärkste Sound der Serie.

Die Essenz der FLUX.1-Serie bietet optimale Bilderzeugung mit erstklassiger Befehlskonformität, visueller Qualität, Bilddetails und Ausgabevielfalt.

Das Black Forest-Team verbessert langsam die Inferenz-Computing-Funktionen von FLUX.1 [pro] in der API.

Auf diese Version kann über Replicate und fal.ai zugegriffen werden; sie bietet dedizierte und maßgeschneiderte Unternehmenslösungen.

FLUX.1 [dev]: Tasse in Serie.

Ein Modell, das eine nichtkommerzielle Nutzung zulässt, offen gewichtet und destilliert ist.

[dev] Direkt von [pro] destilliert, bietet es eine ähnliche Qualität und schnelle Compliance und ist gleichzeitig effizienter als Standardmodelle derselben Größe.

Sie können es auf Huhuface oder direkt auf Replicate oder fal.ai ausprobieren.

FLUX.1 [schnell]: Kleiner Geschwindigkeitswirbel.

Das schnellste Modell der Serie, maßgeschneidert für lokale Entwicklung und einzelne Entwickler.

FLUX.1 [schnell] ist unter der Apache2.0-Lizenz öffentlich verfügbar. Modellgewichte können bei Huohuofian abgefragt werden.

Es wurde von ComfyUI unterstützt und kann auch direkt über Replicate oder fal.ai verwendet werden.

Lasst uns ein intuitives Gefühl haben!

Hier sind drei Fotos, die die erzeugten Effekte der oben genannten großen Tasse, mittleren Tasse und kleinen Tasse unter verschiedenen Aufforderungswörtern rund um das Thema „Kuchen“ darstellen.

△Von links nach rechts handelt es sich bei den verwendeten Modellen um große, mittlere und kleine Tassen.

Nach vielen Tests stellte Qubit fest, dass bei Eingabe eines einfachen Eingabeaufforderungsworts die Zeit, die zum Generieren eines Bildes mit der Pro-Version benötigt wird, zwischen 15 und 25 Sekunden liegt (die Generierungszeit wird unterhalb des Ergebnisdiagramms angezeigt).



Black Forest sagt alle FLUX.1-ModelleBeide basieren auf einer Hybridarchitektur aus multimodalen und parallelen Diffusions-Transformerblöcken und erstrecken sich auf 12B-Parameter

Unter den drei Modellen übertrafen FLUX.1 [pro] und [dev] Midjourney v6.0 und DALL· in Bezug auf visuelle Qualität, schnelle Reaktionsfähigkeit, Flexibilität beim Größen-/Seitenverhältnis, Satz und Ausgabevielfalt Diffusion 3-Ultra.

FLUX.1 [schnell] wird vom Team als „das bislang fortschrittlichste Wenig-Schritte-Modell“ bezeichnet.

Es sticht nicht nur aus der Konkurrenz heraus, sondern übertrifft auch leistungsstärkere unkomprimierte Modelle wie Midjourney v6.0 und DALL·E 3(HD).

Die gesamte FLUX.1-Serie wurde speziell darauf abgestimmt, die volle Leistungsvielfalt der Vortrainingsphase beizubehalten.

Im Vergleich zu bestehenden Technologien bietet FLUX.1 folgende Vorteile:



Jemand wird unweigerlich fragen: Sie sind die OG-Veteranen und Kernmitglieder der Stabilitäts-KI.

Also,Was ist der Unterschied zwischen Ihrem neuen Modell und dem Stable Diffusion-Modell?

Mitglieder des Gründungsteams antworteten auf Reddit:

Selbst unser schwächstes Modell, Schnell, bietet eine bessere Verarbeitungsqualität und kürzere Bauzeiten.

Das Hauptziel besteht darin, ein neues Unternehmen zu gründen und über mich selbst hinauszuwachsen.



Erstellt von einem Team von SD-Hauptautoren

Nach der Einführung der modellbezogenen Informationen ist es an der Zeit, dieses neue Unternehmen offiziell kennenzulernen.

Schwarzwaldlabor, erst heute angekündigt.

Auf der offiziellen Website des Unternehmens gibt es einen Slogan: Eine neue Ära der Schöpfung.

Die Mission des Unternehmens besteht darin, hochmoderne, hochwertige Deep-Learning-Modelle für die Bild- und Videogenerierung voranzutreiben und sie einem breiten Publikum zugänglich zu machen.

Huadian erscheint!IhreDas nächste Ziel liegt auf der Hand, nämlich in den Bereich der Videogenerierung einzusteigen.

Außerdem muss es „SOTA“ sein.



KernmitgliedRobin Rombach, ehemaliger Forschungswissenschaftler bei Stability AI.

Während seiner Arbeit bei Stability AI war er einer der Hauptentwickler des Stable Diffusion-Modells und beteiligte sich auch an der Forschung von SDXL, SVD und anderen Projekten.

Im März dieses Jahres verließ Robin Stability AI.

Die Außenwelt kommentierte, dass sein Abgang dem ohnehin schon chaotischen Unicorn-Unternehmen schweren Schaden zugefügt habe – schließlich sei er einer der beiden Hauptakteure von SD.



Rückblickend erlangte Robin seinen Bachelor- und Masterabschluss in Physik an der Universität Heidelberg.

Im Jahr 2020 begann er sein Doktoratsstudium in Informatik an der Computer Vision Group in Heidelberg unter der Leitung von Björn Ommer und wechselte 2021 mit der Forschungsgruppe an die Universität München.

Der Forschungsschwerpunkt liegt auf der Generierung von Deep-Learning-Modellen, insbesondere Text-zu-Bild-Systemen.

Google Scholar hat fast 15.000 Zitate.



Darüber hinaus sind unter den auf der offiziellen Website veröffentlichten Mitgliedern Andreas Blattmann, Axel Sauer, Dominik Lorenz, Dustin Podel, Frederic Boesel, Patrick Esser, Sumith Kulal, Tim Dockhorn, Yam Levi und Zion EnglishAlle sind öffentlich zugängliche Originalmitglieder von Stability AI.

(Andi Holmes und Jonas Müller haben noch keine genauen Informationen gefunden)



Man kann sagen, dass es sich bei Black Forest um die ursprünglichen Kernmitglieder der SD handelte, die die See verließen und wieder in See stachen.

Kein Wunder, dass Axel Sauer den offiziellen Tweet weiterleitete und laut rief:

Wir leben noch!



Eine Sache noch

Was für ein Zufall, am selben Tag unternahm Stability AI auch neue Schritte:

Einführung neuer KI-ModelleStabiles, schnelles 3DLaut offiziellen Angaben kann es verwendet werdenErzeugen Sie 3D-Bilder in einer halben Sekunde

Während das Vorgängermodell Minuten brauchte, um ein 3D-Bild mit ähnlichen Effekten zu erzeugen, kann das neue Modell die gleiche Aufgabe 1.200 Mal schneller erledigen als das bestehende Modell.



Diese Stabilitäts-KI wurde im März eingeführtWas macht der entflohene CEO Emad Mostaque?

Im Juni gab er offiziell seinen Aufenthaltsort bekannt Das neue UnternehmenSchelling AI, „wird Open-Source-Code, Modelle und Datensätze erstellen und unterstützen, die durch KI-Mittel unterstützt werden.“

Der Schwerpunkt liegt auf innovativer Forschung und sorgfältig konstruierter KI, die kulturbewusst, wissenschaftlich, pädagogisch und kreativ ist.

Vor drei Tagen veröffentlichte Schelling AI den ersten Artikel der Reihe „How To Think About AI“.

Der Artikel ist etwas lang. Freunde, die interessiert sind, können ihn selbst suchen und ansehen. Hier werde ich die Kernideen erwähnen.

KI entwickelt sich rasant, fördert Open Source und Offenheit und beschleunigt Innovation und Zusammenarbeit.



Und wie wäre es, wenn wir alle anständige Menschen wären!

Der Tweet, der die Gründung des Schwarzwaldlabors ankündigte, wurde freundlicherweise vom ehemaligen CEO weitergeleitet (hier einen Hundekopf einfügen).

Referenzlinks:
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/
[5]https://x.com/SchellingAI/status/1818600200232927721