Das leistungsstärkste Open-Source-Graphmodell von Wensheng wechselte über Nacht den Besitzer! Das vom ursprünglichen SD-Team erstellte SOTA-Videogenerierungsmodell wird veröffentlicht

2024-08-02

Smart Things (öffentliches Konto:Abonnieren）
AutorVanille
bearbeitenLi Shuiqing

Das leistungsstärkste Open-Source-Graphmodell von Wensheng wechselte über Nacht den Besitzer!

Zhidongxi berichtete am 2. August, dass gestern Abend das Open-Source-Graphmodell Wensheng Overlord seiStabile DiffusionDas ursprüngliche Team kündigte die Einführung eines neuen Bilderzeugungsmodells anFLUX.1。

FLUX.1 enthältProfessional Edition, Developer Edition, Express EditionVon den drei Modellen schlugen die ersten beiden Modelle Mainstream-Modelle wie SD3-Ultra, und der kleinere FLUX.1 [schnell] übertraf auch größere Modelle wie Midjourney v6.0 und DALL·E 3.

▲FLUX.1 ELO-Score im Vergleich zu Mainstream-Modellen

FLUX.1 ZollTextgenerierung, komplexe Anweisungen befolgenUndVon Hand erstellt hat Vorteile. Das Folgende ist ein Beispiel für Bilder, die mit der leistungsstärksten professionellen Version, dem Modell FLUX.1[pro], generiert wurden. Sie können sehen, dass selbst bei der Generierung großer Textabschnitte und mehrerer Zeichen keine Fehler in Details wie Zeichen und menschlichen Händen auftreten .

▲FLUX.1[pro] generiertes Bildbeispiel

FLUX.1 ist jetzt auf der Open-Source-Plattform Replicate verfügbar. Hier sind meine Tipps zur Verwendung.Die kleinste Schwarzwälder Kirschtorte der Welt, fingergroß, umgeben von Schwarzwälder Bäumen“, wurden die auf den drei Modellen erzeugten Bilder jeweils aufgenommen17,5 s, 12,2 s, 1,5 s。

▲Vergleich von drei Modellgenerationen

FLUX.1 öffnet außerdem eine API (Application Programming Interface) und richtet sich nach der Anzahl der Bilder. Die Preise der drei Modelle gelten wiederum pro Bild.0,055 USD, 0,03 USD, 0,003 USD(Ungefähr 0,4 RMB, 0,22 und 0,022 Yuan).

Das Unternehmen hinter FLUX.1 heißtSchwarzwaldlabore (Black Forest Laboratory), gegründet vom ursprünglichen Team von Stable Diffusion und mehreren ehemaligen Forschern von Stability AI.Ähnlich wie bei Stability AI setzt sich Black Forest für die Entwicklung hochwertiger multimodaler Modelle ein und stellt diese als Open Source zur Verfügung31 Millionen Dollar(ungefähr 225 Millionen RMB) in der Seed-Finanzierungsrunde.

Black Forest neckt auch, dass es bald erscheinen wirdSOTA-Videomodell (Nr. 1 bei aktuellen technischen Indikatoren). . Der veröffentlichten Demo nach zu urteilen, haben sowohl die Laufruhe als auch die Stabilität und die physikalische Simulation das erste Echelon-Niveau erreicht. Das Unternehmen könnte sich zu einem dunklen Pferd im Bereich der Videogenerierung entwickeln.

▲Vorschau des Videogenerierungsmodells

Testadresse für drei Modelle:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Gut in der Generierung von Text und menschlichen Händen, drei Modelle können in Sekundenschnelle im Maßstab generiert werden

FLUX.1 bietet eine überlegene Leistung in Bezug auf visuelle Qualität, Bilddetails und Ausgabevielfalt. Es verfügt über drei Hauptmerkmale:Textgenerierung, komplexe Komposition, menschliche Handzeichnung。

Die Textgenerierung ist bei der Bild- und Videogenerierung sehr wichtig und viele Modelle neigen dazu, ähnlich aussehende Buchstaben zu verwechseln. FLUX.1 kann mit kniffligen Wörtern mit wiederholten Buchstaben umgehen, z. B. mit der Bildung einesSchwarzwälder Flux Schnellkuchen：

▲Black Forest Flux Schnellkuchen

Wenn es um die Bildkomposition geht, zeichnet sich der FLUX.1 dadurch aus, dass er komplexe Anweisungen befolgt, etwa wo sich Dinge im Bild befinden sollen. FLUX.1 interpretiert beispielsweise diese Eingabeaufforderung perfekt: Drei Zauberer stehen auf einem gelben Tisch und halten jeweils ein Schild in der Hand. Links hält ein Zauberer in schwarzen Gewändern ein Schild mit der Aufschrift „AI“; in der Mitte hält eine Hexe in roten Gewändern ein Schild mit der Aufschrift „IS“; rechts hält ein Zauberer in blauen Gewändern ein Schild mit der Aufschrift „IS“. „AI“ Ein Schild mit der Aufschrift „cool“.

▲Komplexe Zusammensetzung

Menschliche Hände waren schon immer der am stärksten betroffene Bereich multimodaler generativer Modelle. Obwohl das von FLUX.1 erzeugte Bild der menschlichen Hand noch nicht perfekt ist, wurden große Fortschritte erzielt.

▲Manpower

FLUX.1 insgesamtProfessional Edition, Developer Edition, Express EditionDrei Versionen.

In,FLUX.1[pro]Es ist die fortschrittlichste Version mit erstklassiger Sofortverfolgung, visueller Qualität, Bilddetails und Ausgabevielfalt und bietet maßgeschneiderte Unternehmenslösungen für professionelle Benutzer.

▲FLUX.1[pro] generiertes Bildbeispiel

FLUX.1[Entwickler]Es ist für nicht-kommerzielle Anwendungen gedacht, wurde gegenüber dem FLUX.1[pro] weiterentwickelt und bietet ähnliche Qualität und Fähigkeiten, ist aber gleichzeitig effizienter als Standardmodelle gleicher Größe.

▲FLUX.1[dev] generiertes Bildbeispiel

FLUX.1[schnell]Es ist das schnellste der drei Modelle, ist für die lokale Entwicklung und den persönlichen Gebrauch angepasst und unter der Apache 2.0-Standardlizenz öffentlich verfügbar.

▲FLUX.1[schnell] generiertes Bildbeispiel

FLUX.1 ist jetzt auf der Open-Source-Plattform Replicate verfügbar und kann mit nur einer Codezeile in der Cloud ausgeführt werden. Alternativ können Benutzer Modellgewichte herunterladen und programmgesteuert ausführen. Gleichzeitig ist auch die API von FLUX.1 geöffnet und die Preise der drei Modelle sind wie folgt:0,055 USD, 0,03 USD, 0,003 USD(Ungefähr 0,4 RMB, 0,22 und 0,022 Yuan).

2. NiederlageMJ V6DALLE 3Der technische Bericht wird in Kürze veröffentlicht

Hinsichtlich der Leistung wurde FLUX.1 speziell darauf abgestimmt, die gesamte Ausgabevielfalt im Vortraining beizubehalten und in vielen Aspekten wie Befehlskonformität, visuelle Qualität, Größen-/Längen- und Breitenänderungen usw. neue Maßstäbe zu setzen.

Darunter übertrafen zwei Modelle, FLUX.1 [pro] und [dev], beliebte Modelle wie Midjourney v6.0, DALL·E 3 und SD3-Ultra in fünf Bewertungskriterien.

Als leichtes Modell ist FLUX.1[schnell] nicht nur besser als vergleichbare Konkurrenten, sondern auch besser als leistungsstarke, nicht destillierte Modelle wie Midjourney v6.0 und DALL·E 3.

▲FLUX.1 Leistungsvergleich mit Mainstream-Modellen

Darüber hinaus unterstützen alle FLUX.1-Modelle mehrere Seitenverhältnisse und Auflösungen von 0,1 und 2,0 Megapixel.

▲Seitenverhältnis/Auflösung ändert sich

Wie wird solch eine starke Leistung erreicht?

In Bezug auf die Modellarchitektur übernimmt FLUX.1 eine Hybridarchitektur, die auf multimodalen und parallelen Diffusionstransformatormodulen basiert, und erweitert sie auf 12B-Parameter.

Das Team verbesserte das hochmoderne Diffusionsmodell durch den Aufbau von Flow Matching und verbesserte die Modellleistung und Hardwareeffizienz durch die Kombination von Rotary Position Embedding und parallelen Aufmerksamkeitsschichten. Ein detaillierterer technischer Bericht wird in Kürze veröffentlicht.

drei,SDDie ursprüngliche Crew,2.25100 MillionenSamen rund, möchte sendenSOTAVideomodell

Black Forest Lab wurde vom Gründerteam von Stable Diffusion gegründet. Zu den früheren Arbeiten des Teams gehörten auch das hochwertige Bilderzeugungsmodell VQGAN, das Videoerzeugungsmodell Stable Video Diffusion usw.

Zu den ursprünglichen fünf Autoren von Stable Diffusion gehörten:4Mitglieder, die sich Stability AI angeschlossen haben und nachfolgende Versionen von SD weiterentwickelt haben, darunter Robin Rombach, Andreas Blattmann, Dominik Lorenz und Patrick Esser, gehören alle zum Gründungsteam von Black Forest Labs.

▲Autor von Stable Diffusion und Gründungsteam von Black Forest Lab

Das Team sagte, seine Kernanliegen seien die Entwicklung allgemein zugänglicher Modelle, die Förderung von Innovation und Zusammenarbeit in der Forschungs- und akademischen Gemeinschaft sowie die Erhöhung der Modelltransparenz.

Black Forest Labs gibt Fertigstellung bekannt31 Millionen Dollar(ungefähr 225 Millionen RMB)Finanzierung der Seed-RundeAn der Investition beteiligten sich unter der Leitung des bekannten Risikokapitalinstituts a16z (Andreessen Horowitz), Brendan Iribe, CEO des VR-Herstellers Oculus, Garry Tan, CEO des Startup-Inkubators YC, NVIDIA-Forscher Timo Aila sowie weitere Experten und KI-Unternehmen. und erhielt auch Folgeinvestitionen von First-Tier-Fonds wie General Catalyst.

Dem Beirat des Teams gehören der ehemalige Disney-Präsident Michael Ovitz, der über umfassende Erfahrung in der Content-Erstellungsbranche verfügt, und Professor Matthias Bethge, ein Pionier im Bereich neuronaler Stiltransfer, an.

KI-Meister, der gerade sein Unternehmen gegründet hatAndrei Capasi(Andrej Karpathy) sandte dem Black Forest-Team seinen Segen und sagte, dass „das Open-Source-Bilderzeugungsmodell FLUX.1 sehr leistungsfähig aussieht.“

▲Kapasis Kommentare

Ehemaliger Leiter des Gründungsteams – ehemaliger CEO von Stability AIEmad Mostak(Emad Mostaque) schickte ebenfalls eine Glückwunschbotschaft und sagte: „Es war mir schon eine Ehre, mit ihnen zusammenzuarbeiten, und ich glaube, dass sie auf dem Weg zur Generierung jedes einzelnen Pixels weiterhin Grenzen überschreiten werden.“

▲Mostaq-Kommentare

Im nächsten Arbeitsschritt wird Black Forest Trailer eine veröffentlichenSOTA Vincent Videomodell , „Ermöglicht es jedem, Text in Video umzuwandeln.“ Das Modell werde auf FLUX.1 basieren und „eine präzise Erstellung und Bearbeitung in High Definition und beispielloser Geschwindigkeit ermöglichen“.

▲Vorschau des Videogenerierungsmodells

Fazit: Im Bereich der multimodalen Großmodelle tauchen dunkle Schatten auf

Während viele große Hersteller und Start-ups verrückt nach Vincent-Videos sind, kam im Bereich der Vincent-Bilder plötzlich eine dunkle Seite auf uns zu. Das „aus heiterem Himmel geborene“ FLUX.1 zeigt nicht nur eine hervorragende Leistung und überwindet Schwierigkeiten bei der Textgenerierung, der komplexen Komposition und dem manuellen Zeichnen, sondern erfüllt auch die Bedürfnisse verschiedener Benutzer mit abwechslungsreichen Versionen.

Gestützt auf die starke Stärke des ursprünglichen Teams von Stable Diffusion hat Black Forest Laboratory eine großzügige Seed-Finanzierung erhalten und die Aufmerksamkeit und Unterstützung vieler Branchenführer auf sich gezogen. Die Videomodelle, die in Zukunft veröffentlicht werden, werden dem Bereich der Vincent-Videos neue Dynamik verleihen.

Nachricht

Das leistungsstärkste Open-Source-Graphmodell von Wensheng wechselte über Nacht den Besitzer! Das vom ursprünglichen SD-Team erstellte SOTA-Videogenerierungsmodell wird veröffentlicht

Einführung

meine Kontaktdaten