Nachricht

Die Feinabstimmung von Flux hat das gesamte Internet im Sturm erobert, und ausländische Jungs haben ein Team aus Marvel-Helden gebildet!

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Der KI-Mapping-König, der die Open-Source-Welt im Sturm erobert, ist geboren! Einen halben Monat nach seiner Veröffentlichung ist Flux zu einer beliebten Alternative zu Midjourney geworden. Entwickler aus allen Gesellschaftsschichten begannen, LoRA mit ihren eigenen Fotos zu verfeinern, sodass eine Person mehrere Stile beherrschen konnte.

Nach Midjourney habe ich noch nie Menschen gesehen, die so verrückt nach einer KI-Bildgebungsanwendung waren.

Das Aufkommen von Flux bedeutet, dass die KI-Bildgenerierung in eine neue Phase eingetreten ist.

Musk selbst sagte, er könne die Wahrheit nicht mehr vom Falschen unterscheiden.

Zunächst eroberte ein realistisches Foto eines TED-Sprechers das Internet im Sturm. Später durchbrach Grok 2, das das Flux-Modell integrierte, die Leitplankenbeschränkungen und machte die Internetnutzer verrückt.

Vor kurzem haben Flux-Entwickler auch damit begonnen, ihre eigenen LoRA-Modelle zu verfeinern.

HuggingFace Lianchuang erklärte, dass Flux die Open-Source-KI-Welt vollständig im Sturm erobert habe. Er habe noch nie ein Modell mit so vielen abgeleiteten Modellen/Online-Plattformen/Demos gleichzeitig auf der Hotlist gesehen.



Der Entwickler, der die Feinabstimmung vorgenommen hat, sagte: „Flux+LoRA wird den generativen KI-Markt untergraben. Sie können überall sein, alles tragen, jede Kleidung tragen, die Sie mögen, und verschiedene Versionen von sich selbst erzeugen.“


Verwandeln Sie sich zum Beispiel in Superman.


Nimm das einziehbare Licht- und Schattenschwert und verwandle dich in einen Jedi-Ritter. Möge die Macht mit dir sein.


Darüber hinaus sind Fotos von Eisskulpturen, haltenden Switch-Spielekonsolen, Elfenohren, Modenschauen usw. alles nur Worte.






Wischen Sie zum Anzeigen nach links oder rechts

Die Feinabstimmung des eigenen LoRA ist für viele Entwickler mittlerweile zu einem neuen Spielzeug geworden.

Nein, das gesamte Netzwerk wird von Flux+LoRA überflutet.

Eine Person kann die „Avengers“ bilden

Rowan Cheung, der Gründer von Rundown AI, nutzte seine eigenen Fotos als Daten, trainierte mit Flux ein LoRA-Modell und verknüpfte es dann mit Runway, um es in Bewegung zu setzen.


Wie unten gezeigt, wird ein Bild erzeugt, das einem TED-Lautsprecher ähnelt.


Nachdem das Video gedreht wurde, wurde die Person auf dem Foto wirklich lebendig und sah aus wie ein Redner. Einziges Manko ist, dass von der rechten Hand bis zum Rücken nur 2-3 Finger vorhanden sind.


Der andere hat es geschafft, als Superman die Welt zu retten.


Mit der Animation wurde ich schließlich zum Helden von Marvel.


Lassen Sie sich in ein Foto verwandeln, auf dem Sie modische Kleidung tragen und über den Laufsteg laufen.


Das Publikum auf beiden Seiten applaudierte begeistert und es galt als ein Laufstegerlebnis auf der T-Bühne.


Darüber hinaus hat Rowan Cheung auch verschiedene Stile seiner selbst hervorgebracht, die mit der Szene übereinstimmen und keinen Sinn für Ungehorsam haben.





Wischen Sie zum Anzeigen nach links oder rechts

Er ist davon überzeugt, dass KI-generierte Grafiken zwar immer noch keine kompletten Filme/Werbespots ersetzen können, sie aber bereits viele wichtige Einsatzmöglichkeiten haben, insbesondere für Content-Ersteller.

Mit diesen KI-Bildern werden beispielsweise Vorschauen und Begleitbilder für Nachrichten sowie ergänzendes Material (B-Roll) in Kurzfilmen erstellt.

Nachdem sie es gelesen hatte, sagte die Internetnutzerin Min Choi, dass sie eine „Avengers“ gründen könnte.


Der ehemalige Intel-CTO hat auch sein eigenes LoRA-Modell auf dem A100 verfeinert, was ihn in 75 Minuten 7 US-Dollar (ca. 50 Yuan) gekostet hat.





Wischen Sie zum Anzeigen nach links oder rechts

Es gibt auch Entwickler, die sich einfach in Horrorfilme verwandelt haben.






Wischen Sie zum Anzeigen nach links oder rechts

Kann den Unterschied zwischen KI und Realität nicht erkennen

Am beliebtesten ist die verfeinerte Version des „Surrealismus“ – es wird immer schwieriger, zwischen Fantasie und Realität zu unterscheiden.



Ist es ein echtes Foto oder eine von KI gezeichnete Person?



Nach dem Training mit LoRA in Flux-Dev wurden unglaubliche Fortschritte in Bezug auf Szenenkomplexität und Realismus gemacht.


Jeder Stil kann fein abgestimmt werden

Darüber hinaus entstehen auch verschiedene Stile der Feinabstimmung.

Pixelstil

Die Entwickler nutzten den Stil des legendären ZX Spectrum als Beispiel, um die pixelartige Bilderzeugung von LoRA zu verfeinern.


Im generierten Bild unten gibt es Bilder wie Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (scheinbar) usw.












Wischen Sie zum Anzeigen nach links oder rechts

animierte Kritzeleien

Der PS-Produktdesigner für generative KI, Davis Brown, hat ein half_illustration-Modell auf Basis von Flux verfeinert.

Die dabei erzeugten Bilder sind teils im Stil echter Fotos, teils im Stil animierter Graffiti gehalten.


Vor jeder Zeichnung müssen Sie nur - Im TOK-Stil am Anfang der Eingabeaufforderung hinzufügen.

Beschreiben Sie anschließend detailliert den gewünschten Effekt und der Film kann sofort produziert werden.

Ich habe das Gefühl, dass ich in Zukunft kein PS mehr verwenden muss, sondern einfach KI verwenden kann, um Bilder zu generieren.


Eingabeaufforderung: Im Stil von TOK, eine Fotoredaktion mit avantgardistischer dramatischer Action-Pose einer Frau mit kurzen blauen Haaren, die eine runde, verrückte Sonnenbrille im Stil der 70er trägt, die die Brille nach unten zieht und nach vorne schaut, in Tokio mit großen Marmorstrukturen und Bonsai-Bäumen bei Sonnenuntergang mit einer lebhaft illustrierten Jacke, umgeben von Illustrationen von Blumen, Rauch, Flammen, Eiscreme, Glitzer, Rock and Roll


Eingabeaufforderung: Im Stil von TOK, eine Fotoredaktion mit dramatischer Action-Pose einer Person mit stechenden Augen, Tattoos im Gesicht und kreativem Anglerhut, die in Tokio mit großen Marmorstrukturen und weiß-violetten Bäumen auf einem Basketballplatz steht, mit einer farbenfroh illustrierten bauschigen Vintage-Jacke in Streetwear-Optik, einem schwarzen Hemd und einem Vulkan im Hintergrund, umgeben von Illustrationen von Rauch, Flammen und Blumen, Nebel, Ausrufezeichen, nach außen schießenden Linien, Minion-Figuren, Schmetterlingen.

Es gibt noch andere Fotos im Graffiti-Stil.






Wischen Sie zum Anzeigen nach links oder rechts

Jiugongge

Die Open-Source-Datensatzplattform LAION nutzt das Flux-Modell, um ein Modell zu trainieren, das 3x3 Neunquadrat-Gitterfotos von sich selbst aus verschiedenen Winkeln generieren kann.


Von nun an reicht ein Selfie.




Wischen Sie zum Anzeigen nach links oder rechts

verschiedene Altersstufen

Das Erscheinungsbild des Lebens einer Person kann durch Flux+LoRA gesehen werden.






Wischen Sie zum Anzeigen nach links oder rechts

Ein weiteres Beispiel:






Wischen Sie zum Anzeigen nach links oder rechts

Super Spielbarkeit

Der heutige Protagonist FLUX.1 nutzt eine neue „Flow-Matching“-Technologie.

Während frühere Diffusionsmodelle ein Bild durch schrittweises Entfernen von Rauschen ausgehend von einem zufälligen Startpunkt erstellten, verfolgt Flow Matching einen direkteren Ansatz und lernt die präzisen Änderungen, die erforderlich sind, um Rauschen in ein echtes Bild umzuwandeln.

Dieser unterschiedliche Ansatz führt zu einer einzigartigen Ästhetik und großen Vorteilen in Bezug auf Geschwindigkeit und Kontrolle.

Text: Die meisten davon sind erhältlich

Eine der Herausforderungen bei der Text-zu-Bild-Generierung besteht darin, Text präzise in visuelle Darstellungen umzuwandeln. FLUX.1 bewältigt dies recht gut, selbst in komplexen Szenen wie Memes.

prompt:

Das ist ein feines Hunde-Meme unter Wasser. Text: „Der Klimawandel ist in Ordnung.“ Dies ist ein „schönes Hunde-Meme“ unter Wasser. Text: „Der Klimawandel ist kein großes Problem“


prompt:

Ein Meme eines berühmten Schauspielers, der ein lustiges Gesicht mit dem Text „Wenn du deine Zeilen vergisst“ in einer skurrilen Schriftart macht. Ein Meme eines berühmten Schauspielers, der ein lustiges Gesicht mit dem Text „Wenn du deine Zeilen vergisst“ in einer skurrilen Schriftart macht


Das Licht und die Textur sind beide gut

FLUX.1 verfügt über ein ausgeprägtes Verständnis für Licht, Schatten und Textur, um stets qualitativ hochwertige Bilder zu produzieren.

prompt:

Ein detailliertes Bild eines Gartens, in dem die Blumen aus zartem Glas bestehen und das Sonnenlicht wunderschön reflektieren. Ein detailliertes Bild eines Gartens, in dem die Blumen aus zartem Glas bestehen und das Sonnenlicht wunderschön reflektieren


In diesem Bild liegt der Fokus nicht nur auf der Textur des Glases, sondern auch auf der Art und Weise, wie das Licht durch die Blütenblätter gebrochen und übertragen wird, wodurch ein leuchtender Effekt entsteht.

prompt:

Eulenfedern verschmelzen mit Herbstblättern im Wind Eulenfedern verschmelzen mit Herbstblättern im Wind


Kunststil: mehr als Nachahmung

FLUX.1 scheint die Prinzipien verschiedener künstlerischer Stile zu beherrschen und kreative Neuinterpretationen zu ermöglichen.

prompt:

Aquarell der berühmten Wellenmalerei. Aquarell der berühmten Wellenmalerei


Diese „Aquarell“-Version von „Die große Welle vor Kanagawa“ impliziert nicht nur, dass die ikonischen Wellen Teil der Trainingsdaten des Modells waren, sondern verdeutlicht auch, wie „Fluss“-Techniken die Bewegung von Farbe durch Wasser, Papier und Tinte annähern.

Komposition: Machen Sie die Szene aussagekräftig

FLUX.1 zeichnet sich durch den Aufbau komplexer Szenen aus und platziert Objekte und Charaktere auf eine Weise, die sowohl realistisch als auch optisch ansprechend ist.

prompt:

Ein realistisches Bild einer verzauberten Bibliothek, in der Bücher in der Luft schweben und die Regale aus alten, verdrehten Wurzeln bestehen. Ein realistisches Bild einer verzauberten Bibliothek, in der Bücher in der Luft schweben und die Regale aus alten, verdrehten Wurzeln bestehen


„Flow“: eine neue Bildsprache

Die in FLUX.1 verwendete Flow-Matching-Technologie verleiht dem Bild ein einzigartiges Gefühl organischer Bewegung und Flüssigkeit, als ob die Pixel selbst fließen würden.

prompt:

Hund mit wirbelnden Fellmustern im Van-Gogh-Stil


Es gibt immer ein Werkzeug, das Ihnen dabei helfen kann

Wir können den Bilderzeugungsprozess wie folgt zusammenfassen: Nehmen Sie einige Eingabepixel, verschieben Sie sie leicht vom Rauschen weg in Richtung des durch Ihre Texteingabe erstellten Musters und wiederholen Sie diesen Vorgang, bis Sie eine festgelegte Anzahl von Schritten erreicht haben.

Der Feinabstimmungsprozess übernimmt jedes Bild-/Anmerkungspaar aus dem Datensatz und aktualisiert leicht seine interne Zuordnung.

Auf diese Weise können Sie einem Modell alles beibringen, solange es durch Bild-Titel-Paare dargestellt werden kann: Charakter, Schauplatz, Medium, Stil, Genre.


Links: generiert mit dem ursprünglichen FLUX.1-Modell; rechts: generiert mit dem fofr/flux-bad-70s-food-Modell unter Verwendung derselben Hinweise und Samen

Während des Trainings lernt das Modell, diese Konzepte mit bestimmten Textzeichenfolgen zu verknüpfen. In der Eingabeaufforderung müssen Sie diese Zeichenfolge hinzufügen, um diese Zuordnung zu aktivieren.

Sie möchten beispielsweise ein Superheldenmodell im „Comic-Stil“ verfeinern.

Zunächst muss eine große Anzahl von Bildern über die Charaktere als Datensatz gesammelt werden, einschließlich, aber nicht beschränkt auf: verschiedene Szenen, Kostüme, Beleuchtung und vielleicht sogar verschiedene Kunststile

Wählen Sie dann ein kurzes und ungewöhnliches Wort oder einen Satz als Auslöser: etwas Einzigartiges, das nicht im Widerspruch zu anderen Konzepten oder Optimierungen steht. Sie könnten Begriffe wie „schlechtes 70er-Jahre-Essen“ oder „JELLOMOLD“ wählen.

Nach dem Training geben Sie einfach eine Eingabeaufforderung ein, die ein Auslösewort enthält, z. B. „Szene mit schlechtem Essen aus den 1970er-Jahren auf einer Party in San Francisco“, und das Modell ruft die spezifischen Konzepte auf, die Sie während der Feinabstimmung hinzugefügt haben.

So einfach ist das.

Nachdem wir das Prinzip verstanden haben, können wir ein beliebiges Werkzeug zur Feinabstimmung des Modells auswählen.


Links: generiert mit dem ursprünglichen FLUX.1-Modell; rechts: generiert mit dem fofr/flux-bad-70s-food-Modell unter Verwendung derselben Hinweise und Samen

Zum Beispiel war ein Typ namens Matt Wolfe neugierig und probierte es aus, nachdem er die coole Generation oben gesehen hatte.

Infolgedessen kippte er um...

Die erstellten KI-Bilder können als Unterschied zwischen einer Käufershow und einer Verkäufershow bezeichnet werden.

Das ist es, was er hervorgebracht hat –


Das gehört jemand anderem –


Die beiden Bilder sind vergleichbar. Der Unterschied besteht darin, ob LoRA-Feinabstimmung verwendet wird oder nicht.

Der angeregte kleine Bruder machte sich sofort auf die Suche und stellte angenehm überrascht fest, dass das LoRA-Modell mit nur 2 bis 500 MB sehr klein ist und sich problemlos mit bestehenden Modellen kombinieren lässt.


Noch überraschender ist, dass das KI-Modell die Bildqualität verbessern, einen einzigartigen Stil erzeugen oder Sonderzeichen wie Mario oder SpongeBob generieren kann, ohne dass zusätzliche Rechenleistung oder umfassende Umschulung erforderlich sind.


Leider kann LoRA auf Glif, das ich so gut nutze, nicht in Flux verwendet werden.


Er fand heraus, dass eine Möglichkeit, Flux zu nutzen, die Verwendung von ComfyUI ist.


Ich glaube, viele Menschen kennen dieses Bild.

Alternativ können Sie Plattformen wie Replicate, HuggingFace Spaces oder Fal AI verwenden.


Nachdem ich es auf der Fal-Plattform ausprobiert hatte, stellte ich fest, dass es 0,035 US-Dollar pro Megapixel kostet. Daher kann man das Modell 29 Mal für nur 1 US-Dollar ausführen, was recht kostengünstig ist.


Hier sind FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro usw. verfügbar.

Ohne ein Wort zu sagen, entschied sich der kleine Bruder für Flux Realism LoRA.

Nach sorgfältiger Fehlerbehebung habe ich die Inferenzschrittgröße auf 28 und CFG auf 2 gesetzt.


Die resultierenden Bilder sind erstaunlich!

Der Makel liegt darin, dass die Ausleuchtung der Stirnfalten immer noch unnatürlich ist.


Als nächstes importierte der kleine Bruder aufgeregt das Bild in Gen-3 Alpha. Basierend auf der Eingabeaufforderung erstellte Gen-3 Alpha ein Video.

Außer in einem bestimmten Moment „schwebte“ das Mikrofon in meiner Hand plötzlich und am Rest des Videos war nichts auszusetzen.


Der Typ versuchte es noch einmal und erstellte ein zweites Video.


Diesmal wirkte das Mikrofon zu still, als wäre es festgefroren.


Darüber hinaus schloss sich auch der kleine Bruder dem Trend an, sich im Internet zu verändern, und produzierte eine Reihe urkomischer Fotos.











Wischen Sie zum Anzeigen nach links oder rechts

Schließlich habe ich Gen-3 Alpha verwendet, um daraus ein Video zu machen, sodass ich und Deadpool in derselben Filmszene herumlaufen konnten.


Referenzen:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM