notizia

La messa a punto di Flux ha preso d'assalto l'intera Internet, con ragazzi stranieri che formano una squadra di eroi Marvel!

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]È nato il re della mappatura AI che prende d'assalto il mondo open source! Mezzo mese dopo la sua uscita, Flux è diventata l'alternativa preferita a Midjourney. Sviluppatori di ogni ceto sociale hanno iniziato a perfezionare LoRA con le proprie foto, consentendo a una persona di padroneggiare più stili.

Dopo Midjourney, non ho mai visto persone così pazze per un'applicazione di imaging AI.

L’emergere di Flux significa che la generazione di immagini AI è entrata in una nuova fase.

Lo stesso Musk ha affermato di non poter più distinguere il vero dal falso.

Innanzitutto, una foto realistica di un relatore TED ha preso d'assalto Internet. Successivamente, Grok 2, che integrava il modello Flux, ha superato le restrizioni del guardrail e ha fatto impazzire gli utenti della rete.

Recentemente, gli sviluppatori di Flux hanno anche iniziato a mettere a punto i propri modelli LoRA.

HuggingFace Lianchuang ha esclamato che Flux ha completamente preso d'assalto il mondo dell'intelligenza artificiale open source. Non ha mai visto un modello con così tanti modelli derivati/piattaforme online/demo occupare la hot list allo stesso tempo.



Lo sviluppatore che lo ha messo a punto ha detto: "Flux+LoRA sovvertirà il mercato dell'intelligenza artificiale generativa. Puoi essere ovunque, indossare qualsiasi cosa, indossare tutti i vestiti che ti piacciono e generare diverse versioni di te stesso".


Ad esempio, trasformati in Superman.


Prendi la spada retrattile di luce e ombra e trasformati in un cavaliere Jedi. Che la Forza sia con te.


Non solo, le foto di sculture di ghiaccio, console di gioco in mano, orecchie da elfo, sfilate di moda, ecc. sono solo parole.






Scorri verso sinistra o verso destra per visualizzare

La messa a punto del proprio LoRA è ora diventata un nuovo giocattolo per molti sviluppatori.

No, l'intera rete è inondata da Flux+LoRA.

Una persona può formare gli "Avengers"

Rowan Cheung, il fondatore di Rundown AI, ha utilizzato le proprie foto come dati, ha utilizzato Flux per addestrare un modello LoRA e poi lo ha collegato a Runway per farlo muovere.


Come mostrato di seguito, viene generata un'immagine simile a un oratore TED.


Dopo aver realizzato il video, la persona nella foto si è davvero animata e sembrava un oratore. L'unico inconveniente è che ci sono solo 2-3 dita dalla mano destra al dorso.


L'altro si è generato salvando il mondo come Superman.


Con l'animazione sono finalmente diventato un eroe della Marvel.


Rigenerati in una foto in cui indossi abiti alla moda e cammini sulla passerella.


Il pubblico di entrambe le parti ha applaudito con entusiasmo ed è stata considerata un'esperienza da passerella sul palco a T.


Inoltre, Rowan Cheung ha anche generato stili diversi di se stesso, che sono coerenti con la scena e non hanno alcun senso di disobbedienza.





Scorri verso sinistra o verso destra per visualizzare

È convinto che, sebbene la grafica generata dall'intelligenza artificiale non possa ancora sostituire film/pubblicità completi, abbia già molti usi importanti, soprattutto per i creatori di contenuti.

Queste immagini AI vengono utilizzate ad esempio per produrre anteprime e immagini di accompagnamento per le notizie, nonché materiale supplementare (B-roll) nei cortometraggi.

Dopo averlo letto, il netizen Min Choi ha detto che avrebbe potuto formare un "Avengers".


L'ex CTO di Intel ha anche messo a punto il suo modello LoRA sull'A100, che gli è costato 7 dollari (circa 50 yuan) in 75 minuti.





Scorri verso sinistra o verso destra per visualizzare

Ci sono anche sviluppatori che si sono appena trasformati in film horror.






Scorri verso sinistra o verso destra per visualizzare

Non riesco a distinguere tra intelligenza artificiale e realtà

La più popolare è la versione perfezionata del "surrealismo": diventa sempre più difficile distinguere il confine tra immaginazione e realtà.



È una foto reale o una persona disegnata dall'intelligenza artificiale?



Dopo l'allenamento con LoRA in Flux-Dev, sono stati fatti incredibili progressi in termini di complessità e realismo della scena.


Qualsiasi stile può essere perfezionato

Inoltre, stanno emergendo anche vari stili diversi di messa a punto.

stile pixel

Gli sviluppatori hanno utilizzato lo stile del leggendario ZX Spectrum come esempio per mettere a punto la generazione di immagini simili a pixel LoRA.


Nell'immagine generata qui sotto, ci sono immagini come Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (apparentemente), ecc.












Scorri verso sinistra o verso destra per visualizzare

scarabocchi animati

Davis Brown, product designer di intelligenza artificiale generativa di PS, ha messo a punto un modello half_illustrazione basato su Flux.

Le immagini che genera sono in parte nello stile delle foto reali e in parte nello stile dei graffiti animati.


Prima di ogni disegno, devi solo aggiungere - Nello stile di TOK all'inizio del prompt.

Quindi descrivi dettagliatamente l'effetto desiderato e la pellicola può essere prodotta immediatamente.

In futuro, sento di non dover usare PS, posso semplicemente usare l'intelligenza artificiale per generare immagini.


prompt:Nello stile TOK, un editoriale fotografico d'avanguardia, posa d'azione drammatica di una donna con i capelli corti e blu che indossa occhiali da sole rotondi stravaganti anni '70 e che si tira giù gli occhiali guardando avanti, a Tokyo con grandi strutture in marmo e alberi bonsai al tramonto con una giacca illustrata vivace circondata da illustrazioni di fiori, fumo, fiamme, gelato, scintille, rock and roll


prompt: Nello stile di TOK, una posa drammatica di un editoriale fotografico di una persona con occhi penetranti, tatuaggi sul viso, con un creativo cappello da pescatore, in piedi a Tokyo con grandi strutture in marmo e alberi bianchi e viola in un campo da basket, con una vivace giacca vintage imbottita da strada illustrata, una maglietta nera, un vulcano sullo sfondo, circondato da illustrazioni di fumo, fiamme e fiori, nebbia, punti esclamativi, linee che si estendono verso l'esterno, personaggi Minion, farfalle

Ci sono altre foto in stile graffiti.






Scorri verso sinistra o verso destra per visualizzare

Jiugongge

La piattaforma di set di dati open source LAION ha utilizzato il modello Flux per addestrare un modello in grado di generare foto di se stesso con griglia di nove quadrati 3x3 da diverse angolazioni.


D’ora in poi basterà un selfie.




Scorri verso sinistra o verso destra per visualizzare

età diverse

L'aspetto della vita di una persona può essere visto attraverso Flux+LoRA.






Scorri verso sinistra o verso destra per visualizzare

Un altro esempio:






Scorri verso sinistra o verso destra per visualizzare

Giocabilità eccellente

Il protagonista di oggi, FLUX.1, utilizza una nuova tecnologia di “flowmatching”.

Mentre i precedenti modelli di diffusione creavano un’immagine rimuovendo gradualmente il rumore a partire da un punto iniziale casuale, la corrispondenza del flusso adotta un approccio più diretto, apprendendo i cambiamenti precisi necessari per trasformare il rumore in un’immagine reale.

Questa differenza di approccio si traduce in un'estetica unica e grandi vantaggi in termini di velocità e controllo.

Testo: La maggior parte di essi può essere ottenuta

Una delle sfide della generazione da testo a immagine è la conversione accurata del testo in rappresentazioni visive. FLUX.1 lo gestisce abbastanza bene, anche in scene complesse come i meme.

richiesta:

Questo è un bel meme per cani sott'acqua Testo: "Il cambiamento climatico va bene" Questo è un meme per "bel cane" sott'acqua. Testo: "Il cambiamento climatico non è un grosso problema"


richiesta:

Un meme di un attore famoso che fa una faccia buffa con il testo "Quando dimentichi le tue battute" in un carattere bizzarro Un meme di un attore famoso che fa una faccia buffa con il testo "Quando dimentichi le tue battute" in un carattere bizzarro


La luce e la consistenza sono entrambe buone

FLUX.1 ha una profonda conoscenza di luci, ombre e texture per produrre costantemente immagini di alta qualità.

richiesta:

Un'immagine dettagliata di un giardino in cui i fiori sono fatti di vetro delicato, che riflette magnificamente la luce del sole Un'immagine dettagliata di un giardino in cui i fiori sono fatti di vetro delicato, che riflette magnificamente la luce del sole


In questa immagine l'attenzione non è solo sulla texture del vetro, ma anche su come la luce viene rifratta e trasmessa attraverso i petali, creando un effetto luminoso.

richiesta:

Piume di gufo che si fondono con foglie autunnali nel vento Piume di gufo che si fondono con foglie autunnali nel vento


Stile artistico: più che imitazione

FLUX.1 sembra aver padroneggiato i principi alla base di vari stili artistici, rendendo possibili reinterpretazioni creative.

richiesta:

acquerello del famoso dipinto a onde acquerello del famoso dipinto a onde


Questa versione "acquerello" di "La grande onda di Kanagawa" non solo implica che le onde iconiche fossero parte dei dati di addestramento del modello, ma evidenzia anche come le tecniche di "flusso" si avvicinano al movimento della pittura attraverso acqua, carta e inchiostro.

Composizione: rendi la scena significativa

FLUX.1 eccelle nella costruzione di scene complesse, posizionando oggetti e personaggi in un modo realistico e visivamente accattivante.

richiesta:

Un'immagine realistica di una biblioteca incantata dove i libri fluttuano a mezz'aria e gli scaffali sono fatti di radici antiche e contorte Un'immagine realistica di una biblioteca incantata dove i libri fluttuano a mezz'aria e gli scaffali sono fatti di radici antiche e contorte


"Flow": un nuovo linguaggio visivo

La tecnologia di corrispondenza del flusso utilizzata in FLUX.1 conferisce all'immagine un senso unico di movimento organico e fluidità, come se i pixel stessi fluissero.

richiesta:

Cane con motivi di pelliccia vorticosi in stile Van Gogh


C'è sempre uno strumento che può aiutarti a farlo

Possiamo riassumere il processo di generazione dell'immagine come: prendi alcuni pixel di input, spostali leggermente lontano dal rumore, verso il modello creato dal tuo input di testo e ripeti questo processo fino a raggiungere un determinato numero di passaggi.

Il processo di messa a punto prende ciascuna coppia immagine/annotazione dal set di dati e aggiorna leggermente la sua mappatura interna.

Puoi insegnare a un modello qualsiasi cosa in questo modo purché possa essere rappresentato da una coppia immagine-titolo: personaggio, ambientazione, mezzo, stile, genere.


A sinistra: generato utilizzando il modello FLUX.1 originale; a destra: generato sul modello fofr/flux-bad-70s-food utilizzando gli stessi suggerimenti e seed

Durante l'addestramento, il modello imparerà come associare questi concetti a stringhe di testo specifiche. Nel prompt è necessario aggiungere questa stringa per attivare questa associazione.

Ad esempio, vuoi mettere a punto un modello di "supereroe in stile fumetto".

Innanzitutto, è necessario raccogliere un gran numero di immagini sui personaggi come set di dati, inclusi ma non limitati a: scene, costumi, illuminazione e forse anche stili artistici diversi.

Quindi, scegli una parola o una frase breve e insolita che funga da trigger: qualcosa di unico che non entri in conflitto con altri concetti o modifiche. Potresti scegliere termini come "cattivo cibo degli anni '70" o "JELLOMOLD".

Dopo l'addestramento, è sufficiente fornire un suggerimento che contenga una parola chiave, ad esempio "Scena di cibo scadente degli anni '70 a una festa a San Francisco" e il modello invocherà i concetti specifici aggiunti durante la messa a punto.

È così semplice.

Dopo aver compreso il principio, possiamo scegliere qualsiasi strumento per mettere a punto il modello.


A sinistra: generato utilizzando il modello FLUX.1 originale; a destra: generato sul modello fofr/flux-bad-70s-food utilizzando gli stessi suggerimenti e seed

Ad esempio, un ragazzo di nome Matt Wolfe, dopo aver visto la fantastica generazione sopra, era curioso e l'ha provata.

Di conseguenza si è ribaltato...

Le immagini AI create possono essere definite la differenza tra lo spettacolo di un acquirente e lo spettacolo di un venditore.

Questo è ciò che ha generato——


Questo è di qualcun altro -


Le due immagini sono paragonabili. La differenza sta nel fatto che venga utilizzata o meno la regolazione fine LoRA.

Il fratellino stimolato è andato subito a fare qualche ricerca ed è rimasto piacevolmente sorpreso nello scoprire che il modello LoRA è molto piccolo, solo da 2 a 500 MB, e può essere facilmente combinato con i modelli esistenti.


Ciò che è ancora più sorprendente è che il modello AI può migliorare la qualità delle immagini, produrre uno stile unico o generare personaggi speciali, come Mario o Spongebob, senza richiedere potenza di calcolo aggiuntiva o riqualificazione completa.


Sfortunatamente, su Glif, che utilizzo così bene, LoRA non può essere utilizzato in Flux.


Ha scoperto che un modo per utilizzare Flux è utilizzare ComfyUI.


Credo che molte persone abbiano familiarità con questa immagine.

In alternativa, puoi utilizzare piattaforme come Replicate, HuggingFace Spaces o Fal AI.


Dopo averlo provato sulla piattaforma Fal, ho scoperto che costa 0,035 dollari per megapixel. Pertanto, puoi eseguire il modello 29 volte per solo 1 dollaro, il che è abbastanza conveniente.


Qui sono disponibili FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro, ecc.

Senza dire una parola, il fratellino ha scelto Flux Realism LoRA.

Dopo un attento debug, ho impostato la dimensione del passaggio di inferenza su 28 e CFG su 2.


Le immagini risultanti sono incredibili!

Se c'è un difetto è che l'illuminazione delle rughe sulla fronte è ancora innaturale.


Successivamente, il fratellino ha importato con entusiasmo l'immagine in Gen-3 Alpha. In base alla richiesta inserita, Gen-3 Alpha ha generato un video.

Tranne che ad un certo punto il microfono nella mia mano improvvisamente "fluttuò" e non c'era niente di sbagliato nel resto del video.


Il ragazzo ha provato di nuovo e ha generato un secondo video.


Questa volta il microfono sembrava troppo fermo, come se fosse congelato sul posto.


Inoltre, anche il fratellino ha aderito alla tendenza di cambiare se stesso ovunque su Internet, generando una serie di foto esilaranti.











Scorri verso sinistra o verso destra per visualizzare

Alla fine, ho usato Gen-3 Alpha per trasformarlo in un video, permettendo a me e Deadpool di camminare nella stessa scena del film.


Riferimenti:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM