notizia

Tutti i membri lasciarono il loro vecchio club, Stable Diffusion iniziò la propria attività e sconfisse immediatamente MJ v6.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Editore: Du Wei, Jiaqi

Il campo della generazione di immagini e video AI ha aggiunto un altro potente attore.

Ricordate Robin Rombach, un ricercatore che si è dimesso dalla startup AI Stability AI alla fine di marzo di quest'anno? Essendo uno dei due autori principali che hanno sviluppato il modello grafico Vincent Stable Diffusion, è entrato a far parte di Stability AI nel 2022.



Ora, quasi cinque mesi dopo aver lasciato Stability AI, Robin Rombach ha twittato la buona notizia di aver avviato un'attività in proprio!

Ha fondato "Black Forest Labs" per promuovere modelli SOTA di apprendimento profondo generativo di alta qualità per immagini e video e renderli disponibili a quante più persone possibile.



I membri del team sono composti da eccezionali ricercatori e ingegneri nel campo dell'intelligenza artificiale. I loro precedenti lavori rappresentativi includono VQGAN e Latent Diffusion, modelli di diffusione stabile nel campo della generazione di immagini e video (inclusi Stable Diffusion XL, Stable Video Diffusion e Rectified Flow Transformers) e Adversarial Diffusion. Distillazione per sintesi di immagini in tempo reale ultrarapida.

Vale la pena notare che oltre a Robin Rombach, Stable Diffusion ha altri tre autori che sono diventati membri fondatori del team, tra cui Andreas Blattmann, Dominik Lorenz e Patrick Esser. Entrambi hanno lasciato Stability AI all'inizio di quest'anno, con alcuni che ipotizzavano che se ne fossero andati per avviare un'attività in proprio.



Attualmente, i Labs hanno completato un round di finanziamento iniziale da 31 milioni di dollari, guidato da Andreessen Horowitz. Altri investitori includono gli investitori angelici Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun e alcuni noti esperti di ricerca e imprenditorialità sull'intelligenza artificiale. Inoltre, ha ricevuto investimenti successivi da General Catalyst e MätchVC.

The Labs ha inoltre istituito un comitato consultivo, i cui membri includono Michael Ovitz, un magnate della tecnologia con una vasta esperienza nel settore della creazione di contenuti, e il professor Matthias Bethge, un pioniere nel trasferimento di stili neurali e uno dei massimi esperti nella ricerca sull'intelligenza artificiale aperta in Europa.

Naturalmente Black Forest Labs ha lanciato la sua prima serie di modelli "FLUX.1", che comprende le seguenti tre varianti.



La prima variante èFLUX.1 [pro] , è un nuovissimo modello di diagramma SOTA Vincent con dettagli dell'immagine estremamente ricchi, forti capacità di conformità rapida e stili diversi. Attualmente disponibile tramite API.

Indirizzo API: https://docs.bfl.ml/



Il secondo èFLUX.1 [sviluppo] , che è una variante a peso aperto e non commerciale di FLUX.1 [pro] ed è distillato direttamente da quest'ultimo. Questo modello supera gli altri modelli di immagine come Midjourney e Stable Diffusion 3. Il codice di inferenza e i pesi sono stati inseriti su GitHub. L'immagine seguente è un confronto con i modelli di immagine concorrenti.

Indirizzo GitHub: https://github.com/black-forest-labs/flux



Il terzo è open sourceFLUX.1 [veloce] , è un modello super efficiente in 4 fasi che segue il protocollo Apache 2.0. Questo modello è molto vicino a [dev] e [pro] in termini di prestazioni e può essere utilizzato su Hugging Face.

Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell





Nel frattempo, Black Forest Labs inizia a promuoversi.



Il prossimo passo è lanciare il modello video SOTA Vincent che è disponibile per tutti e tutti non vedono l'ora!



Successo immediato: la serie di modellini di Vincent "FLUX.1" sta arrivando

I tre modelli lanciati da Black Forest Labs questa volta utilizzano tutti un'architettura ibrida di Transformer a diffusione multimodale e parallela. A differenza di altre aziende che dividono una serie di modelli in "tazza media", "tazza grande" e "tazza extra grande" in base al numero di parametri, i membri della famiglia FLUX.1 sono stati ampliati uniformemente fino a raggiungere l'enorme scala di 12 miliardi di parametri.



Il gruppo di ricerca ha utilizzato il framework Flow Matching per aggiornare il precedente modello di diffusione SOTA. Si può dedurre dai commenti sul blog ufficiale che il gruppo di ricerca ha seguito il metodo Rectified flow+Transformer proposto mentre lavorava ancora a Stability AI (nel marzo di quest'anno).



Link al documento: https://arxiv.org/pdf/2403.03206.pdf

Hanno anche introdotto l’incorporamento della posizione rotazionale e livelli di attenzione paralleli. Questi metodi migliorano efficacemente le prestazioni del modello nella generazione di immagini e anche la velocità di generazione delle immagini sui dispositivi hardware è aumentata.

Questa volta Black Forest Labs non ha rivelato la tecnologia dettagliata del modello, ma presto verrà rilasciato un rapporto tecnico più dettagliato.

Tutti e tre i modelli stabiliscono nuovi standard nei rispettivi campi. Che si tratti della bellezza delle immagini generate, del modo in cui le immagini si adattano ai suggerimenti di testo, della variabilità delle dimensioni/proporzioni o della varietà dei formati di output, FLUX.1 [pro] e FLUX.1 [dev] vanno oltre una gamma di Modelli popolari per la generazione di immagini, come Midjourney v6.0, DALL・E 3 (HD) e SD3-Ultra.

FLUX.1 [schnell] è il modello in pochi passaggi più avanzato fino ad oggi, superando non solo i suoi concorrenti ma anche potenti modelli non distillati come Midjourney v6.0 e DALL・E 3 (HD).

Il modello è specificatamente messo a punto per mantenere l'intera diversità di output della fase di pre-formazione. Anche i modelli della serie FLUX.1 lasciano ampio margine di miglioramento rispetto all'attuale tecnologia all'avanguardia.



Tutti i modelli della serie FLUX.1 supportano una varietà di proporzioni e risoluzioni, da 0,1 a 2 megapixel.



Alcuni netizen che hanno agito rapidamente lo hanno già provato. Sembra che la cosa "più forte" che Black Forest Labs abbia ripetutamente sottolineato non sia solo l'autopromozione.

Semplici parole tempestive possono creare un tale effetto. Se osservi attentamente il motivo del tappeto di alpaca, non c'è distorsione o deformazione.



Parola suggerita: un Emù color smeraldo che cavalca un lama bianco.

Senza dire che si tratta di un'immagine generata dall'intelligenza artificiale, è difficile dire se si tratti di una foto scattata da un fotografo.



Parola suggerita: un cavallo sta giocando con due alligatori al fiume.

Anche le immagini contenenti testo possono essere gestite facilmente e anche la profondità di campo viene elaborata per corrispondere alla sensazione reale dell'obiettivo.



Dei tre modelli FLUX.1 [schnell], che ha prestazioni leggermente inferiori, è anche veloce e potente da usare. Alcuni netizen hanno condiviso la loro esperienza di utilizzo su un Mac e non hanno potuto fare a meno di sospirare, ne vale davvero la pena .



Gli utenti della rete che non sapevano molto delle "lamentele" tra gli autori di Stable Diffusion e Stability AI si sono lamentati: un modello grafico vincenziano è apparso dal nulla ed era semplicemente terribilmente potente.



Per quanto riguarda la storia dell'autore di Stable Diffusion e della sua ex società Stability AI, puoi leggere i precedenti rapporti di Machine Heart: Quando fu valutato 100 milioni di dollari, i team dietro Stable Diffusion iniziarono a litigare tra loro su chi fosse il vero ufficiale ?

Oltre ai tre modelli vincenziani più potenti, anche Black Forest Labs frena la sua "grande mossa". Con funzionalità così potenti per i modelli di generazione di immagini, Black Forest Labs ha gettato solide basi per i modelli di generazione video e, come prevedono, questi scienziati di spicco nel campo della visione artificiale si stanno muovendo verso l'obiettivo di una tecnologia video all'avanguardia per tutti .

Blog aziendale: https://blackforestlabs.ai/announcements/