Il più potente modello grafico Wensheng open source è passato di mano da un giorno all'altro! Creato dal team originale di SD, verrà rilasciato il modello di generazione video SOTA

2024-08-02

Cose intelligenti (account pubblico:zhidxcom）
autorevaniglia
modificareLi Shuiqing

Il più potente modello grafico Wensheng open source è passato di mano da un giorno all'altro!

Zhidongxi ha riferito il 2 agosto che ieri sera, il modello grafico open source Wensheng signore supremoDiffusione stabileIl team originale ha annunciato il lancio di un nuovo modello di generazione di immaginiFLUSSO.1。

FLUX.1 contieneEdizione professionale, Edizione per sviluppatori, Edizione ExpressDei tre modelli, i primi due superano i modelli tradizionali come SD3-Ultra, e il più piccolo FLUX.1 [schnell] ha superato anche i modelli più grandi come Midjourney v6.0 e DALL·E 3.

▲ Punteggio ELO FLUX.1 rispetto ai modelli tradizionali

FLUSSO.1 pollGenerazione di testo, seguito di istruzioni complesseEGenerato a mano ha dei vantaggi. Quello che segue è un esempio di immagini generate dal suo modello di versione professionale più potente FLUX.1[pro]. Puoi vedere che anche quando vengono generate ampie sezioni di testo e più caratteri, non ci sono errori nei dettagli come personaggi e mani umane .

▲FLUX.1[pro] esempio di immagine generata

FLUX.1 è ora disponibile sulla piattaforma open source Replicate, ecco i miei consigli per utilizzarlo”La torta della Foresta Nera più piccola del mondo, grande quanto un dito, circondata dagli alberi della Foresta Nera”, sono state scattate rispettivamente le immagini generate sui tre modelli17,5s, 12,2s, 1,5s。

▲Confronto di tre generazioni di modelli

FLUX.1 apre anche un'API (Application Programming Interface) e ha un prezzo in base al numero di immagini. I prezzi dei tre modelli sono rispettivamente per immagine.0,055 USD, 0,03 USD, 0,003 USD(Circa 0,4, 0,22 e 0,022 yuan RMB).

La società dietro FLUX.1 si chiamaLaboratori della Foresta Nera (Black Forest Laboratory), fondato dal team originale di Stable Diffusion e da diversi ex ricercatori di Stability AI.Similmente a Stability AI, Black Forest si impegna a sviluppare modelli multimodali di alta qualità e renderli open source$ 31 milioni(circa 225 milioni di RMB) in finanziamenti seed round.

La Foresta Nera anticipa anche che verrà rilasciato prestoModello video SOTA (n. 1 negli attuali indicatori tecnici). . A giudicare dalla demo rilasciata, sia la fluidità, la stabilità che la simulazione fisica hanno raggiunto il primo livello. L'azienda potrebbe diventare un cavallo oscuro nel campo della generazione di video.

▲Anteprima del modello di generazione video

Indirizzo di prova di tre modelli:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Bravo a generare testo e mani umane, tre modelli possono essere generati in pochi secondi su larga scala

FLUX.1 ha prestazioni superiori in termini di qualità visiva, dettagli dell'immagine e diversità dell'output. Ha tre caratteristiche principali:Generazione di testo, composizione complessa, disegno a mano umana。

La generazione del testo è molto importante nella generazione di immagini e video e molti modelli tendono a confondere lettere che sembrano simili. FLUX.1 può gestire parole complicate con lettere ripetute, come generare aTorta Schnell Flux della Foresta Nera：

▲Torta Schnell Flux della Foresta Nera

Quando si tratta di composizione, FLUX.1 eccelle nel seguire istruzioni complesse come dove dovrebbero essere le cose nell'immagine. Ad esempio, FLUX.1 interpreta perfettamente questo prompt: Tre maghi magici stanno su un tavolo giallo, ciascuno con un cartello. A sinistra, un mago in vesti nere tiene un cartello con la scritta "AI"; al centro, una strega in vesti rosse tiene un cartello con la scritta "IS"; a destra, un mago in vesti blu tiene un cartello con la scritta "AI" Un cartello che dice "cool".

▲Composizione complessa

Le mani umane sono sempre state l’area più colpita dai modelli generativi multimodali. Sebbene l'immagine della mano umana generata da FLUX.1 non sia ancora perfetta, ha compiuto grandi progressi.

▲ Manodopera

FLUSSO.1 totaleEdizione professionale, Edizione per sviluppatori, Edizione ExpressTre versioni.

In,FLUX.1[pro]È la versione più avanzata con tracciamento istantaneo di alto livello, qualità visiva, dettaglio dell'immagine e diversità dell'output, fornendo soluzioni aziendali personalizzate per utenti professionali.

▲FLUX.1[pro] esempio di immagine generata

FLUSSO.1[sviluppo]Destinato ad applicazioni non commerciali, è un perfezionamento del FLUX.1[pro] e offre qualità e capacità simili pur essendo più efficiente rispetto ai modelli standard delle stesse dimensioni.

▲FLUX.1[dev] esempio di immagine generata

FLUX.1[veloce]Il più veloce dei tre modelli, è personalizzato per lo sviluppo locale e l'uso personale ed è disponibile pubblicamente con la licenza Apache 2.0 Standard.

▲FLUX.1[schnell] esempio di immagine generata

FLUX.1 è ora disponibile sulla piattaforma open source Replicate e può essere eseguito nel cloud con una sola riga di codice oppure gli utenti possono scaricare i pesi del modello ed eseguirli a livello di codice. Contemporaneamente è aperta anche l'API di FLUX.1, ed i prezzi dei tre modelli sono i seguenti:0,055 USD, 0,03 USD, 0,003 USD(Circa 0,4, 0,22 e 0,022 yuan RMB).

2. SconfittaMJV6DALLE 3, la relazione tecnica sarà rilasciata a breve

In termini di prestazioni, FLUX.1 è stato appositamente messo a punto per mantenere l'intera diversità di output nel pre-allenamento, stabilendo nuovi standard in molti aspetti come la conformità alle istruzioni, la qualità visiva, le modifiche di dimensioni/lunghezza e larghezza, ecc.

Tra questi, due modelli, FLUX.1 [pro] e [dev], hanno superato modelli popolari come Midjourney v6.0, DALL·E 3 e SD3-Ultra in cinque criteri di valutazione.

Essendo un modello leggero, FLUX.1[schnell] non è solo migliore di concorrenti simili, ma anche migliore di potenti modelli non distillati come Midjourney v6.0 e DALL·E 3.

▲Confronto delle prestazioni di FLUX.1 con i modelli tradizionali

Inoltre, tutti i modelli FLUX.1 supportano molteplici rapporti d'aspetto e risoluzioni di 0,1 e 2,0 megapixel.

▲Le proporzioni/risoluzione cambiano

Come si ottengono prestazioni così potenti?

In termini di architettura del modello, FLUX.1 adotta un'architettura ibrida basata su moduli Transformer a diffusione multimodale e parallela e la estende a parametri 12B.

Il team ha migliorato il modello di diffusione all'avanguardia creando Flow Matching e ha migliorato le prestazioni del modello e l'efficienza dell'hardware combinando Rotary Position Embedding e livelli di attenzione paralleli. A breve verrà rilasciata una relazione tecnica più dettagliata.

tre,Deviazione standardL'equipaggio originale,2.25100 milioniSeme rotondo, vuoi inviareSOTAmodello video

Black Forest Lab è stato fondato dal team fondatore di Stable Diffusion. Il lavoro precedente del team includeva anche il modello di generazione di immagini di alta qualità VQGAN, il modello di generazione video Stable Video Diffusion, ecc.

Tra i 5 autori originali di Stable Diffusion,4I membri che si sono uniti a Stability AI e hanno continuato a sviluppare le versioni successive di SD, tra cui Robin Rombach, Andreas Blattmann, Dominik Lorenz e Patrick Esser, fanno tutti parte del team fondatore di Black Forest Labs.

▲Autore di Stable Diffusion e team fondatore di Black Forest Lab

Il team ha affermato che i suoi obiettivi principali sono lo sviluppo di modelli ampiamente accessibili, la promozione dell’innovazione e della collaborazione nelle comunità accademiche e di ricerca e l’aumento della trasparenza dei modelli.

Black Forest Labs annuncia il completamento$ 31 milioni(circa 225 milioni di RMB)Finanziamento semestrale, guidato dal noto istituto di venture capital a16z (Andreessen Horowitz), hanno partecipato all'investimento anche Brendan Iribe, CEO del produttore di realtà virtuale Oculus, Garry Tan, CEO dell'incubatore di startup YC, il ricercatore NVIDIA Timo Aila e altri esperti e società di intelligenza artificiale, e hanno anche ricevuto investimenti successivi da fondi di primo livello come General Catalyst.

Il comitato consultivo del team comprende l’ex presidente Disney Michael Ovitz, che ha una vasta esperienza nel settore della creazione di contenuti, e il professor Matthias Bethge, un pioniere nel trasferimento di stili neurali.

Maestro dell'intelligenza artificiale che ha appena iniziato la sua attivitàAndrei Capasi(Andrej Karpathy) ha inviato le sue benedizioni al team della Foresta Nera e ha affermato che "il modello di generazione di immagini FLUX.1 open source sembra molto potente".

▲I commenti di Kapasi

Ex leader del team fondatore - ex CEO di Stability AIEmad Mostak(Emad Mostaque) ha anche inviato un messaggio di congratulazioni e ha detto: "È stato un onore lavorare con loro prima e credo che continueranno a spingersi oltre i limiti nel viaggio per generare ogni pixel".

▲Commenti di Mostaq

Nella fase successiva del lavoro, Black Forest Trailer rilascerà aVideomodello SOTA Vincent , "Consente a tutti di convertire testo in video." Il modello sarà costruito su FLUX.1, "consentendo creazione e editing precisi in alta definizione e velocità senza precedenti".

▲Anteprima del modello di generazione video

Conclusione: i cavalli oscuri emergono nel campo dei grandi modelli multimodali

Mentre molti importanti produttori e start-up vanno pazzi per i video di Vincent, il campo delle immagini di Vincent ha improvvisamente inaugurato un cavallo oscuro. Il FLUX.1 "nato all'improvviso" non solo dimostra prestazioni eccellenti, superando le difficoltà nella generazione di testo, nella composizione complessa e nel disegno manuale, ma soddisfa anche le esigenze di diversi utenti con versioni diversificate.

Facendo affidamento sulla forte forza del team originale di Stable Diffusion, il Black Forest Laboratory ha ottenuto generosi finanziamenti e ha attirato l'attenzione e il sostegno di molti leader del settore. I modelli video che verranno rilasciati in futuro inietteranno nuova vitalità nel campo dei video Vincent.

notizia

Il più potente modello grafico Wensheng open source è passato di mano da un giorno all'altro! Creato dal team originale di SD, verrà rilasciato il modello di generazione video SOTA

introduzione

le mie informazioni di contatto