notizia

Il team originale della nuova società di StableDiffusion è annunciato ufficialmente!Il nuovo modello continuo aggiorna il panorama della pittura AI

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La casa ha origine dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Appena,Il team originale di Stable Diffusion ha annunciato ufficialmente la nuova società

Robin Rombach, che ha annunciato la sua partenza da Stability AI a marzo, è uno dei due principali autori di Stable Diffusion, e una dozzina dei suoi soci originari hanno annunciato ufficialmente la notizia della formazione di un gruppo per avviare un'impresa.

Nuovo nome della societàLaboratorio della Foresta Nera, Laboratorio della Foresta Nera . Non appena ha debuttato, Kuku ha rilasciato una serie di 3 modelli di generazione di immagini, 2 dei quali sono open source.

ESupporta l'input cinese

Qual è l'effetto? I netizen che l'hanno visto hanno detto che era selvaggio!

Inserisci la parola richiesta e prova contemporaneamente gli effetti dello schermo, i dati facciali e altre misure di sicurezza:

Un'adolescente che indossa un passamontagna crea origami in un fienile. Nella parte inferiore dell'immagine è presente un testo giallo designato. Sullo sfondo c'è una cornice con una foto di Obama all'interno.



Subito dopo aver visto questa serie di immagini e testi, alcuni netizen si sono lamentati del fatto che questo è il miglior effetto di generazione di immagini che abbia mai visto.



La caratteristica di questa azienda è che non è riservata.

Oggi è stata annunciata ufficialmente la fondazione, oggi sono stati rilasciati una serie di modelli e sono stati annunciati anche i progressi nel finanziamento——

Completato il finanziamento di 32 milioni di dollari, guidato da a16z, con gli investimenti del co-fondatore di Oculus VR Brendan Iribe, dell'ex partner di YC Garry Tan, di Timo Aila, che guida il gruppo di ricerca sulla grafica computerizzata presso NVIDIA Research, dell'illustre scienziato di Apple (ex capo scienziato di Intel Intelligent Systems) Vladlen Koltun e altri.

Si può dire che la Foresta Nera non solo ha ricevuto scommesse dal mercato dei capitali, ma ha anche conquistato il favore dei leader del settore.

Anche il maestro dell'intelligenza artificiale Kapasi ha inviato un messaggio di congratulazioni online e ha anche elogiato il nuovo modello della Foresta Nera:

Attenzione, bene! Il modello di generazione di immagini FLUX.1 open source sembra molto potente.



E tieni presente che l'accordo open source è il libero Apache2.0.

Il debutto del modello di generazione di immagini della Foresta Nera

Kapasi è emozionato. Sperimentiamo visivamente l'effetto modello della foresta nera.

Qui, Qubit ha selezionato cinque tipi di effetti di generazione da visualizzare. Le immagini sono tutte fornite dal funzionario e non è specificato quale modello viene utilizzato.

Il primo livello è la generazione del testo.

Parola suggerita: foto di una vecchia lavagna in classe. Scritto in gesso sulla lavagna c'è "facciamo delle cose davvero carine insieme" con un cuore di gesso rosso dopo le parole. Il sole splende attraverso la finestra.



Il secondo livello è la scena non reale + la generazione del testo.

Parola suggerita: nella scena subacquea, due gufi sono seduti a un bellissimo tavolo da pranzo. Una candela è accesa al centro del tavolo. I due gufi stanno gustando una deliziosa cena insieme. Il gufo a sinistra indossa uno smoking e il gufo a destra indossa un bellissimo vestito. C'è un sottomarino che passa sullo sfondo con la scritta "What a Hoot" dipinta su un lato. L'immagine sotto il tavolo ha minuscole meduse che nuotano sul fondo, un'opera d'arte digitale bellissima e cinematografica.



Il terzo livello è una scena reale nel mondo reale.

Suggerimento: una foto di una bella strada di Friburgo, con un tram che passa e persone che camminano e vanno in bicicletta.



Il quarto livello è la generazione di personaggi reali e personaggi anime.

Parola suggerita: foto di tre donne in una strada del centro città, con le mani protese verso la fotocamera.



Parola suggerita: bellissima grafica anime di una graziosa gatta che sembra depressa e tiene in mano un pezzo di carta con un sorriso disegnato sopra, sta per piangere.



Il quinto livello è la generazione dell'immagine degli animali.

Parola suggerita: una lince rossa nella foresta, fotografata da un fotografo professionista in condizioni di luce intensa.



Suggerimento: rendering ravvicinato di una creatura mitica composta da frattali e viticci a spirale dettagliati, struttura della pelle ricorsiva dettagliata



Modelli della serie FLUX.1

Questa volta, la Foresta Nera ha rilasciato tre modelli della serie FLUX.1: pro, dev e schnell.



FLUX.1 [pro]: il suono più forte della serie.

L'essenza della serie FLUX.1, che fornisce una generazione di immagini con prestazioni ottimali con conformità ai comandi, qualità visiva, dettaglio dell'immagine e diversità di output migliori della categoria.

Il team della Foresta Nera sta lentamente migliorando le capacità di calcolo dell'inferenza di FLUX.1 [pro] nell'API.

Questa versione è accessibile tramite Replicate e fal.ai che offrono soluzioni aziendali dedicate e personalizzate.

FLUX.1 [dev]: Coppa in serie.

Un modello che consente un uso non commerciale, è a peso aperto e distillato.

[dev] Distillato direttamente da [pro], offre qualità simile e pronta conformità pur essendo più efficiente rispetto ai modelli standard della stessa dimensione.

Puoi provarlo su Huhuface o provarlo direttamente su Replicate o fal.ai.

FLUX.1 [schnell]: Piccolo turbine di velocità.

Il modello più veloce della serie, realizzato su misura per lo sviluppo locale e i singoli sviluppatori.

FLUX.1 [schnell] è disponibile pubblicamente con la licenza Apache2.0. I pesi dei modelli possono essere interrogati su Huohuofian. Il codice di inferenza può essere trovato su GitHub.

È stato supportato da ComfyUI e può essere utilizzato direttamente; può essere utilizzato anche tramite Replicate o fal.ai.

Proviamo una sensazione intuitiva!

Ecco tre foto, che sono gli effetti generati dalla tazza grande, media e piccola di cui sopra con parole diverse, attorno al tema della "torta".

△Da sinistra a destra, i modelli utilizzati sono tazze grandi, medie e piccole.

Dopo molti test, Qubit ha scoperto che se viene inserita una semplice parola, il tempo necessario per generare un'immagine utilizzando la versione pro è compreso tra 15 e 25 secondi (il tempo di generazione verrà visualizzato sotto il grafico dei risultati).



Foresta Nera dice tutti i modelli FLUX.1Entrambi si basano su un'architettura ibrida di blocchi Transformer a diffusione multimodale e parallela e si estendono a parametri 12B

Tra i tre modelli, FLUX.1 [pro] e [dev] hanno superato Midjourney v6.0 e DALL· in termini di qualità visiva, reattività immediata, flessibilità del rapporto dimensioni/aspetto, composizione e diversità di output E 3(HD) e Stabile Diffusione 3-Ultra.

FLUX.1 [schnell] è definito dal team "il modello in pochi passaggi più avanzato fino ad oggi".

Non solo si distingue tra concorrenti simili, ma surclassa anche modelli non compressi più potenti come Midjourney v6.0 e DALL·E 3(HD).

L'intera serie FLUX.1 è stata appositamente messa a punto per mantenere l'intera diversità di output della fase di pre-allenamento.

Rispetto alle tecnologie esistenti, FLUX.1 presenta i seguenti vantaggi:



Qualcuno inevitabilmente chiederà: voi siete i veterani dell'OG e i membri principali di Stability AI.

COSÌ,Qual è la differenza tra il tuo nuovo modello e il loro modello a diffusione stabile?

I membri del team fondatore hanno risposto su Reddit:

Anche il nostro modello più debole, Schnell, ha una qualità costruttiva migliore e tempi di costruzione più rapidi.

L’obiettivo principale è fondare una nuova azienda e superare me stesso.



Creato da un team di autori principali di SD

Dopo aver introdotto le informazioni relative al modello, è il momento di conoscere formalmente questa nuova azienda.

laboratorio della Foresta Nera, appena annunciato oggi.

Sul sito ufficiale dell'azienda c'è uno slogan: Una nuova era di creazione.

La missione dell'azienda è promuovere modelli di deep learning all'avanguardia e di alta qualità per la generazione di immagini e video e renderli disponibili al pubblico più vasto.

Appare Huadian!LoroLa prossima ambizione è ovvia: entrare nel campo della generazione video.

Inoltre, deve essere "SOTA".



Membro principaleRobin Rombach, ex ricercatore presso Stability AI.

Mentre lavorava presso Stability AI, è stato uno dei principali sviluppatori del modello Stable Diffusion e ha anche partecipato alla ricerca di SDXL, SVD e altri progetti.

Nel marzo di quest'anno, Robin ha lasciato Stability AI.

Il mondo esterno ha commentato che la sua partenza ha gravemente danneggiato la già caotica compagnia degli unicorni: dopo tutto, è uno dei due attori principali di SD.



Guardando indietro, Robin ha conseguito la laurea e il master in fisica presso l'Università di Heidelberg.

Nel 2020, ha iniziato a studiare per un dottorato di ricerca in informatica presso il Computer Vision Group di Heidelberg sotto la supervisione di Björn Ommer, e nel 2021 si è trasferito all'Università di Monaco con il gruppo di ricerca.

La ricerca si concentra sulla generazione di modelli di deep learning, in particolare sui sistemi text-to-image.

Google Scholar ha quasi 15.000 citazioni.



Inoltre, tra i membri comunicati sul sito ufficiale, Andreas Blattmann, Axel Sauer, Dominik Lorenz, Dustin Podel, Frederic Boesel, Patrick Esser, Sumith Kulal, Tim Dockhorn, Yam Levi, Zion EnglishSono tutti membri originali pubblicamente disponibili di Stability AI.

(Andi Holmes e Jonas Müller non hanno ancora trovato informazioni precise)



Si può dire che la Foresta Nera sia il nucleo originario dell'SD che se ne andò e salpò di nuovo.

Non c'è da stupirsi che Axel Sauer abbia inoltrato il tweet ufficiale e abbia gridato ad alta voce:

Siamo ancora vivi!



Un'altra cosa

Che coincidenza, lo stesso giorno anche Stability AI ha fatto nuove mosse:

Lancio di nuovi modelli di intelligenza artificialeStabile Veloce 3D, i funzionari dicono che può essere utilizzatoGenera immagini 3D in mezzo secondo

Mentre il modello precedente impiegava pochi minuti per generare un’immagine 3D con effetti simili, il nuovo modello può completare la stessa attività 1.200 volte più velocemente del modello esistente.



Quella Stability AI è stata lanciata a marzoL'amministratore delegato in fuga, Emad Mostaque, cosa sta facendo?

A giugno ha annunciato ufficialmente dove si trovava la nuova societàSchelling AI, "costruirà e supporterà codice, modelli e set di dati open source supportati dai finanziamenti dell'intelligenza artificiale".

L’attenzione si concentra sulla ricerca innovativa e su un’intelligenza artificiale attentamente costruita che sia culturalmente consapevole, scientifica, educativa e creativa.

Tre giorni fa, Schelling AI ha pubblicato il primo articolo della serie "How To Think About AI".

L'articolo è un po' lungo. Gli amici interessati possono cercarlo e visualizzarlo da soli. Qui menzionerò le idee principali——.

L’intelligenza artificiale si sta sviluppando rapidamente, promuovendo l’open source e l’apertura e accelerando l’innovazione e la collaborazione.



E che ne dici di essere tutti persone per bene!

Il tweet che annunciava la fondazione del Laboratorio della Foresta Nera è stato gentilmente inoltrato dall'ex CEO (metti qui una testa di cane).

Link di riferimento:
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/
[5]https://x.com/SchellingAI/status/1818600200232927721