Le mie informazioni di contatto
Posta[email protected]
2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Autore|Xuushan, editore|Manman Zhou
“
Molte persone si aspettano che diventi il prossimo Midjourney.
”
Questa potrebbe essere la startup IA più performante della storia.
A soli 15 giorni dalla sua fondazione, la startup di intelligenza artificiale Black Forest Labs ha già raccolto 32 milioni di dollari in finanziamenti iniziali e ha rilasciato la serie FLUX.1 di grandi modelli di intelligenza artificiale Vincent.
Non solo, anche Grok-2, un grande modello di intelligenza artificiale appena prodotto da Musk, ha rapidamente lanciato una funzione di grafico vincenziano con il suo supporto, attirando milioni di netizen a partecipare all'interazione.
E a differenza della funzione immagine vincenziana di altri modelli di intelligenza artificiale, non ci sono quasi restrizioni sulle immagini generate su Grok-2 e sono abbastanza realistiche.
Sia che tu voglia che Steve Jobs prenda in giro il gatto, o che tu voglia che Zuckerberg e Musk si incontrino offline nella "Gabbia Ottagonale", Grok-2 può soddisfare i tuoi desideri. Si può vedere che il modello funziona molto bene in termini di comprensione semantica, allineamento e capacità di generazione di immagini (ad eccezione della sicurezza).
Qual è l'origine di questa azienda? Come ha fatto impazzire gli utenti della rete e persino Musk era disposto a sceglierlo per potenziare i suoi prodotti principali? Dopo un'indagine approfondita, Mr. Silicon Rabbit ha finalmente svelato il mistero dei Black Forest Labs.
01
L’opportunità per la creazione di Black Forest Labs inizia con Stability AI, un’altra società di unicorni di intelligenza artificiale.
In effetti, l’attuale team iniziale di 15 persone di Black Forest Labs proviene tutto da Stability AI. Si può dire che la fondazione di Black Forest Labs sia stata una fuga collettiva di dipendenti.
Il fondatore di Black Forest Labs, Robin Rombach, era un ex ricercatore presso Stability AI e uno dei due pilastri fondamentali di Stability AI.
Ha studiato fisica all'Università di Heidelberg e ha iniziato i suoi studi di dottorato nel gruppo di visione artificiale dell'università nel 2020. Robin si è concentrato sui modelli di deep learning, in particolare nel campo dei grafi vincenziani, per poi entrare a far parte del team di ricerca scientifica dell'Università di Monaco nel 2021.
Durante la sua permanenza presso Stability AI, ha guidato lo sviluppo del modello di grandi dimensioni dell'intelligenza artificiale a grafo vincenziano.Diffusione stabile. All’inizio, Stable Diffusion poteva essere definita il signore supremo nel campo dell’imaging AI, provocando uno shock nel settore. Anche la valutazione di Stability AI ha superato il miliardo di dollari, rendendola uno degli unicorni dell’IA.
Ma lo sviluppo dell’intelligenza artificiale per la stabilità subirà una brusca svolta nel 2024. Secondo i rapporti, i costi annuali di Stability AI ammontano a circa 99 milioni di dollari, ma le sue entrate ammontano a soli 11 milioni di dollari, il che si traduce in un grave squilibrio tra entrate e spese. Successivamente, l’ex amministratore delegato di Stability AI, Emad Mostaque, ha allontanato dall’azienda almeno 19 dirigenti senior nel marzo di quest’anno.
Anche Robin Rombach ha ricominciato a cercare una via d'uscita. Black Forest Labs rappresenta un nuovo inizio per lui e un nuovo punto di partenza per molti ex dipendenti di Stability AI. Quando fu fondato Black Forest Labs, molti dipendenti di Stability AI dissero con entusiasmo: "Siamo in diretta!".
Attualmente esistono tre versioni dei modelli della serie FLUX.1, sia open source che closed source. Tra questi, FLUX.1 [pro] è la versione closed source più potente, progettata per applicazioni professionali che perseguono le massime prestazioni; FLUX.1 [dev] è un modello AI open source che fornisce prestazioni più efficienti in termini di qualità dell'immagine e rapidità parole. servizio, ma non per uso commerciale; FLUX.1 [schnell] è una versione open source progettata per lo sviluppo locale e l'uso personale. È la più veloce delle tre versioni e richiede la memoria più piccola.
Tutti e tre i modelli dispongono di versioni di prova aperte su Replicate e Models. In appena mezzo mese, FLUX.1 [dev]Abbracciando il visoIl numero di download su ha superato 200.000, il numero di download di FLUX.1 [schnell] ha superato 580.000 e il numero di esperienze ha raggiunto 380 milioni di volte.
Link all'esperienza di registrazione: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell
02
Sebbene i modelli della serie FLUX.1 siano creati dal team originale di Stable Diffusion, ciò non significa che siano repliche di Stable Diffusion.
I media hanno messo insieme Flux, SD3 Medium, Auraflow e Midjourney per la revisione. Si può vedere che l'attuale modello grafico vincenziano relativamente eccellente genera foto diverse per lo stesso messaggio di testo.
Per prima cosa, suggeriscine uno: "Illustrazione disegnata a mano di un ragno gigante che insegue una donna nella giungla. Scena estremamente spaventosa, dolorosa, oscura e inquietante, con un'atmosfera spaventosa e suggestiva".
Si può vedere che Flux utilizza molto bene luci e ombre per creare un senso di orrore. Il design del ragno è davvero spaventoso, le zampe sono affilate e il muso del ragno è molto realistico. Il tono ciano di Auraflow non raggiunge un effetto scuro e spaventoso e l'immagine complessiva è stilizzata. Lo stile in bianco e nero di SD3 Medium dà alle persone una forte sensazione di schizzo. Il design del ragno è dettagliato e terrificante, ma la caratterizzazione è un po' incoerente.
La seconda valutazione esamina principalmente la capacità dei generatori di immagini di comprendere lo spazio. Il messaggio di testo recita: "Un cane sta sopra un televisore con la parola 'Decrypt' visualizzata sullo schermo. A sinistra c'è una donna in giacca e cravatta con in mano una moneta, e a destra c'è un robot in piedi su un pronto soccorso. kit. L'intera scena era surreale.
L'immagine generata da Flux è quella più vicina alla descrizione, mette tutti gli elementi dove devono essere. La composizione complessiva è equilibrata, il design di ogni elemento e lo stile retro-futuristico soddisfano i requisiti del surrealismo. Ma presenta anche alcuni difetti, come il fatto che il personaggio abbia una mano in più. SD3 Medium si è classificato al secondo posto. Anche il design complessivo soddisfaceva i requisiti della descrizione del testo, ma mancava la precisione. Ad esempio, il cane in stile cartone animato dovrebbe essere in piedi invece che seduto. Auraflow presenta lacune nell'accuratezza della comprensione del testo e nella qualità delle immagini che presenta.
Il suggerimento tre recita: "Una foto ad alta risoluzione di una trafficata strada cittadina di notte. Le luci al neon illuminano la scena. La gente cammina lungo il marciapiede, le auto passano e i venditori ambulanti vendono hot dog. Le luci si riflettono sulla strada scivolosa. Il stile generale iperrealistico, attenzione ai dettagli e all'illuminazione, l'insegna al neon dice 'Decriptato'" Questo suggerimento si concentra sull'osservazione del realismo dei principali generatori di immagini.
L'immagine generata da Flux è ricca di dettagli e ben illuminata. L'immagine raffigura bene la strada trafficata, con segnali chiave chiari e immagini vivide dei pedoni. SD3 è anche in grado di mostrare una composizione equilibrata, un'illuminazione realistica ed elementi attentamente integrati, ma la rappresentazione dei pedoni è un po' scarna.
Infine, i media stranieri Decrypt hanno messo anche Flux e Midjourney in due valutazioni e alla fine hanno giudicato Flux più forte.
Il primo suggerimento testuale recita: "Una foto in bianco e nero di una donna con lunghi capelli lisci seduta sul pavimento davanti a un divano moderno, indossando un abito completamente nero che mette in risalto le sue curve. Guarda con sicurezza la fotocamera In posa, il suo le gambe snelle sono esposte mentre si accuccia su uno sfondo minimalista che accentua la sua posa elegante. Fotografata da Peter Lindbergh utilizzando un obiettivo Hasselblad X2D da 105 mm con apertura f/4 per un maggiore impatto visivo.
Decrypt ritiene che Flux catturi i requisiti del prompt con pose naturali, sfondi contestuali e rendering dettagliati. Morfologicamente parlando è il più accurato. Midjourney mostra immagini vivide e ricche di dettagli nelle immagini, ma manca la stratificazione delle immagini come Flux e la rappresentazione della postura del corpo non è accurata come Flux.
Il secondo messaggio di testo recitava "Inquadratura a figura intera di un gatto bianco che suona il piano, con indosso occhiali da sole e un cappello, con indosso un abito viola in stile hawaiano su uno sfondo grigio da studio, per uso commerciale".
Decrypt ritiene che Flux soddisfi i requisiti di una foto a figura intera, di uno sfondo grigio da studio e di abiti designati. La composizione è professionale e raffinata e soddisfa pienamente i requisiti tempestivi. Midjourney fornisce riprese ravvicinate e l'immagine è espressiva, ma non soddisfa i requisiti delle riprese a corpo intero e degli sfondi in studio.
Si può vedere che Flux è stato all'avanguardia nel settore in termini di dettagli fotografici e comprensione dello spazio e della stilizzazione. Può competere con Midjourney ed è persino migliore di Midjourney per alcuni aspetti.
03
Si può dire che il campo di AI Wenshengtu sia al momentoIA generativaUna delle piste più calde del settore. Attualmente Google, Meta e OpenAI stanno tenendo d’occhio questo campo. Le capacità dimostrate da FLUX.1 hanno portato molte persone ad aspettarsi che diventi il prossimo Midjourney.
Ma la chiave per diventare il prossimo Midjourney risiede nella commercializzazione.
Il piano base di Midjourney, il pioniere dello stesso percorso, costa 96 dollari all'anno e può generare circa 200 immagini al mese, che equivalgono a 25 immagini per dollaro. Il piano base di Ideogram costa $ 84 all'anno e può generare fino a 400 immagini al mese o 50 immagini per dollaro.
La Foresta Nera ha collaborato con Fal AI, lo sviluppatore del modello open source Auraflow, per supportare la generazione del cloud. Questi modelli sono disponibili anche per test gratuiti su Replicate.com. Una volta raggiunta la quota giornaliera gratuita, gli utenti possono scegliere di utilizzare il modello Flux Pro per generare 33 immagini per $ 1 o utilizzare Flux Schell per generare 333 immagini per $ 1.
Rispetto a Midjourney e Ideogram, Black Forest offre agli utenti più scelte. Ma questo non rappresenta il successo commerciale della Foresta Nera. Il costo per mantenere un modello di intelligenza artificiale generativa è molto alto. Prendiamo come esempio Stability AI. Secondo Forbes, Stability AI spende circa 8 milioni di dollari al mese in costi e salari, ma le sue entrate ammontano a soli 1,2 milioni di dollari, il che è ben lungi dal coprire i costi. Oggi la commercializzazione è diventata anche un collegamento "bloccato" per Ideogram e Pika Labs AI.
Pertanto, per superare davvero Midjourney, il modo in cui la Foresta Nera bilancia entrate e spese sarà la chiave per il suo dominio sul grande modello di intelligenza artificiale vincenziana.
04
Black Forest Labs e Musk sembrano essere d'accordo sulla creazione di un "chatbot AI anti-risveglio", e nessuno dei due vuole imporre troppe restrizioni all'IA.
Il “chatbot AI anti-risveglio” qui si riferisce a un chatbot AI che evita deliberatamente di adottare determinate opinioni politicamente corrette o socialmente risvegliate e non filtrerà argomenti controversi quando li affronta. Grok è ovviamente il portatore del concetto di "chatbot AI anti-risveglio" di Musk.
In termini di valutazione della sicurezza, sebbene Grok abbia menzionato i suoi sei "divieti", comprese restrizioni sui contenuti, copyright, complessità nell'elaborazione delle immagini, ecc., in realtà, a giudicare dalle foto generate, Grok non ha quasi tabù, comprese celebrità, pornografia, violenza, ecc. Le immagini generate sono diventate popolari sulla piattaforma social X.
Sebbene diverse agenzie di regolamentazione abbiano espresso insoddisfazione nei confronti della Social Platform X, Musk sembra ancora impassibile. Dopo il rilascio di Grok-2, Musk ha anche consentito agli utenti di pubblicare immagini AI generate da Grok direttamente sulla piattaforma senza alcuna richiesta di filigrana generata dall'intelligenza artificiale o da Grok.
Musk ha affermato sulla piattaforma social X nel 2022 che stabilire limiti per l’intelligenza artificiale ridurrebbe la sicurezza del modello di intelligenza artificiale. "Addestrare l'IA è facile per svegliarsi. In altre parole, il pericolo di mentire (AI) è fatale. Alcuni media hanno ipotizzato che ciò potrebbe essere dovuto al fatto che il modello della serie FLUX.1 non imponeva troppe restrizioni che hanno portato Musk a scegliere Grok." per subentrare Inserisci i modelli della serie FLUX.1.
secondoIl limiteSecondo la valutazione di molti media, anche il modello AI di immagini simile di Google Imagen e DALL·E 3 di OpenAI si sono rifiutati di generare parole immediate con "sovratoni pericolosi", ma Grok ha risposto rapidamente e ha generato rapidamente immagini.
Solo mezzo mese fa, quando fu fondata la Black Forest Labs, annunciò che l’obiettivo dell’azienda era quello di “aumentare la fiducia delle persone nella sicurezza di questi modelli”. Mezzo mese dopo, Black Forest Labs e Musk si schierarono dalla parte di "nessuna restrizione sull'intelligenza artificiale" e aprirono la scatola nera del modello vincenziano di intelligenza artificiale.
Di fronte a molte polemiche, Black Forest Labs sceglie ora di evitare di parlarne, cercando di spostare il focus della discussione in altre direzioni. Il 14 agosto il membro del consiglio Anjney Midha ha criticato Google sulla piattaforma social X GemelliQuando è stato rilasciato per la prima volta, c'erano discriminazioni razziali nascoste e altre situazioni nel campo della grafica vincenziana, ed è stato affermato che tali situazioni non si sarebbero verificate nei modelli della serie FLUX.1.
Possiamo vedere che in termini di capacità del grafico vincenziano, i modelli della serie FLUX.1 sono davvero potenti e possono già competere con Midjourney. Ma in termini di sicurezza, Black Forest Labs sembra aver scelto una strada diversa rispetto ai giocatori sulla stessa pista.
La "non installazione di guardrail di sicurezza" renderà Black Forest Labs l'attore dominante assoluto nel campo della grafica vincenziana? Oppure distruggerà in un colpo solo la nuova popolarità dei modelli della serie FLUX.1? Vedremo.