uutiset

Kaikki jäsenet jättivät vanhan seuransa, Stable Diffusion aloitti liiketoimintansa ja voitti MJ v6:n välittömästi.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Toimittaja: Du Wei, Jiaqi

Tekoälykuvan ja -videon luominen on lisännyt uuden tehokkaan soittimen.

Muistatko Robin Rombachin, tutkijan, joka erosi AI-startupista Stability AI tämän vuoden maaliskuun lopussa? Yhtenä kahdesta pääkirjailijasta, jotka kehittivät Vincent-graafimallin Stable Diffusion, hän liittyi Stability AI:hen vuonna 2022.



Nyt, melkein viisi kuukautta Stability AI:n jättämisen jälkeen, Robin Rombach twiittasi hyvät uutiset oman yrityksen perustamisesta!

Hän perusti "Black Forest Labsin" edistääkseen SOTA:n korkealaatuisia generatiivisia syväoppimismalleja kuville ja videoille ja tarjotakseen ne mahdollisimman monen ihmisen saataville.



Tiimin jäsenet koostuvat erinomaisista tekoälytutkijoista ja -insinööreistä. Heidän aikaisempaan edustavaan työhönsä kuuluvat VQGAN ja Latent Diffusion, Stable Diffusion -mallit kuvan ja videon luomisessa (mukaan lukien Stable Diffusion XL, Stable Video Diffusion ja Rectified Flow Transformers) ja Adversarial Diffusion. Tislaus erittäin nopeaan reaaliaikaiseen kuvasynteesiin.

On syytä huomata, että Robin Rombachin lisäksi Stable Diffusionilla on kolme muuta kirjoittajaa, joista on tullut perustajatiimin jäseniä, mukaan lukien Andreas Blattmann, Dominik Lorenz ja Patrick Esser. He molemmat jättivät Stability AI:n aiemmin tänä vuonna, ja jotkut spekuloivat lähtevänsä perustaakseen oman yrityksensä.



Tällä hetkellä Labs on saanut päätökseen 31 miljoonan dollarin alkurahoituskierroksen, jota johtaa Andreessen Horowitz. Muita sijoittajia ovat enkelisijoittajat Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun sekä tunnetut tekoälytutkimuksen ja yrittäjyyden asiantuntijat. Lisäksi se sai jatkosijoituksia General Catalystilta ja MätchVC:ltä.

Labs on myös perustanut neuvottelukunnan, jonka jäseninä ovat Michael Ovitz, teknologian pommi, jolla on laaja kokemus sisällöntuotantoalalta, ja professori Matthias Bethge, joka on hermotyylien siirron edelläkävijä ja avoimen tekoälyn tutkimuksen huippuasiantuntija Euroopassa.

Tietysti Black Forest Labs on julkaissut ensimmäisen mallisarjansa "FLUX.1", joka sisältää seuraavat kolme muunnelmamallia.



Ensimmäinen variantti onFLUX.1 [pro] , se on upouusi SOTA Vincent -kaaviomalli, jossa on erittäin rikkaat kuvayksityiskohdat, vahvat nopeat yhteensopivuusominaisuudet ja erilaisia ​​tyylejä. Tällä hetkellä saatavilla API:n kautta.

API-osoite: https://docs.bfl.ml/



Toinen onFLUX.1 [kehittäjä] , joka on avoin, ei-kaupallinen muunnos FLUX.1 [pro]:sta ja on tislattu suoraan jälkimmäisestä. Tämä malli ylittää muut kuvamallit, kuten Midjourney ja Stable Diffusion 3. Päätelmäkoodi ja painot on asetettu GitHubiin. Alla oleva kuva on vertailu kilpaileviin kuvamalleihin.

GitHub-osoite: https://github.com/black-forest-labs/flux



Kolmas on avoimen lähdekoodinFLUX.1 [schnell] , se on erittäin tehokas 4-vaiheinen malli, joka noudattaa Apache 2.0 -protokollaa. Tämä malli on suorituskyvyltään hyvin lähellä [dev] ja [pro], ja sitä voidaan käyttää Hugging Facessa.

Hugging Face 地址: https://huggingface.co/black-forest-labs/FLUX.1-schnell





Samaan aikaan Black Forest Labs alkaa mainostaa itseään.



Seuraava askel on julkaista SOTA Vincent -videomalli, joka on kaikkien saatavilla ja jota kaikki voivat odottaa!



Välitön menestys: Vincent figuurimallisarja "FLUX.1" on tulossa

Kaikki kolme Black Forest Labsin tällä kertaa lanseeraamaa mallia käyttävät hybridi-arkkitehtuuria multimodaalista ja rinnakkaisdiffuusiomuuntajasta. Toisin kuin muut yritykset, jotka jakavat mallisarjan "keskikokoiseen kuppiin", "suureen kuppiin" ja "erittäin suuriin kuppiin" parametrien lukumäärän mukaan, FLUX.1-perheen jäseniä on laajennettu yhtenäisesti valtavaan 12:n mittakaavaan. miljardia parametria.



Tutkimusryhmä otti käyttöön Flow Matching -kehyksen päivittääkseen aiemman SOTA-diffuusiomallin. Virallisen blogin kommenteista voidaan päätellä, että tutkimusryhmä noudatti ehdotettua Rectified flow+Transformer -menetelmää työskennellessään vielä Stability AI:ssä (tämän vuoden maaliskuussa).



Paperilinkki: https://arxiv.org/pdf/2403.03206.pdf

He esittelivät myös kiertoasennon upottamisen ja rinnakkaiset huomiokerrokset. Nämä menetelmät parantavat tehokkaasti mallin suorituskykyä kuvien luomisessa, ja myös kuvien luomisnopeus laitteistolla on nopeutunut.

Black Forest Labs ei tällä kertaa paljastanut mallin yksityiskohtaista tekniikkaa, mutta tarkempi tekninen raportti julkaistaan ​​pian.

Kaikki kolme mallia asettavat uudet standardit omilla aloillaan. FLUX.1 [pro] ja FLUX.1 [dev] ovat sitten luotujen kuvien kauneudesta, kuinka hyvin kuvat sopivat tekstikehotteisiin, koon/kuvasuhteen vaihteluun tai eri tulostusmuotoihin. Suosituista kuvasukupolvimalleista, kuten Midjourney v6.0, DALL・E 3 (HD) ja SD3-Ultra.

FLUX.1 [schnell] on tähän mennessä edistynein muutaman askeleen malli, joka päihittää paitsi kilpailijansa, myös tehokkaat tislaamattomat mallit, kuten Midjourney v6.0 ja DALL・E 3 (HD) Model.

Malli on erityisesti hienosäädetty niin, että se säilyttää harjoitteluvaiheen täyden monimuotoisuuden. FLUX.1-sarjan mallit jättävät myös paljon parantamisen varaa verrattuna nykyiseen huipputekniikkaan.



Kaikki FLUX.1-sarjan mallit tukevat erilaisia ​​kuvasuhteita ja resoluutioita 0,1-2 megapikselistä.



Jotkut nopeasti toimineet nettimiehet ovat jo kokeilleet sitä. Vaikuttaa siltä, ​​että "vahvin", jota Black Forest Labs on toistuvasti korostanut, ei ole vain itsensä mainostaminen.

Yksinkertaiset kehotussanat voivat luoda tällaisen vaikutuksen. Jos tarkastelet alpakan maton kuviota, siinä ei ole vääristymiä tai muodonmuutoksia.



Kehotussana: Smaragdi Emu ratsastaa valkoisen laaman päällä.

Sanomatta, että tämä on tekoälyn luoma kuva, on vaikea sanoa, onko kyseessä valokuvaajan ottama valokuva.



Kehotussana: Hevonen leikkii kahdella aligaattorilla joella.

Tekstiä sisältäviä kuvia on myös helppo käsitellä, ja myös syväterävyys käsitellään vastaamaan todellista linssin tuntumaa.



Kolmen mallin joukossa hieman heikomman suorituskyvyn omaava FLUX.1 [schnell] on myös nopea ja tehokas käyttää. Jotkut verkkokäyttäjät jakoivat kokemuksensa sen käyttämisestä Macilla ja eivät voineet olla huokaisematta, se on todella sen arvoista.



Nettilaiset, jotka eivät tienneet paljoakaan Stable Diffusion and Stability AI:n tekijöiden välisistä "epäkohdista", valittivat: Vincentilainen graafimalli ilmestyi tyhjästä, ja se oli yksinkertaisesti pelottavan voimakas.



Mitä tulee Stable Diffusionin kirjoittajan ja hänen entisen yrityksensä Stability AI:n tarinaan, voit lukea Machine Heartin aiempia raportteja: Kun sen arvo oli 100 miljoonaa dollaria, Stable Diffusionin takana olevat joukkueet alkoivat taistella toisiaan vastaan, kuka on todellinen virkamies ?

Kolmen tehokkaimman Vincentian-mallin lisäksi Black Forest Labs hillitsee "suuria siirtoaan". Mahdollisuuksiensa avulla luoda tällaisia ​​tehokkaita kuvantuotantomalleja, Black Forest Labs on luonut vankan perustan videoiden sukupolven malleille, kuten he ennustavat, nämä huippututkijat etenevät kohti edistyneintä videontuotantotekniikkaa, joka on kaikkien saatavilla.

Yrityksen blogi: https://blackforestlabs.ai/announcements/