uutiset

Tehokkain avoimen lähdekoodin Wensheng-kaaviomalli vaihtoi omistajaa yhdessä yössä! Alkuperäisen SD-ryhmän luoma SOTA-video sukupolvimalli julkaistaan

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Älykkäät asiat (julkinen tili:zhidxcom
kirjoittajavanilja
muokataLi Shuiqing

Tehokkain avoimen lähdekoodin Wensheng-kaaviomalli vaihtoi omistajaa yhdessä yössä!

Zhidongxi raportoi 2. elokuuta, että eilen illalla, avoimen lähdekoodin Wensheng kaavio malli overlordVakaa diffuusioAlkuperäinen tiimi ilmoitti uuden kuvasukupolven mallin lanseerauksestaFLUX.1

FLUX.1 sisältääProfessional Edition, Developer Edition, Express EditionKolmesta mallista kaksi ensimmäistä mallia päihittivät valtavirran mallit, kuten SD3-Ultra, ja pienempi FLUX.1 [schnell] ohitti myös suuremmat mallit, kuten Midjourney v6.0 ja DALL·E 3.


▲FLUX.1 ELO-pisteet valtavirran malleihin verrattuna

FLUX.1 tuumaaTekstin luominen, monimutkaisten ohjeiden seuraaminenjaLuotu käsin on etuja. Seuraavassa on esimerkki kuvista, jotka on luotu sen tehokkaimmalla ammattiversiolla FLUX.1[pro]. Näet, että vaikka luotaisiin suuria tekstiosia ja useita merkkejä, yksityiskohdissa, kuten hahmoissa ja ihmiskäsissä, ei ole virheitä. .


▲FLUX.1[pro] luotu kuvaesimerkki

FLUX.1 on nyt saatavilla avoimen lähdekoodin alustalle Replicate, tässä on vinkkini sen käyttöön "Maailman pienin Schwarzwaldin kakku, sormen kokoinen, Schwarzwaldin puiden ympäröimä”, kolmella mallilla luodut kuvat otettiin vastaavasti17,5 s, 12,2 s, 1,5 s


▲ Kolmen mallisukupolven vertailu

FLUX.1 avaa myös API:n (Application Programming Interface) ja hinnoitellaan kuvien lukumäärän mukaan. Kolmen mallin hinnat ovat vuorotellen kuvakohtaisia.0,055 USD, 0,03 USD, 0,003 USD(Noin RMB 0,4, 0,22 ja 0,022 yuania).

FLUX.1:n takana oleva yritys on nsBlack Forest Labs (Black Forest Laboratory), jonka perustivat Stable Diffusionin alkuperäinen tiimi ja useat entiset Stability AI:n tutkijat.Samoin kuin Stability AI, Black Forest on sitoutunut kehittämään korkealaatuisia multimodaalisia malleja ja niitä on saatu valmiiksi31 miljoonaa dollaria(noin 225 miljoonaa RMB) siemenkierron rahoituksessa.

Black Forest kiusoittelee myös, että se julkaistaan ​​pianSOTA (nykyisten teknisten indikaattoreiden nro 1) videomalli . Julkaiseman demon perusteella sekä tasaisuus, vakaus että fyysinen simulaatio ovat saavuttaneet ensimmäisen tason.


▲Videon sukupolven mallin esikatselu

Kolmen mallin kokeiluosoite:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Hyvä luomaan tekstiä ja ihmiskäsiä, kolme mallia voidaan luoda sekunneissa mittakaavassa

FLUX.1:llä on erinomainen suorituskyky visuaalisen laadun, kuvan yksityiskohtien ja tulosten monimuotoisuuden suhteen.Tekstin luominen, monimutkainen sommittelu, ihmisen käsin piirtäminen

Tekstin luominen on erittäin tärkeää kuvien ja videoiden luomisessa, ja monilla malleilla on taipumus sekoittaa kirjaimet, jotka näyttävät samanlaisilta. FLUX.1 pystyy käsittelemään hankalia sanoja, joissa on toistuvia kirjaimia, kuten luomalla aBlack Forest Flux Schnell -kakku


▲Black Forest Flux Schnell -kakku

Mitä tulee sommitteluun, FLUX.1 on erinomainen seuraamaan monimutkaisia ​​ohjeita, kuten missä asioiden pitäisi olla kuvassa. Esimerkiksi FLUX.1 tulkitsee tämän kehotteen täydellisesti: Kolme maagista velhoa seisoo keltaisella pöydällä, jokaisella on kyltti. Vasemmalla mustissa kaapuissa oleva velho pitää kylttiä, jossa lukee "AI", oikealla noita, jossa lukee "IS", velho pitää kylttiä, jossa lukee "AI" Kyltti, jossa lukee "cool".


▲ Monimutkainen koostumus

Ihmiskädet ovat aina olleet multimodaalisten generatiivisten mallien eniten kärsinyt alue. Vaikka FLUX.1:n luoma ihmiskäsikuva ei ole vielä täydellinen, se on edistynyt huomattavasti.


▲ Työvoimaa

FLUX.1 yhteensäProfessional Edition, Developer Edition, Express EditionKolme versiota.

sisään,FLUX.1[pro]Se on edistyksellisin versio, jossa on huipputason välitön seuranta, visuaalinen laatu, kuvan yksityiskohdat ja tulosten monimuotoisuus, ja se tarjoaa räätälöityjä yritysratkaisuja ammattikäyttäjille.


▲FLUX.1[pro] luotu kuvaesimerkki

FLUX.1[dev]Ei-kaupallisiin sovelluksiin tarkoitettu se on jalostettu FLUX.1[pro]:sta ja tarjoaa samanlaisen laadun ja ominaisuudet samalla kun se on tehokkaampi kuin samankokoiset vakiomallit.


▲FLUX.1[dev] luotu kuvaesimerkki

FLUX.1[schnell]Nopein kolmesta mallista, se on räätälöity paikalliseen kehittämiseen ja henkilökohtaiseen käyttöön, ja se on julkisesti saatavilla Apache 2.0 -standardilisenssillä.


▲FLUX.1[schnell] luotu kuvaesimerkki

FLUX.1 on nyt saatavilla avoimen lähdekoodin alustalle Replicate, ja sitä voidaan ajaa pilvessä yhdellä koodirivillä tai käyttäjät voivat ladata mallipainot ja suorittaa ne ohjelmallisesti. Myös FLUX.1:n API on avoinna samanaikaisesti, ja kolmen mallin hinnat ovat seuraavat:0,055 USD, 0,03 USD, 0,003 USD(Noin RMB 0,4, 0,22 ja 0,022 yuania).

2. TappioMJ V6DALLE 3, tekninen raportti julkaistaan ​​pian

Suorituskyvyn suhteen FLUX.1 on erityisesti hienosäädetty säilyttämään koko tulosten monimuotoisuus esikoulutuksessa ja asettaa uusia standardeja monissa asioissa, kuten ohjeiden noudattamisessa, visuaalisessa laadussa, koon/pituuden ja leveyden muutoksissa jne.

Niistä kaksi mallia, FLUX.1 [pro] ja [dev], ylittivät suositut mallit, kuten Midjourney v6.0, DALL·E 3 ja SD3-Ultra viidessä arviointikriteerissä.

Kevyenä mallina FLUX.1[schnell] ei ole vain parempi kuin vastaavat kilpailijat, vaan myös parempi kuin tehokkaat tislaamattomat mallit, kuten Midjourney v6.0 ja DALL·E 3.


▲FLUX.1-suorituskykyvertailu valtavirtamalleihin

Lisäksi kaikki FLUX.1-mallit tukevat useita kuvasuhteita ja 0,1 ja 2,0 megapikselin resoluutioita.


▲Kuvasuhde/resoluutio muuttuu

Miten niin tehokas suorituskyky saavutetaan?

Malliarkkitehtuurin suhteen FLUX.1 ottaa käyttöön hybridiarkkitehtuurin, joka perustuu multimodaalisiin ja rinnakkaisdiffuusiomuuntajamoduuleihin, ja laajentaa sen 12B parametreihin.

Tiimi paransi huippuluokan diffuusiomallia rakentamalla Flow Matchingin ja paransi mallin suorituskykyä ja laitteiston tehokkuutta yhdistämällä Rotary Position Embeddingin ja rinnakkaiset huomiotasot. Tarkempi tekninen raportti julkaistaan ​​lähiaikoina.

kolme,SDAlkuperäinen miehistö,2.25100 miljoonaaSiemen pyöreä, haluat lähettääSOTAvideo malli

Black Forest Labin perusti Stable Diffusionin perustajatiimi. Tiimin aikaisempi työ sisälsi myös korkealaatuisen kuvan generointimallin VQGAN, videon sukupolven mallin Stable Video Diffusionin jne.

Stable Diffusionin viiden alkuperäisen kirjoittajan joukossa,4Jäsenet, jotka ovat liittyneet Stability AI:hen ja jatkaneet SD:n myöhempien versioiden kehittämistä, mukaan lukien Robin Rombach, Andreas Blattmann, Dominik Lorenz ja Patrick Esser, kuuluvat kaikki Black Forest Labsin perustajatiimiin.


▲ Stable Diffusionin kirjoittaja ja Black Forest Labin perustajatiimi

Tiimi sanoi, että sen ydinajatuksena on kehittää laajasti saavutettavia malleja, edistää innovaatioita ja yhteistyötä tutkimus- ja akateemisissa yhteisöissä sekä lisätä mallien läpinäkyvyyttä.

Black Forest Labs ilmoittaa valmistuneensa31 miljoonaa dollaria(noin 225 miljoonaa RMB)Siemenkierroksen rahoitussijoitukseen osallistuivat myös tunnettu pääomasijoituslaitos a16z (Andreessen Horowitz), VR-valmistaja Oculusin toimitusjohtaja Brendan Iribe, startup-hautomon YC:n toimitusjohtaja Garry Tan, NVIDIA-tutkija Timo Aila sekä muut asiantuntijat ja tekoälyyritykset, ja myös saanut Jatkosijoituksia on tehty ensiluokkaisista rahastoista, kuten General Catalyst.

Ryhmän neuvottelukuntaan kuuluvat Disneyn entinen presidentti Michael Ovitz, jolla on laaja kokemus sisällöntuotantoalalta, ja professori Matthias Bethge, joka on hermotyylien siirron edelläkävijä.

AI-mestari, joka juuri aloitti yrityksensäAndrei Capasi(Andrej Karpathy) lähetti siunauksensa Schwarzwaldin tiimille ja sanoi, että "avoimen lähdekoodin FLUX.1-kuvan sukupolvimalli näyttää erittäin tehokkaalta."


▲Kapasin kommentit

Entinen perustajatiimin johtaja - entinen Stability AI:n toimitusjohtajaEmad Mostak(Emad Mostaque) lähetti myös onnitteluviestin ja sanoi: "On ollut kunnia työskennellä heidän kanssaan aiemmin, ja uskon, että he jatkavat rajojen ylittämistä jokaisen pikselin tuottamisessa."


▲Mostaq kommentoi

Seuraavassa työvaiheessa Black Forest Trailer julkaisee aSOTA Vincent -videomalli , "Antaa kaikkien muuntaa tekstin videoksi." Malli rakennetaan FLUX.1:lle, joka "mahdollistaa tarkan luomisen ja editoinnin teräväpiirtotarkkuudella ja ennennäkemättömällä nopeudella."


▲Videon sukupolven mallin esikatselu

Johtopäätös: Tummat hevoset ilmestyvät multimodaalisten suurten mallien alalla

Vaikka monet suuret valmistajat ja start-upit ovat hulluina Vincent-videoihin, Vincent-kuvien kenttään tuli yhtäkkiä pimeä hevonen. "Bonn out of the blue" FLUX.1 ei ainoastaan ​​osoita erinomaista suorituskykyä, ylittää tekstin luomisen, monimutkaisen sommittelun ja manuaalisen piirtämisen vaikeudet, vaan myös täyttää eri käyttäjien tarpeet monipuolisilla versioilla.

Alkuperäisen Stable Diffusion -tiimin vahvaan vahvuuteen luottaen Black Forest Laboratory on saanut runsaasti alkurahoitusta ja saanut monien alan johtajien huomion ja tuen. Tulevaisuudessa julkaistavat videomallit tuovat uutta elinvoimaa Vincent-videon alalle.