uutiset

Midjourney Challenge ilmestyy! Sai 32 miljoonan rahoituksen 15 päivässä ja tuli Grokin sisäiseen

2024-08-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kirjoittaja|Xuushan, toimittaja|Manman Zhou

Monet ihmiset odottavat, että siitä tulee seuraava Midjourney.

Tämä saattaa olla historian tehokkain tekoälyn käynnistys.

Vain 15 päivää perustamisensa jälkeen AI-startup Black Forest Labs on jo kerännyt 32 miljoonaa dollaria alkurahoitusta ja julkaissut FLUX.1-sarjan suuria Vincent AI -malleja.

Paitsi, että jopa Grok-2, suuri äsken Muskin tuottama tekoälymalli, käynnisti nopeasti Vincenti-grafiikkatoiminnon tuella, mikä houkutteli miljoonia nettiläisiä osallistumaan vuorovaikutukseen.

Ja toisin kuin muiden AI-mallien Vincenti-kuvatoiminto, Grok-2:lla luoduille kuville ei ole juuri mitään rajoituksia, ja ne ovat melko realistisia.

Halusitpa sitten Steve Jobsin kiusaavan kissaa tai Zuckerbergin ja Muskin tapaavan offline-tilassa "Octagonal Cage" -häkissä, Grok-2 voi täyttää toiveesi. Voidaan nähdä, että malli toimii erittäin hyvin semanttisen ymmärryksen, kohdistuksen ja kuvanluontiominaisuuksien suhteen (turvallisuutta lukuun ottamatta).

Mikä on tämän yrityksen alkuperä? Kuinka se sai verkkovieraat hulluiksi, ja jopa Musk oli halukas valitsemaan sen ydintuotteisiinsa? Perusteellisen tutkimuksen jälkeen Mr. Silicon Rabbit paljasti lopulta Black Forest Labsin mysteerin.

01

15 ihmistä pakeni yhdessä Stability AI:stä

Black Forest Labs julkaisee kolme tekoälymallia peräkkäin

Mahdollisuus perustaa Black Forest Labs alkaa Stability AI:stä, toisesta tekoälyyksisarvisyrityksestä.

Itse asiassa Black Forest Labsin nykyinen 15 hengen start-up-tiimi on kaikki Stability AI:stä. Voidaan sanoa, että Black Forest Labsin perustaminen oli työntekijöiden kollektiivinen lento.

Black Forest Labsin perustaja Robin Rombach oli entinen Stability AI:n tutkija ja yksi Stability AI:n kahdesta peruspilarista.

Hän opiskeli fysiikkaa Heidelbergin yliopistossa ja aloitti tohtoriopinnot yliopiston tietokonenäköryhmässä vuonna 2020. Robin on keskittynyt syväoppimismalleihin, erityisesti Vincentiläisten graafien alalla, ja sitten liittyi Münchenin yliopistoon vuonna 2021 tieteellisen tutkimusryhmän kanssa.

Stability AI:n palveluksessa ollessaan hän johti Vincentiläisen graafisen tekoälyn suuren mallin kehittämistä.Vakaa diffuusio. Stable Diffusionia voitiin aluksi kutsua tekoälykuvantamisen yliherraksi, mikä aiheutti shokin alalla. Stability AI:n arvo on myös ylittänyt 1 miljardin Yhdysvaltain dollarin, mikä tekee siitä yhden tekoälyn yksisarvisista.

Mutta Stability AI:n kehitys ottaa jyrkän käänteen vuonna 2024. Raporttien mukaan Stability AI:n vuosikustannukset ovat noin 99 miljoonaa dollaria, mutta sen tulot ovat vain 11 miljoonaa dollaria, mikä johtaa vakavaan epätasapainoon tulojen ja menojen välillä. Myöhemmin Stability AI:n entinen toimitusjohtaja Emad Mostaque poisti yhtiöstä ainakin 19 ylempää johtajaa tämän vuoden maaliskuussa.

Robin Rombach alkoi myös etsiä ulospääsyä uudelleen. Black Forest Labs on uusi alku hänelle ja uusi lähtökohta monille entisille Stability AI -työntekijöille. Kun Black Forest Labs perustettiin, monet Stability AI -työntekijät sanoivat innoissaan: "Olemme live-tilassa!".

Tällä hetkellä FLUX.1-sarjan malleista on kolme versiota, sekä avoimen lähdekoodin että suljetun lähdekoodin. Niistä FLUX.1 [pro] on tehokkain suljetun lähdekoodin versio, joka on suunniteltu huippusuorituskykyä tavoitteleville ammattisovelluksille. FLUX.1 [dev] on avoimen lähdekoodin tekoälymalli, joka tarjoaa tehokkaamman suorituskyvyn kuvanlaadussa ja nopeasti FLUX.1 [schnell] on avoimen lähdekoodin versio, joka on suunniteltu paikalliseen kehittämiseen ja henkilökohtaiseen käyttöön. Se on nopein kolmesta versiosta.

Kaikilla kolmella mallilla on avoimet kokeiluversiot Replicate- ja Models-versioissa. Vain puolessa kuukaudessa FLUX.1 [dev]halaavat kasvotLatausten määrä on ylittänyt 200 000, FLUX.1 [schnell] -latausten määrä on ylittänyt 580 000 ja elämysten määrä 380 miljoonaa kertaa.

Rekisteröintikokemuslinkki: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell

02

Hengpingin katsaus neljään tärkeimpään tekoälykuvageneraattoriin

Flux voittaa yksityiskohdissa ja tilan ymmärtämisessä

Vaikka FLUX.1-sarjan mallit on luonut alkuperäinen Stable Diffusion -tiimi, tämä ei tarkoita, että ne olisivat Stable Diffusionin jäljennöksiä.

Media laittoi Fluxin, SD3 Mediumin, Auraflown ja Midjourneyn yhteen tarkastettavaksi. Voidaan nähdä, että nykyinen suhteellisen erinomainen Vincentilainen graafimalli luo erilaisia ​​kuvia samalle tekstikehotteelle.

Ensin kehotetaan: "Käsin piirretty kuva jättiläishämähäkistä, joka jahtaa naista viidakossa. Äärimmäisen pelottava, tuskallinen, synkkä ja kammottava kohtaus, jossa on pelottava, vihjaileva tunnelma."

Voidaan nähdä, että Flux käyttää valoja ja varjoja erittäin hyvin luodakseen kauhun tunteen. Hämähäkin muotoilu on todella pelottava, jalat ovat terävät ja hämähäkin kasvot ovat hyvin realistiset. Auraflown syaanisävy ei saa aikaan tummaa ja pelottavaa vaikutusta, ja kokonaiskuva on tyylitelty. SD3 Mediumin mustavalkoinen tyyli antaa ihmisille vahvan luonnosmaisen tunteen. Hämähäkin suunnittelu on yksityiskohtainen ja pelottava, mutta luonnehdinta on hieman epäjohdonmukainen.

Toisessa arvioinnissa tarkastellaan lähinnä kuvageneraattoreiden kykyä ymmärtää tilaa. Tekstikehote kuuluu: "Koira seisoo television päällä, jonka näytöllä näkyy sana "Decrypt". Vasemmalla on pukuinen nainen pitelemässä kolikkoa ja oikealla robotti seisoo ensiavulla. pakki. Koko kohtaus oli surrealistinen.

Fluxin luoma kuva on lähinnä kuvausta, se laittaa kaikki elementit paikoilleen. Kokonaiskoostumus on tasapainoinen, jokaisen elementin muotoilu ja retrofuturistinen tyyli täyttävät surrealismin vaatimukset. Mutta siinä on myös joitain puutteita, kuten hahmolla on ylimääräinen käsi. SD3 Medium sijoittui kakkoseksi. Kokonaismuotoilu täytti myös tekstin kuvausvaatimukset, mutta tarkkuus puuttui. Esimerkiksi sarjakuvatyylisen koiran pitäisi olla istumisen sijaan. Auraflowssa on aukkoja tekstin ymmärtämisen tarkkuudessa ja sen esittämien kuvien laadussa.

Kolmannessa kärjessä lukee "Korkearesoluutioinen valokuva vilkkaalta kaupungin kadulta yöllä. Neonvalot valaisevat kohtauksen. Ihmiset kävelevät jalkakäytävällä, autot ajavat ohi ja katukauppiaat myyvät hot dogeja. Valot heijastuvat liukkaalle tielle. Yleinen tyyli hyperrealistinen, huomiota yksityiskohtiin ja valaistukseen, valokyltti sanoo "Decrypted"" Tämä vihje keskittyy tarkastelemaan tärkeimpien kuvageneraattoreiden realistisuutta.

Fluxin luomassa kuvassa on runsaasti yksityiskohtia ja hyvin valaistu kuva. SD3 pystyy näyttämään myös tasapainoisen sommittelun, realistisen valaistuksen ja huolellisesti integroidut elementit, mutta jalankulkijoiden kuvaus on hieman ohutta.

Lopuksi myös ulkomainen media Decrypt laittoi Fluxin ja Midjourneyn kahteen arvioon ja piti lopulta Fluxia vahvempana.

Ensimmäinen tekstikehote kuuluu: "Mustavalkoinen kuva naisesta, jolla on pitkät suorat hiukset istumassa lattialla modernin sohvan edessä, yllään täysin musta asu, joka korostaa hänen muotoaan. Hän katsoo luottavaisesti kameraan Poseeraa, hänen hoikat jalat näkyvät hänen kyyristyessään minimalistista taustaa vasten, joka korosti hänen eleganttia asentoaan. Kuvannut Peter Lindbergh käyttämällä Hasselblad X2D 105 mm -objektiivia f/4-aukon asetuksella parantaakseen visuaalista vetovoimaa.

Decrypt uskoo, että Flux vangitsee kehotteen vaatimukset luonnollisilla asennoilla, kontekstuaalisilla taustoilla ja yksityiskohtaisella renderöinnillä. Morfologisesti se on tarkin. Midjourney näyttää kuvissa eloisia kuvia ja rikkaita yksityiskohtia, mutta siitä puuttuu kuvan kerros, kuten Flux, ja kehon asennon esitys ei ole yhtä tarkka kuin Flux.

Toisessa tekstikehotteessa luki "Koko vartalokuva valkoisesta kissasta, joka soittaa pianoa, aurinkolasit ja hattu yllään, purppurainen havaijilaistyylinen asu harmaalla studiotaustalla, kaupalliseen käyttöön."

Decrypt uskoo, että Flux täyttää koko kehon valokuvan, harmaan studiotaustan ja nimettyjen vaatteiden vaatimukset. Koostumus on ammattimainen ja hieno ja täyttää täysin nopeat vaatimukset. Midjourney tarjoaa lähikuvia, ja kuva on ilmeikäs, mutta se ei täytä kokovartalokuvien ja studiotaustojen vaatimuksia.

Voidaan nähdä, että Flux on ollut alan eturintamassa valokuvayksityiskohtien sekä tilan ja tyylin ymmärtämisen suhteen. Se voi kilpailla Midjourneyn kanssa ja on joissakin asioissa jopa parempi kuin Midjourney.

03

Haluatko naida Midjourneya?

Black Forest pitää vielä kaupallistaa

AI Wenshengtun alan voidaan sanoa olevan tällä hetkelläGeneratiivinen AIYksi alan kuumimmista kappaleista. Tällä hetkellä Google, Meta ja OpenAI katselevat tällä alalla. FLUX.1:n osoittamat ominaisuudet ovat saaneet monet ihmiset odottamaan, että siitä tulee seuraava Midjourney.

Mutta avain seuraavaksi keskimatkaksi on kaupallistaminen.

Midjourneyn perussuunnitelma, saman radan pioneeri, maksaa 96 dollaria vuodessa ja voi tuottaa noin 200 kuvaa kuukaudessa, mikä vastaa 25 kuvaa dollaria kohden. Ideogramin perussuunnitelma maksaa 84 dollaria vuodessa ja voi tuottaa jopa 400 kuvaa kuukaudessa tai 50 kuvaa dollaria kohden.

Black Forest on tehnyt yhteistyötä avoimen lähdekoodin Auraflow-mallin kehittäjän Fal AI:n kanssa tukeakseen pilven luomista. Nämä mallit ovat myös saatavilla ilmaiseksi testattavaksi osoitteessa Replicate.com. Kun käyttäjät saavuttavat ilmaisen päivittäisen kiintiönsä, he voivat valita Flux Pro -mallin avulla 33 kuvan luomiseen 1 dollarilla tai Flux Schellin avulla 333 kuvan luomiseen 1 dollarilla.

Midjourney- ja Ideogrammiin verrattuna Black Forest tarjoaa käyttäjille enemmän valinnanvaraa. Mutta tämä ei edusta Black Forestin kaupallista menestystä. Generatiivisen tekoälymallin ylläpitokustannukset ovat erittäin korkeat. Otetaan esimerkkinä Stability AI Forbesin mukaan Stability AI käyttää noin 8 miljoonaa dollaria kuukaudessa kuluihin ja palkkoihin, mutta sen tulot ovat vain 1,2 miljoonaa dollaria, mikä ei kata kustannuksia. Nykyään kaupallistamisesta on tullut myös Ideogramin ja Pika Labs AI:n "jumiutunut" linkki.

Siksi, jotta todella ylittäisit Midjourneyn, se, miten Black Forest tasapainottaa tulot ja kulut, on avain sen dominointiin Vincentian AI-suurmallissa.

04

Menetkö vastoin alkuperäistä aikomustasi alle puolessa kuukaudessa?

Schwarzwaldilla on moniselitteinen asenne turvallisuuteen Vincent Figuressa

Black Forest Labs ja Musk näyttävät olevan yhtä mieltä "heräämistä estävän AI-chatbotin" rakentamisesta, eivätkä kumpikaan halua asettaa tekoälylle liikaa rajoituksia.

"Anti-herännyt AI chatbot" viittaa tässä AI-chatbotiin, joka tietoisesti välttää omaksumasta tiettyjä poliittisesti korrekteja tai sosiaalisesti heränneitä näkemyksiä. Se ei suodata kiistanalaisia ​​aiheita niiden kanssa. Grok on ilmeisesti Muskin "heräämistä estävän AI chatbot" -konseptin kantaja.

Turvallisuusarvioinnin osalta Grok mainitsi kuusi "kieltoa", mukaan lukien sisältörajoitukset, tekijänoikeudet, kuvankäsittelyn monimutkaisuus jne., itse asiassa, luotujen valokuvien perusteella Grokilla ei ole juuri mitään tabuja, mukaan lukien julkkikset, pornografia, väkivalta, jne. Luoduista kuvista on tullut suosittuja sosiaalisessa mediassa X.

Vaikka useat sääntelyvirastot ovat ilmaisseet tyytymättömyytensä Social Platform X:ään, Musk näyttää edelleen olevan pettynyt. Grok-2:n julkaisun jälkeen Musk antoi käyttäjien julkaista Grokin luomia tekoälykuvia suoraan alustalla ilman tekoälyn tai Grokin luomia vesileimokehotteita.

Musk mainitsi sosiaalisessa alustassa X vuonna 2022, että rajojen asettaminen tekoälylle heikentäisi tekoälymallin turvallisuutta. "Tekoälyn harjoittelu on helppo herättää. Toisin sanoen (AI) valehtelemisen vaara on kohtalokas. Jotkut tiedotusvälineet arvelivat, että se saattaa johtua siitä, että FLUX.1-sarjan malli ei asettanut liikaa rajoituksia, mikä sai Muskin valitsemaan Grokin." siirtyä FLUX.1-sarjan malleihin.

mukaanThe VergeMonien medioiden arvioiden mukaan Googlen samankaltainen tekoälymalli Imagen ja OpenAI:n DALL·E 3 kieltäytyivät myös generoimasta "vaarallisia ylisävyjä" sisältäviä sanoja, mutta Grok reagoi nopeasti ja loi kuvat nopeasti.

Vain puoli kuukautta sitten, kun Black Forest Labs perustettiin, se ilmoitti, että yrityksen tavoitteena oli "lisätä ihmisten luottamusta näiden mallien turvallisuuteen". Puoli kuukautta myöhemmin Black Forest Labs ja Musk asettuivat "ei rajoituksia tekoälylle" puolelle ja avasivat Vincentian AI -mallin mustan laatikon.

Monien ristiriitojen edessä Black Forest Labs päättää nyt välttää puhumasta siitä ja yrittää siirtää keskustelun painopisteen muihin suuntiin. Sen hallituksen jäsen Anjney Midha kritisoi Googlea sosiaalisessa alustassa X 14. elokuuta KaksosetKun se julkaistiin, Vincentiläisen grafiikan alalla oli piilotettua rotusyrjintää ja muita tilanteita, ja todettiin, että tällaisia ​​tilanteita ei esiinny FLUX.1-sarjan malleissa.

Voimme nähdä, että Vincentin graafisen kyvyn suhteen FLUX.1-sarjan mallit ovat todella tehokkaita ja voivat jo kilpailla Midjourneyn kanssa. Mutta turvallisuuden kannalta Black Forest Labs näyttää valinneen eri polun kuin samalla radalla olevilla pelaajilla.

Tekeekö "turvakaiteiden asentamatta jättäminen" Black Forest Labsista ehdottoman hallitsevan toimijan Vincentiläisen grafiikan alalla? Vai tuhoaako se FLUX.1-sarjan mallien uuden suosion yhdellä iskulla? Saa nähdä.