Ilmainen julkinen beta täytti palvelimen, ja Sora sai kiitosta fyysisestä sense

Ilmainen julkinen beta tyrmäsi palvelimen, ja Sora sai kiitosta fyysisestä järkestään.

2024-07-24

Kirjailija丨 Zimo

Soran, Runwayn ja Pikan jälkeen toinen kuvapohjainen ja videopohjainen tekoälytuotteen suosio on kasvanut räjähdysmäisesti – Dream Machine.

Dream Machinen takana on vuonna 2021 perustettu amerikkalainen yritys nimeltä Luma AI. Viimeisten kolmen vuoden aikana se on suorittanut menestyksekkäästi kolme rahoituskierrosta, joiden kokonaisrahoitus on 67,3 miljoonaa dollaria. Viimeisin B-sarjan 43 miljoonan dollarin rahoitus tapahtui tämän vuoden tammikuussa, ja sitä johti tunnettu pääomasijoituslaitos a16z, ja Nvidia osallistui toiseen sijoitukseen, ja rahan jälkeinen arvostus oli 200-300 miljoonaa dollaria.

Tämän vuoden kesäkuussa Dream Machine julkaisi ilmaisen julkisen betaversion ympäri maailmaa. Jotta voit verrata ja kilpailla niiden kanssa, jotka ovat tulleet peliin ensin, se korostaa "tehokkuuden", "fysiikan" ja "peilin liikkeen" ominaisuuksia. Yksi tärkeimmistä ominaisuuksista on, että se pystyy luomaan 120 ruudun videon vain 120 sekunnissa (julkisen beta-vaiheen aikana oli kuitenkin liian paljon ihmisiä jonossa, ja käyttäjät ilmoittivat yleensä, että videon luomiseen menee 10-20 minuuttia, ja joissakin jopa 2 tuntia). Käyttäjien aivoriihi tekee syntyvistä videoista täynnä luovuutta ja mielikuvitusta, ja niiden sovelluksella mainonnassa, opetuksessa ja koulutuksessa, tarinan luomisessa ja muilla aloilla on myös ollut merkittävä rooli kustannusten vähentämisessä ja tehokkuuden lisäämisessä.

Mikä AI-videoiden sukupolven tuote on paras?

Suunnittelun suhteen Dream Machinen sivu on intuitiivinen ja yksinkertainen, ja siinä on kaksi toimintoa: Vincent Video ja Tusheng Video. Wensheng-videoissa englanninkieliset kuvaukset tehostavat paremmin tehdä vaikutuksista realistisempia.

Kuitenkin käyttäjille, jotka eivät ole niin vahvoja tekstinluontikyvyssä, Tusheng-videotoiminto on suositumpi, koska se on enemmän kuin teoksen toissijainen käsittely. Lataa vain kuva ja lisää tekstikuvaus mielessäsi olevaan kohtaukseen animoidaksesi staattisen kuvan ja kertoaksesi tarinan videon muodossa.

Twitterissä voimme nähdä erilaisia luovia videoita, joita käyttäjät jakavat, mukaan lukien hauskoja videoita, jotka saavat Mona Lisan liikkumaan, käyttämällä selfieitä näkymän palauttamiseen selfieitä otettaessa ja herkästi "herättelemään" tärkeitä ihmisiä näkymän uudelleen luomiseen. Voidaan sanoa, että tekoälyn luomistyökalut ja käyttäjien rikas mielikuvitus antavat teoksiin uutta elinvoimaa.

Tällä tiellä benchmarking on aina ollut erottamaton aihe. Arkkitehtonisesti sekä Dream Machine että Sora käyttävät Diffusion Transformer -arkkitehtuuria, ja tuotetun sisällön näkökulmasta korrelaatio on suurempi kuin Runway ja Pika, Dream Machinen erilaistuminen heijastuu laajemmassa liike- ja liikevalikoimassa; Objektiivin vaihtoa on enemmän ja nopeampi, sen sijaan, että videossa olevat kohteet liikkuvat hieman, mutta koska malli on vielä lapsenkengissä, myös ohjattavuusongelmia ilmenee. Esimerkiksi käyttäjätestauksen aikana eläinlinssien vaihdossa tapahtui kohtuuton monipäinen ilmiö Kaiken kaikkiaan tiedoissa ja mallissa on monia optimoitavia kohtia.

Kun tarkastellaan yhden videosukupolven kestoa, Dream Machine pystyy luomaan 5 sekunnin videon 120 sekunnissa, Runway on nopeampi ja voi tuottaa 10 sekunnin videon 90 sekunnissa sekuntia, kun taas Pika on edelleen kertaluonteinen video. Sora on alullepanijana rikkonut aikarajan, mutta se kestää melkein tunnin. . Verrattaessa useiden tuotteiden hintoja, ilmaisen kokeilujakson jälkeen Dream Machine on kokonaishinnoittelultaan korkein, kun Pikan ammattiversio on 6-kertainen standardiversioon verrattuna ja muut tuotteet noin 2-3,5-kertaiset.

(AI-videosukupolven tuotteiden hintavertailu)

Lopuksi videon luomisvaikutuksesta päätellen sama tekstikappale ilmaistaan eri tyyleillä eri tuotteiden luomissa videoissa. Muihin tuotteisiin verrattuna elokuvamainen tunnelma ja fyysinen realismi ovat yksi yleisistä tunteista, joita käyttäjät tuntevat käyttäessään Dream Machinea. Videomateriaali ja sen luoma mukaansatempaava tunne ovat vahvempia. Yhteenvetona on kaksi mahdollista syytä. Ensinnäkin tuote käyttää suuren määrän elokuvapätkiä malliharjoittelun aikana, mikä tekee myös luodusta videosta mielikuvituksen rajoittuneena, vaan lisää kohtauksia ja myös Animoitujen hahmojen käsittely ja suuliikkeiden lisääminen saavat ne näyttämään realistisemmilta.

Vincentin 3D-minihahmot ovat mahdollisia hänen teknologiansa ansiosta.

Luma AI on keskittynyt 3D-sisällön luomiseen perustamisestaan lähtien. Aiemmin julkaistusta Vincent 3D -mallisovelluksesta Genie1.0 tuli aikoinaan maailmanlaajuinen hitti. Sovelluksella on PC-verkkoversio ja mobiilisovellusversio (nimeltään Luma AI), ja sitä voidaan käyttää myös ulkomailla laajalti käytetyillä Discord-palvelimilla.

Syötä vain tekstikuvaus, ja neljä realistista 3D-mallia voidaan luoda 10 sekunnissa, kuten "pieni hahmo". Lopuksi se voidaan tulostaa useissa muodoissa, kuten fbx, gltf, obj jne., jotta saavutetaan saumaton yhteys muihin 3D-muokkausohjelmistoihin (kuten Unity ja Blender), jolloin malli voi liikkua, täydellisesti istuvia pelejä, animaatioita ja muita kohtauksia, todella saavuttaa alavirtaan Tarjoa kohtauksen voimaannuttamista.

Genie1.0:n matala tekninen kynnys mahdollistaa myös 3D-kohtausten rekonstruoinnin yksinkertaisesti kuvaamalla videoleikkeitä. Odota vaatimusten mukaisesti 360° kuvia kohteesta kolmesta kulmasta: katso ylös, katso alas ja katso ylös. Odota latauksen jälkeen muutama minuutti, jotta Genie 1.0 suorittaa videon 3D-renderöinnin.

Teknisesti Luma AI:n voidaan sanoa vieneen NeRF:n (Neural Radiation Field) äärimmäisyyksiinsä. Perinteinen NeRF vaatii ammattikäyttöön tarkoitettujen laitteiden käyttöä suuren määrän kuvia ottaessa, ja koordinaattien sijaintia on noudatettava tarkasti. Nykyään taustalla olevan koodin avoimen lähdekoodin ansiosta on kehitetty yhä enemmän yksinkertaistettuja malleja, ja vaadittuja valokuva- ja kuvauskulmavaatimuksia on vähennetty huomattavasti Genie1.0 on saavuttanut korkeamman tason ja siitä on tullut opas Käytetään milloin tahansa, missä tahansa.

3D-teknologian ja -tuotteiden kertyminen on auttanut yritystä siirtymään sujuvasti 3D-sukupolvelta videontuotantoon, mutta päinvastoin videon tuotanto on myös luonut laadukkaat olosuhteet 3D:lle. Luma AI:n konseptissa videon sukupolven tuotteiden valmistuksen tarkoituksena on lisätä 3D- ja aikaulottuvuuksia 4D:n luomiseksi paremmin, ja videolla on tässä välirooli.

Voimme yhdistää kaksi tuotetta Genie1.0 ja Dream Machine. Ensimmäinen voi rakentaa 3D-malleja monikulmaisten videoiden avulla, ja jälkimmäinen käyttää 3D-mallien keräämistä videoiden luomiseen. Ja koska 3D:llä on datarajoituksia verrattuna kuviin ja videoihin, jos haluat luoda 3D:tä paremmin, tarvitset enemmän suurta mallitietoa sen ohjaamiseen. Lopullisen 4D-tavoitteen saavuttamiseksi generoidusta videosta kerätään usean näkymän tietoja, joita käytetään sitten 4D-tehosteiden luomiseen. Kokonainen ketju avataan.

Missä on tie ulos lopulta?

Tästä vuodesta lähtien tekoälyvideon sukupolvi on vähitellen ruuhkautunut, etenkin suuret Internet-yritykset ovat tehneet tiettyjä järjestelyjä tällä alalla. Kun osallistujien määrä jatkaa kasvuaan, jotkut ongelmat paljastuvat vähitellen, mikä heijastuu pääasiassa luotujen videoiden ohjattavuuteen ja johdonmukaisuuteen.

Nämä kaksi ongelmaa ilmenevät pääasiassa videokulmaa vaihdettaessa, kuten aiemmin mainitussa monipääkohtauksessa ja muotokuvakohtauksessa Koska ihmisten ilmeet ja yksityiskohdat muuttuvat nopeasti ja niitä on vaikea tallentaa, videossa Vaihdossa kasvojen kulma, kasvot voivat vääristyä seuraavan sekunnin aikana tai jopa eri kasvot eivät ole samat, ja tämä on yksi syy videon pituuden rajoittamiseen. Mitä kauemmin videon luominen kestää, sitä vaikeampaa on varmistaa johdonmukaisuus.

(Monipäiset eläimet näkyvät luodussa videossa)

Tämä kipupisteongelma on vaivannut myös monia kehittäjiä. Vaikka täydellistä ratkaisua ei vielä ole, heidän kehitystoimistaan näkee, että he työskentelevät jo tämän ydinsuuntaan. Esimerkiksi Tencent AI Labin kehittämä VideoCrafter2 käyttää heikkolaatuisia videoita asioiden liikkeen johdonmukaisuuden varmistamiseksi SenseTimen lanseeraama hahmojen sukupolvimalli Vimi pystyy jäljittelemään tarkasti hahmojen mikroilmaisuja keskittyen kahteen näkökohtaan: hahmot ja ohjattavuus.

Yleisöryhmien osalta AI-videoiden luontituotteet on tällä hetkellä suunnattu pääasiassa C-loppukäyttäjille. Tässä vaiheessa käyttäjät testaavat uusia asioita pelattavuuden ja luovuuden vuoksi luottaa myös B-puolen tukeen. Tällä hetkellä tämän tyyppiset tuotteet lisäävät myös API-kysyntää, mikä antaa jatkojalostusyrityksille enemmän mahdollisuuksia, oli kyseessä sitten luotujen videoiden uudelleenkäsittely tai suora käyttö, se vähentää huomattavasti luomiseen kuluvaa aikaa ja kustannuksia.

Lisäksi Kuaishou teki äskettäin yhteistyötä Bonan kanssa käynnistääkseen Kiinan ensimmäisen alkuperäisen AIGC-lyhytdraaman, joka myös horjutti perinteisen elokuva- ja televisioteollisuuden luovaa ajattelua. Kahden nousevan kuuman kappaleen yhdistelmä on tuonut myös uusia läpimurtoja tekoälyvideoiden sukupolven sovellusskenaarioihin, ja lisää mahdollisuuksia avautuu Vaikka molemmat ovat kehitysvaiheessa, niin teknologia tai tuotteet eivät ole kypsiä, mutta Facing kaksisuuntainen suuntaus ja ratsastus kaksi osinkoa, "co-branding" on väistämättä nopeasti ajaa kehitysprosessia alalla.

Tekoälyllä luotujen tuotteiden innovaatio tuo rajattomasti luovuutta ja yllätyksiä ihmisten elämään sekä vähentää tuotannon vaikeutta ja kustannuksia. Nykyisistä tuotteista päätellen sekä Wensheng Video että Tusheng Video ovat luoneet erittäin mielenkiintoisen ja uudenlaisen pelin, jossa henkilökohtainen luovuus on avaintekijä, joka ajaa parempaa tekoälyä. Vaikka jotkin tekniset ongelmat ovat johtaneet satunnaisiin bugeihin ja tuotemuoto riippuu pitkälti mallin todellisista ominaisuuksista iteratiivisten päivitysten, terveen markkinakilpailun ja raitojen yhdistelmän kautta, uskon mallia koulutettavan lopulta yhä täydellisemmäksi. Samalla odotamme myös innolla kotimaisten suurten mallituotteiden tulevaisuutta luodakseen oman markkinaraon globaaleilla markkinoilla.

uutiset

Ilmainen julkinen beta tyrmäsi palvelimen, ja Sora sai kiitosta fyysisestä järkestään.

Johdanto

yhteystietoni