Alibaba julkaisee "Magic Pen Ma Liangin version Sorasta", joka saa kissat kääntymään yhdellä kosketuksella, 20 esittelyvideota ja 10 sivua teknistä report

Alibaba julkaisi "Magic Pen Ma Liangin version Sorasta", joka saa kissat kääntymään vain kosketuksella, 20 esittelyvideota ja 10 sivua teknisiä raportteja

2024-08-03

Älykkäät asiat (julkinen tili:zhidxcom）
kirjoittaja vanilja
muokata Li Shuiqing

Tekoälyvideoiden tuottaminen kukoistaa, ja uusia videotuotteita, kuten Wensheng ja Tusheng kotimaassa ja ulkomailla, tulee esiin loputtomana virtana. Suurten valmistajien "involuution" vuoksi nykyinen videosukupolven malli on kaikilta osin lähellä "fake and real" -vaikutusta.

Mutta samaan aikaan useimpien videoiden sukupolven mallien tarkkuutta ja kykyä noudattaa ohjeita on edelleen parannettava. Videoiden luominen on edelleen "piirtokortti"-prosessi, joka vaatii usein käyttäjiä luomaan useita kertoja tarpeisiinsa vastaavien tulosten saamiseksi. . Tämä aiheuttaa myös ongelmia, kuten liiallisia laskentatehokustannuksia ja resurssien tuhlausta.

Kuinka parantaa videoiden luomisen tarkkuutta, vähentää "piirtokorttien" määrää ja käyttää mahdollisimman vähän resursseja tarpeita vastaavien videoiden hankkimiseen?

Zhidongxi raportoi 3. elokuuta, että Alibaba-tiimi aloitti äskettäinVideon sukupolven malli Tora, voi perustuaKappaleet, kuvat, tekstiTai näiden yhdistelmä, luo nopeasti tarkkoja liikkeenohjausvideoita vain muutamalla vedolla, ja myös tukeeEnsimmäisen ja viimeisen kehyksen ohjaus, vie videoiden luomisen hallittavuuden uudelle tasolle.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Tora onEnsimmäinen lentoratasuuntautunut DiT-kehysmalli, hyödyntäen DiT:n skaalautuvuutta, Toran luoma objektiliike ei vain voi seurata tarkasti lentorataa, vaan myös simuloida tehokkaasti fyysisen maailman dynamiikkaa. Asiaan liittyvä artikkeli julkaistiin arXiv-sivustolla 1. elokuuta.

▲Tora-paperi

Tora tarjoaa tällä hetkellä vain video-esittelyjä, ja sen projektin kotisivulla näkyy, että se julkaisee tulevaisuudessa online-demoja sekä päättely- ja koulutuskoodeja.

Paperiosoite:

https://arxiv.org/abs/2407.21705

projektin osoite:

https://ali-videoai.github.io/tora_video/

1. Kolme modaaliyhdistelmätuloa ohjaamaan tarkasti liikeratoja

Toran tukiKappaleet, teksti, kuvatKolme modaliteettia tai niiden yhdistetyt tulot mahdollistavat eripituisten, kuvasuhteiden ja resoluutioiden videosisällön dynaamisen ja tarkan ohjauksen.

Ratasyöttö voi olla useita suoria linjoja ja käyriä, joilla on suunnat, ja useita eri suuntiin olevia lentoratoja voidaan myös yhdistää. Voit esimerkiksi käyttää S-muotoista käyrää ohjaamaan kelluvan objektin liikerataa ja käyttää tekstikuvauksia ohjaamaan sen nopeutta. Alla olevassa videossa käytetyt kehotussanat käyttävät adverbeja, kuten "hidas", "tyylikäs" ja "hellästi".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

Sama liikerata voi myös liikkua toistuvasti akselilla, jolloin syntyy kuva, joka tärisee edestakaisin.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Takaisin track.mp4

Erilaisten liikeradan piirtäminen samaan kuvaan mahdollistaa myös Toran luomisen eri liikesuunnilla videoita.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same picture.mp4

Saman lentoratasyötteen perusteella Tora luo erilaisia liiketiloja kohteiden välisten erojen perusteella.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Nykyisestä yleisestä liikesiveltimestä eroaa se, että vaikka syöttökuvaa ei olisikaan, Tora voi luoda vastaavan videon liikeradan ja tekstin yhdistelmän perusteella.

Esimerkiksi alla olevan videon kaksi videota 1 ja 3 luodaan ilman alkukehyksiä, vain lentoratoja ja tekstiä.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora tukee myös ensimmäisen ja viimeisen ruudun ohjausta, mutta tämä tapaus näkyy paperissa vain kuvana, eikä esittelyvideota tarjota.

▲Tora ensimmäinen ja viimeinen kehysohjaus

Joten, jos tekstiä ja kuvaa on vain kaksi modaalista syöttöä, voidaanko sama vaikutus saavuttaa? Tämän kysymyksen mielessä yritin syöttää samat alkukehykset ja kehotussanat muihin tekoälyvideogeneraattoreihin.

Alla olevassa videossa vasemmalta oikealle ja ylhäältä alas ovat Toran, Vidun, Qingyingin ja Kelingin luomat videot. Voidaan nähdä, että kun lentorata on suora, videon luominen ilman lentoratasyöttöä tuskin täyttää vaatimuksia.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Mutta kun vaadittava liikerata muuttuu käyräksi, perinteinen tekstin ja kuvan syöttö ei pysty vastaamaan kysyntään.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. PerustuuOpenSoraFramework, innovatiivinen kaksi liikkeenkäsittelymoduulia

Tora adoptoiOpenSoraSen perusmallina DiT-arkkitehtuurina OpenSora on AI-startup Luchen Technologyn suunnittelema ja avoimen lähdekoodin suunnittelema videoiden sukupolven mallikehys.

Tora esittelee kaksi uutta liikkeenkäsittelymoduulia DiT-pohjaisen liikeradan ohjausvideon luomisen saavuttamiseksi:Liikeradan poistolaite（Rata Extractor）和liikeohjauksen fuusio(Motion-guidance Fuser), jota käytetään koodaamaan tarjottu lentorata monitasoisiksi spatiotemporaalisiksi liikealueiksi.

Alla oleva kuva esittää Toran yleistä arkkitehtuuria. Tämä lähestymistapa on yhdenmukainen DiT:n skaalautuvuuden kanssa, mikä mahdollistaa korkearesoluutioisten, liikeohjattujen videoiden luomisen, jotka kestävät pidempään.

▲Toran kokonaisarkkitehtuuri

sisään,Liikeradan poistolaite3D-liikkeen VAE (variational autoencoder) avulla liikeratavektori upotetaan samaan piilevään tilaan kuin videokorjaukset, jotka voivat tehokkaasti säilyttää liiketiedot peräkkäisten kehysten välillä, ja sitten pinottuja konvoluutiokerroksia käytetään hierarkkisten liikeominaisuuksien erottamiseen.

liikeohjauksen fuusioSitten adaptiivista normalisointikerrosta käytetään syöttämään nämä monitasoiset liikeolosuhteet saumattomasti vastaaviin DiT-lohkoihin sen varmistamiseksi, että videon luominen seuraa aina määritettyä liikerataa.

Yhdistääkseen DiT-pohjaisen videon luomisen lentoratojen kanssa kirjoittajat tutkivat kolmea fuusioarkkitehtuurin muunnelmaa ruiskuttamalla liikepatsauksia jokaiseen STDiT-lohkoon Adaptive Normin kanssa, joka osoitti parhaan suorituskyvyn.

▲Kolme arkkitehtonista suunnittelua liikeohjauksen fuusiolaitteesta

Tietyn koulutusprosessin aikana kirjoittaja otti käyttöön erilaisia koulutusstrategioita erilaisille syöttöolosuhteille.

Trajektoriharjoittelussa Tora käyttää kaksivaiheista harjoitusmenetelmää harjoitusvideosta. Toinen vaihe valitsee satunnaisesti 1 - N kohdetta liikesegmentoinnin tulosten ja optisen virtauksen perusteella. pisteet jalostetaan lopuksi käyttämällä Gaussin suodatinta.

Kuvakoulutuksessa Tora noudattaa OpenSoran käyttämää peittostrategiaa visuaalisen säädön tukemiseksi. Kehykset avataan satunnaisesti naamioituneiden kehysten videokorjauksiin, joihin ei vaikuta mikään kohina, minkä ansiosta Tora voi integroida tekstiä, kuvia ja liikeratoja. melu integroitu saumattomasti yhtenäiseksi malliksi.

Kun kvantitatiivisesti verrataan edistyneisiin liike-ohjattaviin videontuotantomalleihin, Toralla on kasvava suorituskykyetu UNet-pohjaisiin menetelmiin verrattuna, kun luotujen kehysten määrä kasvaa, mikä säilyttää liikeradan hallinnan paremman vakauden.

▲Toran ja muiden ohjattavien videosukupolvimallien vertailu

Esimerkiksi saman tulon perusteella Toran tuottama video on pehmeämpi kuin DragNUWA- ja MotionCtrl-mallien tuottama video ja se seuraa liikerataa tarkemmin.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. "Futures" on toteutunut, ja Alibaba jatkaa suunnitelmien tekemistäAIvideo

Tekoälyvideon sukupolven soittimet ovat täydessä vauhdissa, ja Alibaba on jatkuvasti piirittänyt AI-videoraitaa. Verrattuna Soraan ja muihin yleisiin videoiden luonnin pituuteen ja laatuun keskittyviin malleihin Alibaba-tiimin projekti näyttää keskittyvän enemmän algoritmin erityiseen soveltamiseen eri videoiden luontimuodoissa.

Tämän vuoden tammikuussa Tongyi Qianwen lanseerasi "National Dance Kingin" ja tuli tunnetuksi "Terracotta Warriors and Horses Dance Subject 3:lla" helmikuussa, Alibaba julkaisi muotokuvavideon sukupolvikehyksen EMO:n, joka voi saada kuvan ihmiset näyttämään yhdellä kuvalla.

Tuolloin Zhidongzhi laski Alibaban ulkoasun tekoälyvideoissa ja havaitsi, että se oli käynnistänyt neljässä kuukaudessa vähintään 7 uutta projektia, jotka kattoivat Vincent-videot, Tusheng-videot, hahmotanssit, muotokuvapuheet jne. (Kotimainen jumalatason tekoäly ilmestyy! Gao Qiqiang muuttuu Luo Xiangiksi, Cai Xukunista tulee rapin kuningas, ja hän yhdistyy Soraan)

Nyt, puoli vuotta myöhemmin, EMO on muuttunut "futureista" "kansalliseksi laulamiseksi ja esiintymiseksi" Tongyi-sovelluksessa, joka on kaikkien saatavilla. Alibaba on myös julkaissut lisää AI-videoprojekteja.

1、AtomoVideo: Korkean tarkkuuden kuvasta videoon luominen

AtomoVideo julkaistiin 5. maaliskuuta. Se on korkealaatuinen Tusheng-videokehys, joka perustuu monirakeisiin kuvainjektioihin ja korkealaatuisiin tietokokonaisuuksiin ja koulutusstrategioihin, ja se pystyy ylläpitämään korkean tarkkuuden luodun videon ja annetun vertailukuvan välillä. saavuttaa runsaan harjoituksen intensiteetin ja hyvän ajoituksen johdonmukaisuuden.

▲AtomoVideo luo videotehosteita

Hankkeen kotisivut:https://atomo-video.github.io/

2、EasyAnimate-v3: Yksi kuva+Luo korkearesoluutioisia pitkiä videoita tekstistä

EasyAnimate on videoiden sukupolven käsittelyprosessi, jonka Alibaba käynnisti 12. huhtikuuta ja iteroitiin v3-versioon vain 3 kuukaudessa. Se esittelee liikemoduulin laajentamalla DiT-kehystä, mikä parantaa kykyä kaapata ajallista dynamiikkaa ja varmistaa luotujen videoiden tasaisuuden ja johdonmukaisuuden. Se voi tuottaa noin 6 sekunnin videoita eri resoluutioilla ja 24 fps:n kuvanopeudella.

▲EasyAnimate v3 luo videotehosteita

Hankkeen kotisivut:https://github.com/aigc-apps/EasyAnimate

Johtopäätös:AIVideoiden luonti on nyt paremmin hallittavissa

Kun tekoälyvideon generoinnin pituus ja laatu ovat saavuttaneet tietyn tason, on tällä hetkellä tärkeä ehdotus, miten syntyvistä videoista saadaan entistä paremmin hallittavia ja tarpeita vastaavampia.

Jatkuvalla tarkkuuden, hallittavuuden ja resurssien käytön tehokkuuden optimoinnilla kokemus tekoälyvideon sukupolven tuotteiden käytöstä tuo uuden vaiheen ja hinnasta tulee edullisempi, jolloin useampi luoja pääsee osallistumaan.

uutiset

Alibaba julkaisi "Magic Pen Ma Liangin version Sorasta", joka saa kissat kääntymään vain kosketuksella, 20 esittelyvideota ja 10 sivua teknisiä raportteja

Johdanto

yhteystietoni