Soran kotimainen versio on avoimen lähdekoodin! Päätelmä optimoitu 18G, 4090 yksi kortti voi run

Soran kotimainen versio on avoimen lähdekoodin!Päätelmä on optimoitu 18G, 4090 yksi kortti voi ajaa

2024-08-06

älykkäitä asioita
AuthorZeR0
Toimittaja Mo Ying

Zhidongxi raportoi 6. elokuuta, että hyvä uutinen on, että Zhipu AI:n videosukupolven malli CogVideoX-2B oli virallisesti avoimen lähdekoodin eilen illalla.

Malli on asennettu GitHubiin ja Hugging Face -tarkkuuteen tarvitaan vain 18 Gt videomuistia, kun taas hienosäätö vaatii vain 40 Gt. Yksittäistä 4090-näytönohjainta voidaan käyttää päättelyyn ja yhtä A6000:aa. viritystä.

CogVideoX-2B:n kehotteiden yläraja on 226 merkkiä, videon pituus on 6 sekuntia, kuvataajuus on 8 kuvaa sekunnissa ja videon resoluutio on 720 * 480.

CogVideoX-sarjan avoimen lähdekoodin malleilla on sama alkuperä kuin Zhipu AI:n kaupallisella videosukupolvimallilla "Qingying". 2B-version julkaisun jälkeen hyllyille tulee jatkossa avoimen lähdekoodin malleja, joissa on tehokkaampi suorituskyky ja suuremmat parametrit.

Koodivarasto:https://github.com/THUDM/CogVideo
Mallin lataus:https://huggingface.co/THUDM/CogVideoX-2b
Tekniset raportit:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Paperin mukaan CogVideoX on suurempi kuin useat muut tutkakaavion videosukupolvimallit, ja attribuuttien arvot lähestyvät kuusikulmiota.

Vincentin videoiden laadun arvioimiseksi Zhipu AI käyttää useita indikaattoreita VBenchissä, kuten ihmisen liikkeitä, kohtauksia, dynamiikkaa jne., se käyttää myös kahta lisävideon arviointityökalua: Dynamic Quality in Devil ja Chrono-Magic GPT4o-MT; Pisteet, nämä työkalut keskittyvät videoiden dynaamisiin ominaisuuksiin. Kuten alla olevasta taulukosta voidaan nähdä, CogVideoX johtaa useissa indikaattoreissa.

Sokean ihmisen arvioinnissa CogVideoX sai korkeammat pisteet kuin Kuaishou Keling kaikissa viidessä indikaattorissa.

GitHub-sivulla on useita CogVideoX-2B:n luomia videoteoksia:

▲提示词： Yksityiskohtainen puinen lelulaiva, jossa on taidokkaasti veistetyt mastot ja purjeet, nähdään liukuvan pehmeästi meren aaltoja jäljittelevän muhkean sinisen maton päällä. Laivan runko on maalattu täyteläisen ruskeaksi, ja siinä on pieniä ikkunoita. Pehmeä ja kuvioitu matto tarjoaa täydellisen taustan, joka muistuttaa valtamerta. Laivan ympärillä on erilaisia muita leluja ja lasten esineitä, jotka vihjaavat leikkisään ympäristöön. Kohtaus vangitsee lapsuuden viattomuuden ja mielikuvituksen, ja lelulaivan matka symboloi loputtomia seikkailuja omituisessa sisäympäristössä.

▲提示词：Kamera seuraa valkoisen vintage-maastoauton takana mustalla kattotelineellä, kun se kiihdyttää jyrkkää hiekkatietä mäntyjen ympäröimänä jyrkällä vuorenrinteellä, pöly nousee renkaistaan, auringonvalo paistaa maastoautoon, kun se vauhtia pitkin hiekkatietä ja valaisee kohtauksen lämpimän hehkun. Hiekkatie kaartaa loivasti kaukaisuuteen, eikä muita autoja tai ajoneuvoja ole näkyvissä. Tien kummallakin puolella olevat puut ovat punapuita, joiden viheralueita on hajallaan. Autoa nähdään takaapäin helposti mutkassa, mikä saa sen näyttämään siltä kuin se olisi ajettavassa karussa maastossa. Itse hiekkatietä ympäröivät jyrkät kukkulat ja vuoret, ja yläpuolella on kirkas sininen taivas ja ohuita pilviä.

▲提示词：Katutaiteilija, pukeutunut kuluneeseen farkkutakkiin ja värikkääseen huiviin, seisoo suuren betoniseinän edessä sydämessä, kädessään spraymaalipurkki, maalaamassa värikästä lintua kirjavaiselle seinälle.

▲提示词: Sodan runteleman kaupungin kummittelevassa taustassa, jossa rauniot ja murentuneet seinät kertovat tarinan tuhosta, koskettava lähikuva kehystää nuorta tyttöä. Hänen kasvonsa tahraavat tuhkaa, mikä on hiljainen todistus häntä ympäröivästä kaaoksesta. Hänen silmänsä kimaltelevat sekoituksesta surua ja joustavuutta, vangiten raakoja tunteita maailmassa, joka on menettänyt syyttömyytensä konfliktien tuholle.

CogVideoX käyttää 3D VAE:tä ja asiantuntevaa Transformer-arkkitehtuuria johdonmukaisten pitkien videoiden luomiseen ja rakentaa suhteellisen korkealaatuisen kokoelman videoleikkeitä, joissa on tekstikuvauksia itse kehitetyn videon ymmärtämismallin avulla.

Koska videodata sisältää spatiaalista ja ajallista tietoa, sen datamäärä ja laskentataakka ylittävät selvästi kuvadatan.Zhipu AI ehdotettu perustuu3D-muunnelma automaattinen kooderi (3D VAE)Videon pakkausmenetelmä pakkaa samanaikaisesti videon spatiaaliset ja ajalliset mitat kolmiulotteisen konvoluution avulla, jolloin saavutetaan korkeampi pakkaussuhde ja parempi rekonstruktiolaatu.

▲3D VAE -arkkitehtuuri CogVideoX:ssä

Mallirakenne sisältää kooderin, dekooderin ja latentin tilanreguloijan, ja pakkaus saadaan aikaan neljällä ala- ja ylösnäytteistysvaiheella. Ajallinen kausaalinen konvoluutio varmistaa tiedon kausaalisuuden ja vähentää viestinnän ylimääräisiä kustannuksia.

Kokeessa Zhipu AI havaitsi, että suuren resoluution koodaus on helppo yleistää ja kehysten määrän lisääminen on suurempi haaste. Siksi malliharjoittelu on jaettu kahteen vaiheeseen: ensimmäinen harjoitus pienemmällä kuvanopeudella ja pienellä erällä , ja käyttämällä sitten kontekstin rinnakkaisuutta harjoitellaksesi korkeampaa kuvataajuuden hienosäätöä. Harjoitteluhäviötoiminto yhdistää L2-häviön, LPIPS-havaintohäviön ja 3D-diskriminaattorin GAN-häviön.

Zhipu AI käyttää VAE:n kooderia videon pakkaamiseen piileväksi tilaan, jakaa sitten piilevän tilan lohkoiksi ja laajentaa sen pitkiksi sarjoiksi upottaakseen z_vision-tunnisteen. sitten z_text ja z_vision pitkin sekvenssiä, silmukoitu upotus syötetäänExpertTransformerLohkopinoissa käsitellyt upotukset ompelevat lopulta takaisin alkuperäisen piilevän tilan muodon palauttamiseksi ja dekoodataan VAE:n avulla videon rekonstruoimiseksi.

▲CogVideoX-arkkitehtuuri

Mitä tulee harjoitustietoihin, Zhipu AI kehitti negatiiviset tunnisteet tunnistaakseen ja sulkeakseen pois huonolaatuisia videoita, ja merkitsi ja seuloi 20 000 videodatanäytettä video-laman kouluttamien suodattimien kautta, laskettiin optinen virtaus ja esteettiset pisteet. ja kynnysarvoja säädettiin dynaamisesti. Varmista luodun videon laatu.

Vastauksena videotekstitystietojen puutteeseen Zhipu AI ehdotti aPutkilinja videotekstityksen luomiseen kuvien tekstityksistä , ja hienosäätää päästä päähän -videon tekstitysmallia saadaksesi tiheämmän tekstityksen. Tämä menetelmä käyttää Panda70M-mallia lyhyiden tekstitysten luomiseen, CogView3-mallia tiheiden kuvatekstitysten luomiseen ja sitten GPT-4-mallia yhteenvedon tekemiseen lopullisen lyhyen videon luomiseksi.

Tiimi myös hienosääti CogVLM2-Video- ja Llama 3 -pohjaistaCogVLM2-Caption malli, joka on koulutettu käyttämällä tiheää tekstitysdataa videon tekstityksen luomisprosessin nopeuttamiseksi.

▲ Tiheä tekstitysdatan luontiprosessi

Zhipu AI -tiimi työskentelee edelleen kovasti parantaakseen CogVideoX:n kykyä siepata monimutkaista dynamiikkaa, tutkia uusia malliarkkitehtuureja, pakata videotietoja tehokkaammin ja integroida täydellisemmin teksti- ja videosisältöä jatkaakseen videoiden sukupolven mallin skaalauslain tutkimista. kouluttaa suurempia ja tehokkaampia malleja pidempien ja laadukkaampien videoiden luomiseen.

Nykyään videoiden sukupolven malleja ja sovelluksia on yhä enemmän, ja tekniikka kypsyy vähitellen. Ei kuitenkaan ole ollut avoimen lähdekoodin videon sukupolvimallia, joka täyttäisi kaupallisen tason sovellusten vaatimukset. Odotamme innolla, että useammista videontuotantomalleista tulee avoimen lähdekoodin lähdekoodia, mikä kannustaa useampia kehittäjiä ja yrityksiä osallistumaan videontuotantomallien ja -sovellusten kehittämiseen sekä osallistumaan erilaisiin teknisiin optimointiin ja toimintojen kehittämiseen videoiden luomisen ympärillä.

uutiset

Soran kotimainen versio on avoimen lähdekoodin!Päätelmä on optimoitu 18G, 4090 yksi kortti voi ajaa

Johdanto

yhteystietoni