uutiset

Zhipu avoimen lähdekoodin Qingying CogVideoX 2B malli, yhtä RTX 4090 voidaan käyttää johtopäätösten tekemiseen

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kirjoittaja|Large Model Mobile Group
Sähköpostiosoite| [email protected]

1


Laajamittainen malliteknologian jatkuvan kehityksen myötä videon sukupolviteknologia on vähitellen kypsymässä. Suljetun lähdekoodin videosukupolvimallien, kuten Soran ja Gen-3:n, edustamat tekniikat määrittelevät uudelleen alan tulevaisuuden maisemaa. Toistaiseksi ei kuitenkaan ole vielä olemassa avoimen lähdekoodin videon sukupolvimallia, joka täyttäisi kaupallisen tason sovellusten vaatimukset.

Noudattaen käsitettä "palvella globaaleja kehittäjiä edistyneellä teknologialla" Zhipu AI ilmoitti avaavansa avoimen lähdekoodin CogVideoX:n, videoiden sukupolven mallin, jolla on sama alkuperä kuin "Qingying", siinä toivossa, että jokainen kehittäjä ja jokainen yritys voi vapaasti kehittää oma videon sukupolvimalli edistää koko alan nopeaa iteraatiota ja innovatiivista kehitystä.

Cog Video Perform -johtopäätös ja hienosäätö voidaan tehdä yhdellä A6000-näytönohjaimella.

CogVideoX-2B:n kehotteiden yläraja on 226 merkkiä, videon pituus on 6 sekuntia, kehysnopeus 8 kuvaa/sekunti ja videon resoluutio on 720*480. Olemme varanneet laajan tilan videon laadun parantamiselle ja odotamme innolla kehittäjien avoimen lähdekoodin panosta nopeaan sanan optimointiin, videon pituuteen, kuvataajuuteen, resoluutioon, kohtauksen hienosäätöön ja erilaisten videon toimintojen kehittämiseen.

Paremman suorituskyvyn ja suurempien parametrien mallit ovat tulossa, joten pysy kuulolla ja odota sitä.

Koodivarasto:
https://github.com/THUDM/CogVideo

Mallin lataus:
https://huggingface.co/THUDM/CogVideoX-2b

Tekninen raportti: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

1

Malli


VAE:

Koska videodata sisältää spatiaalista ja ajallista tietoa, sen datamäärä ja laskentataakka ylittävät selvästi kuvadatan. Tämän haasteen ratkaisemiseksi ehdotamme videon pakkausmenetelmää, joka perustuu 3D-variaatioautoenkooderiin (3D VAE). 3D VAE pakkaa samanaikaisesti videon spatiaaliset ja ajalliset mitat kolmiulotteisen konvoluution avulla saavuttaen korkeammat pakkausnopeudet ja paremman rekonstruoinnin laadun.


Mallirakenne sisältää kooderin, dekooderin ja latentin tilanreguloijan, ja pakkaus saadaan aikaan neljällä ala- ja ylösnäytteistysvaiheella. Ajallinen kausaalikonvoluutio varmistaa tiedon kausaalisuuden ja vähentää viestintäkustannuksia. Käytämme kontekstuaalista rinnakkaistekniikkaa suuren mittakaavan videonkäsittelyn mahdollistamiseksi. Kokeissa havaitsimme, että suuren resoluution koodaus on helppo yleistää, mutta kehysten määrän lisääminen on haastavampaa. Siksi harjoittelemme mallia kahdessa vaiheessa: ensin pienemmillä kuvanopeuksilla ja minisarjoilla, ja sitten hienosäädämme korkeammille kuvanopeuksille kontekstuaalisen rinnakkaisuuden avulla. Harjoitteluhäviötoiminto yhdistää L2-häviön, LPIPS-havaintohäviön ja 3D-diskriminaattorin GAN-häviön.

ExpertTransformer

Käytämme VAE:n kooderia pakataksemme videon piilevään tilaan, jaamme sitten piilevän tilan lohkoihin ja laajennamme sen pitkän sekvenssin upotuksiksi z_vision. Samanaikaisesti käytämme T5:tä koodataksemme tekstinsyötön tekstiin upottamalla z_text ja yhdistämme sitten z_text ja z_vision sekvenssiulottuvuutta pitkin. Jatkotut upotukset syötetään pinoon asiantuntevia muuntajalohkoja käsittelyä varten. Lopuksi ompelemme upotukset takaisin alkuperäisen piilevän tilan muodon palauttamiseksi ja dekoodaamme VAE:n avulla videon rekonstruoimiseksi.


Data

Videon sukupolven mallin koulutus edellyttää korkealaatuisen videodatan seulomista todellisen dynamiikan oppimiseksi. Video saattaa olla epätarkka johtuen ihmisen editoinnista tai kuvaamisesta. Kehitimme negatiivisia tunnisteita tunnistaaksemme ja sulkeaksemme pois huonolaatuiset videot, kuten ylimuokatut, katkonaiset, huonolaatuiset, luentotyyliset, tekstivaltaiset ja näytön kohinaa aiheuttavat videot. Merkitsimme ja suodatimme 20 000 videodatapistettä video-laamalle opetetuilla suodattimilla. Samalla lasketaan optinen virtaus ja esteettiset pisteet, ja kynnystä säädetään dynaamisesti luodun videon laadun varmistamiseksi.

Videotiedoissa ei yleensä ole tekstikuvauksia, ja ne on muutettava tekstikuvauksiksi tekstistä videoksi -mallin harjoittelua varten. Olemassa olevissa videotekstitystietosarjoissa on lyhyt tekstitys, eivätkä ne pysty kuvaamaan videon sisältöä täysin. Ehdotamme putkistoa, jolla luodaan videotekstitykset kuvien tekstityksistä ja hienosäädetään päästä päähän -videotekstitysmallia tiheämpien tekstitysten saamiseksi. Tämä menetelmä luo lyhyet tekstitykset Panda70M-mallin kautta, tiheät tekstitykset käyttämällä CogView3-mallia ja tekee sitten yhteenvedon GPT-4-mallin avulla lopullisen lyhyen videon luomiseksi. Hienosäädimme myös CogVLM2-Caption-mallia, joka perustuu CogVLM2-Videoon ja Llama 3:een, ja opetettiin käyttämällä tiheää tekstitysdataa videon tekstitysprosessin nopeuttamiseksi.


1

esitys

Tekstistä videoksi luomisen laadun arvioimiseksi käytämme VBenchissä useita mittareita, kuten ihmisten toimia, kohtauksia, dynamiikkaa jne. Käytimme myös kahta muuta videon arviointityökalua: Dynamic Quality in Devil ja GPT4o-MT Score Chrono-Magicissa, jotka keskittyvät videoiden dynaamisiin ominaisuuksiin. Kuten alla olevasta taulukosta näkyy.


Olemme todenneet skaalauslain tehokkuuden videoiden luonnissa. Jatkaessamme data- ja malliskaalan kasvattamista, tutkimme uusia malliarkkitehtuureja, joissa on läpimurto innovaatioita, pakkaamme videoinformaatiota tehokkaammin ja integroimme sen täydellisemmin. . Teksti- ja videosisältö.

1

Demo

Yksityiskohtainen puinen lelulaiva, jossa on taidokkaasti veistetyt mastot ja purjeet, liukuu pehmeästi muhkean sinisen maton päällä, joka jäljittelee meren aaltoja. Laivan runko on maalattu täyteläisen ruskeaksi, ja siinä on pieniä ikkunoita. Pehmeä ja kuvioitu matto tarjoaa täydellisen taustan, joka muistuttaa valtamerta. Laivan ympärillä on erilaisia ​​muita leluja ja lasten esineitä, jotka vihjaavat leikkisään ympäristöön. Kohtaus vangitsee lapsuuden viattomuuden ja mielikuvituksen, ja lelulaivan matka symboloi loputtomia seikkailuja omituisessa sisäympäristössä.

Kamera seuraa valkoisen vintage-maastoauton takana mustalla kattotelineellä, kun se kiihdyttää jyrkkää hiekkatietä mäntyjen ympäröimänä jyrkällä vuorenrinteellä, sen renkaista nousee pölyä, auringonvalo paistaa maastoautoon, kun se kiihdyttää likaa pitkin tie loi lämpimän hehkun kohtauksen yli. Hiekkatie kaartaa loivasti kaukaisuuteen, eikä muita autoja tai ajoneuvoja ole näkyvissä. Tien kummallakin puolella olevat puut ovat punapuita, joiden viheralueita on hajallaan. Autoa nähdään takaapäin helposti mutkassa, mikä saa sen näyttämään siltä kuin se olisi ajettavassa karussa maastossa. Itse hiekkatietä ympäröivät jyrkät kukkulat ja vuoret, ja yläpuolella on kirkas sininen taivas ja ohuita pilviä.

Sodan runteleman kaupungin kummittelevassa taustassa, jossa rauniot ja murentuneet seinät kertovat tarinan tuhosta, koskettava lähikuva kehystää nuoren tytön. Hänen kasvonsa tahraavat tuhkaa, mikä on hiljainen todistus häntä ympäröivästä kaaoksesta. Hänen silmänsä kimaltelevat sekoituksesta surua ja joustavuutta, vangiten raakoja tunteita maailmassa, joka on menettänyt syyttömyytensä konfliktien tuholle.

Yksi perhonen, jonka siivet muistuttavat lasimaalauksia, leijailee kukkakentän läpi. Laukaus vangitsee valon, kun se kulkee herkkien siipien läpi, luoden eloisan, värikkään näytön. HD.

Luminen metsämaisema, jonka läpi kulkee hiekkatie. Tietä reunustavat lumen peittämät puut, ja myös maa on lumen peitossa. Aurinko paistaa luoden kirkkaan ja rauhallisen tunnelman. Tie näyttää olevan tyhjä, eikä videolla näy ihmisiä tai eläimiä. Videon tyyli on luonnonmaisemakuvaus, jossa keskitytään lumisen metsän kauneuteen ja tien rauhallisuuksiin.

Äärimmäinen lähikuva kana- ja paprikakebabeista grillaamassa grillillä liekeillä. Matala tarkennus ja kevyt savu. eloisia värejä


Napsauta "" ja mennään