Fons aperta est versio Sorae domestica! Consequentia optimized ad 18G, 4090 una card potest run

Fons aperta est versio Sorae domestica!Consequentia est optimized ad 18G, (IV)XC una card potest currere

2024-08-06

dolor rerum
AuthorZeR0
Editor Mo Ying

Zhidongxi nuntiaverunt Kalendis Augustis VI bonum nuntium esse Zhipu AI exemplar generationis video CogVideoX-2B publice aperta nocte principiatum fuisse.

Exemplar in GitHub et Hugging Face positum est. Consequens ad FP16 accurationem tantum 18GB memoriae video requirit, cum obtentu solum 40 GB requirit. hitur.

Finis superior promptorum verborum pro CogVideoX-2B est 226 signa, video longitudo 6 secundorum, tabula rate est 8 tabulae/secundae, et resolutio video 720* 480 est.

In CogVideoX series aperta fontis exempla eandem originem habent ac exemplar video generationis commercialis "Qingying" de Zhipu AI. Post 2B versionem emissam, fons apertus exempla cum potioribus effectus et parametri ampliores in vadis ponentur in futurum.

Codicis repositio:https://github.com/THUDM/CogVideo
Exemplar download:https://huggingface.co/THUDM/CogVideoX-2b
Renuntiationes technicae:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Secundum chartam, CogVideoX maior est quam plura alia exempla generationis video in chart radar, cum valores hexagoni approximantes.

Ut qualitatem videos Vincentii aestimare, Zhipu AI pluribus indicibus in VBench utitur, sicut motus hominum, scaenae, motus, etc.; Ustulo, haec instrumenta in dynamica notarum video. Ut ex tabula infra videri potest, CogVideoX in pluribus indicibus ducit.

In caeco hominum aestimatione, CogVideoX notatos quam Kuaishou Keling in omnibus quinque indicibus.

Pagina GitHub ostendit plura opera video generata a CogVideoX-2B:

▲提示词： Ludibrium ligneum distincte navis cum intricatis malis vela incisa, leviter super gausape lapsa videtur, caerulea vestis quae maris undas imitatur. Puppis navis fuscis et minutis fenestris dives pingitur. Stragula, mollis et textura, perfectum backum praebet, sicut expansi oceanici. Navis circumiacta variae sunt aliae nugae et rerum natorum, ludicrae ambitus insinuans. Scaena innocentiam et phantasiam infantiae capit, cum ludibrio navis iter significans infinitas casus in proclivi, amet occasus.

▲提示词： Post cameram albam vindemiam sequitur SUV cum eculeo nigro tecto, quod viam ardui sordium cingit, abietibus in declivi montis fastigio, pulvis calcibus e suis fatigat, lux solis lucet in SUV sicuti. gyrat per viam lutum, calidum lumen in scaenam mittentes. Lutum viae sensim curvae in distantiam, nullis aliis carris vel vehiculis in conspectu. Arbores ex utraque parte viae sunt Taxodius, sartura viror per totum dispersa. Raeda videtur a tergo curvam sequentem facilem, quasi in confragoso agitare per loca confragosa videtur. Ipsa via lutum arduis cingit montibus ac montes, Caeruleo superne nebulas tenuissima caelo.

▲提示词： Artifex vicus obsoleto denim iacco et vario bandana obsitus, stat ante murum magnum concretum in corde, habens imbrem pingendi, imbrem pictum vario volucre in pariete maculoso.

▲提示词： In frequentia belli dilaceratae urbis, ubi ruinae et muri dilapsae vastitatis fabulam narrant, puellam virginem immanes prope compages. Ora favilla favilla, tacito chaos Testamento circumdedit. Lucentes oculi cum dolore et mollitia mixto, rudis animi motus mundi capientes, innocentiam suam vastantibus certaminis amiserunt.

CogVideoX utitur 3D VAE et architecturae Transformatoris peritus ad longum videos cohaerentem generare, et collectionem video clipeorum relative altum qualitatum cum descriptionibus textuum per exemplar intellectionis video evolutae aedificat.

Quia notitiae video notitias spatiales et temporales continet, eius notitiae volumen et onus computationale longe excedit notitiae imaginis.Zhipu AI propositus fundatur3D variationis autoencoder (3D VAE)Modus compressionis video simul comprimit dimensiones spatiales et temporales in video per convolutionem trium dimensivarum, attingens ratem compressionem altiorem et meliorem qualitatem reconstructionem.

3D VAE Architectura in CogVideoX

Exemplar structuram includit encoder, decoder, et spatii regularis latens, et compressio per quattuor gradus downsampling et upsampling conficitur. Convolutio causalis temporalis causalitatem informationum efficit et communicationem supra caput minuit. Contextualis parallelae technologiae melius accommodare possunt ad magnarum rerum processus video.

In experimento, Zhipu AI invenit quod magna resolutio coding facile generaliter est, et numerus tabularum maior provocatio augetur ac deinde parallelismum contextum utens in altiori arte compages subtiliores instituendi. Disciplina munus damnum coniungit L2 damnum, LPIPS damnum sensibile et damnum 3D discriminatoris GA.

Zhipu AI utitur VAE encoder ut video in spatio latens comprimendo, deinde spatium latentem in caudices dividit et in longas series dilatat ad z_visionem infixa deinde z_text et z_visio per sequentiamExpertTransformerProcesserunt in acervos stipatos, embedinga tandem sutilis ad pristinam spatii latentis figuram recuperandam et decoctae VAE utentes ad video reficiendum.

CogVideoX architectura

Secundum informationes disciplinae, Zhipu AI pittacia negativa evolvit ad cognoscendas et excludendas videos humiles qualitates, et signata et obumbrata 20000 exempla notitiarum video per filtras a video-llama instructas; et limina alacriter adaptata sunt.

Ad quaestionem de notitia subtilissimarum rerum inops, Zhipu AI proposuit aPipeline generare video imago ex imago imago et subtiliter modulatio- nem ut-finem video subtilissimum exemplar ut subtiliores titulos obtineat. Haec methodus utitur exemplari Panda70M ad titulos breves generandos, exemplar CogView3 ad imaginem densam imaginum generandam, ac deinde exemplar GPT-4 ad compendiose ad ultimam brevem speciem generandam.

Turma etiam lepida in CogVLM2-Video et Llama 3-substructioCogVLM2-Caption exemplum, instructa subtilissima notitia adhibita ad processum generationis subtilem video accelerandum.

"Densa subtilissima notitia generationis processus"

The Zhipu AI turma adhuc laborat ad emendare facultatem CogVideoX capiendi dynamicas, novas architecturas exemplar explorare, informationes video efficacius comprime, ac plenius textum integrare et contentum videre pergere ad explorandum exemplar scalae legis video generationis, intentum. maiora et potentiora exempla instituendi ut longiorem, altiorem qualitatem videas generare.

Hodie magis magisque video generationis exempla et applicationes ac technologiae gradatim maturescere. Nihilominus non fuit fons apertus video generationis exemplar quod cum postulationibus applicationum graduum commercialium occurrit. Plura exempla generationis video exspectamus ut fons patens factus, plura tincidunt et societates promovens participet progressionem videndi generationis exempla et applicationes, et conferens ad varias technicas optimas et functiones progressus circa generationem video.

nuntium

Fons aperta est versio Sorae domestica!Consequentia est optimized ad 18G, (IV)XC una card potest currere

Introductio

mihi contactus notitia