AI in versione Sora fons aperta est! Primum praesto ad usum mercatorum, online lusoriis, 3.7K stellae in GitHub in 5 hours

AI in versione Sora fons aperta est!Primum, quod est commercium in promptu, online playable, 3.7K stellae in GitHub in 5 horis

2024-08-06

Jin Lei venit ab Aofei Templum
Qubits |

Sora versio domestica vere insanus est.

Nunc iusta,Sapientia spectrum AIprotinuspatet umbraMagnum exemplar post video generationisAperta principium。

Et estPrimum commercium availableQuod genus!

Nomen huius exemplar estCogVideoX, modo dimissi in GitHub solumV horas,3.7K stellae️。

Protinus inspiciamus effectum.

Promptus 1，Propinquus-ex populo：

In frequentia belli dilaceratae urbis, ubi ruinae et muri dilapsae vastitatis fabulam narrant, puellam virginem immanem prope compaginem. Ora favilla favilla, tacito chaos Testamento circumdedit. Lucentes oculi cum dolore ac mollitia mixto, rudis animi motus mundi capientes, innocentiam suam vastantibus certaminis amiserunt.

Vide inscriptio: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Perspici potest quod non solum singula singularia sicut oculi characterum definitio sunt altissima, sed etiam continuitas ante et post nictans tenetur.

Ad Promptum veni II iterum:Unum iecit usque ad finem：

Camera alba post vindemiam SUV sequitur, cum eculeo nigro tecto, quod via praerupta in abietibus in arduo montis fastigio circumfusa sordibus accelerat, pulvis calcit ex eo coronas, lux solis lucet in SUV sicut per sordes currit. iter calidum super scaenam mittentes. Lutum viae sensim curvae in distantiam, nullis aliis carris vel vehiculis in conspectu. Arbores ex utraque parte viae sunt Taxodius, sartura viror per totum dispersa. Raeda videtur a tergo curvam sequentem facilem, quasi in confragoso agitare per loca confragosa videtur. Ipsa via lutum arduis cingit montibus ac montes, Caeruleo superne nebulas tenuissima caelo.

Vide inscriptio: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Lux et umbra, opiniones distantes, prope ictus et processus vehiculi omnes capiuntur.

Qui effectus non solum actus emissionis officialis sunt, ab omnibus in online cani possunt

Una card A100 potest generari in XC seconds

Dignum est memorare Zhipu AI's CogVideoX multiplices magnitudinis includere, et fontem apertum unum hoc tempus esse CogVideoX-2B.

Eius praecipua notitia talis est:

Solum 18GB memorias videndi requirit ad coniecturam in FP-16 accuratione, et solum 40GB memorias video pro bene-tunatione.

Intelligitur hoc exemplar iam instruere in diffundentibus bibliothecae HuggingFace instruere, et operatio valde simplex, cum tantum 2 gradibus;

1. Install correspondentes clientelas

pituitam install -- upgrade opencv-python transformers pituitam install git https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Adhuc in PR

2. Curre in codice

import taeda a diffusers import CogVideoXPipelinea diffusers.utils import export , melodiae melodiae background includit parvum, fluentem rivum et frondem viridem vibrantem, amplificans atmosphaeram pacificam ac magicam huius unicae operationis musicae." Fistula = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torch.float16).to("cuda. " )prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=Verum,num_videos_per_prompt=1,max_sequence_length=226,device="cuda",dtype_scale. , prompt_embeds=prompt_embeds,).frames[0] export_to_video(video, "output.mp4", fps=8)

Et in una-cardo A100, modo modo vestigia sequentes, tantum 90 seconds ad videndum generandum accipit.

Non solum quod, in HuggingFace, Zhipu AI etiam factum estPlayable onlinedemo,Personalis test effectussic:

Vide inscriptio: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Ut videre potes, eventus generati non solum in forma .mp4 demi possunt, sed etiam in forma GIF.

Deinde quaeritur, quomodo Zhipu AI facere?

Charta quoque publicata est

Zhipu AI non solum apertum exemplar generationis video in hoc tempore fundavit, sed etiam relationem technicam post illud dimisit.

Per famam, tres maiores technicae elucidae sunt dignae colloquentes.

Imprimis manipulus efficax elaboravitTria dimensiva variatio autoencoder compages(3D VAE), comprimit originale video spatium ad 2% magnitudinis, valde reducendo sumptus et disciplina difficultas exemplar generationis video diffusionis.

Exemplar structuram includit encoder, decoder et spatii regularis latens, et compressio fit per quattuor gradus downsampling et upsampling. Convolutio causalis temporalis notitiarum causalitatem efficit et communicationem supra caput minuit. Manipulus contextual parallelismo utitur ut magnae scalae video processui accommodare.

In experimentis, manipulus magnum solutionis modum translitterandi facile invenit generaliter, dum numerus tabularum magis difficilior augetur.

Ergo manipulus exemplar in duobus gradibus exercuit: primum ad inferiores artus rates et mini-batches, et deinde ad superiores compages rates per parallelismum contextual contextum. Disciplina munus damnum coniungit L2 damnum, LPIPS damnum sensibile et damnum 3D discriminatoris GA.

sequiturExpertTransformer。

Turma VAE encoder usus est ut video in spatio latens comprimat, deinde latens spatium in fissile scindat et in longam seriem involutionum z_visionis dilataverit.

Eodem tempore, T5 ad encode textui initus in text in z_text embedding, tum concatenata z_text et z_visionis secundum dimensionem sequentiam. In emodationibus plicatae aluntur in caudices Transformatoris periti ad dispensandum.

Denique turma dorsi emblemata sutilibus ad pristinam spatii latentis figuram recuperandam et VAE ad usum videndi decoctionis reficiendae adhibita est.

In ultima luce estdata.

Turma negativa evolvit ad cognoscendas et excludendas videos humiles qualitates ut supra curatum, choppum motum, humilem qualitatem, litteraturam, textum dominatum, et strepitus screen-videos.

Filtra utentes in video-llama exercitata, 20000 puncta notarum video notata et percolata sunt. Eodem tempore, fluxus opticus et ustulo aestheticus computantur, et limen dynamice adaptatur ad qualitatem video generati.

Data videntur plerumque descriptiones textuum non habere et in descriptionibus textus converti necesse est ut exemplar disciplinae textus-ad-video. Existens video subtilissimas tabulas subtiles habere breves et non satis contentum video describere.

Ad hoc, manipulus etiam pipelineum proposuit ut titulos imaginum ex imaginum speciebus generaret et subtilissimas formas ut subtiliores titulos comprehenderent.

Haec methodus brevissimas titulos generat per exemplar Panda70M, imago densa titulorum utens exemplar CogView3, et deinde summatim utens exemplar GPT-4 ad ultimam brevem speciem generandam.

Etiam in exemplaribus CogVLM2-Captionibus in CogVLM2-Video et Llama 3 subductis adhibitis, notitia subtilissima densa adhibita, ad processum generationis subtilissimum accelerandum accelerandum.

Superiora est vis technica post CogVideoX.

Una res plus

In agro video generationis, Runway'sGen-3Sunt etiam novae actiones.

Gen-3 Alpha's Vincent Video nunc picturam "pasc" sustinet quae adhiberi potest non solum ut prima tabulae tabulae, sed etiam ut novissimae tabulae tabulae.

Sentit sicut AI tempus revertitur.

Inspice effectum:

Vide inscriptio: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Demum, quod attinet ad magnum fontem apertum generationis exemplum Zhipu AI, nexus pertinentes infra ~ adnectuntur

Codicis repositio:
https://github.com/THUDM/CogVideo

Exemplar download:
https://huggingface.co/THUDM/CogVideoX-2b

Renuntiationes technicae:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

experientia online:
https://huggingface.co/spaces/THUDM/CogVideoX

nuntium

AI in versione Sora fons aperta est!Primum, quod est commercium in promptu, online playable, 3.7K stellae in GitHub in 5 horis

Una card A100 potest generari in XC seconds

Charta quoque publicata est

Una res plus

Introductio

mihi contactus notitia