AI in versione Sora fons aperta est! Prima commercium in promptu est, GitHub acquiritur 3.7K stellae in 5 hours

AI in versione Sora fons aperta est!Primum ut commercium in promptu sit, GitHub collegit 3.7K stellae in 5 horis

2024-08-06

Jin Lei venit ab Aofei Templum
Qubits |

Sora versio domestica vere insanus est.

Nunc iusta,Sapientia spectrum AIdirectepatet umbraMagnum exemplar post video generationisAperta principium。

Et estPrimum commercium availableQuod genus!

Nomen huius exemplar estCogVideoX, modo dimissi in GitHub solumV horas,3.7K stellae️。

Protinus inspiciamus effectum.

Promptus 1，Propinquus-ex populo：

In frequentia belli dilaceratae urbis, ubi ruinae et muri dilapsae vastitatis fabulam narrant, puellam virginem immanem prope compaginem. Ora favilla favilla, tacito chaos Testamento circumdedit. Lucentes oculi cum dolore et mollitia mixto, rudis animi motus mundi capientes, innocentiam suam vastantibus certaminis amiserunt.

Perspici potest quod non solum singula singularia sicut oculi characterum definitio sunt altissima, sed etiam continuitas ante et post nictans tenetur.

Ad Promptum veni II iterum:Unum iecit usque ad finem：

Camera alba post vindemiam SUV sequitur, cum eculeo nigro tecto, quod via praerupta in abietibus in arduo montis fastigio circumfusa sordibus accelerat, pulvis calcit ex eo coronas, lux solis lucet in SUV sicut per sordes currit. iter calidum super scaenam mittentes. Lutum viae sensim curvae in distantiam, nullis aliis carris vel vehiculis in conspectu. Arbores ex utraque parte viae sunt Taxodius, sartura viror per totum dispersa. Raeda videtur a tergo curvam sequentem facilem, quasi in confragoso agitare per loca confragosa videtur. Ipsa via lutum arduis cingit montibus ac montes, Caeruleo superne nebulas tenuissima caelo.

Lux et umbra, opiniones distantes, prope ictus et processus vehiculi omnes capiuntur.

Qui effectus non solum actus emissionis officialis sunt, ab omnibus in online cani possunt

Una card A100 potest generari in XC seconds

Memorabile est Zhipu AI's CogVideoX multiplices magnitudinis includere, et fontem apertum unum hoc tempus esse CogVideoX-2B.

Eius praecipua notitia talis est:

Solum 18GB memorias videndi requirit ad coniecturam in FP-16 accuratione, et solum 40GB memorias video pro bene-tunatione.

Intelligitur hoc exemplar iam instruere in diffundentibus bibliothecae HuggingFace instruere, et operatio valde simplex, cum tantum 2 gradibus;

1. Install correspondentes clientelas

pituita install --upgrade opencv-python transformers pituita install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffundens # Adhuc in PR

2. Curre in codice

facem importare ex diffundentibus import CogVideoXPipeline ex diffusers.utils import export_to_video promptum = "Panda, parva induta, tunicas rubras et minutulas petasus, sedet in sella lignea in sereno bamboo silva. Panda crinita struunt parvam acousticam citharam, molles, melodicas modos producens. Prope paucae aliae pandas colligunt. Spectantes curiose et numerose plaudentes ut pacificam ac magicam atmosphaeram unicam hanc operandi musicam amplificaret ». pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype = torch.float16 ) .to ("cuda"prompt_embeds, pipe.encode_prompt, promptum, promptum, do_classifier_free_guidance = verum, num_videos_per_prompt=1, max_sequence_length=226, device="cuda", dtype = torch.float16 , ) video organum (num_inference_steps=50, direction_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(video; "extra.mp4", fps=8)

Et in una-cardo A100, modo modo vestigia sequentes, tantum 90 seconds ad videndum generandum accipit.

Non solum quod, in HuggingFace, Zhipu AI etiam factum estPlayable onlinedemo,Personalis test effectussic:

Ut videre potes, eventus generati non solum in forma .mp4 demi possunt, sed etiam in forma GIF.

Deinde quaeritur, quomodo Zhipu AI facere?

Etiam charta divulgata est

Zhipu AI non solum apertum exemplar generationis video in hoc tempore fundavit, sed etiam relationem technicam post illud dimisit.

Per famam, tres maiores technicae elucidae sunt dignae colloquentes.

Imprimis manipulus efficax elaboravitTria dimensiva variatio autoencoder compages(3D VAE), comprimit originale video spatium ad 2% magnitudinis, valde reducendo sumptus et disciplina difficultas exemplar generationis video diffusionis.

Exemplar structuram includit encoder, decoder et spatii regularis latens, et compressio fit per quattuor gradus downsampling et upsampling. Convolutio causalis temporalis notitiarum causalitatem efficit et communicationem supra caput minuit. Manipulus contextual parallelismo utitur ut magnae scalae video processui accommodare.

In experimentis, manipulus magnum solutionis modum translitterandi facile invenit generaliter, dum numerus tabularum magis difficilior augetur.

Ergo manipulus exemplar in duobus gradibus exercuit: primum ad inferiores artus rates et mini-batches, et deinde ad superiores compages rates per parallelismum contextual contextum. Disciplina munus damnum coniungit L2 damnum, LPIPS damnum sensibile et damnum 3D discriminatoris GA.

sequiturExpertTransformer。

Turma VAE encoder usus est ut video in spatio latens comprimat, deinde latens spatium in fissile scindat et in longam seriem involutionum z_visionis dilataverit.

Eodem tempore, T5 ad encode textui initus in text in z_text embedding, tum concatenata z_text et z_visionis secundum dimensionem sequentiam. In emodationibus plicatae aluntur in caudices Transformatoris periti ad dispensandum.

Denique turma dorsi emblemata suta ad pristinum spatii latentis figuram recuperet et VAE decocta utens ad video restaurandum.

In ultima luce estdata.

Turma negativa evolvit ad cognoscendas et excludendas videos humiles qualitates ut supra curatum, choppum motum, humilem qualitatem, litteraturam, textum dominatum, et strepitus screen-videos.

Filtra utentes in video-llama exercitata, 20000 puncta notarum video notata et percolata sunt. Eodem tempore, fluxus opticus et ustulo aestheticus computantur, et limen dynamice adaptatur ad qualitatem video generati.

Data videntur plerumque descriptiones textuum non habere et in descriptionibus textus converti necesse est ut exemplar disciplinae textus-ad-video. Existens video subtilissimas tabulas subtiles habere breves et non satis contentum video describere.

Ad hoc, manipulus etiam pipelineum proposuit ut titulos imaginum ex imaginum speciebus generaret et subtilissimas formas ut subtiliores titulos comprehenderent.

Haec methodus brevissimas titulos generat per exemplar Panda70M, imago densa titulorum utens exemplar CogView3, et deinde summatim utens exemplar GPT-4 ad ultimam brevem speciem generandam.

Etiam in exemplaribus CogVLM2-Captionibus in CogVLM2-Video et Llama 3 subductis adhibitis, notitia subtilissima densa adhibita, ad processum generationis subtilissimum accelerandum accelerandum.

Superiora est vis technica post CogVideoX.

Una res plus

In agro video generationis, Runway'sGen-3Sunt etiam novae actiones.

Gen-3 Alpha's Vincent Video nunc "picturam pascere" sustinet quae non solum uti prima tabulae video, sed etiam uti potest ut postrema tabulae video.

Sentit sicut AI tempus revertitur.

Inspice effectum:

Demum, quod attinet ad magnum fontem apertum generationis exemplum Zhipu AI, nexus pertinentes infra ~ adnectuntur

Codicis repositio:
https://github.com/THUDM/CogVideo

Exemplar download:
https://huggingface.co/THUDM/CogVideoX-2b

Renuntiationes technicae:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

experientia online:
https://huggingface.co/spaces/THUDM/CogVideoX

nuntium

AI in versione Sora fons aperta est!Primum ut commercium in promptu sit, GitHub collegit 3.7K stellae in 5 horis

Introductio

mihi contactus notitia