Alibaba emittit "Magicam Pen Ma Liang versionem Sorae", quae feles cum tactu tantum vertere facit, 20 demonstrationes et 10 paginas technicarum report

Alibaba dimisit "Magicam Pen Ma Liang versionem Sorae", quae feles modo tactu vertere facit, 20 demonstrationes ac 10 paginas relationum technicarum.

2024-08-03

Dolor rerum (publica ratio:zhidxcom）
author vanilla
edit Li Shuiqing

Ager AI video generationis sonus est, et nova producta video ut Wensheng et Tusheng domi forisque in immenso flumine emergunt. Ob "involutionem" maioris artifices, exemplar hodiernum generationis prope est cum effectu "fictorum et realium" in omnibus aspectibus.

Sed eodem tempore, subtilitas et facultas ut praeceptis maxime video generationis exempla adhuc emendari necesse est . Hoc etiam causat problemata ut nimiam vim computandi gratuita et perditio facultatum.

Quomodo subtilitatem generationis video emendare, numerum "cardorum extractorum" minuere et quam paucas facultates utere ut videos quae necessitatibus conveniunt obviae obtineant?

Zhidongxi relatum est die 3 mensis Augusti Alibaba turmam nuper emissam esseExemplar video generationis ToraPotest fundaturVestigia, imagines, textVel compositio eius, cito motum praecisum motus imperium videos paucis ictibus generant et etiam sustinetPrimum et ultimum frame imperiumsumens moderabilitatem video generationis ad alium gradum.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Tora estPrima trajectoria ordinatur DiT compage exemplaradhibito scalability DiT, motus objecti a Tora genitus non solum accurate trajectoriam sequi potest, sed etiam dynamica mundi naturalis efficaciter simulare.

Tora paper

Tora currently solum demonstrationes video praebet, et protocollum eius propositum ostendit se demos onlines et coniecturas et codices in futuro disciplinas dimittet.

Charta inscriptio:

https://arxiv.org/abs/2407.21705

exstare inscriptio:

https://ali-videoai.github.io/tora_video/

1. Tres compositiones modales initibus ad motum trajectoriae accurate moderandum

Tora auxiliumVestigia, textus, imaginesTres moditates, seu inputationes coniunctae, efficiunt dynamicam et praecisam potestatem contentorum video diversarum durationum, aspectuum rationum et resolutionum.

Trajectoria initus varia esse potest linearum rectarum et curvarum, quae directiones habent, et plures trajectoriae in diversas partes etiam componi possunt. Exempli gratia, uti curva S informibus ad motum fluitantis objecti moderandum, descriptionibus textibus uti ad celeritatem suam refrenandum. In vide infra, prompta verba adverbiis utuntur ut "tardus", "elegans" et "leniter".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

Eadem trajectoria identidem in axem potest movere, picturam ultro citroque condens.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Back and forth track.mp4

Trajectoria in eadem pictura varias trahens etiam Tora permittit ut videos varias motus directiones generare.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_idem picture.mp4

Ex eodem trajectoria input, Tora modos motus diversos generabit secundum differentias subjectorum.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Quod differt a communi motu penicillo currenti munus est quod, etiamsi nulla imago inputatur, Tora potest generare video correspondentes secundum compositionem trajectoriam et textum.

Exempli gratia: duae cinematographicae 1 et 3 in video infra generantur sine tabulis initialibus, solum trajectoriae et textus.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora etiam primam et ultimam machinam potestatem sustinet, sed hic casus tantum in charta apparet ut pictura, et demonstratio nulla video.

Tora prima et novissima frame imperium

Si ergo tantum duae inputationes modales textus et imago, idem effectus effici potest? Hac interrogatione prae oculis habitis, conabar easdem tabulas initiales pascere et verba prompta in alias generatores AI videre.

A sinistra ad dextram et a summo ad imum in in video infra sunt imagines generatae ab Tora, Vidu, Qingying, et Keling. Perspici potest quod, cum trajectoria sit linea recta, generationem video sine trajectoria input exigentiis vix occurrat.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Cum autem motus requiritur trajectoria curva fit, textus traditionalis + imago initus postulationi occurrere non potest.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. ExOpenSoraFramework, motus innovative duos modulorum processus

Tora adoptavitOpenSoraDiT architectura sicut exemplar fundamentale, OpenSora est exemplar generationis video compage destinatum et apertum principium ab AI startup Luchen Technologiae ortum.

Ut trajectoriae diT-fundatur imperium generationis video assequendum, Tora duos novos motus modulorum processus inducit:Trajectoria ExtractorTrajectory Extractor）和motus directione fusione(Motus-duca Fuser), aptam trajectoriam in multi-gradu spatiotemporali motus inaequaliter encode.

Figura infra ostendit totius Tora architecturae. Hic aditus consentaneum est cum scalability DiT, creationem altae resolutionis, motuum sobrietatis videos quae diutius durare possunt.

Tora altiore architectura

in,Trajectoria ExtractorUtens motu 3D VAE (variational autoencoder), vector trajectoria inhaeret in eundem locum latentem cum inaequaliter video, quae efficaciter retinet motum informationum inter tabulas consecutivas, ac deinde stratis convolutionibus reclinatis ad motus hierarchicos extrahendos lineamenta adhibentur.

motus directione fusioneDeinde accumsan ordinationem adaptivam adhibitam esse compagem inponere has condiciones motus multi- gradus in impedimentis respondentes DiT ut semper video generationis trajectoriam definitam sequi.

DiT-substructio generationi cum trajectoriis coniungendi, auctores tres variantes fusionis architecturae exploraverunt, motus inaequalis in unumquemque STDiT scandalum immittentes, cum Norma adaptiva optimam observantiam demonstrantes.

Tres architecturae motus directione fusione fabrica

In specifica disciplina processus, auctor varias disciplinas inceptas pro diversis inputationis condicionibus adhibet.

In trajectoria exercitatione, Tora methodo eruditionis scaenae ad trajectoriam discendi utitur. Primus gradus densum fluens opticum e disciplina video scores.

In formatione imaginum, Tora sequitur consilium larvatum ab OpenSora ad conservationem visualis temperationis. Tabulae passim reseratae sunt in processu paedagogico. sonitus in unam compagem integratur.

Cum quantita- tive comparet cum motu progressivo moderatissimae video generationis exempla, Tora incrementum in methodis UNet-substructis commodum habet, cum numerus tabularum generatarum augetur, altiorem trajectoriae imperium stabilitatem servans.

Comparison inter Tora et alia moderatior video generationis exempla

Exempli gratia, ab eodem initus fundatum, video generatum a Tora levius esse quam generata exempla DragNUWA et MotionCtrl, et motum trajectoriam verius sequitur.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. "Futurae" res gestae sunt, et Alibaba consilia facere pergitAIvideo

AI video generationem histriones in plena adductius sunt, et Alibaba continue oppugnans AI vestigia video. Comparata cum Sora et aliis exemplaribus generalibus quae longitudinem et qualitatem generationis video intendunt, consilium Alibaba quadrigis magis versari videtur in applicatione specifica algorithmi in diversis formis video generationis.

Mense Ianuario hoc anno, Tongyi Qianwen "Regem Danicum Nationale" deduxit et clarus factus est cum "Terracotta Bellatores et Equites Saltatio 3"; cum una tantum imagine.

Eo tempore, Zhidongzhi extensionem Alibaba in AI videos aestimavit et invenit eam in quattuor mensibus incepta saltem VII novas incepta, Vincentium videos, Tusheng videos, choreas, effigies colloquentes mores, deiecisse, etc. (Deus domesticus gradus AI apparet! Gao Qiqiang mutat in Luo Xiang, Cai Xukun rex Rap fit, et etiam cum Sora coniungitur)

Nunc, post dimidium annum, EMO ex "futuris" in "cantum nationalem" et "faciendum" munus in Tongyi App, omnibus promptum, mutavit. Alibaba etiam AI plura incepta video dimisit.

1、AtomoVideo: Summus fidelitas image-ut-video generation

AtomoVideo die mensis Martii dimissus est 5. Magna fidelitas Tusheng video compagem. assequendum Rich exercitium vehementiam et bonum sincere constantiam.

▲AtomoVideo video effectus generat

Protocollum paginae:https://atomo-video.github.io/

2、EasyAnimate-v3:Singula imago+Princeps senatus generare diu videos ex textu

EasyAnimate est processus processus video generationis ab Alibaba die 12 Aprilis deductas et iteravit ad versionem v3 proximis 3 mensibus. Motionem moduli inducit dilatando DiT compage, quae auget facultatem capiendi dynamicos temporales ac lenitatem et constantiam videos generatorum efficit.

EasyAnimate v3 generat video effectus

Protocollum paginae:https://github.com/aigc-apps/EasyAnimate

conclusio:AIVideo generatio nunc moderatior

Cum longitudo et qualitas AI video generationis ad certum gradum perventum est, quomodo generata videos magis moderatior ac magis in necessariis congruens propositio momenti est in momento.

Cum continua optimiizatione accurationis, controllabilitatis et facultatis utendi efficientiae, experientia usus productorum AI video generationis in novo stadio adducet, et pretium magis parabilis fiet, plures creatores participare sinunt.

nuntium

Alibaba dimisit "Magicam Pen Ma Liang versionem Sorae", quae feles modo tactu vertere facit, 20 demonstrationes ac 10 paginas relationum technicarum.

Introductio

mihi contactus notitia