Video contextual doctrinam! Magnum exemplar discit "felem imitari et tigrem ducere", e MSRA

Video contextual doctrinam! Magnum exemplar discit "felem imitari et tigrem ducere", ex MSRA

2024-07-17

Collata ab Vid-ICL team
Qubits |

Possuntne generationem videre etiam ad "contextum" pertinere? !

MSRA proponitVideo context doctrina(Vide In-Context Learning, Vid-ICL), exemplar magnum discat "felem imitari et stilum tigridis trahere".imitatio generationis。

Vid-ICL exemplo video utitur ad exemplar generationis in missionibus novis regendis, ut generata eventus "imitare" possit munera quae in sample videos in novis missionibus perficiuntur.

Exempli gratia, prospectus video camerae specimen deorsum movet, et video genitum prospectum deorsum (rectum);

Specimen video objectum sursum (reliquit), et video quod genitum movet sursum (right);

Objectum expolitio etiam simulari potest;

△Reliquit: Exemplum video, bracchium robot objecta rapit; Ius: Generatum video

Aperiens perscriptorem etiam fieri potest ut in exemplo patet:

△Left: Sample video, medium loculum aperi;

In missionis ventilatione electrica simili, diversis exemplis uti videos ut exemplar producat ad effectus generandos similes:

Left: sample video, camera sinistra movetur;

Left: Sample video, camera ad dextram movetur;

Scias oportet in exemplari mundi exemplari, commercium inter exemplar et ambitum externum diversum esse.Maxime existentium opus focuses usuraTextus sicut primus modus commerciiquae efficit difficilem singularitatem et diversitatem generum consequitur moderari.

etVideo valde concretum et universale, inferre potest amplis informationibus sicut exempla perficiendi varios officiorum, etiam mobilium vel rapiendi obiecta.

Vid-ICL methodum ab investigationibus propositam theam praebet jocus linguarum et imaginum.novum interfacediversorum exemplarium ac rerum commercium faciens.

Praeterea video genitum supra ostensum est;Vid-ICL coniungi etiam potest cum emulatoribus, uti video generatum et statum currentem praedicere actiones correspondentes ad rectam commercium cum ambitu, itaAnimadverto commercium cum ipsa environment。

Figura infra ostendit Vid-ICL cum reali ambitus inter se cohaerere. Vid-ICL accuratiorem potestatem in culturae interationes praebet:

Bonus Guido, pellicula "Iron Armor" facta veritas est.

Quam exacte opus facit Vid-ICL?

Interpretatio Vid-ICL compage

Vid-ICL cum video ut unitas fundamentalis operatur.

In specie, posita quaesita video clip et k exemplum video clips, finis Vid-ICL est generare clipeum qui primus debetSensus cohaerentiam ponere cum interrogatione video clips，Simul in semantics(Ut camera motus, actio)Superius consentaneum est cum exemplo video。

Autoregressive exemplar disciplina

Vid-ICL Transformer utitur ut structurae exemplar.

Sicut basis architecturae magnarum textuum exemplorum, Transformer potentissimas facultates in lingua contextu ratiocinandi ac generationis operas demonstravit. Generativa Transformer institutio informationis visualium in duobus gradibus consistit:

Primum, encoder visualem institue, ut VQ-VAE, ut singulas imagines in signum discretum convertas;

Secundo, unaquaeque disciplina specimen pro signo sequentis construitur, et finis Transformatoris decoder est huius tesserae sequentiae recuperandae.

Secundum exsecutionem specifica, Vid-ICLArchitectura per Llama, ususRMSNorm ordinationemetRotatione positio embedding Transformer decoder modo autoregressive instituendi. In disciplina temporis, quaelibet series e video crudo gustatur sine tondet video e diversis videos.

Nulla sample facultatem

Turma investigationis praecipuam observationem in hoc articulo facit:

Exemplar incipere potest a notitia video data sine forma contexta expressa, i.e.Sponte didicit contextual ratiocinandi facultates ex continuis video clips, id est "nulla capacitatis specimen" pro Doctrina in-contextu Video.

Hoc tribui potest duobus praecipuis. Primum, nullae speciales delimitatores inter singulas tabulas video inserendae sunt, quae permittit ut exemplum implicite continuas video sequentias tractare sicut exempli causa + interrogationis videos in exercitatione. Hoc significat exemplum quod didicerat ad processum sequentium similium structurarum exemplum-quaestionis.

Secundo, notae autoregressivae Transformis efficiunt ut extendere videatur series praedictionis facultatis unius scaenae ad scaenas ubi exempla et interrogationes e diversis videos procedunt, et paradigma textus contextus incommoditer generatim discendi ad discendi contextum videndum est.

Integrate aliis modis

Etsi Vid-ICL in exemplum tendit, ad alios modos ut textus extendi potest.

Ad hoc faciendum, modo descriptionem textus primigenii in latentem repraesentationem per exemplum linguae praeexercitatae converte, et hac latente repraesentatione utere ut praepositione cum formans Transformatorem et ratiocinationem contextualem exercens, eamque in latens spatium Transformer apponas. per proiectionem iacuit.

Experimenta ostendunt Vid-ICLPotest accipere et textum et video in exemplumet textus addens amplius augere qualitatem proventuum generatorum potest.

Data et exemplar magnitudine

Videri potest Vid-ICL discere informationes semanticae in exemplum videos contentas ac migrare ad novas scenas generationis. Hoc postulat ut disciplina notitia maxime videos relationes causales et fortes interactivitates contineat.

Ideo indagatores duas datasetas selectas tamquam praecipuas institutiones ad fontes datas: Ego4d et Kinetics-600.

Praeterea, ad augendam varietatem contentorum cinematographicorum, parva pars notitiarum in Webvid adiecta est institutioni statutae.

Turma etiam verificatur ob hoc quod notitia semantica in Interreti videos contenta relative incerta et divergentia est, amplitudo notitiarum amplitudo simpliciter augeri potest addito plus interretiali videos.non adiuvet amplio contextual observantia exemplar。

Secundum magnitudinem exemplaris, manipulus exemplorum trium magnitudinum instructus: 300M, 700M et 1.1B, qualitatem et contextualem agendi invenit quod exemplar imaginum generatorum legem scalam secutus est.

Eventus experimentalis

Vid-ICL maxime transitPraebere specimen videos cum diversis semanticis pro eadem interrogatione videout efficaciam ac diligentiam contextus discendi perpendant.

Exempli gratia, pro interrogatione video obiecti movendi ad sinistram, diversae videos generari possunt per exemplum videos movendi ad sinistram, passim movendi et movendi in contrariam partem, ac aestimatio eventus generati adhiberi potest. ut dispiciamus an exempla exempla generaverit.

Secundum qualitates proventus, figura infra indicat generata videos sub diversis exemplis (plura exempla, quaeso, ad textum originalem chartae referri).

Observari potest;

1) For*Unum video generationQualitas, Vid-ICL cohaerentiam video generati ac interrogationis video conservat, et utraque qualitatem bonam generationis habent;

2) For*Semantic constantia inter generatum et exemplum videos, animadverti potest quod videos generatae omnes processus exempli video sequi, quod ostendit Vid-ICL facultatem sua sponte obtinere informationes semanticae exempli video et generare video correspondentem.

Ut in figura infra ostendetur, eadem interrogatione video clip, Vid-ICL electum ut video genitum movere secundum motum lentis in exemplo video.

Secundum quantitatis eventus, turma investigationis proposita latis aestimationis indicibus in duobus:

1）Video qualitatemEx altera vero parte, indices in pixel congruens vel distributione munerum visualium traditorum adhibentur, uti PSNR, FID, etc.;

2）semantic constantiasupra, duo indices in accuratione classificationis adhibiti sunt: accurate classificationem video et accurate classificationem explorare.

In variis indicibus, Vid-ICL meliores eventus ostendit quam exemplar baseline. Videri potest quod sub ductu similium exemplarium videos Vid-ICL generat magis realisticam et semantically constantem videos.

Quaeso referri ad chartam originalem pro magis details.

Project homepage: https://aka.ms/vid-icl
Paper link: https://arxiv.org/abs/2407.0735

nuntium

Video contextual doctrinam! Magnum exemplar discit "felem imitari et tigrem ducere", ex MSRA

Interpretatio Vid-ICL compage

Eventus experimentalis

Introductio

mihi contactus notitia