nuntium

Oculos celeriter et lentos addere ad exemplar video, nova disciplina-liber modus Apple in secundis omnia excedit SOTA

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Cum Sora emissio, campus AI video generationis factus est magis "occupatus". Praeteritis mensibus paucos testati sumus Jimeng, Runway Gen-3, Luma AI, et Kuaishou Keling vices captantes explodere.

Dissimilis in praeterito, ubi sub aspectu dicere potes exempla ab AI generata, haec massa magnarum exemplorum video potest esse "optimus" quem umquam vidimus.

Attamen mirabilis effectus magnarum exemplorum linguae (LLM) inseparabilis est a magna et subtiliter annotata notitiarum cinematographicarum, quae maximis pretiis postulat. Nuper plures methodi novarum ortae sunt in campo investigationis quae additamenta disciplinae non requirunt: adhibita imaginis magnarum linguarum exempla adhibita ad operas video processus directe, sic "expensivum" processum disciplinae praetermittens.

Praeterea, maxime exsistentes video LLMs ex duobus defectibus maioribus laborantes: (1) tantum tractare possunt cum video initus cum paucissimos tabularum numero, quae difficilem faciunt exemplar contentum subtilem localem et temporalem in curriculo capere; ) temporalibus exemplaribus consilio carent, sed tantum lineamenta video in LLM iniuncta, omnino confisi LLM possibilitate ad motum formandum.

Ad predicta,Apple inquisitores proposuerunt SlowFast-LLaVA (sf-LLaVA propter brevem). Hoc exemplar in LLaVA-NeXT architectura in byte quadrigis elaboratum est. Illam subtilitatem tuning non requirit et ex archa adhiberi potest.. Inspirati a felici duo-fluvio retis in campo agnitionis actionis, turma investigationis novam machinationem tardis input mechanismum destinavit pro video LLM.

Simpliciter pone, SF-LLAVA singularia intelliget et motum in videos per duas celeritates visibiles varias (Tardum et Fast).

Tardus semita: extractum lineamenta ad ratem reprimendam, retinendo quam plurimum spatii ad singula (exempli gratia, retinens 24-24 signa singulas 8 tabulas)

Iter festinanter: ad altam ratem currite, sed solutionem video cum ampliore gradatione spatii localis ad simulandum maiorem contextum temporalem simulandi et magis ad intellegendam cohaerentiam actionum.

Hoc idem valet ac exemplar duos "oculos" habens: unum lente spectat et ad singularia attendit; Hoc dolorem solvit puncta omnium quae exsistentium video LLMs et possunt capere et singulatim semanticos et longiores contextus temporales.



Paper link: https://arxiv.org/pdf/2407.15841

Eventus experimentales ostendunt SF-LLAVA methodos liberas disciplinas existentes superare, significantibus commodis in omnibus probationibus probatio. Comparato exemplari SFT subtiliter modulato, SF-LLaVA eandem observantiam consequi potest vel etiam melius.



Exemplar architecturae

Ut in figura infra ostendetur, SF-LLaVA sequitur regulam liberam videndi processum LLM. Capit video V et quaestionem Q ut input et outputs responsionem A. respondentem.



Nam initus, N tabulae uniformiter ab unaquaque video quantitatis et longitudinis, I = {I_1, I_2, ..., I_N}, exigitur, et nulla specialis coniunctio vel dispositio electronicarum video tabularum exigitur. Pluma frequentia in compage unitas independenter extrahenda est F_v ∈ R^N×H×W, ubi H et W altitudo et latitudo membrorum respective sunt.





Eventus experimentalis

Manipulus inquisitionis deduxit aestimationem comprehensivam SF-LLaVA, eam comparans cum currenti SOTA disciplinae liberorum exemplorum (sicut IG-VLM et LLoVi) in multiplicibus video interrogationibus respondens operibus. Praeterea comparaverunt eam cum video LLMs ut VideoLLaVA et PLLaVA quae subtiliter modulatae (SFT) in schedae cinematographicae praeerant.

Apertum video Q&A

Ut in tabula infra ostendetur, quaestioni quaestionis in aperto finienti negotio respondens, SF-LLaVA meliores quam disciplinas liberas modos per omnes benchmarks exsistens praestat. Speciatim, cum LLMs 7B et 34B parametri magnitudinum respective instructus, SF-LLaVA est 2.1% et 5.0% altior quam IGVLM in MSRVTT-QA, 5.7% et 1.5% superior in TGIF-QA, et 5.7% et 1.5% altior in ActivityNet. -2.0% et 0.8% altius in QA.

Etiam cum methodo subtiliter SFT comparata, SF-LLaVA in plerisque benchmarks exhibitionem comparabilem ostendit, solum in ActivityNet-QA Probatio, PLLaVA et LLaVA-NeXT-VideoDPO leviter meliores sunt.



Multiplex electionis video Q&A

Ut ex tabula infra videri potest, SF-LLaVA alias disciplinas liberas methodos in multiplicibus electionis video quaestionibus respondens in omnibus benchmarks. In EgoSchema data copia quae longum tempus ratiocinationem implicatam requirit, versiones SF-LLaVA7B et 34B notatae 11.4% et 2.2% altiores sunt quam exemplar IG-VLM respective.

Etsi VideoTree in probatione probationis inducit, quia exemplar proprietatis GPT-4 fundatum est, effectus eius multo altior est quam fons aperto LLM. Comparatus cum SFT methodo, exemplar etiam SF-LLaVA 34B melius consequitur in EgoSchema, quod confirmat validam facultatem consilii tardissimi ad longum videndum tractandum.

Textus Generationis



Vincentius Video

Ut in Tabula 3, SF-LLaVA etiam commoda quaedam ostendit ad opus generationis video. SF-LLaVA-34B omnem disciplinam liberam benchmarks in altiore observantia superavit. Quamvis secundum orientationem singillatim SF-LLaVA aliquantulum inferior LLaVA-NeXT-Image sit. Ex consilio tardioris, SF-LLaVA diutius contextus temporalis cum paucioribus signis visualium operire potest, ideo praecipue bene in operibus temporalibus intellegentiae fungitur.

Praeterea SF-LLaVA-34B maxime SFT methodos formas etiam in verbis Vincentii video perficiendi.



Ad plura, quaeso, ad chartam originalem referenda.