nuntium

AI etiam "refice TikTok"! Universitas Tsinghua plumbum sumit in solvendo novum exemplar brevitatis video plenae intellectus modalis |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: LRST itaque somnolentus

[Introductio ad Novam Sapientiam]. Audio et video exempla magna linguarum saepe deficere ut plenam fabulam praebeant in partes orationis cum processus video contentus. Exemplar video-SALMONN per tres partes innovat: audio et video coding et alignment temporale, multi-resolutio causalis Q-Former, diversitas amissionis functionis et mixtus audio et inparis notitiarum formatio video. Exemplar non solum bene in singulis operibus modalitatem exercet, sed etiam excellentem observantiam in communibus officiis visialibus demonstrat, eius comprehensive et accurate comprobans.

Si vis videre breves videos, praeter contentum visualium, informationem auditorium sicut vox et audio, sicut video musicam, effectus sonos, contentum vocis, etc., etiam partes clavis agunt in comprehensione brevium videos.

Audio-visual magnae linguae exempla (av-LLMs) his annis progressus significantes fecerunt, sed oratio, sicut principalis tabellarius linguae humanae in videos, in his exemplaribus adhuc plene non est explorata. Oratio non solum praebet notitias linguisticas et semanticas copiosas, sed etiam adiuvat ad intellegendas affectiones et significationem in video.

Eodem tempore, signa sermonis continent etiam notitias paralinguisticas copiosas, ut picem et picem, ac varios oratorum attributa (sicut aetas, genus, accentus et identitas), quae elementa necessaria sunt in intellectu video.

Nihilominus, amplificandae loquelae facultates generales-propositos audiovisuales magnae linguae exempla valde provocantes, exigunt ex tempore eximios modales et implicatas interactiones cum aliis modalibus ad tam crassum (exempli causa, video subiectum) et denique (exampla motus labii) temporis squamas.

Nuper, charta "video-SALMONN: Orationis amplificata Exemplaria Audio-Visual Large Language" edita anno ICML 2024 primum exemplar magnum evasit ut omnia audio et video elementa in video integrare (imagines naturales, textum, sermonem, eventum audio; music) Exemplar.


video-SALMONN charta pagina: https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN paper link: https://arxiv.org/abs/2310.13289

Github Page:https://github.com/bytedance/SALMONN

Per exempla sequentia, inspice quam video-SALMONN interpretes video contentos per informationem vocis-audio-video!

Primum, hic clipeus classicus de "Titanico"

Loquatur video-SALMONN quare hoc video tam venereum:


interrogatio:

Quaeso coniungere video, audio et ingenium dialogum explica cur video esse romanticum

respondeo:

Video ostendit scaenam venereum inter virum et mulierem in navi. Vir mulierem in armis tenebat et simul solis occasum observabant. In background musica carmen est quod ad aerem venereum addit. Mulieres dicunt "volo" et "Jack", quae ostendit se laetas esse et momento fruentem. Cursus ratis et occasus pulchram et pacificam ambitum creat quae sensum venereum imaginis auget. Lingua corporis et vultus virorum ac mulierum etiam amorem et affectum suum inter se insinuant. Super, video perfecte comprehendit momentum venereum et intimum inter utrumque.

Praeter scaenas quas vidit, video-SALMONN etiam musicam quae audierat et dialogum characterum in descriptione sua integravit.

Quid magis mirum est quod video-SALMONN scire etiam potest eam esse mulierem quae dixit "volo".

Praeterea, video-SALMONN etiam deducere potest nomen hominis "Jack" esse.

Novimus omnes has duas esse dialogi lineas qui hanc scenam classicam creaverunt, et video-SALMONN essentiam huius scaenae modo ceperunt!

Hic alius tondet animatum ex "Zootopia":

Vide quam video-SALMONN intelligat ridiculas res circa pigritias:


interrogatio:

Est lepus, vulpes et pigritia interveniunt. Cur accidiae delectantur?

respondeo:

In fine vide desidia "Nick" inquit. Desidia ridicula est quia animal tardum est et nimis piger in video apparente, diu moratus ad res agendas. Et hoc repugnat naturae activae et strenuae aliorum animalium, ut lepores et vulpes, desidiae eminentes et addito humori. Accedit motus tardus et vultus socordiae in video addito suo effectu comedico.

Hoc exemplum ostendit agnitionem dicentis per compositionem auditionis et video Coniunctio vere possumus intelligere video!

Et hoc ipsum populare quentiam;

Quaeritur video-SALMONN quare hoc video ridiculum est:


interrogatio:

Potesne explicare quare hoc video ridiculum est?

respondeo:

Video ridiculum est quod hominem ostendit facem risam faciens ac deinde dicens "lepidus". Contrapositum inter gravem locutionem ac verbum "nice" humorem ac sensum admirationis gignit. Accedit quod soni effectus hominis bursarum et popinorum sonorum augent valorem spectaculi spectaculi.

Aliam inspiciamus clipeum documentalium Nationalium Geographicarum ut videat quomodo loquela intellegenda adiuvare possit:

Quaeso te qualis est in video-SALMONN video turpis:


interrogatio:

Quod genus est in video turpis?

Responde cum audio initus:

PISTRIS in video est cete PISTRIS

Responde sine audio initus:

PISTRIS in video magna alba turpis

Sicut video aspicio, vere nescio qualis turpis sit sine aliqua scientia professionali, ergo exemplar solum suspicari potest, quod pronum est ad hallucinationes.


Sed, audita explicatione auditionis, accurate scire potest video-SALMONN video esse de squalis ceti, ideo coniectura non opus est.

Etiam video clip colloquii inter magnos guys:

Non solum materiam colloquii intellegit, video-SALMONN etiam oratorem et materiam colloquii coniungit;


Quaestio:

Ex visu et voce, eratne vir aut femina quae in video Florentiam volavit?

respondeo:

Mulier quae Florentiam volavit

Hoc exemplum adhuc comprehensivum sermonis in video-SALMONN demonstrat.

Si textum sermonis transcriptionis directe inputas, impossibile est ut exemplar cognoscat qui Florentiam volavit, sed video-SALMONN potest arcte coniungere sermonis contentum et informationem dicentis.

Proxima pars practica est: inspice quam video-SALMONN comprehendentiam vocis-audio-videi consequi possit!

Core Technology


video-SALMONN exemplum

Adversus provocationem sermonis intellectus in magnis audio et video exemplaribus, video-SALMONN has tres sequentes partes innovationis efficere ut varias elementa visibilium fundamentalium tractare possit, ut imagines naturales, compages visuales, orationes, audio eventus, elementa musica;

Pars I: Audio et video modum translitterandi ac tempus alignment

video-SALMONN utitur loquelae encoder et soni encoder et pulsantis encoder ad obtinendum in modum translitterandi vectoris sequentia loquelae et soni respective (50 vectoris pro singulis secundae auditionis), et etiam utitur instructBLIP visualis encoder ad obtinendum visivam cum rate video sampling of 2 FPS.

In temporis dimensione, tria sequentia perpenduntur et splicuerunt omnibus 0.5 secundis, quae in tabulis video (temporalis synchronisation fine-grained), quia loquela audio series paulo brevior est quam ordo visualis, et nulla color additur. pars brevis.

Pars II: Multi-solutio causalis Q-Former

Multi-resolutio causalis (MRC) Q-Forma structura est nucleus insitus video-SALMONN, qui non solum spatialiter adsimilat tempus-synchronizatum audio-visualis input notas cum repraesentationibus textualibus in pluribus diversis temporis squamis, muneribus satisfaciens quae diversis video niti. elementa requiruntur et ad confirmandum causalitatem temporalium eventuum inter continuos tabulas cinematographicas, causalis attentio sui ipsius structura cum speciali larva causali introducitur.


MRC Q-Prior Structure

Primo, MRC Q-Formator input ordinem dividit in fenestras diversarum longitudinum. Deinde in unaquaque fenestra, Q-Formator adhibetur ad describendam multi- modalem repraesentationem ad spatium repraesentationis semanticae divisae. Denique vectores output per singulas fenestras Q-Formores in unoquoque gradu resolutionis concatenati sunt ut seriem vectoris in spatio semantico forment.

Curamus ut numerus vector output et fenestrae ratio longitudinis constantes sint, MRC Q-Formator efficit ut sequentia output in diversis gradibus resolutionis directe scindi possint in dimensione plumarum and used as input to the large language model.

Per exercitationem, princeps senatus Q-Formator notitias subtilissimas capere potest, sicut loquelae contentum et nexum inter loquelam et motus labii video et melius intellectus relationum inter plures tabulas.

(Nota: MRC Q-Prior structura multi- resolutionis in spatio etiam apta est. Charta imaginis methodum arcus primum primum proponit, quae imaginem in sub-imaginem series variarum praecisionum sicut input scindere potest, ita valde meliore. in observantia intellectus imaginem)

Pars III: Diversitas iacturae functionis et disciplinae in mixtis audio et video datae

Praeterea, ad vitandam dominationem certae machinae in video, video-SALMONN proponit et utitur nova diversitate amissionis functionis in cruce-entropy fundatae, quae exemplum hortatur ut diversas partes totius seriei explorant.

Eodem tempore, ne dominatio unius modalis in paribus auditionibus et cinematographicis (exempli gratia, auditio non-actorum in videos saepe tantum parvam copiam notitiarum auxiliarium praebet et facile neglecta est), video-SALMONN. utitur consilio miscendi audio et video imparatum. Disciplina ita perficitur ut video-SALMONN operam dare ad informationem duarum modalium simul.

Proventus praecipuus

In charta Video-SALMONN probatio probatio-auditionis visualis aestimationis proponit, et ostendit praeclaram actionem in oratione, audio, non loquela, imagine et operibus video.

Compendia experimenta includunt recognitionem sermonis (ASR), descriptionem audio (AAC), descriptionem imaginum (IC), recognitionem textus visualium (OCR), picturam interrogationem et responsionem (VQA), interrogationem et responsionem (Video QA) et alia visiva et auditoria. singula input modalia. Munera etiam includunt recognitionem sermonis audio-visualem (AVSR), audio et video quaestionem respondentem (AVQA), audio et video fontem soni detectionis (AVSSD) et audio et video adaptionem (AVM), quattuor audio et video commune input perceptio munerum.

Inter eos, AVQA est recens propositio probata, et AVM opus est nuper propositum, quod exemplar requirit num par audio et video.


Imprimis, video-SALMONN idem consequitur vel etiam melius eventus in operibus inputandi modalibus simplicibus quam in exemplaribus quae tantum possunt processus visivae vel auditorii modalis initus.

Comparatum cum Video-LLaMA, magnum exemplar quod etiam processus audio et video, video-SALMONN non solum auget suam facultatem intellegendi sermonis initus, sed etiam longe excedit suam observantiam in variis operibus simplicibus modalibus.


In intellectu operis audio et video iuncturae initus, video-SALMONN longe praestantiorem observantiam quam alia exempla monstravit.


Propter facultatem sermonis intellegendi, video-SALMONN insigniter superat simile magnum exemplar Video-LLaMA in AVQA.

Potius, video-SALMONN ostendit facultates praestantes nullas-semplum emergentiae pro communibus loquelae auditionis visivae rationibus in AVM et AVSSD, duo opera prorsus inexercitata.


Exitus harum facultatum iuncturarum ratiocinandi postulat ut exemplar aequam attentionem praebeat ad initus visivae et auditoriae informationes simul, et comprehendere conexiones complexas inter audio et visuales.


Attamen exempla aperta quae exstant vel non possunt plene audire audio vel solum singula input modalitate separatim describere.

conclusio

Lorem video-SALMONN adiuvabit meliorem comprehensionem et diligentiam technologiarum video intellegendi, et novas occasiones ad analysin, affectionem recognitionem, multi- modalem commercium et alios agros afferet.


Hoc exemplum non solum magnum momentum habet in investigationibus academicis, sed etiam subsidia technica valida in applicationibus practicis praebet.

Notae:

https://openreview.net/pdf?id=nYsh5GFIqX