nuntium

Zhejiang University Li Xi's manipulus: Nova methodus referendi ad intelligendi exprimendi rationem, ScanFormer nugationem a vilibus ad multam removet

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];

Auctores chartae huius omnes ab universitate Professoris Li Xi Zhejiang sunt. Primus auctor chartae doctoralis discipulus Su Wei est, auctorque auctor Li Xi (IET Socius, Nationalis Scholar Illustris Iuvenis). Superioribus annis, Professor Li XI turmas plus quam 180 CV/AIGC inquisitiones in diariis internationalibus (ut TPAMI, IJCV, etc.) pervestigationum relatas edidit, ac collationes academicas internationales (ICCV, CVPR, ECCV, etc.); et cum notissimis universitatibus et Institutis scientificis inquisitionis domi forisque cooperatur.

Ut munus linguae visualis fundamentalis, comprehensio referens expressio (REC) collocat scopum relatum in imagine secundum descriptionem linguae naturalis. Exemplar REC plerumque constat ex tribus partibus: encoder visualis, text encoder et commercium modalis transversis, quae extrahendi lineamenta visualia, lineamenta textilia et plumas modales crucis commercium et amplificationem respective.

Praesens investigatio maxime spectat ad moduli commercium efficaces crucis modales ad curandum accurationem emendandum, et defectus explorationis encoders visualium est. Communis accessus ad extrahentes plumas adhibendos est in operibus classificationis et deprehendendi exercitatis, ut ResNet, DarkNet, Swin Transformer vel ViT, etc. Haec exempla omnia spatialia imaginis percurrant ut lineamenta extrahendi in fenestra illapso vel commissura divisa modo.

Propter notas imaginum spatiales redundantiae, magnae copiae e regiones fundi sunt cum argumentis et locis ignobilibus quae ad expressionem relativam in imagine pertinentem non habent non confert efficax extraction. Efficatior via est ut praedicere textum congruentem ac contentum divitiarum imaginis area in antecessum, plene extrahere lineamenta e regione texti relatas antica, et lineamenta e curriculo fundi ruditer extrahere. Ad praedictionem regionalem, via magis intuenda est uti pyramis imaginis ad recognoscendas curriculi aream in antecessum in grosso grano in summitate pyramidis imaginis, et deinde sensim additis locis gradatim subtilioribus opacis.

Ex analysi superius, proposuimusScanFormer, crassum-ut- bysso iteratione conscia compage, iacuit scan iacuit in pyramide imaginis, ab humili solutione grossorum imaginum incipiendo, et paulatim eliquare in locis nihil/adiunctis locorum quae ad expressiones ad vastum computationale reducendum praebent exemplum ut magis in locis anticis molis actis umbilicum .



  • Paper title: ScanFormer;
  • Paper link: https://arxiv.org/pdf/2406.18048

Methodus introductionis

1. Crassum-ut- bysso iteratio sensus compage

Ut structuram simpliciorem reddamus, exemplar viLT [1] coniungens textum et modalitates visuales, eamque in duas partes dividit, Encoder1 et Encoder2, per profunditatem dimensionum ad diversa opera.

Primum, lineamenta textuum extrahenda et in KV Cache repone; deinde pyramis imaginem construe et deorsum e vertice pyramidis itera Singulis pannis respondentes. Delectu inaequalis inaequalis ad unam scalam. Praesertim omnes pecias imaginis in summo gradu eliguntur ut exemplar notitiarum imaginum plenarum rudium obtinere possit. Encoder2 ulteriora lineamenta extrahit et capsulam huius scalae terminatam praedicat innixa in signo hodiernae scalae.

Eodem tempore lineamenta intermedia Encoder1 et Encoder2 in KV Cache ponentur ad faciliorem usum vexillum sequens. Cum pondus auget, lineamenta subtilia introducta sunt, positio accuratior praesagia erit, et inaequalitas inaequalis abiecta est ad multum calculi servandum.

Praeterea inaequalitates in unaquaque scala attentionem habent bidirectionem, attendentes ad omnes lineas et textus lineas praecedentium squamae. Haec intentio causalis per squamas adhuc requisita computativa minuere potest.



2. Dynamic lacus lectio

Delectu uniuscuiusque panni ab electione factore praecedente generato determinatur. Duae sunt optiones pro applicatione loci H capita, difficillimum est difficilius ad informationem efficacem ad augendam gradientem, ideo doctissimus factor electionis non est idealis; in hac positione adhibita, facilius est cognoscere.

Praeterea notandum est, etiamsi input commissura embeddingi ad 0 posita sit, ex MHSA et FFN existentia, lineamenta commissurae in sequentibus stratis adhuc non 0 fient et lineamenta ceterarum inaequalitatum afficiunt. Fortunate, cum multa signa identica in serie agant, calculus MHSA simplicior et actualis conclusio acceleratio perfici potest. Praeterea, ad flexibilitatem exemplaris augendam, hic articulus non directe commissuram ad 0 inducens, sed erudito constanti signo reponit.

Ergo quaestio commissura lectionis mutatur in problema tortor lacus. Plenitudinem delectu processus in duos gradus dissolvi potest: constans signum postea et signum bus. Unselectae resarcio cum eodem constanti ratione restituetur. Cum haec signa non electa eaedem sint, secundum calculi methodum escensionem dot productam attentionem, haec signa in unum signum et per numerum multiplicatum componi possunt, quod aequipollet cum dimensioni addendo, ideo ratio producti attentionis est; nulla mutatio, communis accelerationis methodi adhuc in promptu sunt.



Eventus experimentalis

Haec methodus perficiendi similem statum-of-artis in quattuor notitias ponit: RefCOCO, RefCOCO+, RefCOCOg et ReferItGame. Per prae-exercitationem in magnarum rerum datarum copia et subtiliter in notitia certae notae, perfectio exemplaris amplius augeri potest et similes eventus consequi ad exempla praeordinata qualia sunt MDETR [2] et OFA [3].





In terminis celeritatis ratiocinationis, modus propositae celeritatis temporis ratiocinationis consequitur, dum altam diligentiam invigilat.



Praeterea pars experimentalis etiam fecit statisticam in panni lectionis exemplaris et distributionem positionis accurationis in qualibet scala (scale1 et scale2).

Sicut in figura sinistra, cum scala crescit, lineamenta imaginis subtilis comparata adduntur, exemplar accurationis paulatim melioratur. Propterea conemur addere primum exitum mechanismum ad exitum in tempore cum positio accurationis postulatis occurrit, ulteriores rationes in altum resolutionis imaginibus vitando, et effectum adaptive eligendo aptam resolutionem in exemplis fundatam. Hic articulus etiam nonnullas conatus praeliminares fecit, additis vaticiniis ramis ut IoU, GIoU et incertis, et indicibus primorum exitus reddens. Tamen deprehensum est effectum non esse idealem perrexerunt explorare.

Figura in dextera ostendit commissuram delectu condicionis in squamis diversis. In omnibus squamis, inaequaliter delectis rationem pro parva proportione relative, et pleraeque resarciri possunt, sic computandi facultates efficaciter servari possunt. Pro unoquoque exemplo (imago + expressio referentialis), numerus inaequalis actuum delectorum est relative parvus, circiter 65% totius.



Denique pars experimentalis aliquos eventus visualisationis ostendit. Cum scala crescit (rubrum → viridis → caeruleum), positio accuratio exemplaris paulatim melioratur. Praeterea, secundum imaginem e panni rudis delectae restitutae, videri potest exemplar solum attendere ad notitias grossas pro curriculo area, et ad locum anticam pertinentes, exemplar attendere potest ad accuratam subtilitatem. indicium.



Litterae cognatae:

[1].Kim W, Filius B, Kim I. Vilt: Visio et linguae transformator sine convolutione vel regione vigilantiae [C] // International colloquium de machina discendi. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Mdetr-modulata detectio ad finem intellectus multi modalis [C]// Proceedings of IEEE/CVF colloquium internationale de visione computatrum. 2021: 1780-1790.

[3] Wang P, Yang A, Men R, et al. Ofa: Architecturae, munia, et modalia per simplicem seriem-ad-sequentiam discendi compaginem conciliandam [C] // International colloquium de machina discendi. PMLR, 2022: 23318-23340.