nuntium

Ad meliorem GPT-4V et Gemini negotia detecta perficienda, promptum hoc paradigma opus est

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];

Auctores huius articuli sunt ab Universitate Zhejiang, Shanghai Artificiali Intelligentia Laboratorium, University Hong Kong Sinensium, Universitatis Sydney et Universitatis Oxoniensis. Auctor album: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, ipse Tong, Wanli Ouyang, Philippus Torr, Jian Wu. Inter eos, co-primus auctor Wu Yixuan est discipulus doctoralis in Zhejiang University, et Wang Yizhou est scientificum investigationis adiutorem in Shanghai intellegentia artificialis Laboratorium. Auctor respondentis Tang Shixiang est indagator postdoctoralis apud Universitatem Sinensem Hong Kong.

Multimodae Magnae Linguae exempla (MLLMs) in diversis muneribus facultates infigendas ostenderunt, quamquam hoc, potentia horum exemplorum in operibus deprehendendi adhuc minoris aestimatur. Cum accuratae coordinatae in obiecto deprehensionis officiorum complexorum requiruntur, hallucinationes MLLMs saepe faciunt ut objecta scopo fallant vel impropria cistas circumscriptiones praebeant. Ut MLLMs deprehendendi operae exsistens non solum requirit ut magnum numerum praecipuorum instruc- tionum notitiarum colligendis requirat, sed etiam specimina aperta fonti-tuning. Dum tempus consumens et labor intensivus, etiam non potest uti potentioribus facultatibus visivae intellectus clausi fontis exempla.Ad hunc finem, Universitas Zhejiang, Shanghai, Intelligentia Artificialis Laboratorium et Universitas Oxoniensis proposuitDetToolChain , nova suggestio paradigma quae detectionem vim exemplorum multimodalium magnarum linguarum concitat. Magnae multimodis exemplaribus sine disciplina accurate deprehendere discere possunt.Pertinet investigationis fuitECCV 2024 comprehendit

Ut problemata MLLM in officiis deprehensionibus solvendis, DetToolChain a tribus punctis incipit: (1) Cogitans visivae deprehensionem, quae magis directa et efficax est quam traditum textuale promptum, ut MLM ad informationem locationis cognoscendam permittat, (2) destruas accurata deprehensio munerum in parvis ac simplicibus operibus, et (3) usui vinculo cogitationis ut paulatim optimize eventus detectionis et illusio magnarum multi- modalium exemplorum quam maxime evitet.

DetToolChain correspondentibus perceptis supradictis duo clavium designationes continet: (1) Comprehensiva copia processui visualis suggerit, quae directe in imagine ducuntur et signanter lacunam inter notitias visuales et notitias textuales reducere possunt. (2) Ratio comprehensiva deprehensionis ratiocinatio suadet augere scopum localem intellegentiam deprehendendi et paulatim definire locum finalem definitam scopo per specimen-adaptivum instrumentum catenae deprehensio.

Coniungendo DetToolChain cum MLLM, ut GPT-4V et Gemini, varia deprehensio munia sine instructione incedit, inclusa detectio vocabulorum aperta, descriptio scopum detectionis, expressionis intelligentiae referentialis, et scopum detectionis ordinatum.



Titulus chartaceum: DetToolChain: Novum Instinctio Paradigma ad Detectio Unleash Facultates MLLM

Paper link: https://arxiv.org/abs/2403.12488

Quid est DetToolChain?



Figura I Super compage DetToolChain

Ut in Figura I demonstratum est, ad interrogationis datam imaginem, MLLM instruitur ad sequentes gradus faciendum:

I. Formatting: Converte originalem inputationem operis in formam institutionis congruam sicut input of MLLM;

II.

III.

IV. Responsorium: Facultates ratiocinandi propriae MLLM utere ut totam detectionem processus inspicias et responsionem finalem reddas (responsum finale).

Deprehensio Promptus Toolkit: Visual Processing Promptus



Figura 2: Schematica schematismi processus visualis suggerit. Disposuimus (1) Regional Amplifier, (2) Spatial Mensuratio Latin, (3) Scene Image Parser ad meliorem detectionem capacitatum MLMs ex diversis prospectibus.

Ut in Fig. 2, (1) Amplifierus Regionalis intendit augere visibilitatem MLLMs in regione usuris (ROI), comprehendens imaginem originalem in diversas regiones sub-tractas, in regione sub-inposita ubi scopum objectum situm est. , praeterea, munus amplificationis Hoc dat subtiliter-oblongum observationem specificarum regionum sub-in imagine.

(2) Spatial Measurement Standard praebet clariorem referentiam ad scopum deprehendendi, superimponens rectorem et cinge cum squamis linearibus in imagine originali, ut in Figura 2 (2). Auxiliares magistratus et circini efficiunt MLLMs ut coordinatas et angulos accurate disponant utentes translationales et gyratorii indiciis imagini superimpositis. Essentialiter haec linea auxiliaris negotium detectionem simpliciorem facit, permittens MLLMs legere coordinatas obiectorum loco directe praedicendi eas.

(3) Scaena Image Parser notat praedictas res positiones vel relationes, et utitur informationibus localibus et contextualibus ut spatiales imaginis rationes cognoscant. Scena Imaginis Parser in duo genera dividi potest:Primo, pro uno objecto ibit res praedictas cum centroids, carinae convexis, et scrinia cum nominibus pittacii et indices cistae concludentes. Hi figuli obiecti positionem significant informationes in diversis formis, ut MLLM deprehendere possint diversa obiecta diversarum figurarum et subiectorum, praesertim obiecta irregularibus formis vel obiectis occlusis graviter. Exempli causa, carinae convexa titulum designat terminos rei obiecti et eas in alveum convexum connectit ut deprehensio effectus rerum valde irregularium formarum augeret.Secundo, propter plures scuta , centra diversorum objectorum per figmenta scaenarum ad exaggerandam relationes objectorum imaginis coniungimus. Secundum scaenam graphi, MLLM suam contextualem capacitatem ratiocinationis pressuram potest ad optimize praedixit scrinia terminantia et hallucinationes vitare. Exempli gratia, ut ostenditur in Figura 2 (3), Jerry caseum edere vult, ita cistae suae limitationis arctissimae esse debent.

Deprehensio Ratio Promptus Toolkit: Deprehensio Ratio Promptus



Ut firmitatem praedictionis archa emendaremus, consequentia deprehensio facta suggerit (in Tabula I ostensa) ut eventus praedictiones et difficultates potentiales quae existant egritudo reprimantur. Primum problema Inspectionis Ductoris proponamus, qui difficultates difficultates effert et suggestiones efficaces praebet et similia exempla pro interrogatione imaginum praebet. Exempli gratia, pro Figura III, Problema Insight Gubernator quaestionem parvam obiecti deprehensionis definit quaestionemque proponit eam solvendam per zooming in in superficie superficiei. Secundo, ut facultates locales et contextuales MLLms insitas adhibeat, relationem Spatialem Explorer et Objectum Contextuali Predictoris designavimus ut deprehensio eventus communi sensu consentirent. Ut patet in Figura III, surfboard cum oceano (cognoscere) occurrere potest, et debet esse surfboard prope pedes superficiei (cognitio localis). Insuper auto-Verificationis promotorem applicamus ad constantiam responsionum in multiplicibus circumscriptionibus augendam. Ut ratiocinandi facultates MLLMs amplius corrigant, late adhibitis rationibus adhibitis adhibitis, sicut disputandi et sui ipsius debugingi, adhibemus. Vide quaeso textum originalem pro detailed descriptionem.



Figura 3 Detectio ratiocinandi innuit MLLMs auxilium parvas obiectorum detectarum problematum solvere, exempli gratia, sensu communi utens surfboard sub pedibus hominis collocare et exemplar hortari ut surfboards in oceano deprehendas.



Figure IV Exemplum DetToolChain applicari ad scopum deprehendendi rotating (HRSC2016 notitia paro)

Experimentum: Potes methodos subtilissimas sine exercitatione superare



Ut in Tabula 2, methodum nostram in aperto vocabulorum detectionis (OVD) expendimus, probantes AP50 eventus 17 novorum generum, 48 bases classes et omnes classes in COCO OVD Probatio. Eventus demonstrant utendo nostro DetToolChain, utriusque GPT-4V et Gemini effectio signanter emendari.



Ad efficaciam methodi nostrae in referentiali expressionis intelligendi demonstrando, methodum nostram cum aliis methodis zephyris in RefCOCO, RefCOCO+ et datastarum RefCOCOg (Tabula V). In RefCOCO, DetToolChain in baseline per 44,53%, 46.11% et 24.85%, praestationem GPT-4V emendavit, respective in val, test-A et test-B, demonstrans DetToolChain superiorem expressionem referentialem intellectum et effectum sub condiciones nulla iaculat.