2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nova Sapientia Report
Editor: LRST itaque somnolentus
[Introductio ad Novam Sapientiam].Mini-Simius est exemplar linguae multi-modalis leve magnum, quod efficaciter alleviat effectum aliasing causatum per strategias imaginum traditorum segmentationis, utendo multi-scalae adaptivae segmentationis militarium (MSAC) et compressionis mechanismi scalae (SCM). —resolutionum imaginum processus ac documentum intellegentia munia. Proventus principales consequitur in multis benchmarks, demonstrans suam potentiam in campis intellectus multimodi ac documenti intelligentiae.
Nuper, augens facultatem exemplorum multi-modalium magnarum ad processum altae solutionis imaginum, in hoc campo animum in dies augendo attraxit.
Maxime methodi intendunt ad augendam facultatem multi-modalis magnarum exempla ad intelligendas singulas imagines imaginum per consilium segmenting et re-fusione imaginum.
Attamen, ob operationem imaginis segmentationis, necesse est ut scopo et areis connexis ruptionem causet, quae recognitionem capacitatis MLMMs pro parvis vel irregulariter machinis informibus afficit. Hoc phaenomenon est apprime evidens in documento ad opera intelligenda, quia textus inde saepe interrumpitur.
Propter hanc provocationem, Huazhong University of Science and Technology et University of Technologiae Australis nuper coniunctim dimisit exemplar magnum multi-modalis Mini-Monkey, cuius multi-scalae adaptivae belli (MSAC) ad leve pondus multi-modalis magnarum exemplorum utitur. .
Mini-Simius adaequate repraesentationes varias gignit, exemplum praebens e variis squamis obiectis inconsueta deligenda, eiusque effectus ad novam SOTA 2B multimodis amplis exemplaribus attingit.
Charta inscriptio: https://arxiv.org/pdf/2408.02034
Project inscriptio: https://github.com/Yuliang-Liu/Monkey
Ut caput computationale a MSAC causatum sublevandum, pressionem scalae mechanismi (SCM) ad signa imaginis efficaciter comprimendam proponamus.
Mini-Simius non solum in multiplicibus documentorum ingenii muneribus obeundis praestitit, sed etiam in emendationibus congruentibus effectis in generali exemplari multi- modali opera cognoscendi, assequendis 2B SOTA effectibus.
In OCRBench, Mini-Monkey puncta 802 lacerata, quae meliora sunt quam exempla cum parametris maioribus ut GLM-4v-9B.
Figura 3 Modus clausus schematis: H-Attn significat grave pondus attentum; L-Attn significat grave pondus attentum;
Investigatio background
Exempla magna linguae multimodalia (MLMM) proximis annis multam attentionem attraxerunt. Investigatores active explorant vias efficaces ut cum LLM encoders visuales componant.
Aliquot methodi, ut Flamingo, BLIP-2, MiniGPT4 et Qwen-VL et LLaVA, has res gestas sunt consecuti, sed priora exempla multi-modalis linguae magnae non tam singularem scaenam intellexerunt propter limitata solutionis processui.
Figura 1 Effectus aliasing effectus per segmentationem in objectis universalibus: (a) input imaginem; (b) segmentatio expansionis militarium;
Investigatores inceperunt hanc quaestionem solvere augendo solutionem imaginis input. Slicing consilium est ex communibus modis. Exempli gratia: Simia, LLaVA 1.6, InternVL 1.5 et LLama3-V, etc.
Quamvis progressus significantium in multimodalibus exemplaribus linguarum magnarum, provocationes manent in singularibus scaenae intellegentiae propter consilia segmentationis.
Segmentation operationes de imaginibus inevitabiliter segmentis objectis et regionibus connexis, inde facultatem MLM minuendi ad cognoscendas res parvas vel irregulariter formatas, praesertim in contextu documenti intelligendi.
Hoc consilium duo genera incoherentiae semanticae introducet;
1. Si res vel indoles divisa, cognosci non potest. Exempli gratia, nasus segmentatus simiae simillimus est, ut in Figura 1(b) ostenditur;
2. Si verbum vel sententia divisa est, semanticum damnum dabit verbo segmentato. Verbi gratia, verbum "Classrooms" in "Class" et "cubicula" divideretur, quod semanticum detrimentum faceret in verba divisa.
Pro simplici hoc problemate serrae effectus auctores vocant. Idea rectissima est utendum consilio justo imbricatis ad solvendum hoc problema, ut in Figura 1 (c).
Attamen auctores invenerunt quod imbricatio segmentationis militaris imbricatis quasdam praestigias inductas, quae in perficientur turpitudine potius quam emendatione consecutae sunt.
Methodus notiones
Auctor Mini-Monkey proponit exemplar linguae leve multi- modalis magnae scalae destinatum ad sublevandum effectum serrae per strategies segmentationis causatum. Modus clausus schematis in Figura II ostenditur.
Figura 2 Effectus serratus causatur in imaginibus textuum tondendis.
Dissimilis exsistentibus modis quae directe segmentum imaginis inputationis Mini-Simiae obturaculum ac-fabularum accessum multi-Scale adaptivam Strategy appellatam (MSAC).
MSAC lineamenta in diversis squamis efficaciter complere possunt, ut in Figura 1(d).
Multi-scale adaptivam justo consilio (MSAC)
MSAC primum operationem in his mesculis iacit, eas dividens in tres circulos secundum rationem aspectus. Quisque auctor consequat velit accumsan accumsan. Variae stratae exemplum diversae notitiae praebent.
Detail iacuit responsabilis est ad informationes comparandas. Finit tam solutionis imaginis maximam quam solutionis imaginis minimum, faciens imaginem quam maximas et res in imagine clariores faciens. Ob segmentationis militarium usum ad imaginem capiendam, imagines ab hoc genere genitae repugnantes semanticae habere possunt.
Auctores igitur stratis adaptivis utuntur in conjunctione cum singulis stratis, ut exemplum praebeant objecta ex variis squamis unsegmented eligere. Accensus adaptive adaequate generabit rationem rationis secundum singulas ordines, ut linea segmentationis in strato singillatim non incidat cum linea segmentationis in strato adaptivo, ita prohibens ne idem obiectum bis in diversis laminis dividatur. Hic processus efficit ut singula tabulata ac adaptatio accumsan varias semanticae informationes et visuales formas praebeant ad exemplar.
scale pressionem mechanism
MSAC addere potest aliquid addito supra caput computationale. Ideo auctor mechanismum (SCM) pro condicionibus in quibus computationale supra caput angustiae sunt, proponit compressionem scalam. SCM est mechanismus quae nullas disciplinas neque parametros requirit ut supra caput computationale minuatur.
Auctor visiva signa tabulae adaptivae deligit, signa visualium tabulae globalis et signa textus ut intendunt in figmenta visualium speciei tabulati, et tunc generat tabulam attentionis, et deinde extrahit lineamenta visualia summi K. of the attention map.
LLM exercitatus efficaciter eligere potest necessarias lineamenta visualia quae in initus problemati fundantur. Ergo SCM primis et secundis stratis LLM utitur ad signa visualia eligenda sine ullo parametris adiectis generando.
Mini-Simius fortissimum est 2B multi-modalis magnum exemplar
Auctores methodum suam probaverunt in generatim intellectus multi-modalis et intellectus documenti. Experimentales eventus ostendunt Mini-Simiam optimam observantiam in generali intellectu multi- modali et documento intellectus simul cum 2B parametris.
Table 1 Proventus in intellectum multimodal generalem
Table 2 Proventus in documento intellectus
Auctor MSAC propositam cum methodis existentibus comparat. Primus ordo est methodus segmentationis dynamicae, secundus ordo est modus solutionis certus segmentationis, tertius ordo est imbricatio segmentationis, et quartus ordo est multi-gradus Strategy S2.
Mensam III comparat diversis justo strategies
MSAC applicari potest ad varias architecturas multi-modales, stabiliendas et excolendas
Eodem tempore, auctor MSAC ad alias methodos comparandi modos applicavit, et videri potest exsistere emendationes in genere intellectus multi- modalis ac documenti intellectus opera.
Mensam IV applicat MSAC diversis compagibus
Effective sublevare "sequelas" per justos ad solutionem augendam
Eodem tempore auctor aliquam analysim qualitivam praebet, ut in fig. 4 ostensum est. Auctor interrogat de locis articulatis, ut "classica" et "schola" divisa.
Videri potest quod Mini-Monkey "sequelae" efficaciter alleviare potest augendo solutionem segmentationis per MSAC.
Figura 4 Eventus Qualitative: (a) initus imago et Veritatis Terrae; (b) eventus utens consilio segmentationis imbricatis, OSC pensilis segmentationis militaris; (c) eventus internv2-2b et internv2-26b;
Visual comparationis
Mini-Simius textum contentum in ambiguis libris antiquis accurate extrahere potest, cum MiniCPM-V 2.6 et InternVL2-2B uterque multum textus desiderabat.
(A) Input picture
(b) Mimi-Monkey: accurate cognoscit omnes textus
(c)MiniCPM-V 2.6: Multum textus desideratur.
(d) InternVL2-2B: Absentis tota sententia relative incerta text
(E) GPT-4o: Noli respondere
Summatim
Methodi, quibus segmentatio utuntur ad solutionem dilatandam, saepe objecta segmentorum et regionum connexarum, quae cognitionem objectorum et textuum parvarum vel irregulariter formatarum limitant.
In hoc studio auctor Mini-Monkey proponit exemplum magnum multimodi 2B quod perficiendum SOTA consequitur, volens solvere limites consiliorum segmentationum existentium ad emendandum facultatem MLLM ad processum altae solutionis imaginum.
Mini-Simius multam scalam adaptivam segmentationis militaris (MSAC) ad repraesentationes multi-scalas generandas adoptat, exemplum praebens in diversis squamis obiectis rudibus eligere, per hoc problema sublevandum.
Eodem tempore auctor etiam comprobavit efficaciam multi- scalae adaptivae segmentationis militaris in multimodis amplis aliarum architecturarum exemplaribus, praebens solutionem simplicem et efficacem ad levandas "sequelas" ex aucta resolutione consiliorum segmentorum .
Notae:
[1] Chen Z, Wang W, Tian H, et al. Quam longe sumus auimos 4v? lacunam claudunt multimodis commercialibus exemplaribus cum consentaneis aperti-fontis[J]. arXiv preprint arXiv:2404.16821, 2024.
[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping linguae imago prae-exercitatio congelatae imaginis encoders et magnarum linguae exempla[C]// International colloquium de apparatus discendi. PMLR, 2023: 19730-19742.
[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: An ocr-liber magnum multimodale exemplar ad intellegendum documentum [J]. arXiv preprint arXiv:2403.04473, 2024 .
[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Finis magnae visionis linguae exemplar cum ingenio versatili [J]. arXiv preprint arXiv:2308,12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783,2024.