nuntium

Multimodale exemplar aestimationis compage lmms-aevalis dimissa est! Comprehensive coverage, humilis sumptus, nulla pollutio

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum.Submissio inscriptio: [email protected];

una cummagnum exemplumCum pervestigandi altius penetrandi, quomodo eam ad plures modalitates extendat, locus in academia et industria calidus factus est. Nuper clauso fonte magna exempla emissa sicut GPT-4oClaude 3.5 et alii iam eximii imaginis facultatem intelligendi habent, et aperta principia regionum exempla qualia sunt LLaVA-NeXT, MiniCPM, et InternVL etiam perficientur quae propius ad fontem claudendum praebent.


In hac aetate "80,000 chiliogrammata per mu" et "unum SoTA singulis diebus 10", multi- modales compages taxatio quae facilia utendi, signa habent perspicua et multiplicabilia fiunt magis ac magis, quod non facile est.


Ad solvendas praedictas difficultates, investigatores ex Nanyang LMMs-Lab universitatis technologicae patentes coniunctim LMMs-Eval oriuntur, quae aestimatio compages specialiter destinatur ad exempla multimodi magnarum magnarum et methodum praebet ad exemplorum multi- modalium aestimatio. (LMMs).


  • Codicem repositum: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • Officialis protocollum: https://lmms-lab.github.io/

  • Charta inscriptio: https://arxiv.org/abs/2407.12772

  • Inscriptio inscriptio: https://huggingface.co/spaces/lmms-lab/LiveBench


Cum suo emissione mense Martio 2024, compages LMMs-Evalium e pluribus partibus communitatis, societatum, et universitatum patenti fonte incluso, collaborativas contributiones suscepit. Nunc obtinuit 1.1K stellas in Github, cum plusquam 30+ adiutoribus, in quibus summa plus quam 80 notitiarum copiarum et plusquam 10 exemplorum est, et adhuc crescit.

 

Normatum aestimatione Framework


Ut tribunal normatum aestimationem praebeat, LMMs-Eval sequentes notas includit:


  1. Una interface: LMMs-Eval emendatur et extenditur secundum textum aestimationis compagis lm-aestimationis phalangiorum. profectus est.

  2. One-click launch: Exercitus LMMs-Eval super 80 (et crescentia) datasets in HuggingFace, diligenter e fontibus originalibus transformatis, additis omnibus variantibus, versionibus, scindendis. Users nullum opus praeparare debent. Uno tantum imperio, multae notitiae copiae et exempla statim receptae et probatae erunt, et eventus paucis momentis praesto erunt.

  3. Perspicuus et reproducibilis: LMMs-Eval constructum-in instrumento colligationis unito habet. Quaelibet quaestio ab exemplari respondet et an recte vel non scribetur, efficiendi reproducibilitas et perspicuitatis. Etiam commodorum et incommodorum diversorum exemplorum comparatio facilior est.


Visio LMMs-Eval est quod exempla multimodalia futura non amplius scribenda sunt sua notula, coniectura et submissione signum. In hodierno ambitu ubi multi-modales probationes maxime conducunt, aditus est univocus, et turpis mensurata difficilia sunt quae directe comparant cum aliis exemplaribus. Cum accessu LMMs-Eval exemplar magistri plus in ipsum exemplar emendare et optimizing intendere possunt, quam tempus in aestimatione et noctis consequitur.


"Triangulum impossibile" aestimationee


Ultimus finis LMMs-Eval est invenire methodum aestimandi LMMs cum 1. magno coverage, 2. parvo pretio, 3. nulla notitia ultrices. Nihilominus, etiam cum LMMs-Eval, auctor theam invenit difficile vel etiam impossibile esse haec tria simul consequi.


Ut in figura infra ostenditur, cum aestimationem dataset plus quam 50 ampliavit, valde temporis edax facta est ut aestimatio harum notitiarum comprehensiva conficeretur. Ceterum haec benchmarks etiam sunt susceptivae contagione in disciplina. Ad hunc finem, LMMs-Eval proposuit LMMs-Eval-Lite ut rationem lati coverage et minoris sumptus consideret. Etiam posuere LiveBench sit amet pretium ac nulla eget ultrices.

 

LMMs-Eval-Lite: PERFUSORIUS iudicium late coverage

 

Cum magna exemplaria aestimandi, numerus parametri et opera probationis saepe auget tempus et sumptus aestimationis negotium acriter. Attamen definita aestimatio saepe defectum intellectus facultatum exemplarium ducit.

 

LMMs-Eval-Lite tendit ut velit fermentum simplicior aedificare, ut signa utilia et celeria in exemplar evolutionis praebeat, ita problema bloat evitans probatorum hodiernorum. Si invenire possumus aliquid certius exsistentiae testi praefixae quibus absolutae pereuntis et relativae notae inter exempla manent similes cum pleno statuto, tunc tutum considerare possumus has datas resecare.


Ut puncta praecipua in positis data inveniantur, exemplorum LMMs-Eval primus utitur CLIP et BGE ut multi-modalis aestimatio data in formam vectoris embedendi positam convertat et methodi ligaturae k-avarae ad salientium notitias inveniendas utatur. cuspis. In probatione, hae minores datastae adhuc demonstrantur similes aestimationis facultates ad plenum positae.

 

Postmodum LMMs-Eval eadem methodo usus est ad producendum lites versionis velantes plures notitias occidendas. Hae notitiae copiae ordinantur ad auxilium hominum conservandum aestimationem gratuita in evolutione ad exemplar faciendum cito iudicare.

 

LiveBench: Dynamic probatio LMMs

Traditional benchmarks focus in static aestimatione uti fixa quaestionibus et responsionibus. Cum multi-modalis investigationis progressu, fons aperta exempla saepe meliora quam exempla commercialia, ut GPT-4V, in comparatione usorum, sed in usu in actu usuario recidunt. Dynamic, usuario-orientati Chatbots Arenas et Wild Vision magis magisque populares in exemplo aestimationis sunt, sed collectionem millium optionum usoris requirunt, aestimatio facta altissima constat.


In media idea de LiveBench aestimare est exemplar faciendum in notitia continuum updated posita ut nullam contaminationem attingat et humilem impensas servet. Auctor turmas taxationes e tela collectas et fistulam aedificavit ut automatice novas notitias globales e websites sicut nuntios et forum communitatis colligeret. Ut opportunitatem et authenticitatem informationis conservet, auctor turmas selectas fontes ex plusquam 60 instrumentorum nuntiorum inter se rhoncus, BBC, Iaponiae Asahi Shimbun et Sinarum Xinhua News Agency, necnon fora qualia Reddit. Gradus specifici sunt hoc modo;


  1. Cape tortorem protocollum tuae ac praeconia et elementa non-nuntii remove.

  2. Consilium quaestionis et responsionis ponit utentes exempla multi- modalium potentissimorum nunc in promptu, ut GPT4-V, Claude-3-Opus et Gemini-1.5-Pro. Recognita et recognita ab alio exemplari

  3. quaestiones ut accurate et congruentia.

  4. Postrema quaestio et responsio manuale recensentur, et circiter 500 quaestiones singulis mensibus colliguntur, et 100-300 quaestio ultima livebench retinetur.

  5. Moles scoringis LLaVA-Wilder et Vibe-Eval adhibita sunt - exemplar scoring ustulo secundum normas responsa cautum, et amplitudo score est [1, 10]. Default scoring exemplar est GPT-4o, Claude-3-Opus et Gemini 1.5 Pro alternis etiam includitur. Renuntiatio finalis eventus in ustulo convertetur in accurationem metricam ab 0 ad 100.

 

In posterum etiam novissimam aestimationem notitiarum multi- modalium exemplorum dynamice renovatorum quolibet mense in indice nostro dynamice renovato, necnon eventus recentissimi aestimationis in indice.