ACL 2024 Oral｜Quam longe sumus a vera multi- modali cogitatione catena ratiocinandi?

2024-08-14

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos conferendi vel nuntiandi contactum. Submissio inscriptio: [email protected];

Chen Qiguang, primus auctor articuli, nunc studet in Sier Laboratorium Harbin Instituti Technologiae. Praecipuae eius investigationes directiones includunt magnum exemplar cogitandi vincula, crucem-linguam magna exemplaria, etc.

Paucis his annis, Large Language Exemplaria (LLMs) progressum fecerunt eruptionem in agro linguae naturalis processus (NLP). Exempla haec non solum contextus implicatos comprehendere possunt, sed etiam textum cohaerentem et logice rigorosum generare.

Attamen, cum scientiarum technologiarumque progressionis ac missionum applicationis diversitas, facultas unius modalitatis unius textus plane iam non potest occurrere necessitatibus hodiernis. Homines magis magisque exspectant ad systemata intelligentium quae multiplices informationes modales processus ac intellegere possunt (sicut imagines, videos, auditiones, etc.) ut multiplicioribus muneribus et missionibus obire possint. Investigatores inceperunt extendere facultates textuum CoT ad campum multi- modalis cogitationis catenae ratiocinationis tolerare multiplicioribus et diversis elaboratis requisitis.

Una e primis studiis de multi-modalibus cogitationis catena est ScienceQA Probatio a Lu et al. [1], quae coniungit informationes visuales et linguisticas ad promovendum progressionem multi-modi catenae cogitationis (MCoT). Census in ScienceQA datos dat inquisitores aestimare catenam cogitandi facultatum ratiocinationum multi- modalium exemplorum sub una compage.

Praeterea inquisitio ab Zhang et al. [2] MCoT ad novum excelsum faciendum impulit, ut exemplar effectus in ScienceQA datae gradus humanos excederet (93%>88%). Autem, multimodae cogitationis catenae investigationis currenti revera omnes provocationes alloquitur? Cum eventus probationum probandi ut ScienceQA reficiat pergit, putemus problema ratiocinationis multi-modalis solutum esse?

Per profundissimam analysim investigatores invenerunt currentem multi- modalem cogitationem catenae Probationis adhuc graves difficultates habere, ducentes ad aestimationem actualium facultatum exemplarium. Vena multimodalis cogitatio catenae Probatio adhuc spectat tres quaestiones graves sequentes;Absentis visual ratiocinatio modalis、Tantum una-gradus visualis modalis ratiocinatiotumSatis area coverage。

Gravissime problemata haec progressionem campi multi- modalis cogitationis catenam coarctant. Ideo investigatores novum Probatio proposuerunt

(Multi-Domain Multi-gradus Multi-modalis Catena of-cogitationis), intendit quaestiones praedictas solvere et progressum multi-dominationis, multi gradus ac multimodis cogitationis vincula promovere. Inquisitores etiam aestimationem comprehensivam gesserunt multamque consequentiam fundarum ac methodorum locupletium implicantium.

Investigatores etiam invenerunt currentem magna exempla multi-modalia habere

Ingentes sunt in perficientur defectus in agendis, quamquam superiores effectus in praevia traditionalis multi-modalis cogitationis catena benchmarks. Ad extremum, dolor inquisitio sperat

Facere potest validum auxilium et fundamen- tionem fundamenti praebere investigationis de multi-campi, multi-gradi et multimodis cogitationis vinculis.

Inscriptio inscriptionis: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

Charta inscriptio: https://arxiv.org/abs/2405.16473

Codicis inscriptio: https://github.com/LightChen233/M3CoT

motivation

Quamvis progressus significantes in campo investigationis MCOT, in benchmarks exsistentes, multos tamen defectus habent;

1.Absentis visual ratiocinatio modalis: Exempla saepe rationes et responsiones generare possunt solum in textibus modalibus niti, quae non vere reflectunt capacitates exemplorum multi-modalium CoT.

2.Singulus gradus visualis modalis ratiocinatioPro exemplo, tantum debes videre "pluma" in tabula statim ut responsum directe. In applicationibus practicis, multi-gradus ratio est communior et necessaria, quae requirit exemplar ad multiformes informationes dynamice coniungendas in processu ratiocinando multiplex temporibus ad rationem comprehensivam perficiendam.

3.Absentis domain: Nam catena cogitans, sensus communis ratiocinatio et ratio mathematici magni ponderis sunt in hoc campo, sed exsistentes benchmarks carent coverage de momentis locis ut sensus communis et mathematica, limitans comprehensivam aestimationem multi-modalis CoT facultatibus.

Ad quaestiones praedictas allocutus, investigatores novum Probatio elaboraverunt

et sperat promovere investigationem et progressionem multi campi, multi-gradus et multi- modales rati vincula.

Data constructione processus

Constructio involvit sequentes quattuor gradus clausos;

Multimodales magnae linguae exemplum aestimationis proventus

Investigatores ampla experimenta in pluribus exemplis linguae visualis (VLLMs), in Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini, et GPT4V deduxerunt. Investigatores etiam exploraverunt aliquas strategias suggerentes, ut directum specimen submissionem, catenam cogitationis impulsum (CoT) [3] et descriptivum impulsum (Desp-CoT) [4] et scaenam schematis cogitationis catenam impulsum consilii (CCoT) [5].

resolvere

explorare

Ex hoc fundamento, investigatores ulterius exploraverunt varias rationes multimodales et occasus communiter adhibitos ad explorandum an efficaciter solvere possint

dubia m.

Instrumentum usus exploratio

In multimodis consequentiis instrumentum usus consideratur efficax consilium ad exemplar effectus emendandum. Investigatores plurium instrumentorum experimentorum usum aestimaverunt, inter exempla ut HuggingGPT, VisualChatGPT, IdealGPT et Chameleon.

Magna exempla texta utentes instrumenta multimodalia in

Pauperes effectus in: Experimentales eventus ostendunt, quamvis haec instrumenta bene operantur in operibus simplicibus modalibus, tamen

Adhuc notabilis gap in perficientur in Probatio. Exempli gratia, cum HuggingGPT ratiocinationis negotium multi-gradum multiplex tractat, eius effectus est relative inferior propter defectum efficacius notitiae visualium. Praeterea VisualChatGPT et IdealGPT etiam exspectationi occurrere neglexerunt cum negotia tractandi multimodis commercium requirentes. Hi eventus suggerunt instrumentum hodiernum in usu compagum maiore emendatione egere ad melius integrandum et ad multimodas informationes utendum.

Contextual cognita exploratio

Mandatum subtiliter exploratio-tuning

Conclusio et mentis

Notae:

[1] Lu et al. Disce exponere: Multimodal ratiocinatio via

Cogitationis vincula pro Scientia Quaestione Respondens. In Proc. of NeurIPS MMXXII.

[2] Zhang et al. Multimodalis Ratio cum Scientia Multimodalis Aliquam lacinia purus. ACL MMXXIV.

[3] Kojima et al. Magnae linguae exempla nulla ratiocinatio-emissa sunt. In Proc. of NeurIPS MMXXII.

[4] Wu et al. Munus Catenae-of-cogitationis in visione complexa-Language Ratiocinandi Negotium. Arxiv MMXXIII.

[5] Mitra et al. Catena compositionalis-cogitationis incitatio ad exempla magna multimodalia. CVPR MMXXIV.

nuntium

ACL 2024 Oral｜Quam longe sumus a vera multi- modali cogitatione catena ratiocinandi?

Introductio

Meus contactus notitia