Magna exemplaria realiter ab hominibus differunt in quaestionibus mathematicis solvendis: scientia manifesta est, GPT-4o permittit optimus

Magna exemplaria realiter ab hominibus differunt in quaestionibus mathematicis solvendis: scientia manifesta est, et GPT-4o optime facit.

2024-07-23

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];

Auctores huius articuli a Beijing University Posts et Telecommunicationum, Tencent WeChat, Huazhong University of Science and Technology, and Beijing Institute of Technology. Auctor album: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, sol Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen, Zhang Honggang. Inter eos, primus auctor Qiao Runqi est discipulus doctoralis in Beijing Universitate Posts et Telecommunicationum, Tan Qiuna est discipulus domini in Beijing Universitate Posts et Telecommunicationum, et auctor respondens auctor est Socius Professor Zhang Honggang Beijing Universitatis Posts et Telecommunicationum.

Celeri progressu technologiae intelligentiae artificialis, multimodae magnae exempla (LMMs) quae multiplices notitias modales tractari potest, paulatim in investigationes hotspot factae sunt. Informationes integrantes ex diversis modalibus, LMMs rationes quasdam et facultates intellegentias demonstrant et bene operantur in muneribus ut interrogationem visualem respondentem, imaginem generationis et retrievalem transversim modalem. Haec multi-modalis capacitas facit LMMs magnam applicationem potentialem in variis missionibus multiplicibus.

Historiam AI evolutionis respicientes, humanam cognitionem ac viam quae de quaestionibus cogitamus penitus ictum in AI progressu invenimus. Breakthroughs sicut retiacula neural et machinationes attentionis ad exempla cogitationis humanae propinqua sunt. Finge quod cum homines quaestioni mathematicae respondeant, primum necesse est esse cognitionem cognitionis quae in quaestione examinantur, et deinde utendum pertinet ad cognitionem deducendi gradatim ad rationem perveniendi ad responsum. Sed cum exemplar respondeat, num ratiocinatio ejus cum hominibus consonans?

In mathematicis quaestionibus positus, invenimus exemplar quaestionibus complexis respondere posse, sed quibusdam quaestionibus simplicibus respondere non potest. Ad rationes huius phaenomeni explorandas, humana problemata solvenda exempla cogitationis inspirati, primum processum problema solvendum primo punctorum cognitionis dominandi imitati sumus, deinde eas ad logicam rationem adhibentes sic:

Inter eos, (X, Y) et (x_i, y_i) quaestionem mathematicam et interrogationes et responsiones in unaquaque re sub-respectiva repraesentant, et P_reason significat applicationem capacitatis comprehensivae (scientia generalizationis) de LMMs. Ex hoc, We-Math primum aedificavit arborem scientiae multi-gradi systematis cognitionis atomicae in 67 puncta cognitionis atomicae, et deinde ex cognitionibus atomicis et responsionibus ratiociniis, multiplicibus quaestionibus multiplicibus cognitionis incompositis puncta in multiplicibus cognitionis atomicis punctis correspondentibus quaestionibus dissolutis. adhibentur ad explorandum mechanismum respondens exemplar.

题目：WE-MATH: Num Tuae magnae Multimodales Exemplar Humanum-sicut Rationem Mathematicam obtine?
Paper: https://arxiv.org/pdf/2407.01284
Pagina: https://we-math.github.io/
Codex: https://github.com/We-Math/We-Math
Dataset: https://huggingface.co/datasets/We-Math/We-Math

We-Math nunc primum in HuggingFace Cotidiana charta diei praefertur, et 10K+ sententias in Twitter habet!

Nos Math Benchmarkr

1. Data compositione

The We-Math taxatio notitia paro continet summam 6.5k multi-modales primariae scholae mathematicas difficultates et multi-gradu cognitionis structuram. Scientia puncta omnium quaestionum operiuntur architecturae scientiarum 5-stratorum cum 99 nodis (ultima tabulata 67 continet puncta cognitionis). Et sicut in figura infra monstratum est, ut problemata problemata solvenda alleviet inhaerentia exemplarium, ad textum et Vicipaedia et heuristice descriptionem 67 punctorum cognitionis referimus, inde necessarias scientias apicibus ad processum ratiocinationis praebens. LMMs.

2. destrue quaestionem

Ut rationabiliter perpendamus responsionem mechanismi exemplaris, stricte in regula responsionum humanarum nitimur et quaestionem implicatam in n quaestionibus componimus secundum puncta cognitionis in complexu quaestionis contentas, ubi n numerum cognitionis repraesentat. puncta in quaestione complexi continentur.

Ut in figura infra monstratur, problemati complexi: Maria ambulavit a parte septentrionali lecti floris circularis in margine lecti floris usque ad punctum orientale flos lecti. In processu problemati solvendo, primum debes invenire angulum centralem respondentem viae Mariae ambulans ("septentrionalis)" secundum cognitionem punctum "meridiei, septentrionalis" et per condiciones "septentrionalis". et "orientales" directiones. Deinde, secundum punctum cognitionis "circumferentiae circuli" et condicio quod angulus centralis est 90 gradus et longitudo semitae Mariae ambulavit, circumferentia lectus floris circularis computatur et radius. florem circularem cubile obtinet. Denique secundum punctum cognitionis "areae circuli" et per conditiones radii obtinet, area rotundi tori floris computatur et solutio quaestionis perficitur.

Solvendo quaestionem praedictam solvendo, ad explorandum exemplar responsionis mechanismi et subtilis ratiocinii exemplaris effecti, quaestio originalis rescindi potest in tres interrogationes secundum earum correspondentiam in specie, prima quaestio; Maria incipit a circulo A puncto aquilonali floris usque ad punctum orientale in margine lecti floris, gradum invenio anguli centralis respondentem arcui semitae deambulantis; , arcus longitudo arcus respondens angulus 90-gradus centralis 59.24m, invenio radium rotundi floris tertiæ quaestionis: invenio aream rotundi floris lecti cum semidiametro 32m.

3. Metrics

Secundum hanc rationem, ut in figura infra ostenditur, novam mensuram quattuor dimensionis mensurationis inducunt, scilicet insufficiens scientia dominii (IK), capacitas generalizationis insufficientes (IG), dominium completum (CM) et rotundum memorabile (RM).

Insufficiens cognitio (IK): Exemplar non potest respondere quaestionibus multiplicibus et erroribus, in interrogationibus occurrere. Scimus quod ratio quare exemplar quaestionibus complexis respondere non potest, propter insufficiens cognitionis puncta cognoscenda.
Facultas generalizationis insufficiens (IG): Exemplar quaestionibus complexis respondere non potest, sed omnes interrogationes recte respondentes. Putamus causam quare exemplar quaestionibus complexis respondere non potest, propter defectum applicationis capacitatis comprehensivae (facultas generalizationis).
Perfecta dominatio (CM): Exemplar quaestionibus complexis respondere potest et omnibus quaestionibus respondere potest.
Doctrinae Rote (RM): Exemplar respondere potest quaestionibus complexis, sed errata in interrogationibus occurrunt. Hoc est contra logicam humanam cogitationem Credimus hanc condicionem irrationabilem esse et considerare casum ubi exemplar mechanica memoria habet.

Inter eos est IK inter IK, IG et CMq

Experimenta et conclusiones

We-Math nunc perfecit aestimationes in 17 magnis exemplaribus, in quibus summa exempla fontium 4 clausorum et exempla 13 fontis aperta. Tabula 1 et Figura 6 eventus demonstrant LMMs sub diversis numeris cognitionis punctorum et exhibitio exemplaris sub puncta cognitionis secundi gradus; et Comprehensiva scoring consequitur sub signis strictis et laxatis; Figura 10 demonstrat diminutionem KCA consilii in quaestionibus IK pro exemplo.

Effectio LMMs sub diversis punctis cognitionis et eius observantia sub secundo punctorum cognitionis gradu

Patet negativa relatio inter condicionem responsionis exemplaris et numerorum cognitionum quae in quaestione continentur. Hoc est, quo plura quae in quaestione continentur, eo minus idealis responsionis condicionis exemplar est. Proponimus etiam difficultatem quaestionis ad exemplum cognitionis quot continet puncta.
Exemplar melius in puncta cognitionis computationis relatae praestat et male in quaestionibus visivae subtilibus praestat. Etiam ostendit LMMs bonum esse in applicando formulas, sed tamen limitationes ad cognitionem applicatam intelligendi et componendi.
GPT-4o optime facit, praemisit in quaestionibus, diversis numeris cognitionis puncta continens, et plerumque in diversis punctis cognitionis praecedens.
LMMs potentialem aliquam pro modulo compressionis exhibent. Inter diversas LMMs, LLaVA-NeXT-110B proximas GPT-4. Quid mirum est quod, quamvis parvae scalae moduli, exempla qualia sunt InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 etiam bonum opus ostendunt.

Effectio LMMs sub indicibus quattuor dimensivis eorumque effectibus scoring comprehensivis sub signis strictis et solutis.

Pleraque exemplaria laborant problemata de "scientia parum" et "memorizationis radicis", praesertim in minoribus exemplaribus. Praeterea, "sufficiens scientia" est problema principale adhuc omnium exemplorum.
GPT-4o signanter prae aliis exemplaribus in mensuratione "roteae doctrinae", quod amplius illustrat GPT-4o propius esse ad methodos problematum solvendas humanas, et eventus qui certiores sunt praesentes, quae significat exemplar habere. verius scientiam didicit.
GPT-4o signanter aliis exemplaribus antecedit in mensura mensurationis "scientiae insufficiens magisterii". Gradatim ad gradum proximum se contulit et indiget ut suam "scientiam generalem facultatem" augeat.

Perficientur LMMs sub KCA belli

Altiore exemplaris observantia sub consilio KCA emendavit. Ut in figura supra demonstratum est, LMMs cum diversis magnitudinum parametris meliorationes constantes ostendunt in indicibus tam strictis et solutis post KCA de consilio inducto.
Consilium KCA signanter problema IK sublevat, sed emendatio problematis IG non patet. Hoc consentaneum est cum intuitione humana, quia scientia descriptio maxime hiatus in scientia illativa compellitur. Nihilominus, ut problema solvendum IG, cognitio generalisationum facultatum LMMs necessario melioretur, quae etiam directionem ad futurae inquisitionis ostendit.

Summatim

In hac charta proponimus WE-MATH, signum comprehensivum pro perspicax aestimatione solutionis machinae LMMs in visivae rationibus mathematicis operibus. WE-MATH continet summam 6.5k problematum mathematicarum visualium, quae multiplicis gradus cognitionis structuram 5 laminis et 67 cognitionis puncta continet. Problema intulimus in interrogationibus multiplicibus quaestionibus innixum, quae ex cognitionibus requiruntur, novum indicatorum quattuor dimensivarum permagni ratiocinationis aestimatio introducta est. Per WE-MATH comprehendimus effectum esse LMMs in ratiocinatione mathematico visuali, et demonstravimus manifestam negativam esse comparationem inter responsionis exemplar effectionis et numerorum cognitionum quae in quaestione continentur.

Praeterea invenimus pleraque exemplaria problemata cum doctrinis (RM), et scientia insufficientia (IK) maxima vitia esse LMMs. Praecipua tamen provocatio GPT-4o ab IK ad IG sensim derivata est, significans primum exemplar esse ad gradum proximum progredi. Denique nostra analysis KCA strategies et casus errorum adhuc progressionem LMMs existendi ad rationem mathematicam visivam humanam illuminat.

nuntium

Magna exemplaria realiter ab hominibus differunt in quaestionibus mathematicis solvendis: scientia manifesta est, et GPT-4o optime facit.

Introductio

mihi contactus notitia