nuntium

ACL 2024 |

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];

Auctores huius articuli ab universitate Hong Kong et Tencent sunt. Auctor album: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Inter eos primus auctor Li Qintong est discipulus doctoralis in lingua naturali Processing Laboratorium University Hong Kong . Leyang Cui et Wei Bi sunt seniores inquisitores apud Tencent.

Praefatio

Extraordinaria capacitas magnarum exemplorum linguae (LLMs) in solvendis quaestionibus magis magis apparet. Nuper, phaenomenon attentione dignum est quod haec exempla mirabiles eventus consecuti sunt in multiplicibus probationibus probatio mathematici ratiocinii. Exempli gratia GPT-4 sumens, bene in difficili prima schola applicationis quaestionis experimenti GSM8K positae praestat [I], cum certitudine plusquam 90%. Eodem tempore, multa exemplaria aperta fontis etiam ostenderunt effectum gravem, cum rates accurate 80% excedentes.

Attamen, in usu, saepe invenimus, cum problemata mathematica leviter immutata sint, LLMs errores aliquos humiles facere, ut in sequenti figura ostenditur:



Figura 1: error occurrit.

Non possumus adiuvare sed quaerere: Num magnae linguae exempla vere essentiam cognitionis mathematicae comprehendunt? Quomodo signant tam alta in his probationibus? Estne simpliciter materia rationis parvae imitandi rationes in magna copia notitiae disciplinae? Utrum LLMs notiones mathematicas vere intelligat, adhuc quaestio valet pervestigandi.

Ad hanc quaestionem explorandam, auctores huius articuli aestimationem probandi constitueruntGSM-Plus . Haec probatio destinatur ad 8 varias transmutationes mathematicas subtilissimas faciendas in problemate systematice aestimare facultatem hodiernae LLMs in tractando cum quaestionibus fundamentalibus mathematicae applicationis. In hoc novo Probatio, charta stricte aestimat 25 diversa LLMs, incluso fonte aperto et fonte clauso exempla industriae.

Experimentales eventus ostendunt GSM-Plus probationem provocare pro pluribus LLMs. Etiam in GSM8K, GPT-3.5-Turbo accurationem 73,62% assequi potuit, sed solum accurationem 61.19% in GSM-Plus consequi potest. Hoc opus acceptum est ab ACL2024 cum pereuntis 4, 4, et 4.5.



论文标题: GSM-Plus: A Comprehensive Probatio ad aestimandum Robustness de LLMs sicut problema Mathematica Solvers

Charta inscriptio: https://arxiv.org/pdf/2402.19255

Protocollum chartaceum: https://qtli.github.io/GSM-Plus/

background

Ratio Mathematica magni ponderis est evolutionis intelligentiae artificialis indicium. Rigorem problema requirit intellectum, progressionem consiliorum et artes exsecutionis computationales. Praeteritis his paucis annis, multae schedulae publice promptae adhibitae sunt ad aestimandas facultates ratiocinandi mathematicas systematum intelligentiarum artificialium. Mane math datasets in aequatione-substructio problematum mathematicarum feruntur. Postmodum difficiliores notitiae propositae inductae sunt tegumentum elementarium, schola alta, et quaestiones mathematicae in gradu collegii.

Cum difficultas aestimationis data crescere pergit, progressio LLMs etiam celerissima facta est. Ut observantia LLMs in mathematicis melioretur, invigilatum bene-tuning (SFT) adhiberi potest ut celeriter adiuvet LLMs accommodare ad campum mathematicum per institutionem ad varios negotium datos. In scaena ratiocinativae Facultates LLMs mathematicae etiam efficaciter excitari possunt per suasiones inputationes callide dispositas (exempli gratia Catenae-cogitationis et Programmatis-of-cogitationis).

Nam pleraque LLMs, adhuc multum spatii est ad emendationem, cum ad quaestiones mathematicas in alta schola et supra. Sed in schola prima mathematica, LLMs magnam potentiam monstravit.Quo magis mirum, LLMs potest adhuc tenere altam observantiam in realibus ambitibus?

Adversaria aestimatio data posuit GSM-Plus

Hoc studium intendit ut probationem comprehensivam GSM-Plus probationis mittere studeat ut robustitatem LLMs in solvendis elementis mathematicis quaestionibus systematice examinet. taxonomy of mathematical problem-solveing ​​habilitates in Polya principia inspiratus [2], hic articulus quinque principia dirigentia designat ad construendum GSM-Plus notitias positas:

Ad intelligentiam facilitatem, hic est "anas anatis XVI ova cotidie ponit. Illa tria ova pro ientaculo quolibet mane comedit et quattuor ova ad muffinos pro amicis suis coquendam. Solvit $2 per anatem ovum omni die reliquias ova vende apud forum agricolae. Quot dollaria facit per diem ad forum agricolae?

(I) Numeralia mutationes: Refertur ad mutandum notas numerales vel eius generis.

Valorem postea: Repone valores iisdem digitis ac speciebus, exempli gratia, "16" in quaestione cum "20" substitue.

Dilatatio digiti: numerus digitorum augens in valore, exempli gratia reposuit "16" cum "160".

Conversio - Decimalis - Fractio: Restitue integros cum decimalibus vel fractionibus, exempli gratia, converte "2" ad "2.5".

(2) Arithmetica mutationes: refertur ad additiones operationes seu inversiones ad problemata mathematica, sed limitata ad additionem, subtractionem, multiplicationem et divisionem operationum;

Expansio supputationis: angustiis addere secundum problema originale. Exempli gratia, novam condicionem adde: "Illa quoque utitur duobus ovis ad personas comas homemades cotidie faciendo".

Operatio conversionis: Converte condicionem notam problemati originalis in variabiles solvendas pro problema GSM-Plus varianti. Exempli gratia, enuntiatio quaestionis primae in Figura 2 "II pupa ovum anatis" convertitur in sententiam interrogativam novae quaestionis "Quae pretium est ovi anatis cuiusque?", cum sententia interrogativa quaestionis originalis. "Quot dollaria quotidie apud forum agricolae mereris?" Conditiones notae in notas convertuntur pro nova quaestione "$18 facit diem apud agricolae forum".

(3) Problema intellectus: Refert quaestionem mathematicam in diversis verbis sine significatione mutatis, ut "Janet turbam anatum erigit, quae singulis diebus XVI ova anatis ponunt. Tria anataria ova pro ientaculo consumit, et deinde quattuor anates ad coquendum waffles consumit". ." Amico suo. Janeta omnia reliqua anates ova vendit apud agricolae mercatum pro $2 singulis. Quantum pecuniae facit singulis diebus anates venditis in foro agricolae?

(IV) Invasio item insertio: Refert sententias inserendas quae ad thema pertinentes et valores numerales continent, sed inutiles sunt ad problema solvendum in problema originali, ut "Janet etiam petebat psittacum suum cum duobus anatis ovis pascere. Fortunate ei vicinus dedit. ei duo anates ova cotidie ad alendum.

(5) Critical thinking: Ponit utrum LLMs facultatem habeat dubitandi vel dubitandi, cum problemata mathematica carent condicionibus necessariis, ut "anas Janet quotidie ova pariat. Tria ova pro ientaculo quolibet mane comedit et quatuor ova ad muffins coquendos pro amico suo cotidie utitur. . Reliqua ova apud forum agricolae pro $2 diurno vendit.

Ex probatis quaestionibus GSM8K 1,319, haec charta octo variationes pro unaquaque quaestione gignit, inde in GSM-Plus dataset continens quaestionem variationum 10,552 (haec charta etiam praebet probationem sub-positam continentem 2,400 quaestionem variationum). . Experiendo LLMs utentes singulis quaestionibus eiusque octo variationibus, GSM-Plus adiuvare potest inquisitores comprehendendo aestimare robur LLMs in solvendis mathematicis quaestionibus.



Figura 2:8 Perturbatio generationis quaestio variantes utens 5 angulis innixa in problemati semine math. Maiores modificationes in viridi illustrantur.

Cum GSM-Plus utendo ad aestimandas 25 LLMs variarum quantitatum, variarum prae- struendi methodi, et variae molis bene hians, componendo 4 communiter technicas artes adhibendo, haec charta deprehendi potest LLMs accurate solvere problema totius GSM8K, sed In solvendis quaestionibus GSM-Plus Obviis difficultatibus variantibus quaestionibus oriuntur. Summa inventa sunt haec:

Negotium optimae certae, id est, subtiliter in mathematico ad rem spectantem, potest saepe emendare in amni negotium accurationis;

Cum "cogitatio critica" requiritur, "arithmeticae mutationes" et "intercessiones factoris insertionis" involvuntur, effectus LLMs celeriter declinabit; sed in perturbationibus "mutationum numerorum" et "quaestionis intellectus", observantia LLMs est relative stabulum.

Antecedens technicae artis impulsus (exempli gratia, CoT, Pot, LtM, ac multiplicitate CoT substructus) vim non admodum augebat, praesertim "mutationes arithmeticae" et "cogitationes criticae." Ex opere praevio fundato, haec charta adhuc promptam methodum coniunctam explorat quae simul LLMs in GSM8K et GSM-Plus observantiam emendare potest per singulas rationes cogitationis iterum generando et comprobando.

GSM-Plus Features

qualitas certitudine : Duos gradus utere ad quaestiones GSM-Plus aestimationis generandas. Primum, quaestio GPT-4 rescribendi facultates variantes generare adhibentur, et tunc candidati responsa pro his variantibus generantur; ut notitia qualitatis, omnes quaestiones variantes et responsiones ab GPT-4 generatae stricte cohibeantur ab quadrigis annotationibus manualibus. Manipulus annotationis manualis 18.85% GPT-4 rescribentis quaestiones statuit.

Aestimatio opacis: Singulis experimentis quaestionem in notitia aestimationis amet GSM8K, GSM-Plus 8 varias quaestiones in perturbatione directionis praebet, plene probans magnam exemplar facultatem flexibiliter solvendi mathematicas applicationes difficultates in diversis adiunctis.

provocatio Comparatus cum GSM8K, quaestio varians GSM-Plus magis difficilis est, et effectus omnium LLMs aestimationis participatus signanter degradatur. In sequenti analysi, hic articulus speciem problema solvendi roboris LLMs sub diversis perturbationum generibus resolvet.

Comparatio cum aliis quaestionibus primae scholae mathematicae verbi data



Mensa I: colorum diversorum colorum diversarum perturbationum genera;



Ut ex schemate superiore videri potest, antea studiis diversis perturbationibus usi sunt ad probandam vim rationis mathematicae, sed aestimatio occasus tantum species perturbationis aliquas obtegunt, et pleraeque perturbationes per modum constructionis latae inducunt, sic qualitas difficile est. perculit. E contra, GSM-Plus octo artibus ratiociniis mathematicis utitur ad unam quaestionem perturbandam, cum latius coverage et strictiore qualitatis potestate.

experimentum analysis

Indicatores iudicium

Degradatio rate euismod (PDR): Gradus actionis degradationis LLMs in problemate perturbato comparato problemati originali.

CENTESIMA Problematum de animantibus simul (ASP): Proportio utriusque quaestionis originalis et ejus quaestionis variantis recte respondet LLMs.

altiore perficientur

Ut infra in tabula ostenditur, exhibitio plurimorum LLMs in GSM-Plus signanter cum GSM8K reducitur.

GPT-4 summam vim ostendit, cum minimis PDR tantum 8.23%. CodeLlama maximam PDR habet, inter quae exempla 7B, 13B et 34B sunt 40.56%, 39,71% et 34.27% respective, basim suam excedentem exemplar LLaMA-2-7B (39.49%), necnon exemplar mathematicum SFT subtiliter modulatum. , ut SEGO-7B (34.91%). Ex quo patet quod ratiocinatio modorum linguarum processualum est in perturbationibus vulnerari.

Adversus perturbationes mathematicas, quo maior exemplar magnitudinis est, eo magis stabilis est effectus. Etsi subtiliter praevisus in amni operibus accurationem emendare potest, non signanter ad perturbationes (i.e., inferioris PDR) exemplar augetur. Data quae bene incedit, ad robur interest. Est etiam modulatum ex LLaMA-2, et utens diversis notitiis magnas differentias ducet in exemplar accurationis et roboris.



Mensa II: Super perficientur

Analysis experimentalis subtilis-

Per euismod ex LLMs sub diversis perturbationibus

Haec charta adhuc aestimat stabilitatem LLMs sub 8 variantibus quaestionibus perficiendam. Comparari cum baseline humano pro Critica Cogitatione (purpura), Operatione Expansione et Operatione Reversali (hyacinthina), Distractor Insertio (rosea), et Integra-Decimal-Fractionis Conversio (orange) perturbatio, actio LLMs signanter decrescit. Nam "substitutio numerorum" et "quaestionis intellectus", effectus LLMs stabilis est vel etiam leviter melior.



Figura III: Speciosus experimentalis analysis

Transferability mathematicae rationis artes

Analysis prior maxime nititur in tota notitia copiarum. Deinde, hic articulus duas notitias scindit secundum utrum mathematicae quaestiones recte respondeant, et analyses an cum LLMs problema GSM8K feliciter solvat, probabilitas GSM-Plus variantis quaestionis altior fit (i.e., recte respondendo) significat. princeps asp pretii). Si haec assertio vera tenet, LLMs considerari potest ut in hoc genere problematum mathematicorum specifico subset, etsi hoc in tota notitia statutorum non ita sit. In occasu experimentali, singulae problematis GSM8K eiusque variantes in GSM-Plus in 8 paria problemata transformantur, et eventus in Figura 4 monstrantur.



Figura 4: Conlatio translationis LLMs inter GSM8K et GSM-Plus problematum paria. Claustra (utraque recta) et hyacinthina (utraque recta) vectes indicant morum exemplar constantem, cum rubra (GSM8K recta & GSM-Plus perperam) et lutea (GSM8K perperam & GSM-Plus correcta) vectes indicant mores inconstantes. Summa altitudinum purpurei et vectes rubri significat numerum LLMs qui problema GSM8K recte solvendi sunt.

Praesentia vectis rubri (LLMs quae quaestioni originalis recte respondet, sed quaestionem variantem non solvuntur), indicat pleraque exemplaria translationi perficiendi limitata habere. Licet observantia LLMs a problemate GSM8K differat (altitude bars purpurae et rubri), effectus translationis similis est (altitude bar rubri). Hoc significat quod benchmarks exsistentes non potest accurate aestimare veras facultates exemplaris in ratione mathematico. Altus accurate coniectura fortis consequentiae robustitatem non adaequat.

Tips for help with performance robore of LLMs

Antecedens labor ostendit promptam instructionem bonam esse praecipuam ad excitandas facultates mathematicas exemplorum linguarum. Hic articulus 4 repraesentativa exempla eligit et probat operam suam in solvendis quaestionibus sub diversis mandatis prompti. Ut in figura infra, ob impedimentum obmissis, LLMs firmissime faciunt cum exemplis multiplicibus sicut demonstrationibus contextualibus (complexitate-substructio CoT); aptius impedimento. Super, hae apicibus et strophis satis non sunt pro LLMs ad eandem observantiam servandam ac GSM8K in GSM-Plus.



Figure V: Impact innuit perficientur robur LLMs

Fac combination cogitare opus?

Quomodo augendae roboris LLMs innixi modi exsistendi? Hic articulus invenit LLMs condiciones magnas saepe ignorare vel errores computare in processu problemati solvendo. Ad hunc finem, charta haec pervestigat Comp, acervatim modum monitorii. Haec methodus primum suadet LLMs condiciones necessarias extrahere ad valores numerales in problemate (Prompt1). Deinde, ex problemate et clavibus conditionibus, LLMs instruuntur ut proposita consequentia (Prompt2) et calculi proposita (Prompt2) iterativo generare instituantur, et praebeant opiniones de gradibus problematis historicae generatis ad solvendum utrum finale responsum obtineatur. Prompt4). Exsecutio specifica in Figura VI ostenditur.



Figura VI: Schematica schematismus de Comp iterationis methodo promptum

Videri potest Comp meliorem posse observantiam LLMs sub variis problematis variationibus generibus per generationem iterativam et sui ipsius verificationem, sed adhuc non potest ponte perficiendi gap LLMs inter normas probatas et adversarias experientias. Haec investigatio plures modos in futuro expectat ut exemplar robur augeat et ulteriorem progressionem LLMs in campo mathematici ratiocinii promoveat.



Mensa III, euismod de Comp iteratio innuit

Exempli generare

Figura infra indicat observantiam GPT-3.5-Turbo sub variis technologiarum inceptis in problemate GSM8K et GSM-Plus problemati rescribendi secundum "operationem inversam". Dum omnes Turbo movere suadet ut accurate quaestiones GSM8K respondeat, solum Comp Turbo adiuvat rectas responsiones generare in GSM-Plus variantibus quaestionibus.



Figure VII: Exempla exempla respondet math quaestiones diversis promptum occasus

conclusio

Articulus hic GSM-Plus introducit, adversarium primariae scholae mathematicam applicationis problema aestimationem positam, eo quod systematice robur LLMs in solvendis mathematicis quaestionibus applicationis analyseos resolvit. Analysis experimentalis invenit, ob perturbationes praemissas, plurimarum LLMs observantiam signanter omisisse ad suum effectum in vexillum benchmarks, longe deficientem gradus operationis humanae. Indagator sperat opus huius articuli plus promovere posse investigationem futuram, inclusam, non limitatam ad: (1) aestimatio systematica artium mathematicarum LLMs;

[1] Cobbe, Karl, et al. "Disciplina uerificantis ad solvendum math verba problemata." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] Georgius Polya. 2004. Quomodo sit solvendum: Nova methodus mathematicae aspectus, volumen 85. Princeton university press.