Quomodo catena cogitandi capacitates arithmeticae ratiocinationis magnas excitat? Physici responsum dant ex prospectu neuronis activation

Quomodo catena cogitandi capacitates arithmeticae ratiocinationis magnas excitat?Physici responsum dant ex prospectu neuronis activationis

2024-08-03

Magna exemplaria multam diligentiam acceperunt anno praeterito vel altero, praesertim de agendis in solvendis quaestionibus arithmeticis.

Re quidem vera, ineunte anno 2022, inquisitores ex quadrigis Investigationis Google proposuerunt Catenae-cogitationis (CoT) promptam et promptam methodum machinandi, quae rationes mathematicas magnarum exemplorum efficaciter emendare potest et in paucis eius exemplis addiscere efficacia verificata est [1].

Quamvis methodus cito late facta sit, investigatores in campo parum sciunt quomodo arithmeticam ratiocinationem in magnis exemplaribus excitat.

Antea, explorationes cognatae maxime notavimus experimentis observatis ictum diversorum partium in COT prompta enuntiatione de arithmetica ratione effectuum magnarum exemplorum.

Speciatim, conare reponere vel removere elementa in COT prompta enuntiatione, ut removere verbalem partem exempli CoT, solum clavem formularum mathematicarum relinquere, et observa magnum exemplar ante et post repositum vel remotionem in arithmetica existente Executionis differentia differentia ex probationis consequentiae probatione adhibita est determinare utrum pars subrogatio vel remotio momenti habeat adiumentum ad arithmeticam facultatem ratiocinationis magnae exemplaris excitandam.

Etsi investigatores in hoc campo complura phaenomena iucunda ex his studiis detexerunt, tamen explicare non possunt quomodo CoT arithmeticam ratiocinandi facultatem magnarum exemplorum stimulat ab internis mechanismo reticulorum neuralis.

Eodem tempore haec studia plura quaeruntur. Exempli gratia, cur variae partes CoT diversos impactus in arithmetica ratione exemplorum magnorum habent.

Ad solvendas quaestiones praedictas, Professor Yao Ziyu et turmae Georgii Mason in Universitate Americae Unitarum seriem explorationum in aperto fonte Llama2 educunt, ex prospectu "exemplaris interpretabilitatis" et "activation neuron" uti proposuit phaenomenon observatum CoT systematice pervestigatum est.

Picture丨Socii quadrigis inquisitionis (source: Inquisitionis team)

Nuper cognata charta cui titulus "Investigatio Neurona Activationis Unified Lens ad Explicandum Catena-of-Cogitationes Arithmeticae Rationis in Large Linguae Exemplar LLMs" acceptata est a Annuo Conventu Societatis pro Linguistica Computationali (ACL, Annua) Congressus pro Computationalibus Linguisticis 2024 [2].

Daking Rai, candidatus doctoralis in Universitate George Mason, primus auctor est, et Yao Ziyu auctori respondenti inservit.

FigureRelated papers (Source: ACL 2024)

In tablino primum exploraverunt num Transformer feedforward stratum neuron est quod conceptum arithmeticae ratiocinationis exprimit.

Conceptus pertinentes includunt conceptus operationes arithmeticae additionis, subtractionis, multiplicationis et divisionis, conceptuum nexuum logicorum in processu arithmetica ratiocinandi (sicut "...sic", "...deinde", et aliae conceptus calculi arithmeticae (. ut "cento", "algorithmus" et "formula").

Ad notionem igitur neuronam per singulas notionem detegendam, neuron ad spatium vocabularium amplissimum exemplar proscripsit, et significationem neuronis perstringens, proportionem notionum in singulis vocabulis post neuron designans.

Circulus investigationis propositae ad GPT-4 utendum ad legendas et intelligendas tabulas lexicas neuronum ad automataria pittacii et fodiendi processum neuronum.

Experimenta demonstrant neurons esse quidem in Transformer strato feed anteposito qui conceptus arithmeticos repraesentant. Cum haec neurona laeduntur, magnae facultatum ratiocinationis arithmeticae exemplar decipiuntur.

Eodem tempore investigatores etiam animadverterunt actionem horum neuronum positive connectere cum arithmetica capacitate ratiocinationis magnae exemplaris. Haec relatio affirmativa explicat cur diversae propositiones promptae diversos effectus ad arithmeticam rationem magnorum exemplorum afferant.

Ex his neurons, manipulus systematice explicavit quattuor phaenomena CoT relata quae in studiis praecedentibus observata sunt.

Primum, cum formulae mathematicae a exemplo CoT remotae sunt et solae operationis eventus relinquuntur, arithmetica ratiocinandi capacitas magnae exemplar minuetur.

Secundo, cum ratio verborum a COT sample removetur et solae formulae mathematicae relictae sunt, exemplar facultatis etiam imminuitur.

Tertio, quando CoT exemplaria amittunt diversitatem operationalem, ut cum omnia exemplaria tantum involvant additiones operationes, exemplar capacitas minuitur.

Quarto, cum operatio ex exemplo CoT est iniuria, sed processus illatio recte est, exemplar facultatis non signanter afficitur.

"Videmus has phaenomena basically explicari posse per gradum activationis neuronum. Verbi gratia, ante et post remotionem formularum mathematicarum, numerus neuronorum actuum decrescit, explicans cur ratiocinatio arithmeticae exemplaris deminuta sit." explicavit viam.

Ex applicatione perspectiva, haec res in duobus aspectibus applicationis prospectum habebit.

Primo, magna exempla facultatem praedicendi.

In experimentis, investigatores videre potuimus activum gradum neuronum repraesentantes arithmeticam rationem positive connectere cum arithmetica ratione facultatis exemplaris Llama2. Hoc significat quod in futurum, benchmarks non potest esse necessaria ad directe praedicere capacitates magnarum exemplorum in operibus specificis.

Eodem tempore, quia Probatio probationis multum pubis et facultatum materialium requirit, ut notae annotationis et computationis copiae, facultas directe praedicet magnum exemplar intelligendo suas machinas intrinsecas etiam adiuvat nisi gratuita.

Accedit quod medici in agro spem habent magna exempla in proximo futuro opera superhumana praestare posse. Sed limitatur facultatibus humanis, nullo modo est ad haec opera scamna condere. Haec quaestio bene vitari potest, praedixando exemplar facultates per inhaerentem mechanismum magnarum exemplorum.

Secundo, moderando machinas internas magnarum exemplorum facultates exemplarium augeri vel debilitari.

“Credimus hanc applicationem unum ex maximis modis fieri ut securitatem magnorum exemplorum in futurum emendare possit. Simul etiam potentiam ad maiorem efficaciam consequendam formationem instituendam, sicut neurons per parvas notitias et locare. deinde neurons activationem regere. Propositum disciplinae exemplar. "theas investigationis dixit.

Re quidem vera, in secunda parte anni 2023, OpenAI propositum "super alignment" proposuit [3], studens ut homines adiuvaret exempla superhumana AI moderari ac moderari exempla scientifica investigationis innovationis fovendo. Praedictio et exemplar facultates moderandi sunt duo munera magni momenti ad hunc finem assequendum.

"Hic effectus est exploratio praevia in hanc partem. Speramus nos vel alii inquisitores in futurum explorare pergere posse", manipulus dixit. Haec investigatio per "mechanismum interpretabilitatem" incitabatur.

Haec subager est exemplaris interpretabilitatis quae celeriter emersit et his annis pervulgatum animum accepit. Dissimiles a modis interpretabilibus praecedentibus, mechanismus interpretabilitas conatur ad intellegendum modum mechanismum exemplaris per adversas retis neuralis machinalis.

Nunc, hoc genus methodi applicatum est ad explicandas mores et structuras magnarum exemplorum.

"Una e studiis, quae nos magnopere inspiravit, exploratio Transformer feedforward ab investigatoribus ab Allen Instituto intellegentiae artificialis in Civitatibus Foederatis et in Universitate Bar-Ilan in Israel [IV].

Hoc studium deprehendit in processu amplis exemplaris unitatis vocabulorum sequentium praedicentium, exemplar transformatoris feed-ante stratum aedificabit praedictiones continuas confirmans notiones in spatio vocabulario. Conceptus subsidii hoc consequitur neurons activum in strato Transformer antecessum.

"Haec inventio in gradu mechanismo coniecturam nostram inspiravit: Causa quare CoT stimulare potest capacitatem magnarum exemplorum in arithmetica ratione, potest esse quia potest efficaciter movere neuronos, qui rationes arithmeticae notiones in Transformer feedforward iacuit, et hae neurones adiuvat roborare. facultatis arithmeticae ratiocinandi magnarum exemplorum "quadrigis investigationis dixit.

Ex hoc, investigatio coetus miratus est an exstet mechanismum quae directe augere potest capacitates ratiocinationis arithmeticae magnarum exemplorum, praesertim parvarum magnarum exemplorum.

Theam notavit: "Hoc valde significante res est, quia parva-scala magna exemplaria habent singularem efficientiam computationalem, efficientiam oeconomicam et securitatem".

Praeterea, per idem tempus, nonnullas investigationes viderunt etiam ut facultates parvae magnarum exemplorum in certis campis vel muneribus emendare, colligendo GENEROSUS notitias vel modificando munus obiectivum educandi. Attamen applicatio interpretabilitatis mechanisticae hac in re adhuc est in suo statu emergenti.

Quamvis hoc, processus investigationis scientificae manipulus navigationis non levis erat, immo initio "adhæsit".

Inter eos, maxima difficultas est quod non plene comprehendunt internum mechanismum magnarum exemplorum arithmeticae rationis, et naturaliter non possunt consequi exemplar imperium desideratum.

"Ergo, mi discipulus Lai, primus auctor chartae, et arithmeticam rationem explicare primum exemplorum magnorum intendunt" dixit Yao Ziyu.

Sed altera difficultatem inermis offendit.

"Ratio arithmetica" est conceptus valde abstractus, et praedictiones magnarum exemplorum fiunt in ambitu vocabulorum singularium.

Si arithmeticam rationem facultatis magnarum exemplorum ex contextu rationis "auxilii rationis in lexico spatio" neuronum comprehendere velimus, imprimis conceptum hunc valde abstractum in notionibus lexicalibus specificis perficiendum oportet.

Ad hunc hiatum pontem, coetus investigationis in primis compluras notiones inferioris gradus ad arithmeticam rationem relatas, in arithmetica operariorum, linguarum logicalium expressiones in arithmetica ratiocinatione, aliasque arithmeticae notiones computandi comprehendit.

Et utendo GPT-4 ad efficaciter pittacium et perscrutando neuronos qui has notiones humiles exprimunt. deinde ad studia priora retulerunt ut haec neurona scrutarentur.

"Proventus experimentales probant hos neurones quidem magni momenti partes agere in exemplo magno experimenti nostri, Llama2."

Hoc etiam eis fiduciam praebet plus spei hac in parte explorare.

Horum neuronum statuum activationem uti cogitaverunt ad effectum CoT in arithmetica ratione facultatis magnarum exemplorum uniformiter exponere, inter varia phaenomena quae in opere priore observata sunt.

Eventus coniecturam suam basically verificavit, id est, effectum excitans diversorum partium CoT in arithmetica ratione facultatis magnarum exemplorum explicari potest per activationem neuronorum pertinentium.

Attamen studium etiam ostendit activationem neuronalem non omnia explicanda arithmeticae rationis magni exemplaris effectionis. Eodem tempore, num inventa in Llama2 inquisitorum in aliis magnis exemplaribus coetibus applicanda sint, etiam ulteriore verificatione indiget.

Ferunt etiam laboratorium Yao Ziyu nunc habere plures positiones PhD plene-scholariae consideratas pro admissione in casu 2025 . Pro details, sis in pagina https://ziyuyao.org/ et quaere per email.

Notae:

1.Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V. Le, et Denny Zhou. Catena of-cogitationis impulsus in magna lingua exempla elicit ratiocinatio. Acta in systematis instrumentorum neuralis informationis 35 (2022): 24824-24837.https://doi.org/10.48550/arXiv.2201.11903

2.Daking，Rai，Ziyu,Yao，An Investigatio Neuronis Activatio pro Unificato Lente ad Explicandum Vinculum Cogitationis Eliciendi Arithmeticae Ratio LLMs.arXiv:2406.12288.https://doi.org/10.48550/arXiv.2406.12288

3.OpenAI. Introducendis Superalignment. https://openai.com/index/introducing-superalignment/. MMXXIII.

4.Geva, Mor, Avi Caciularu, Kevin Wang, et Ioab Goldberg. Transformer Feed-Forward Layers Build Predictions by Promotion Concepts in the Vocabulary Space.In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 2022.https://arxiv.org/abs/2203.14680

Condimentum: Chu Jiashi

01/

02/

03/

04/

05/

nuntium

Quomodo catena cogitandi capacitates arithmeticae ratiocinationis magnas excitat?Physici responsum dant ex prospectu neuronis activationis

Introductio

mihi contactus notitia