nuntium

Quid accidit si tumultuariam / Transformator omissis iacuit?Ultimae investigationis notitiae mechanismi fluxum suum indicat

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

In Occidente ventum est ab Aofei Templum
Qubits |

Delationes mechanismi in Transformatori profluentes per recentissimas inquisitiones revelata sunt:

Numquid omnes ordines necessaria sunt? Estne medius iacuit idem faciens? An refert ordo laminis?

siskip aliquo stratisexempli gratia, quid fiet, si output iacuit 4 iuncta cum tabulato 6 .Ordo laminis passim versasquid de 4-6-5-7, ut.

Recens studium vocatum "Transformer Strati pictoris" populare factum est, et per turmas investigationis ab AI startups Sakana AI et Emergence AI completa est.



Ab interno operatione principium Transformatoris inceperunt et conclusiones in praedictis rebus per seriem experimentorum pervenerunt. Manipulus affirmavit profundam horum principiorum intelligentiam non solum efficaciam exemplaris utendi exsistentiae emendare, sed etiam adiuvare architecturam emendare et novas variantes evolvere.

Lucas Beyer, Google DeepMind inquisitor et ViT auctor, eam protinus post lectionem probaverunt;

Magna summarium! Etsi nonnulla experimenta in studiis praecedentibus ostensa sunt, mihi placet nova singularia quae addidisti, praesertim quatenus "ratio" operae genus magis afficitur quam alia opera!



Multi etiam scholares et fabrum magna commendatione expresserunt.

Bonum est pignore aliquos istorum perceptionum tandem uti ad emendandum Transformer.



Experimenta iterum confirmaverunt: strata exscribere utile est ad operas creatrix, sed plerumque inefficax ad ratiocinandi opera;



Ita, quod experimenta fecit in hoc studio investigandi dolor? Quae interrogata respondit?

Exemplar experimentale lectio et benchmarking

Inspice configurationem experimentalem primum~

Experimentum indecoder solumetencoder solumfiebat in exemplum.

Inter eos, exemplar solum eligit decoderLlama2, maxime studet Llama2-7B cum 32 stratis et 7 miliardis parametri. Experimentum extensum etiam 13B (40 stratis) et 70B (80 stratis) exempla includit.

In encoder solum exemplar eligitBERTcum 24 stratis et 340 decies parametris.

Investigatores usi sunt vexillum prae-repraesentiarum ad haec exempla monstranda. Exemplar in omnibus experimentis congelatum est, et praeter aestimationem BERTI, quae vexillum pulcherrimum gradatim comprehendit, exemplar parametri non mutatum est per obesum vel alios modos.

In terminis probationis probationis, Llama2 sequentibus vexillum benchmarks utitur: ARC (scientia testium quaestionum), HellaSwag (quaestiones sensus communis), GSM8K (quaestiones mathematicae), WinoGrande (ratiocinatio sensus communis), LAMBADA (praedictio vocum). Inter eos, LAMBADA confusionem metiri solebat, quae proxima est primigenii indicis vaticinio in disciplina adhibita.

Ad aestimationem Llama2 perficiendam, medianus scamnorum normalised provisus est, quantitatis effectus ab 0 ad 1 (exemplum optimalis effectus).

Pro BERT, probatio glutinis adoptatur eiusque metrica aestimatio secuta est, inclusa mediocris notae probationis insueta. Nota quod vexillum BERT aestimatio comprehendit gradationem subtiliter, exemplar ita adaptans. In Appendice, exploratores etiam eventus aestimationem demonstrant in qua solum caput exemplaris accommodari potest.

Causa experimenti ab hac quaestione orta est:

Licetne aliquo modo plures ordines in unum, fortasse maiorem stratum, coniungere?Existimatur fortasse ex usu nexuum residuarum in exercitatione, medium tabulatum retis neuralis.Communis spatium repraesentativum adhiberi potest.(Hoc non est verum perceptorum multi- stratorum vexillum, quae nullam habent mechanismum ad communem repraesentationem seu constantiam dispositionis inter stratis promovendam)

Si stratis spatium repraesentationis communicare potest, momenti momentum habebit in calculis subsequentibus conditionis vel dynamice addito novam cognitionem ad exemplar praeordinatum Transformatoris et applicationes amni.

8 quaestiones maiores de Transformer
An strata eodem spatio repraesentationis utuntur?

Ad determinare an diversae stratae eiusdem spatium repraesentationis participes sint, investigatores Transformer's exploraveruntSkip specifica stratis vel mutare ordinem adjacent stratisde robore.

Exempli gratia, in Llama2-7B exemplar, output rivum mutant a normali ordine "Laer 4 -> Stratum 5 -> Stratum 6" ad "Steram 4 -> Stratum 6", omissis Stratis 5, Quid fiet?

Aut quid fit, si 4 mittitur output iacuit 6 iacuit, et tunc 5 mittitur output iacuit 6 iacuit, deinde iacuit 7?

Ut patet in figura infra, experimentum invenit exceptis paucis primis et stratis;Llama2-7B ostendit bonum robur omissis vel mutando tabulatum serie

Hoc est, medium stratum repraesentativum spatium communicat, et medium stratum ac "stratum externum" (primi et novissimi ordines) spatiis repraesentativis independentes habent.



Ad hanc hypothesim ulteriorem confirmandam, investigatores mediocrem cosinam similitudinis mensuraverunt inter activas status occultos diversorum ordinum in diversis exemplaribus (Llama2-7B, Llama2-13B, et BERT-Large) et trans benchmarks comparaverunt.

Figura III infra ostenditMedium inter omnes strata constantia . Exempli gratia, activatio quarti iacuit in fundo valde similis est activationi quarti iacui in summo. Pro XL-Llama2-13B iacuit, videre potes stratas in 4-5 partes dividi posse secundum similitudinem: stratum 0, stratum 1-3, stratum medium, et deinde ultimum unum vel duos ordines.



Hoc innuit exemplum utTria sunt diversa spatia repraesentativa: principium, medium et finis, stratis . Investigatores etiam invenerunt numerum "stratorum inchoantium" augere visi sunt cum numerus cratium in exemplari.

Porro similitudo cosinae altae demonstrare potest spatium repraesentativum commune esse, humilitas autem suavior est similitudo spatiis illis non communicatis. Notitia Llama2-7B in Figura 3 supra valde consentanea sunt cum eventibus faciendis in Figura II demonstratis, quod amplius probat:

Saltem spatium repraesentationis in medio gradu communicatur.

Numquid omnes ordines necessaria sunt?

Ut ulterius comprobaretur repraesentatio spatium mediae tabulatum vere communicatum est, investigatores etiam duxeruntAccumsan experimentum exsiliens(Per experimenta non bene- hitur).

Speciatim ad initus N+Mth iacuit (M>1) output iacui Nth directe transit, ita "omit" M-1 iacuit, ut in figura infra ostenditur.



Principio N+M iacuit instructus solum in initus a N+M-1 iacuit, ergo nunc intellegere potest activationem tabulae N?

In hoc experimentorum genere investigatores primam tabulam et ultimum N-1 stratum exsequuntur normaliter, dum omissis vel modificandis N+1 ad TN stratis (T numerus stratorum in exemplari est).

Ut in Figura 4 infra ostendetur, pluribus probationibus probatio, Llama2-7B et BERT-LargeEuismod gradatim declivis (Figura indicat gradatim augeri numerum strata a sinistra ad dextram omittenda). Eventus hic revelatur;

Non omnes ordines sunt necessarii, et omissis saltem aliquibus mediarum stratis gravem ictum in altiore effectu non habebunt.



Num omnes medii versus idem faciunt?

Suntne strata media redundantia, si spatium repraesentationis communis communicant?

Ad hanc quaestionem solvendam, investigatores priorem experimentum "sili" reddiderunt, sed hoc tempore loco media iacuit omissis;Reposui pondera omnium mediarum stratorum cum ponderibus mediae tabulatisUt infra.

Revera, tempora T-2N+1 in strato centrali exercentur, ubi T numerus cratium exemplar est (Llama2-7B est 32 stratorum; BERT-Large 24 strata est).



Probatio inde in probatione, sicut numerus laminis repositorum crescit;Exemplar perficientur cursim mortificet . Ac degradatio perficientur multo gravior est quam modo omissis quibusdam stratis, hoc genus ponderis subrogatio perquam damnosum est.



ergo,Non vacet pro mediis stratis inter se varias functiones exercere.

An refert ordo laminis?

Experimenta superiora ostendunt licet medium stratum spatium repraesentationis communicet, varias operationes in hoc spatio exercere. Itane ordo harum operationum refert? Inquisitores duo experimenta fecerunt.

Pri doctus accumsan mediocrem adinverso ordine supplicium in ordine (reverso ordine). Pone e strato TN ad iacum TN-1, et sic usque ad tabulatum N, ac deinde in tabulato illius posito ad extremum TN iacum transi.

Ut infra patebit:



Secundum experimentum;temere OrdinatioMediae strata ordinantur et per 10 seminum fortuitorum eventus averaged.

Eventus ut infra ostendentur. In utroque casu exempla monstrantTardus perficientur degradation





Hic vastator effectus experimentalis infra est. Utrum ordo inversus sit vel ordo temere, exemplar effectus melius est quam directe omissis his stratis, significans etiam si laminis currunt in initibus in ordine non exercitato, adhuc producere possunt. efficax output.

Ita refert ordo accumsan? Consequens est:

Ordo commensuratio accumsan quendam ictum in effectu habet, et tam temere ordinem quam inverso ordine degradationem quandam demonstrant.

Notatu dignum est ordinem temere praestare quam inverso ordine. Fortassis quia ordo inversus est omnino oppositus ordini in disciplina, et quilibet ordo temere conservat cohaerentiam aliquam saltem sequentem (hoc est, iacuit i semper post alium tabulatum j, ubi i>j).

Possuntne hae stratae in parallelis currere?

Si praesentes laminis, i.e., non omittendae, potior est quam ordo quo exsequuntur, cogitari potest.Hos ordines independenter currunt et tunc eventus eorum iungunt ? Ut infra patebit.



Inquisitores experimentum fecerunt ubi loco N ad TN transilientes stratis his intermediis parallelis cucurrerunt ac deinde medium eventus ad finales N stratis transmiserunt.

Eventus in figura infra monstrantur. Cum exceptione GSM8K quaestionis mathematicae probatio est, omnes benchmarks degradationem tardum ostendunt.

Interestingly,Strati paralleli melius faciunt quam strata omissis, sed non aeque ac laminis cursus inverso ordine.



In summa, potestne haec parallela currere? responsum est:Etiam, nisi in benchmarks math-gravis.

An aliqua officia magis refert?

Plerique variantes (incluso ordine inverso, omit et parallelo) demonstrant quam celerrime obeundo degradationem in ratione abstracta ARC vel mathematici ratiocinationis GSM8K benchmarks.

Hoc explicari potest ex eo quod gressus rationis gradatim magis sensitivas sunt mutationes ordinis in ordine quam "semanticae" operae sicut Winogrande vel HellaSwag.

Causa ratiocinandi laboris requirit iuncturam notitiarum structuralium et semanticarum, dum opera qualia HellaSwag solum semantica perfici possunt.

Per experimenta conclusa inquisitores;Opera Mathematica et ratiocinatio magis ordine nituntur quam opera "semantica".

Estne iteratio auxilium cum stratis parallelis?

Si interna mechanismi Transformatoris operantis comparatur cum pictura picturae: carbasus (input) intercedit inter pictores, quidam pictores speciales in pictura avium, et quidam meliores in rotis pingendis... Quisque pictor vicissim trahit. ab alio Pictor carbasa in manibus sumit et iudicat num ad picturam accedat an directe ad proximum pictorem transeat (usuras residuas nexus).

Credibile est quasdam stratas picturas tantum "complementum" cum opportunas input recipiunt. Exempli causa, artifex qui "rotas trahit" probabilius est rotas trahere si corpus currus primum videt.

In Transformatore, aliquae stratae tantum conferre possunt ad transitum anteriorem cum opportunum initus accipiant, potius quam initus directe per nexum residua transiens.

Hoc modo spectans, comparatum est ut semel tantum stratum parallelum capiat;Executio iterativa stratorum parallelarumUt condimentum consequat.

Inquisitores hoc probaverunt pascendo mediocris institutionis stratorum parallelarum ad idem tabulatum reducendum et numerum iterationum figendo, ut infra:



In Figura IX infra, investigatores eventus parallelis iacuit 3 temporibus iterandi monstrant. Haec methodus signanter melius est quam semel tantum stratum parallelum exsequi.



Sola exceptio est, quando iacuit inceptivus N est 15 pro Llama2-7B vel 11 pro BERT. In hoc casu, effectus parallelising ansa 3 vicibus aequiparatur ad iterationem tantum mediae tabulae mediae 3 temporibus, et iacuit parallelus hoc tempore aequiparatur perfecto exemplari.

Inquisitores etiam experimentum variis iterationibus numeris iteraverunt.

Figura infra ostendit quomodo mutatio Llama2-7B perficienda cum numero stratorum parallelorum M et numerum iterationum.



Optime numerus iterationum cuiusque M a capsula rubra indicatur. Exceptis M=29 et M=31 (totis fere strati parallelis), numerus optimarum iterationum dure lineare proportionalis est numero stratorum parallelorum.

Conclusio igitur est:Iteratio adiuvat stratis parallelis, et numerus bene iterationum proportionalis est numero ordinum parallelorum.

Quod variantes minimis perficientur nocere?

Denique investigatores omnes varias variantes in experimento de eodem grapho comparaverunt.

Eventus ostendunt,Repetere unius tabulatum(Ut supra repone media stratis pari numero centermost stratis)Pessimus effectusfectio cito ad temere collocantur.



Parallelismus itertivus et iacuit temere sequentem degradationem perficiendi sunt minimiinter quos parallelismus iterativas optime praestat in BERT et Llama2-7B.



Plures eventus experimentales additi sunt in appendice chartae, et familiarium interest membra originalem chartam inspicere possunt.

Paper link: https://arxiv.org/abs/2407.09298v1
Relatio link: https://x.com/A_K_Nain/status/1812684597248831912