Neural retis architectura "diversae viae ad eundem finem ducunt"? ICML 2024 Paper: Exemplaria diversa, sed eadem doctrina content

Neural retis architectura "diversae viae ad eundem finem ducunt"? ICML 2024 Paper: Exemplaria diversa, sed eadem doctrina contenta

2024-07-16

Nova Sapientia Report

Editor: Qiao Yang

[Introductio ad Novam Sapientiam]. In retiaculis neural alta multae magnitudinis et architecturae veniunt, et generaliter accipitur quod repraesentationes abstractas afficiunt ab exemplari eruditorum. Prima tamen charta a duobus UCL scholaribus in ICML 2024 edita ostendit quod si exemplar architecturae satis flexibile est, mores quosdam retis diffundunt inter varias architecturas.

Cum AI in aetatem magnarum exemplorum ingressa est, Lex Scaling paene consensio facta est.

Charta inscriptio: https://arxiv.org/abs/2001.08361

Inquisitores OpenAI in hac charta proponunt anno 2020 quod exemplar perficientur cum tribus indicibus vim legis habet relationem: quantitatem parametri N, datam quantitatem D, institutionem computandi potestatem C.

Praeter has tres aspectus, factores sicut hyperparametri delectu et exemplaris latitudo et profunditas parum momenti in effectu intra rationabilem extensionem habent.

Praeterea, exsistentia huius legis relationis nullam stipulationem ad exemplar architecturae facit. Aliis verbis, existimare possumus legem scalare ad omnem fere architecturae exemplar pertinere.

Praeterea charta in agro neuroscientiae anno 2021 edita hanc phaenomenon ab alio angulo attingere videtur.

Charta inscriptio: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Invenerunt quod quamvis AlexNet, VGG, ResNet et alia reticula quae ad opera visualia disposita habent magnas differentias structurales, tamen similes semanticis valde similes discere posse videntur, sicut relationem hierarchicam obiecti praedicamentorum, post institutionem in eadem notitia positae.

Sed quae ratio est? Si experientiam superficialem excedunt, quantum sunt variae architecturae retis similes in gradu essentiali?

Duo investigatores apud UCL chartam hoc anno ediderunt, huic quaestioni respondere volentes, repraesentationem abstractam spectando per retiacula neural didicisse.

Charta inscriptio: https://arxiv.org/abs/2402.09142

Theoriam sumebant efficaciter summatim dynamicas repraesentationis discendi in complexu, magno exemplo architecturae, detegentes suas "dives" et "iners" notas. Cum exemplar satis flexibile sit, quaedam retis mores per varias architecturas diffundi possunt.

Haec charta ab ICML 2024 colloquio accepta est.

Formare processus

Theoremata approximatio universalis affirmat, quae sufficiens parametris posita, reticulum neurale nonlineale quamlibet munus lenis discere et approximare potest.

Hoc theoremate animatus, charta primum induit quod descriptum destinatum ab initus ad repraesentationem occultam, et decoding destinatio ab repraesentatione ad output occultam, functiones arbitrariae sunt lenis.

Propterea, neglectis architecturae retiacula singulis, motus functiones possunt hoc modo ad exemplum:

Processus formationis retis neuralis considerari potest ut optimizatio functionis lenientis in certa notitia statuto, semper mutans ambitum retis ad minuendum munus amissi MSE;

in⟨⋅⟩Symbola repraesentant averages in tota notitia copiae.

Cum in studiis dynamicis processibus qui spatium repraesentant student, munus in duas tabulas planas scindi potest: tabula in translitteratione descripta.ℎ:→ac mapping decoding:→, hoc tempore munus iacturae in aequatione (1) scribi potest ut:

Deinceps processus parametri adaequationis utendi regulae descensus gradientis scribi potest:

ubi est reciprocum de rate discendi.

Etsi aequatio (4) satis accurate est, problema est quod expresse pendet a parametris retis, et satis communis dictio mathematica requirit neglecta hanc exsecutionem specialem.

Optime, si expressio facultatis retis neuralis satis locuples est, optimizatio amissionis functionis directe exprimi debet sicut circa duas mappings.ℎet munus.

Quomodo autem hoc fiat mathematice, incertum est. Ergo cum simpliciore casu committitur - non tota notitia copia, sed duo puncta data.

In disciplina, propter munus destinataℎCum summae mutationes, repraesentationes variarum notarum in spatio abscondito movent, propius inter se vel inter se cohaerent.

Exempli gratia, pro duobus punctis in notitiis, siℎ(I) etℎ(II) satis est acℎet munus est lenis, tunc medium duorum punctorum adhiberi potest ad approximationem duarum functionum destinatarum faciendam;

inℎet respectivelyℎand the Jacobian matri of .

Posito quod reticulum neurale habeat satis expressivum et gradus libertatis, ambitum linearizationemℎet efficaciter ipsum fieri potest, tunc processus descensus gradiens exprimi potest;

Aequatio (6) principalem hypothesin chartae expressam describit, quae aequivalens theoria esse destinatur ad systemata architecturae multiplicis magnae et certis modis parameterizationis obnoxia non est.

Figura 1 est expressio visiva processus exemplaris superius. Ut problema simpliciorem redderet, ponatur duo puncta notitia tantum propius vel remotius in spatio occulto movebuntur, sed non revolventur.

Praecipuum indicator nobis curae est spatium in spatio occulto, quod nos sinit cognoscere structuram repraesentationis ab exemplari edoctam, et distantiam output per exemplar, quod adiuvat ad exemplar amissae curvae.

Praeterea variabilis externa ad celeritatem repraesentationis refrenandam introducitur, vel quasi alignment output considerari potest, repraesentans differentiam angularis inter output praedictum et verum output.

Hinc systema independentium trium variabilium scalarum obtinetur:

Inter ea, exsequenda singula retis neuralis abstracte exprimuntur ut duo constantes: 1/ℎet 1/, significans rate efficax cognita.

Doctrina dynamica constantia

Post exemplar peracta, charta retia neuralis variarum architecturarum in duobus punctis appositis notitiis comparavit et dynamicas discendi actuales comparavit cum solutione numeralis theoriae aequivalens.

Congue structura de retis 20-circulis, 500 neurons per iacum, et rimosa ReLU.

Perspici potest quod, licet duo tantum sint constantes quae aptari debent, aequivalentia theoria dicta, potest tamen retia variarum reticulorum neuralis re vera accommodare.

Eaedem aequationes accurate describere possunt dynamica multorum multiplicium exemplorum et architecturarum in disciplina, quae indicare videtur, si exemplar satis expressum est, tandem ad communes retis mores confluere.

Pone eam in ampliorem datam speciem MNIST positam et indagare dynamicos discentes duorum punctorum notatorum et theoria aequivalentia adhuc tenet.

Architectura retis comprehendit 4 stratis plene connexis, singula stragula 100 neurons includit et functionis activationis rimosas ReLU utitur.

Notatu tamen dignum est, cum pondus initiale gradatim augetur (Figura 3), mutationem exemplaria , et tres variabiles mutabunt.

Quia cum pondus initiale magnum est, duo puncta data ab initio disciplinae longe distare erunt, ideo approximatio formulae linearis (5) iam non tenet, et exemplar theoricum deficit.

structuram representation

Ex levitate angustiis ac supra dictae theoriae condigno, regulas in structura reticulorum neuralis repraesentationis compendiari possumus?

Secundum formulam (7), deduci potest punctum fixum unicum esse, quod est finalis repraesentatio distantia duorum punctorum notatorum;

Si pondus initiale est magnum, finalis repraesentatio distantiae ad altum verget, et valor in notitia initializationis initus et temere pendent; structura data.

Haec separatio inter mechanismos temere et machinationes structas ulterius verificat "divitiam" et "inertiam" in processu discendi profundorum reticulorum neuralis, quae in prioribus tabellis propositae sunt, praesertim considerato libra ponderum initialium factor praecipuus fiet.

Charta intuitiva huius phaenomeni explicationem praebet.

Si initiales pondera magna sunt, duo puncta in spatio abdito longe absunt cum institutio incipit, flexibilitas retis permittit decoder ut libere discat rectam output pro unaquaque notitia singulariter punctum sine necessitate significantium servationum. Repraesentandi structura. Quapropter exemplar ultimum eruditum est instar structurae initializationis iam praesens.

Contra, cum pondus exiguum sit, duo puncta notata propius inter se collocantur et ob levitatem limitum, munus descriptum destinata secundum scopum output accommodari debet, movens repraesentationem duorum punctorum ad notitias aptandas. .

Videbimus ergo quod, cum pondera parva sint, doctrina repraesentativum effectum structum ostendet (Figura V).

Munus retis neuralis mutans ut munus exclusivum-OR (XOR) congruere possit hoc intuitive demonstrare potest. Cum pondus initialization parvum est, exemplar plane discit notas structurales functionis XOR.

In retis neurali cum tantum 2 stratis ad dextram, magna est deviatio inter theoriam et experimentum, quae momentum illustrat suppositionis altae expressionis exemplaris in theoria praedicta.

finitione

Praecipua collatio huius chartae est introductio aequivalentiae theoriae quae communes partes processus discendi dynamici in diversis retis architecturis neural exprimere potest et repraesentationem structuram demonstravit.

Ob lenitatem limitationem processus exemplaris et simpliciorem commercii notitiarum punctorum, haec doctrina adhuc universale exemplar fieri non potest ut processum disciplinae altiorum reticulorum neural describatur.

Nihilominus pretiosissimum est circa hoc studium, quod ostendit aliqua elementa ad repraesentationem discendi requisita iam in processu descensu includi posse, et non solum ab inductivo studio, quod in speciali exemplari architecturae continetur.

Praeterea theoria enucleat etiam libram ponderum initialium praecipuum esse momentum in ultima structura repraesentationis structurae.

In futuro opere, adhuc opus est invenire viam aequivalentiae theoriae ad tractandum maiora et magis implicata notitiarum copiarum, quam solum duarum punctorum notitiarum commercium effingendae.

Eodem tempore multae architecturae exemplares inductiones inductivas inducentes, quae repraesentationem doctrinae afficiunt, potentia mutuo cum effectibus repraesentativarum formandi faciunt.

Notae:

https://arxiv.org/abs/2402.09142

nuntium

Neural retis architectura "diversae viae ad eundem finem ducunt"? ICML 2024 Paper: Exemplaria diversa, sed eadem doctrina contenta

Introductio

mihi contactus notitia