Quo abiit ille BERTUS? Responsio huic quaestioni significat formam mutationem in LLM

Quo abiit ille BERTUS?Responsio huic quaestioni significat exemplar shifting in LLM

2024-07-22

Ubi encoder exemplar ibimus? Si BERTUS bene operatur, cur non extendit? Quid de encoder-decoder vel encoder-modo exempla?

In agro magnae linguae exempla (LLM), nunc tempus est quando solum exempla decoder (ut in GPT serie exemplorum) dominantur. Quid de evolutione encoder-decoder vel encoder-modo exempla? Cur BERTUS quondam tam nobilis, sensim minus ac minus operam dedit?

Nuper, Yi Tay, princeps physicus et co-conditor AI startup Reka, emisit epistulam blog ut eius opiniones communicaret. Yi Tay in Google Research et Google Brain plus quam tribus annis ante Reka conditam laboravit, et progressioni celebrium LLMs talium quae PalM, UL2, Flan-2 et Bard communicavit, necnon exempla multi-modalia qualia. PaLI-X and ViT-22B. Hoc est contentum diarii eius.

Basic introduction

Fere exemplar architecturae LLM in his paucis annis maxime dividitur in tria paradigmata maiora: exemplar solum encoder (ut BERT), exemplar encoder-decoder (ut T5), et exemplar solum decoder (ut series GPT. exempla). Homines saepe confusi sunt et modos ac structuras has classificationes male intellegunt.

Primum ad intellegendum est exemplar encoder-decoder actu autoregressivum. In exemplar encoder-decoder, decoder adhuc essentialiter decoder causalis est. Loco prae-populante exemplar decoder, aliquem textum ad encoder deponit et deinde ad decoder per transversalem attentiam mittit. Etiam exemplar linguae T5 est!

Variatio huius generis exemplar est Praefixum Language Exemplar, vel PrefixLM pro brevi, quod eodem fere modo operatur, sed sine cura transversali (et alia minutissima ut pondera communia inter encoder/decoder et No encoder bottleneck). PrefixLM interdum decoder non causalis dicitur. Simpliciter posita, non multum interest altiore inter encoder-decoder, solum exempla decoder et PrefixLM!

In Hyung Won recenti praeclarissima lectione, relationem inter haec exempla perite explicat. Singula enim, quaeso, referunt ad relationem Machinae Cordis: "Quae summa vis in investigationis AI erit?" ChatGPT quadrigis investigationis physicus: computatione sumptus decrescit.

Simul, the denoising method of encoder-only models like BERT is different (i.e. in-place); niti in classificatione "negotium" header. Postea, exempla ut T5 adoptavit versionem "mutatam" scopo destigationis, quae in forma sequenti ad sequentia usus est.

Ad hunc finem interest notare: denocare in T5 non est novum munus obiectivum (in sensu discendi apparatus), sed transmutatio trans initibus, i.e., uti potes decoder causalis per proposita corrupta exercitata (spania corruptio objectum).

Semper homines supponunt exempla encoder-decoder debere exempla deicere, tum quia T5 ita est repraesentativum. Sed id semper est. Potes erudire encoder-decoder utens operibus regularibus linguae plasmandi (ut causale exemplar linguae). Rursus, decoders causales etiam exerceri possunt utendi corruptionis spatia munia. Ut ante dixi, haec est basically notitia mutationis.

Alterum punctum notabile est: generatim encoder-decoder cum 2N parametris computationaliter idem ac decoder solum exemplar cum parametris N, ita earum ratio FLOPs ad parametri numerum differt. Hoc est simile "sparsitatis exemplar" inter initus et scopum distribuere.

Hoc novum nihil est neque ego cum eo accessi. Erat in charta T5 anno MMXIX, et charta UL2 hoc etiam punctum iterum inculcavit.

Nunc enim gaudeo hoc aperte facere posse. Nunc ad proposita.

De denoising proposita (non operatur? Nonne scandet? An nimium facile est?)

Scopum de- signat hic ad quemlibet variantem operis "span damnum". Hoc interdum "implere" vel "implere in blank" dicitur. Plures modi exprimendi sunt, ut palmi longitudo, fortuiti, vigiliae, indicium, etc. Clavem intellexisse debes.

Etsi denotat propositum exemplorum BERT-styli basically in loco (exempli gratia, classificatio capitis est in signo larva), "stylus T5" recentior est, id est, per encoder-decoder vel decoder-tantum. exemplar ad tractandum data transmutatio. In tali notitia transmutationis, signa palliata simpliciter sunt "retro mota", ut exemplar praedicere possit.

Praecipua disciplinae finis est repraesentationes internas aedificare, quae cum inferiori munere perpenduntur, modo efficacissimo et efficacissimo modo possibili. Quo melius haec interna repraesentatio est, eo facilius his doctissimis repraesentationibus usus est ad subsequentia officia. Scimus omnes simplex proximum verbum praenuntiationem apprime praestare ad metam "linguae causalis modeling" et nucleum LLM revolutionis factum esse. Quaeritur nunc utrum clypeum de- signat aeque bonum sit.

Ex indicio publico, scimus T5-11B satis bene operata esse, etiam post noctis et praefecti bysso (MMLU score of Flan-T5 XXL 55+ est, quod satis bonum erat ad exemplar huius magnitudinis tempore) . Ergo concludere possumus processum translationis detrectandi scuta (praetraining → dam) relative bene operari in hac scala.

Opinor mea opinio est clypeum de- signat bene operari, sed non satis esse scopum in se ipso. Incommodum ingens oritur ex eo quod "minus" quod dicitur "damnum detectio". In clypeo denatis, paucitas tantum signa palliata sunt et docti (i.e., ratio in detrimento habenda). Vicissim in lingua regulari hoc exemplum prope ad 100% est. Hoc facit exempla per FLOP valde inefficacem, quae denotat scopum significantem incommodum in comparationibus super flop fundamentum ponit.

Aliud incommodum destinandi proposita est, quod minus naturales sunt quam linguae latinae exemplares, quod mirum in modum reformant input/output, quod minus apta facit ad paucas litteras discendas. (Sed tamen possibile est ut haec exemplaria rationabiliter bene in paucis operibus elaborandis concinere.) Credo igitur proposita detrectare tantum debere ut proposita complementaria pro regulari lingua exemplaris adhibeantur.

Primis diebus unitatis et causa quare BERT-simile exempla evanuerunt

Exempla similia BERTE paulatim evanuerunt, et non multi de eis amplius loquuntur. Hoc etiam explicare potest cur exempla nunc amplissima BERTI videre non possumus. quae ratio est? Hoc est maxime debitum ad paradigmata adunationem et mutationem operis/formandi. BERT-styli exempla gravia sunt, sed vera ratio cur BERT exempla deprecata est, quod homines omnes simul facere voluerunt, ut melior via ad detondendum adhibita est - exemplaribus autoregressivis adhibitis.

Durante 2018-2021, implicatum est paradigma implicitum: ab uno-nego-tentio ad exempla multi-scalarum magnarum. Hoc lente nos ad exemplar SFT unificatum perduximus, quod universale exemplar hodie videmus. Hoc difficile est cum BERT. Non puto hoc multum pertinere ad "denotationem". Homines enim, qui adhuc tali exemplo uti volunt (i.e. T5), invenerunt viam ad reformulandam praeexactionem prae- stitutis, quod facit BERT-styli exempla fundamentaliter nunc deprecata, quod nos meliores habemus.

Accuratius, encoder-decoder et decoder solum exempla adhiberi possunt pro variis officiis sine necessitate ad praefectis classificationis specificae. Nam encoder-decoder, investigatores et fabrum invenire coeperunt effectum encoder omissionis similem esse cum BERT encoder. Praeterea, haec conservat commoda attentionis bidirectionis - commodum quod competitive BERT cum GPT facit in squamis parvis (squamae saepe productionis).

Valor denoising target

Dedicatio prae- scopo instructio discit proximum verbum praedicere simili modo conformandi linguae regularis. Nihilominus, dissimilis institutio linguae causalis exemplaris, hoc postulat utens transmutatio notitiarum sequentiarum, ut exemplar discere possit "implere in blank" potius quam simpliciter praedicere textum naturalem a sinistro ad dextrum.

Notatu dignum est quod scuta detestatio interdum "officia colorata" dicuntur et interdum cum regularibus linguae exemplaribus officiis in processu prae- structuris miscentur.

Etsi accurata schematismi et exsecutionis singula variari possunt, hodierni hodierni LLMs possunt aliqua compositione linguae exemplaris et colorati uti. Interestingly, haec hybrida "mexemplaris linguae + Nullam" actu circa idem tempus (ut UL2, FIM, GLM, CM3), et multae iunctiones suas solutiones hybridas singulares attulerunt. Obiter notum exemplar maximum hoc modo eruditum est probabiliter PaLM-II.

Animadvertendum etiam est, prae- struendi negotium miscere posse etiam in ordine reclinatum, et non necessario simul misceri ad 100B signa ad scopum linguae feedforward modeling. Aliquatenus hoc aptum est ad exempla clypei hybrid deprimendi/LM. Ut pateat, praepositionis linguae propositum exemplare (cum architectura non confundendum) est mere causalis formarum linguarum, cum puncto passim determinato et ad input (sine detrimento et masking non-causali misso).

Obiter textura ex agro codicis LLM ortam esse potest, ubi "impletio blank" plus muneris pro codice scripto requiritur. Interim motivatio UL2 magis est ad augendum propositum definitum ac munus praedicamentorum, quae bidirectionalia LLM excellunt in operibus generativis in se, sicut summatim vel generationem apertam finitam. Commodum huius "retroductio" autoregressivae decoding est quod exemplar non solum permittit ut longiores clientelas discat, sed etiam permittit ut implicite beneficium ab attentione bidirectionali non-explicato (quia ad implendum in codicellos es. futurum vidi).

Expertus est fabulosus: repraesentationes discentes fingendo scuta meliora praestare in categoriis specificis et interdum altiorem efficientiam specimen habent. In charta U-PaLM ostendimus quam parva moles muta- bilium et disciplinarum muta- tionum et phaenomenorum emergentium in statuto munerum Big-Benchorum. Ex hoc fundamento, exemplum subtiliter cum hoc objecto exercitatum saepe consequitur in meliore exemplo subtiliter pertractato, praesertim cum parva scala est.

In terminis unius negotii bene-tunandi, videri potest exemplar PalM-1 62B a multo minore T5 superari. In relative parva scala, "bidirectional attentionem + denotat scopum" est pulchrum compositum ferrum! Credo multi medici hanc quoque condicionem animadvertisse, praesertim in applicationibus producendis.

Quid de attentione bidirectional?

Attentio bidirectionalis interesting est "praeiudicia inductiva" pro exemplorum linguarum - quae homines saepe cum finibus et exemplaribus spinarum confundunt. Praeiudicia inductiva aliter in diversis ditionibus computandis adhibetur et diversos effectus habere potest in curva expansione. Cum dixisset, attentionem bidirectionis minoris esse momenti in majoribus squamis quam in statera minora, vel in diversis operibus vel modalibus diversos effectus habere. For example, PaliGemma architecturae utitur in PrefixLM.

Hyung Won etiam in sermone suo ostendit: PraefixLM exempla (decoder-tantum exempla attentione bidirectionali adhibita) habent quaestiones caching, quod est vitium inhaerens huius generis architecturae. Multimodis autem hoc vitio compellare puto, sed hoc articulum extra ambitum est.

Encoder-Decoder Architecture Pros et Cons

Architectura encoder-decoder habet commoda et incommoda comparata ad exemplar solum decoder. Primus casus est quod encoder latus non restringitur per larvam causalem. Aliquatenus, manus tuas auferre potes ab intentione strati et collatis consiliis, vel quamlibet formam linearem attente infensi sine sollicitudine de consilio limitationis autoregressionis. Magna haec via est ad minoris momenti "contextum" ad encoder offload. Potes etiam encoder minora facere, quod etiam commodum est.

Exemplum architecturae requisiti encoder-decoder est Charformer, quae audax usum encoders efficit et celeritatis incommodum exemplorum graduum diminutivum. Innovare in encoder inde potest cedere utilitates velox sine sollicitudine de notabili casuum larvarum causalium.

Simul, comparatum PrefixLM, incommodum encoder-decoder est quod initus et scopus praevisionem certam collocari debet. Exempli gratia, si inputatio fiscalis est 1024 signa, tunc encoder debet codex ad hunc valorem, qui multum computationis perdere potest. E contra in PrefixLM, initibus et scutis directe coniungi possunt, hoc problema sublevantes.

Relevare ad exempla hodie et clavis takeaways

Hodierna aetate, capacitas praecipuorum LLM inquisitor et medicus qualificatus sit, ex utroque aspectu architecturae tum prae-traturae aspectus inductivas causas colligere poterit. Discrimina subtilia intellegentes homines adiuvare possunt extrapolate et innovare pergunt.

Hic es clavis mea takeaways:

Exempla Encoder-decoder et decoder solum sunt exempla autoregressiva et in gradu exsecutionis differunt et sua commoda et incommoda habent. Paulo diversae sunt biationes inductivae. Quo uti amni pendet usus casuum et applicationis angustiae. Eodem tempore exemplaria obsoleta considerari possunt BERT-style encod pro pluribus casibus LLM usu et casibus uti.

Scopum detestatio maxime adhiberi potest ut supplementum ad exemplar linguae causalis. Feliciter usi sunt ut "scoporum subsidiorum" in disciplina phase. Exercitatio causalis exempla linguarum adhibens scuta deprimendi saepe aliquo modo adiuvat. Etsi hoc usitatissimum est in exemplaribus in mundo codicis (i.e. codici farti), commune etiam est pro propositis generalibus exemplaribus hodie uti exemplar linguae causalis plus quam- dam scopum detrectare ad praeexercitationem.

Attentio bidirectionis magna exempla minora iuvare potest, sed dispensabilis est ad exempla maiora. Hi fere sunt rumores. Opinor attentionem bidirectionem habere studium inductivum, sicut in multis aliis generibus modificationum ad exemplar Transformantis.

Summatim denique. Nulla nunc magna-scala versionis exemplar BERT in operatione: exemplar BERT deprecatum et substitutum est flexibilius denotat (autoregressivum) T5 exemplar. Hoc maxime pertinet ad paradigma adunationis, hoc est, malunt generale uti exemplo ad varia negotia perficienda (potius quam ad exemplar munerum specialium utentium). Eodem tempore, autoregressivus detonatio interdum adhiberi potest ut meta partium causalium exemplorum linguarum.

Originale link: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

nuntium

Quo abiit ille BERTUS?Responsio huic quaestioni significat exemplar shifting in LLM

Introductio

mihi contactus notitia