nuntium

Formator Google physicus Yi Tay primus series blogi "Historiae LLM": Cur BERT evanuit?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Yongyong Qiao Yang

[Introductio ad Novam Sapientiam].Primus Google physicus Yi Tay "in LLM Era" architecturae exemplar induxit seriem diariorum. Prima blog post est de: Quomodo BERT fundatur in encoder-tantum architectura substitutum est ab T5 in architectura encoder-decoder fundatum, et enucleatum fecit. Extinctio BERT Tota historia et commoda et incommoda diversorum exemplorum architecturae.

Yi Tay, olim Google physicus qui in blogging acer est, nimis fastidiosus fuit ut nuper volaret, ita in altissimam tractationem de argumento scripsit quod multi homines nunc solliciti sunt de accessu et refluxu exemplarium architecturae in LLM era .

Hoc tempore Yi Taum conatus est retexere omnia quae in nova LLM aetate aguntur, de "Quid BERT et T5" accidit? Item de ortu et lapsu Transformer encoder, PrefixLM et scuta denotat.


Diariorum inscriptio: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Cur exemplar solum encoder "non popularis"? Cur tam potens est BERT sed "scale eam" non potest?

Totam imaginem videre difficile est cum in illa es. In his rebus, quae homines industria capita scalpunt, Yi Taum suas observationes et cogitationes communicavit.

Et Yi Tay etiam dixit hoc esse primum in serie blog postum, et ab eo magis contentus prospicere potes in argumento "Model Architecturae in LLM Era".


Novam seriem diariorum updates de exemplaribus architecturae in LLM era inire placuit. Infra est Pars I latiorem architecturam Transformatoris Encoders/Encoder-Decoders tegens, PrefixLM et scuta denotat. Interrogatio quam multi rogabunt est "Populus, qui in lingua et NLP investigationibus circiter 5 annos versati sunt, capita eorum scalpebant, mirantes ubi exempla encoder abierant. Si BERT tam efficax est, cur scalam non expandit?" additamentum, quid factum est ad exemplar encoder-decoder vel purum encoder? Estne denotat scopum bonum? Cogitationes meas in hoc blog post communicare.

Yi Tay satis est "narrator" in LLM aetate. In eius diario, evolutionem architecturae exemplaris in praeteritis annis paucis perstringit et suam perceptivum proposuit.

background

Ut facilius homines, qui technologiae non tam propinquae sunt ad legendum, primum in scaena fabulae Yi Tay explicaverint.

Praeteritis his paucis annis tria paradigmata magni momenti in architectura exemplari fuerunt.

encoder-modo exempla (ut BERT), encoder-decoder exempla (ut T5) et solum-decoder exempla (ut in serie GPT).


Sed homines valde confusae sunt de hac divisione, et multa sunt falsa, ita hoc propositum est Yi Tay scribens hoc blog stipem.

Primum ut patefaciam est exemplar encoder-decoder adhuc exemplar autoregressivum esse. Decoder in exemplar encoder-decoder adhuc decoder causalis tum proprie tum essentialiter est.

Textus primum ad encoder transmittitur et deinde ad decoder mittitur per mechanismum crucis attentionem ad exemplar decoder praepopulantis.

Ergo exemplar linguae T5 etiam exemplar!

Variatio eius est Praefixum Latinitatis exemplar, vel architecturae PrefixLM, quod idem fere facit nisi ad machinationem crucis attentiam. (Et nonnulla alia minutatim, ut pondus communicans inter encoder/decoder, et non encoder bottleneck)

PrefixLM interdum decoder non causalis dicitur. verbo, encoder-decoder, encoder-tantum et PrefixLM non sunt diversa!

Si adhuc dubitas de hoc, Yi Tay etiam in Stanford in Aprili hoc anno orationem mirabilem retulit-Hyung Won dedit, in qua relationem inter exempla illa callide explicavit.


Lectura inscriptio: https://www.youtube.com/watch?v=orDKvo8h71o

Eodem tempore, denoising methodus encoder-tantum exemplorum ut BERT (i.e., in-loci) differt et certo nititur ex additione "operis capitis" ad faciendam cum exemplaribus basi praestructis efficit.

BERTUS scopum detrectat postea adhibitum est ad exempla ut T5, sed quibusdam modificationibus et forma sequenti ad sequentia.

Cum dixisset, notatu dignum est ipsum denoscere in T5 ipsum non prorsus novam functionem obiectivam (in sensu discendi machina), sed potius transmutationem trans inputs datam, id est, etiam in causa et effectu decoder spatium corruptionis adveniat. ad exercebuntur!

Semper putant exemplar encoder-decoder esse debere exemplar de- niciosum, et pars illusionis huius rationis est quod exemplar T5 nimis est repraesentativum.

Sed id semper est.

Linguam regularem formandi munus uti potes (i.e. CLM) ut encoder-decoder exerceas, vel opus spatium corruptionis uti potes ad decodam causalem exercendam.

Haec, ut dictum est, principaliter est notitia transmutationis.

Animadvertendum etiam est generatim 2N parametri encoder-decoder eundem sumptus computationales habere ac N parametri decoder solum exemplar, ratio eorum FLOP/parametri diversa est.

Secundum intellectum nostrum de curriculo praedicto, nunc textum intramus.

De denoising proposita (inanis est? Nonne scandere? Estne etiam simplex?)

Ut patet, denotationem obiectivam ab Yi Tay commemoratam refert ad aliquem variantis spatii corruptionem.

Aliquando etiam dicitur impletio vel impletio in blank. Multis modis id exprimitur (ut spatium longitudinis, fortuiti, vigiliarum signa, etc.).

Quamquam proposita in BERT-styli exempla denotantia plerumque in loco sunt, paulo recentior accessio est "T5 stili", quae est notitia mutationis, quae per encoder/-ecoder vel decoder solum exempla tractatur.


In hac notitia transmutationis, signum larva simpliciter est "mota a tergo" pro exemplari praedicendi.

Praecipua disciplinae finis est repraesentationes internas utiles aedificare, quae cum amni pensantur modo efficacissimo et efficaciore modo.

Quo melius repraesentationes internae, eo facilius adhibeantur hae literae repraesentationes ad aliquid utile posterius.

Ut omnes novimus, simplex propositum "linguae causalis" (CLM) praedicendi proximos signa hoc bene facit et basis revolutionis LLM facta est. Quaeritur nunc utrum clypeum de- signat aeque bonum sit.

Ex notitia publica, scimus T5-11B optime operata esse etiam post noctis/SFT (Flan-T5 XXL MMLU score de 55+ habet, quod satis bonum est ad exemplar huius magnitudinis tempore).

Unde conclusiones quasdam concludere possumus: translatio facultas scuta deponendi ex prae- struendo ad noctis exemplum sustinendum est ad melius operandum in scala 11B.

Visum Yi Taum est magnas esse scuta denotat, sed non satis ut scopum standi.

Eius incommodum minus possumus describere "expositio damnum". In scopo detegendo, paucitas tantum signa palliata sunt et in processu discendi adhibentur (i.e., adaequationis pretii detrimentum).

E contra, in lingua conventionali exemplaris, signum utendorum prope 100 est.

Haec proprietas scopo deprimentis efficit efficientiam sampling per FLOP magis demissam et ideo eam in FLOP comparationibus fundatam maximo incommodo ponit.

Alterum incommodum est quod denotat scuta minus naturalia quam regulae linguae exemplares quia reformat input/output in fato quodam modo, quod parum inconveniens facit ad discendum paucae iactum. (Verumtamen haec exemplaria adhuc possunt inflecti ad bene operandum rationabiliter bene operandum in paucis-sagittis) elaborandum.

Ergo Yi Tay credit scuta deserere posse fere solum ut supplementum ad exemplar linguae conventionalis potius quam ad scopum disciplinae independentis adhibendum.

Primis diebus unitatis et quare xbertus extinctus est?

Phase-e BERT-similis exemplaria tempus interesting, sed non multi his diebus loquuntur, subtilis est.

Hoc etiam explicari potest cur non amplius videremus exempla quaelibet amplissima BERTI currentis. quae ratio est?

Hoc imprimis agitur de coniunctione ac transformatione operis/formandi paradigmata.

BERT-styli exempla inepta erant, sed vere detestata erant quod homines uno exemplo ad omnia opera uti voluerunt, quo melius via ad detondendum introducta est - utens exemplaribus autoregressivis.

Inter 2018 et 2021, absconditum paradigma translatum est ab uno-nego subtilitatis ad exempla multi-scalarum magnarum.

Omnium attentio tardius ad exemplar SFT ad unum trahebatur, quod etiam exemplum generale commune hodie videmus.

Hoc difficile est facere cum BERT.

Attamen haec "inepta" de BERTIS parum ad munus "denoscendandi" pertinet. Si vis hoc exemplar uti, alio modo munus "sonitus reductionis" exprimere potes (ut T5).

Ergo exempla BERT-styli paene detestantur hoc loco in tempore sicut stricte melius emergit alternatio.

Specialius, exempla tantum encoder-decoder et decoder, multiplices functiones simul exprimere possunt, quin vestigationis genus capitis requirunt.

Eodem tempore investigatores et fabrum detexerunt exemplar encoder-decoder, si encoder simpliciter removetur et solum decoder relinquitur, effectus eius tam competitive erit quam encoder BERT.

Non solum quod decoder tantum relinquens etiam commodum retinet bidirectionalem attentionem quae BERT praestantem facit ad exempla GPT in parvis muneribus (plerumque productionis-scale) opera.

Valor denoising target

Similia quam regularis linguae operantis opera, obiectiva depraeparatio prae- structio discit etiam verbum proximum praedicere.

Nihilominus, dissimiles conventionales CLM, hic notitias transmutationes facit in serie ut discat "in codicellos implere" potius quam textum simpliciter praedicere quod naturaliter a sinistro ad dextrum apparet.

Notatu dignum est proposita dedecorantia interdum vocantur "officia impletiva" et interdum mixta cum regulari lingua exemplaribus officiis praeexstituti.

Dum certae figurae et exsecutionis singulae variari possunt, hodie LLM verisimile est uti aliqua compositione linguae exemplaris et Nullam.

Et, interestingly, hybrida linguae exemplaris et coloratio eodem tempore circumfusi videtur (v.g. UL2, FIM, GLM, CM3), cum multis iugis suum saporem aliquo modo ad hybridam afferens.

Obiter maxima publice enuntiata et relata exemplar eruditum hoc modo est PaLM-II.


Notatu dignum est disciplinam mixtam non necessario simul misceri, sed sequentiter reclinari posse.

Exempli gratia, Flan-T5 initio corruptionis signa in 1Tspan exercitata erat et postea ad praepositionem linguae 100B signa exemplaris operis ante disciplinam tuning mutavit.

Quodammodo, hoc dici potest exemplar deificum/linguae exemplar scopo hybrid.


Yi Taum etiam privatim experientiam communicavit: repraesentationes discentes cum deprimendo scuta meliora in quibusdam generibus operum praestant, et quandoque magis efficaciore modo gustantur.

Exempla lepida cum hoc scopo instructa plerumque meliora SFT exempla producunt, praesertim in squamis minorum.

Loquendo de uno-nego-tunando, videre possumus exemplar PalM-1 62B a minore T5 superari.

Cura bidirectionalis + scuta volandi munus ingens ludere potest in relative parva extensione! Credo multi medici hanc condicionem nunc viderunt, praesertim in productione.

Commoda et incommoda encoder/decoder architectura

Architectura encoder-decoder in iusto decoder solum exemplar aliquas habet utilitates.

Latitudo encoder a larvis causalibus non cogitur, quatenus stratas acervare potes ut insanas cum infesto collatione vel aliqua forma lineari attentio sine cura circumscriptionum consiliorum autoregressivorum.

Haec est bona via ad minorem momenti "contextum" transire ad encoder. Potes etiam encoder minorem facere, quod est etiam delicatus.

Exemplum in Charformer necessitatem architecturae encoder-decoderae illustrat.

Sed simul unum incommodum encoder-decoder cum PrefixLM comparatum est, quod initus et scopus certas destinationes habere debet.


Exempli gratia, si praefinita inputatio 1024 signa est, latus encoder huic valore adiici debet, quod multum vastum computationis causare potest.

E contra in PrefixLM, initibus et scutis directe coniungi possunt, hoc problema sublevantes.

Relevatio ad exempla hodie et clavis takeaways

Utrum perspectiva exemplaris architecturae vel prospectu praetractationis, ut idoneus LLM indagator et medicus fiat, facultas adhibendi studium inductivum ratiocinandi essentiale est. Et intellegentes praecipuas nuationes inter varias architecturas exemplar adiuvari possunt cum innovatione futura.

Yi Taum communicavit clavis takeaways eius:

  • Ambae encoder-decoder et decoder-sunt tantum exempla autoregressiva exempla, sed differentiae sunt in gradu exsequendo, inter commoda et incommoda. Inductiones earum subtiliter diversae sunt, et bene usus vere dependet ab amni usu causa et applicatione circumscriptionum magnarum. Pro plerisque applicationibus LLM et casuum usus angulus, BERT-encoder-styli solum exemplaria obsoleta sunt plerumque.

  • Scopum detestatio maxime est supplementum CLM. Dum hoc saepe accidit cum exemplaribus codicis (i.e. codici fartis), in exemplaribus hodiernis generalibus propositi, non raro CLM uti obiectivo aliquo praereparandi (quamvis id exigentia non est).

  • Mechanismi bidirectionales attentionem multum adiuvant in minore squama, sed saepe tantum optiones in exemplaribus amplioribus sunt. Yi Taum credit operam bidirectionalem habere studium inductivum, sicut multa alia genera modificationum in architectura Transformatoris.

Denique, ut compendiose dicam, nullum felicitatis xBERT scalam vidimus: the BERT exemplar deprecatum est in favorem flexibilium denotat (autoregressive) T5 exemplar.

Hoc maxime ob paradigmatum adunationem, et quisque vult uti speciminibus generalibus potius quam exemplaribus specificis negotium.

Eodem tempore, autoregressivus dedecoratio interdum in CLM complicata sicut obiectivum incidens institutio.

de auctor

Yi Tay in praesenti est co-conditor et primarius physicus AI satus Reka. Reka aedificandae civitatis exempla generativa et artificialis intelligentiae investigationis procedens.


Ante hoc, senior investigationis physicus apud Google Brain, in LLM et AI in opere actis versatus fuit, et etiam technicae directoris bigae US inquisitionis apud Google Investigationes functus est, operans in extensionibus et architectura Transformer.

Dum apud Google, Yi Taum ad circiter XX fructus emissiones contulit.

In tenure Yi Tay ut investigationis scientificae apud Google, maxime operum editorum circum Transformatorem volvebatur, praesertim ad efficientiam, scalabilitatem et inquisitionem architecturae pertinentium.


Praeter blogging, Yi Tay musicam classicam amat. Commode in eo diploma accepit.

Exspecto Yi Taum longum spatium fugae iterum ut viderem eum adaequationis eius blog iterum.


Notae:

https://x.com/YiTayML/status/1813262126162845772