2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nova Sapientia Report
Editor: Qiao Yang
[Introductio ad Novam Sapientiam].Recentes tabulae ostenderunt exempla generativa qualia LLM perscrutari possunt per inquisitionem et meliores effectus significantes efficere. Aliud experimentum recursus etiam invenit quod, si Llama 3.1 exemplar cum 8B parametris tantum 100 temporibus investigetur, potest aequare ac GPT-4o in Pythone codice generationis opus.
Rich Sutton, auctor in supplementi studiorum et professor CS in Universitate Alberta in Canada, scripsit epistulam diarii nomine "The Ritter Lesson" in MMXIX, qui factus est unus e disputationibus classicis in campo AI.
Re quidem vera, Rich Sutton intuitio inter lineas reflexa satis similis est Lex Scaling.
Oratio originalis: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf
Articulus progressionem AI in campis latrunculorum breviter recognoscit, Vade, sermonis recognitionem et visionem, et hanc sententiam profert:
Una durarum lectionum discendum est vim accessionis universalis cognoscere. Accessus hic pergere potest ut scandere possit quantum computationis moles auget ob impetus in promptu computandi potentia. Duo modi, qui ad arbitrium hoc modo ascendere videntur, sunt perscrutandi et discendi.
Attamen haec sententia non prorsus eadem est ac Lex Scaling, qua fundamento uti non possumus credere parva exemplaria nullius momenti esse.
Sicut Sutton describit, duae provocationes sunt in via ad scalas: doctrina et investigatio.
Lex Scala ab OpenAI proposita priorem inculcat. Ceteris paribus, exempla maiora melius praestant, quia plura scientia et exempla ex institutione disci possunt.
Sed hoc est quod saepe praetermittendum est. Quaerere modos possunt etiam aequaliter scandere sicut potestas computandi augetur per consequentiam periodum ad responsabilia generandi plus vel altiorem qualitatem candidatorum.
Articulus recens editus a viris doctis Stanford, Oxonia, DeepMind et aliis institutis ad hoc notatus est.
Charta inscriptio: https://arxiv.org/abs/2407.21787
Aucto numero exemplorum repetitorum in scaena illationis, effectio (i.e., problematum coverage) exemplaris in mathematicis, ratiocinatione, et codice agrorum ut GSM8K, MATH, MiniF2F-MATH, et Lite SWE-scamnum fuit. signanter emendavit.
Etiam, videtur esse relatio linearis exponentialis inter utrumque, et exemplum exponentialis potestati legis, quae exsistentiam scalae legis in scaena ratiocinativa explicare videtur.
Hac charta incitati, duo fabrum illam effingere conantur - effectus fuit ut per 100 exempla parva Llama investigando, cum GPT-4o in Pythone opera programmandi adsequi vel etiam verberare possent.
Duo autores vivida metaphora usi sunt: ante, anas equestris amplitudinis ad limites facultates obtinendas sumpsit; nunc vero 100 anatis equis mediocribus uti possumus (vel, pressius, alpacas Llama).
Fons codici usus in experimento GitHub impositus est, et sumptus reproductionis admodum humilis est.
https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05
Ut altiorem observantiam experiri posset, auctor bibliothecam vLLM ad massam illationis efficiendam usus est et condiciones ferramentorum ad 10 A100-40GB GPUs extendit, cum cursoribus ad 40k indicium/s.
Aestimatio metrics et eventus
Auctor probationis probationem elegit, non in charta Monkeys Large Lingua-HumanEval de qua supra memoravimus.
Utilitas huius dataset est quod codice generatus aestimari potest usura probationum currentium sine implicatione LLM-as-Judici vel aestimationis humanae, sino plus obiectiva mensura rectitudinis.
Exemplar observantia duobus indicibus metitur: pass@k et fail@k. Secundum relationem proventus PapersWithCode, in zephyro-specimento illationis, transitus GPT-4o@1 score est 90.2%.
https://paperswithcode.com/sota/code-generation-on-humaneval
Methodus utens in charta superiore proposita, plus minimum quantitatem prompti subtilitatis (sine aliis hyperparametris adaptatis), pass@k score de Llama 3.1 8B insigniter emendatus est.
Cum numerus exemplorum repetitorum k sit 100, effectus GPT-4o aequiparatur (90.5% vs. 90.2%), cum k ad 1000 pervenit, designatio 95.1% est, quae insigniter melior est quam GPT-4o.
Si indicato deficiente@k uteris (aequivalet ut 1-pass@k) et logarithmice duos axes coordinatas in superiore figura transfundas, videre potes curvam in figura infra exhibitam, quae perfecte parere videtur "scadendi lege. ».
Notatu dignum est hanc parvam experientiam non strictam chartarum reproductionem esse, sed modum nuclei tantum excerpere.
Nihilominus, hi eventus elucidant ut minora exempla praevidere possint exempla "magnus Mac" sicut GPT-4o exempla quaerunt cum methodis quaerendi ad augendam scaenam deducendam.
Futurum inquisitionis
Causa quare inquisitionis methodus potens est, quia "perspicue" dilatare potest quantum calculi incrementi, et subsidiorum consumptio a memoria ad calculum transferre potest ut ulteriores subsidii stateram consequi possit.
Recentes res maiores AI in mathematicis, uti sunt gradus AI, AI, inseparabilia sunt ab investigatione in eo adhibita.
Attamen exsecutio investigationis primum requirit aestimationem eventus. Exemplar DeepMind mathematicos problemata lingua naturali expressas in expressiones formales vertit, ita accuratam vigilantiam a compilator/verificante quasi Lean recipiens.
quae valde meliorem parallelismi et automationis gradum possunt.
Secundum Correspondentiam Curry-Howard-Lambek, faciliter est programmata computatralia uti ad probationes mathematicas et codici generationis proventus automatice cognoscendi et aestimandi.
Sed similis aditus potest deficere in aliis locis quam mathematicis et programmatibus. Exempli gratia, ad operas apertas NLP sicut "inscriptiones summandas", difficile est inquisitiones efficaces peragere.
Hac in rerum prospectu, quaesitio est amni aestimationis. Dure exspectari possumus incrementum exemplorum generativarum in certis campis perficiendis directe proportionalem fore aestimationem ac facultates quaerendi.
Ad hoc propositum assequendum, agentes in ambitibus digitalis iterabilem iterabilem directionem polliceri videntur.
Notae:
https://modal.com/blog/llama-human-eval