nuntium

Quam magna est Post-Training? AI2 articulum longi inquisitoris explicat in specie de secretis post-comprehensionis exemplorum incisionis

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Qiao Yang

[Introductio ad Novam Sapientiam].Studia plura ac plura repperimus quod post-praeparatio aeque magni momenti est ad exemplar faciendum. Nathan Lambert, machinam discendi indagator apud Allen AI, nuper technicam blog post edidit, recipiendorum recipiendorum institutionis exemplar a gigantibus technicis adhibitis.

Celeri progressionis academicorum et industrialium LLM circulorum, non solum computandi potestas et notitia adhibita ad prae- struendum insanus volvitur, sed etiam alignment ac subtiliter methodi post-praeparandi constanter renovantur.

Antea exempla dimissi sunt ut InstructGPT et WebGPT utantur modi normae RLHF, et in eis styli et amplitudinis data procuratio evasisse videntur.

Recentibus mensibus, AI gigantes ut Meta, Google, et NVIDIA aperta exempla fonte remiserunt, cum singulis chartis vel relationibus, inclusis, ,, et Apple Intellegentiae exemplar relationis fundamentalis.

Ex hac detecta informatione, videre possumus aliquas trends in ore secante modos instituendi. Allen AI investigationis physicus Nathan Lambert nuper articulum de hoc argumento emisit.


Inscriptio originalis: https://www.interconnects.ai/p/frontier-model-post-training


Dr. Nathan Lambert lectus ab UC Berkeley, turmam RLHF ad HuggingFace duxit, et nunc machina est investigator discendi apud Allen AI.

In suo articulo ostendit syntheticas notitias, iterativas disciplinas, praerogativas humanas labellas, magnasque eliquationes communes notarum modorum modorum in his exemplaribus adhibitorum. In specie, novus recipe post-workout sequentibus presetis aedificatur:

-Synthetica notitia altioris qualitatis esse potest quam notitia humana, praesertim ad negotium provocandum

- RLHF scandere ad majora quam disciplinam bene-tuning

- Multiplices tractus disciplinae et generationis ad optimum exemplar requiruntur

- Data eliquare maxima pars disciplinae est

Haec suppositiones magna ex parte implicatae sunt ad formandam disciplinae regimen quae magnis iugis escendere potest, id specimen technicis gigantibus facit. Proprie contenta articuli supra quattuor puncta explicatam explicationem praebet.

Novus vexillum Pipeline

Si in ChatBot Arena ustulo aestimamus exercitatio exemplaris post exercitium, quod late ad stylum et robur refertur, omnes fere maiores labs significantes quaestus per iterativam disciplinam consecuti sunt.

Videndum adhuc habemus emissionem Geminorum 2 seu GPT-5, quae hodiernam post-paradigma disponere possunt et potentia altiorem potestatem nostris exemplaribus reserare.

Sed ex praesenti parte, methodi quae variis summis laboratoriis adhibitae sunt manifesto confluunt, et haec inclinatio multo clarior est quam exspectatio.

Humanum preference notitia

Pipeline initiales RLHF notitias humanas intendunt, quae in duabus formis principalibus occurrunt: 1) notitia humana ad instructiones bene-tunationes ad opera specialia; 2) humana praerogativa circa negotium peractionis.

Tales cinematographicae cinematographicae pretiosae et stricte tutae sunt. Quantum scio, sola publica est No Robots, quam Lambertus dimisit cum in HuggingFace quadrigis esset.


CELLA electronica: https://huggingface.co/datasets/HuggingFaceH4/no_robots

Praeferentiae humanae notitiae late comparantur ad emendationes in exemplaribus specificis. Sed etiam ubi notitia aperiri potest, nihil certi est quod optiones ex uno exemplari in aliud transferri possint.

Lambertus et turma eius simile conatum in HuggingFace fecerunt, sed in parva notitia contractus solvit.

Nunc, solum aspectus in quo notitia humana adhibetur, est notitia praeferenda. Iudicans ex notitia a Llama 2 et aliis rumoribus revelatis, Meta$ 10M-20M in optione data, vel etiam plura, potest consumere. Hoc etiam limitatur ad exemplar finale editum et ampliora experimenta et aestimationes non includit.

Nemotron magnam copiam datarum syntheticorum ad reponendas notitiarum hominum utitur, sed relative loquendo, pulchrum exemplar huius exemplar non est bonum.

Urget provocatio, sed etiam opportunitas, communitatis apertae: remanens amplitudinem humanorum interventuum in hoc genere notitiarum et num substitui possit modi ut LLM-as-a-Judex vel merces exemplorum.

ExtendedRLHF

Thomas Scialom, caput noctis apud Llama 3, dixit in podcast Tractus latens;

multo scalable RLHF. Minus sumptuosus est, facilius ad operandum, et plerumque melior effectus consequitur.


Dixit etiam se uteretur "C% of notitia budget alignment pro alignment notitia quae requiritur in RL scaena, quam plus temporis in mandatis".

Altissimus fons aperto alignment nisus intendit in disciplinam extensam bene-tuning (IFT, vel SFT). IFT facile est operari, variis officiis aptum, uti facile synthetica notitia.

Sed constat industriam tantum IFT utatur ut principium ad augendum RLHF. SFT notitia maxime in certis locis specificatis exemplaribus praecedentibus tegere nequivit, et tunc RLHF in hoc fundamento extendit.

RLHF processus iterativas est, et exemplar generationis processus permittit ut emendare pergat. Disciplina rotunda 5 in Llama 2 et Nemotron chartis explicata est, sed nescimus an numerus ad hunc modum superiorem sit.

Llama 3.1 eruditus est cum 6 gyris optionum datarum, Llama 2 in 5 orbes eruditus est, Nemotron cum 4 gyris eruditus est, et multi gyri disciplinae bene incedit.

Ad praelationem hominum datae, multae iterationes imprimis facundia considerationes agi possunt;

1. Data transferuntur ex comitatu annotationis ad officinam in batches

2. Disciplinae variae circumscriptiones ducere in periculum producti finalis partus reducere possunt. Instead of expecto omnes notitias praesto esse priusquam disciplina incipiatur, exemplar gradatim in vestigio proficiat

Tales factores practici inconsequentiales videri possunt, sed saepe certae industriae normae trigger.

Pictura infra e Llama 2 charta est, quae notitias ad 5 circulos rejectionis sampling et PPO relatas refert.


Nemotron etiam 2-rota SFT trim et 4-rota dam facit. Inter eos, RPO est praemium exemplar cum DPO optimizer onerati.


Similia iterativa RLHF methodi reduci possunt ad "intelligentiam Artificialis constitutionis" ab anthropica propositam, sed fons apertus communitatis non videtur hunc eventum magna forma retulisse.


Nunc, communitas academica operam dat "disciplinae online DPO", quae in directione similis est, sed non minus attendit ad notitias inter gyros. Hic adventus nunc adhuc multum operis manualis requirit, sed processu semel automated, online DPO futurum est.

Re vera algorithmus quemque delectu ad tempus post-praeparandi non tam rigidum esse debet. DPO et PPO sua quaeque commoda et incommoda habent. Illa facilior est scala, sed modi PPO inspirati (ut online RL) modum superiorem habent.

Hae accessiones nunc simplicitate principaliter moventur, sicut hae iunctiones adhuc novae sunt et systemata modularia aedificantia, et membrum Llama 3 post-comitiandi turmam hunc aditum ad simplicitatem operatricem confirmavit.


Llama 3 simplex post-disciplina ansam habet: rejectio sampling, SFT, DPO. Hoc non solum consequitur in bene operando in gradu empirico, sed etiam facit reproducibilitatem. Praeterea iunctiones multas operas varias (v.g., coding, math) asynchronously explorare possunt, notitias in eandem fasciam simplicem colligentes.
synthetica notitia

Magna pars huius cycli novi RLHF est data synthetica mandati quae humanas facultates in maximis operibus excedit.

Si exemplum exigua emendare potes et instructiones meliores generare, tunc "incipies" et pones schedulas renovas.

Meta expressis verbis in charta declarat quod "ad 405B exemplar utuntur ad meliorandum post-praeparatio qualitatis exemplorum minorum nostrorum"

Audivi OpenAI utentem 50 trillion signis notitiarum ad exemplar generationis sequentis instituendi, quorum maxime synthetica notitia est. Rumor proximo anno fuit anthropicam "Constitutionem AI corpus scalam praestruere", quod nunc rationabiliter videtur.

Hae AI societates momentum notitiae syntheticae abhinc duodeviginti abhinc mensibus perceperunt, cum exemplar outputa sui iterationis institutio non amplius adhibita sunt. Sed Meta differt quia ab aliis apertioribus exemplaribus prodest.

Inspectio hodiernae institutionis declarat perspicere quaestionem de exemplaribus ruinis syntheticis datam valde augeri. Exemplar ruinae tantum occurrit cum notitia originalis depellitur et solum nova generata notitia relinquitur in ambitu artificiose constituto.

Data qualis est rex

Multum de Llama 3.1 relatio est de singulis administrationis notitiarum, cum singulis sub-aream pertinentibus quae instructiones amplas et specificas exigunt.

Hoc consentaneum est cum iis quae scio de turmae disciplinae a Ioanne Schulman in OpenAI et aliis similibus iunctionibus — specificare domain specificare, notitias pertinentes acquirere, et exemplar melius convalescit.

Sed sine ampla data eliquatione et administratione, nulla ex superioribus RLHF modi operabitur.

In Allen AI, notitias magis in processu instituendo prioritando incepimus, et statim mutationem in velocitate exemplaris emendationis sentire potes.

Case Study - Nemotron and Llama

Llama scriptor post-praestatio talis est:


Haec imago a Nemotron simplex respective est;


Simul sumptis videre possumus quae maxime methodi communes habeant.

Sed chartula infra, et maxime industriae investigationis chartas, notitias ignore.


Exempla, ut Llama 3.1, multa singularia in relatione commemoravimus, ut regularizationem, temperatio functionis amissionis, exemplar fere, etc., sed hae lucrationes marginales in exemplaribus faciendis sunt et late extra ambitum nuclei cycli minuti. .

Quodam tempore, haec minutissima fient.

Notae:

https://www.interconnects.ai/p/frontier-model-post-training