Llama 3.1 natus est! Fons apertus gigas, fons clausus primum victus, et tempora GPT-4 omnium is coming

Llama 3.1 natus est!fons apertus gigas victus primum fontem clausit, et tempus GPT-4 omnium venit

2024-07-24

Nova Sapientia Report

Editor: Editorial Department

[Introductio ad Novam Sapientiam]. Exemplar magnarum exemplorum semel iterumque mutatum est pernoctare. Llama 3.1 405B fecit grande debut, prae GPT-4o et Claude 3.5 Sonnet in multiplicibus probationibus. Primum in historia, fons apertus exemplar vicit hodie fons clausus firmissimum exemplar. Xiao Zha audacter dixit: Aperi fons AI certus vincet, sicut Linux tandem vicit.

Novus rex aperto fonte, Llama 3.1 405B, heri publice inductus est!

Multis Probationibus, tam GPT-4o quam Claude 3.5 Sonnet superati sunt. Aliis verbis, fons clausus SOTA exemplar iam ab ipso fonte aperto raptum est.

Pernoctare, Llama 3.1 405B potentissimum exemplar in mundo factus est.

(Inline simul, exstant etiam novae versiones exemplorum 70B et 8B)

LeCun complura cardinis puncta Llama 3.1 exemplar familiae:

- 405B perficiendi comparandi cum optimo fonte clauso exemplorum

- Aperi fons / liberum ponderibus et codice utendi, permittens bene hians, distillationem in alia exemplaria instruere et alicubi instruere

- 128k contextus, multi-lingua, bonum signum generationis facultas, multiplex ratio habilitas, instrumentum usus facultatis

- Llama Stack API dat facilem integrationem

Meta hoc tempus dici potest spiritum apertum fontem ad finem implevisse, et simul chartam plus quam 90 paginarum liberaliter emisisse.

Thomas Wolf, dux HuggingFace physicus, laudavit: Si vis magna exempla de scabere studere, haec charta est quam tibi opus est!

Proprie omnia comprehendit - notitia praevia, eliquatio, furnum, synthetica notitia, leges scalae, infrastructurae, processus parallelae, methodi institutio, aptatio post institutionem, instrumentum usus, expositio, consequentia strategies, quantitas, visio, oratio et video ........

AI2 indagator Nathan Lambert aestimat hanc 90-paginam Llama 3.1 chartam protinus progressum fontis aperti a 3-9 mensibus deinceps exemplar impellere!

Meta CEO Xiao Zha superbe scripsit longum articulum: Aperi principium artificialis intelligentia est via deinceps.

In colloquio cum Novi Eboraci Times, Xiao Zha fontem apertum sustinet AI

In hoc articulo, Xiao Zha passione motus revocavit Meta's turna in LLM fluctu--

Ultimo anno, Llama 2 tantum cum exemplaribus marginalibus vetustis comparandum fuit; hoc anno, Llama 3 iam antecedens exempla in aliquas rationes antecedens;

Quoad quaestionem pluries interrogatus est, "Tune solicitus es de amittendi commoda technicae ob fontem Llama apertum?"

In praeteritum dixit societates magnas technologias in suis versionibus Unix graviter collocasse, sed tandem fonte aperto Linux lucratus est quia permisit tincidunt ut codicem ad libitum mutaret, quod erat magis provectum, tutius, latius fringilla.

AI quoque simili modo evolvere tenetur.

Ad hunc finem, Meta suam licentiam specifice relaxavit, tincidunt primum permittens ut exemplar praecipuum quale Llama 3.1 ad meliorem et tertiam partem AI exemplaria adquireret.

Netizen: nova incipit

Postquam Llama 3.1 officialiter elevatus est, tumultum per totum ornatum effecit.

AI dominus Karpathy aliquas cogitationes suas statim expressit;

Hodie, emissione 405B exemplaris, incisurae incisurae exemplum magnum GPT-4/Claude 3.5 Sonnet omnibus omnibus patet ad utendum et aedificandum primum. . Pondera eius aperta sunt et ad commercium licentiati, generationi syntheticarum notitiarum, distillationis et exemplorum subtilitate permissa.

Haec meta aperta est limes LLM emissus. Praeterea ipsi etiam relationem technicam 92-paginam emiserunt, quae multam exemplarium continet: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Philosophia post hoc exemplar emissio in longo articulo ab Xiao Zha elaborata est, quae lectio bene valet, quia omnia principalia opiniones et argumenta aperta AI ecosystem mundi conspectum sustinentes bene comprehendit:

Apertum principium AI futurum est.

Saepe dixi adhuc mane dies, sicut 1980s denuo, LLM magnum paradigma computandi proximum esse, et Metam se ducem in aperta oecosystematione positum esse.

- Populus in his exemplaribus RAG suggeret et utetur

- Populus denique exemplar

- Populus eos in plura exempla destillabit ad operas et applicationes specificas

- perscrutandis eam, Probatio eam, optimize eam

Praeterea aperta ecosystematis auto-armati in productos, applicationes et officia modulari modo, et quilibet particeps suam singularem peritiam conferre potest.

Unum exemplum est quod AI chip initium Groq integravit Llama 3.1 exemplar, quod paene instantiam 8B exemplorum consequi potest.

Karpathy dixit debitum ad pressionem servo, videri non poterat probare 405B currentem in Groq, quod potentissimum et velocissimum esse potest hodie magnum exemplar.

Etiam expectat ut exempla fontis clausa mox assequantur et prospiciat.

Meta indagator Tian Yuandong dixit novam aetatem incepit! Fons apertus LLM nunc in par/melius quam fons clausus LLM!

Novus rex exemplorum fonte aperto natus est.

Llama 3.1 8B, fundator OpenPipe cum passione probatus, dixit: Numquam tam parva et potens exemplar fons apertus est - melius quam GPT-4o mini in omni munere fungitur!

NVIDIA senior physicus Jim Fan dixit potestatem GPT-4 in manibus nostris esse. Hoc momentum historicum est.

Pauci homines infrastructuram post AI exemplar disciplinae observant. Soumith Chintala, pater Pytorch, consurgere dixit in facilitate cum 16,000 GPUs aedificata, etiam in defectibus eventurum esse.

Singula haec in Llama 3.1 charta occultantur, inclusa quomodo ad systema firmitatis parallelisandum et conservandum. Dignum est memorare Metam turmam 90% efficacem in disciplina temporis consecutam.

Nonnulli reticulati declaraverunt in processu iterationis exemplar Llamae, usus GPU etiam augeri.

Llama 1: 2048 GPUs

Llama 2: 4096 GPUs

Llama 3.1: 16384 GPUs (Actu, Llama 3 instruitur in duabus racemis cum 24,000 GPUs)

Llama 4：......

Potentissima fons aperta exemplar familiae

Re vera quaedam cardinis puncta circa Llama 3.1 exemplaria seriei heri radicaliter vastata sunt.

Ut in notitia quaeque diffusa, Llama 3.1 8 linguas sustinere potest ( Anglice , Germanice , Gallicae , Italicae , Lusitanae , Hindi , Hispanicae , Thai ) , multi- agentes colloquii linguales , translationes casus utendi etc .

In contextu longitudinis, collatis cum Llama 2 et Llama 3, omnes contextus in Llama 3.1 exempla seriei saeculo XVI usque ad 128K aucti sunt.

Meta inculcavit Llama 3.1 emendatum esse etiam in usu instrumenti, adhibito instrumento zephyro adhibito, incluso inquisitione interretiali, operationibus mathematicis et codice executioni.

Longo contextu, exemplar non solum scit quando utatur instrumento, sed etiam quomodo utatur et quomodo eventus interpretandi.

Praeterea per bysso-tunting Llama 3.1 magnam praebet flexibilitatem in instrumentorum consuetudine vocandi.

Facultates principalis

Primum, Llama 3.1 currere potest ut systema quae munia "agens" exerceat;

- destrue opera et multi-gradus ratiocinandi

- usus instrumenta

- Instrumenta inaedificata: exempla cum instrumentorum scientia propria veniunt ut quaerendi vel codicis interpretes

- Nulla doctrina: exemplar discere potest instrumenta per definitiones contextuales instrumentum, quod ante non visum est, vocare

Exempli gratia, exemplum quaerens: "Haec fasciculus CSV est, quid in ea est describere?"

Agnosco: Haec fasciculus CSV menstruae incrementi per multos annos continet, et annus columna indicat annum pro quolibet incremento menstruae.

Deinde petimus ut lacinia purus tempus machinari.

Deinde, potest etiam seriem negotiorum dolosorum perficere, ut inclinationem S&P500 in eadem chartula moliri.

Semel factum es, chartulam resize ad varias secures informationes addere potes.

Ut supra ostensum est, Llama 3.1 subsidia 8 linguarum, ita translationis multi-linguae capax est.

Illud habere possumus in Hispanicam fabulam electronicam Hansel et Gretel (The Candy House) interpretari.

Etiam obmissis multiplicioribus quaestionibus ratiociniis, Llama 3.1 facile vincere potest.

"Habeo 3 tunicas, 5 paria bracarum et 1 vestium. In itinere X diei proficiscor. Suntne hae vestimenta satis feriarum meae?"

AI conditiones notas corrumpit, rationem cacuminum, breves et fimbriarum rationabilem adaptans fingit, et melius suggerit melius cacumina plura afferre.

Post rationem peractam etiam cogitationem nobis praebet accuratiorem peregrinationem curandi ductore et sarcinarum indice.

Possumus etiam mittere AI codicem manu scribere.

Exempli gratia, progressio efficiat quae algorithmus recursivus utitur recessu vel algorithmo profundiori inquisitionis ad perfectam errorum generandi cum magnitudine et multiplicitate customizabili.

Simulac AI incepit, e Pythone codice erroris programmatis exiit.

Confecto codice, AI etiam accuratiorem explicationem dat.

Deinde, si velimus programmata consuescere, codice AI adiutorem nobis praebet cum congruentibus codici suggestionibus latitudinem et altitudinem adaptans.

Proventus Aestimatio

Ut observantia Llama3.1 aestimaret, Meta non solum inclusa 150 Probatio notitiarum multiplex linguas in probatione involvit, sed etiam in missionibus realibus comparavit.

In variis operibus 405B certare possunt cum exemplaribus clausis principalibus ut GPT-4, GPT-4o, et Claude 3.5 Sonnet.

Exemplaria parva etiam 8B et 70B bene fecerunt in fonte clauso et aperto fonte exempla cum similibus modulis ponderis.

Praeter longas contextus labores, exempla 8B et 70B peracta SOTA generatim opera, coding, mathematica, ratiocinatio, instrumentum usus et linguarum multiplex.

In hominum aestimatione, Llama 3.1 405B exemplar par est cum GPT-4, sed leviter peius quam GPT-4o.

Nihilominus, collata cum Claude 3.5 Sonnet, 405B exemplum magnum commodum habet, cum asse 24.9% lucrativae.

Praeterea in scala ordinis, versio tenuis Llama 3.1 405B obtrivit Claude 3.5 Sonnet et GPT-4o in instructione quae sequitur aestimatio.

In operibus math, 405B secundus post Claude 3.5 Sonnet praeferendus est. Nihilominus, Llama 3.1 in coding operibus usoris relative notatos.

XCII pagina ultra-detailed technica fama

Nemo fontem tam diligentissime aperire potest quam Meta.

Inscriptio charta: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Charta proponit quod Llama 3.1, exemplar basis quale, tres vectium clavis habet: datam, scalam et multiplicitatem administrationem.

Secundum notitias, cum generatione superiore comparatas, summa copia et qualitas notitiarum in Llama 3.1 emendatae sunt, ut cautior praeprocessus et procuratio pipelines ad notitias praeextrandas, et qualitatem strictiorem certitudinem et methodos eliquandi ad post exercitium. data.

Llama 2 tantum in 1.8T indicio praeexercitatum, dum multi-lingua praeexercitatio corporis Llama 3.1 15.6T indicium pervenit, augmentum plusquam 8 temporum.

Secundum scalam, disciplina Llama 3.1 plus quam 16,000 NVIDIA H100 GPUs utitur, et summa calculi moles 3.8e25 FLOPS pervenit, quae fere 50× Llama 2 est.

Ut melius assequaris "ascendit", charta speciei rationem "complexitatis administrationis" proponit. Cum exemplar architecturae et algorithmarum seligantur, magis attentio praestanda est eorum stabilitati et scalabilitati.

Notatu dignum est Llama 3.1 architecturae popularis MoE non uti, sed densum Transformatorem solum architecturae decoder-se.

Similia aditus includunt processibus simplicibus post exercitium processus ut SFT, RS, DPO loco complexionis supplementi studiorum algorithmorum.

Similes multis magnisque exemplaribus, progressio Llama 3 maxime includit duos gradus: prae-parationem et post-praeparationem.

In praepraesentia, "proximum signum praedicere" etiam pro meta disciplina adhibita est. Primum, fenestra contextus ad 8K ponitur, et deinde ad 128K in scaena praeinstructio dilatatur.

Post-praeparatio periodum exemplar per multiplices opiniones iterativas humanas invalescit, signanter meliori coding et consequenti perficiendi et instrumenti usus facultates integrandi.

Praeterea charta etiam tres gradus additos uti ad functiones multi- modales ut imagines, videos et voces ad Llama 3.1 addere conatur;

- Encoder multi-modalis praeexercitatio: Imago et oratio encoders separatim exercentur. Prae- scriptio notitiarum priorum est coniugatio-textorum paria, posterior methodo auto-praepositi utatur ut partes larvatum reficere conetur. sermonis per signa discreti.

- Visio adaptor: consistit e serie crucis-obtervationum stratorum quae repraesentationes imaginum encoders injiciunt in exempla linguarum praeordinata. Ex imaginibus, charta etiam video adaptatorem in paribus video-textu instituere conatus est.

- Orationis adaptor: connectit exempla loquelae et exempla linguae, ac etiam systemata "text-ad-orationem" integrat.

Infeliciter, praedictae notae multi-modales adhuc sub evolutione sunt et ideo in recenti Llama 3.1 emissi non comprehenduntur.

Exemplar architecturae

Llama 3.1 adhuc utitur norma densa Transformer, et nulla differentia notabilis est in architectura ab Llama et Llama 2. Effectus emendatio maxime venit ex emendatione disciplinae notitiae qualitatis, diversitatis et scalae expansionis.

Cum Llama 3, architectura Llama 3.1 has emendationes sequentes habet:

- Ordinationem Query Operam (GQA): Cum 8 valorem capitis capitis, illationem celeritatis meliorem facit atque in decoding KV cache minuit.

- Attentio larva: Praeveni propria attentio inter alia documenta in eadem serie.Haec ars efficaciam limitatam in norma prae- struendi habet, sed magni momenti est cum praereprehensio in longissimis seriebus perseverat.

- 128K Vocabula tessera: inter 100K in tiktoken et additis 28K ut melius faveant linguis non-anglicis.Compressio melioris rationis tam Anglicae quam non Anglicae cum Llama 2 . comparata

- Pone funis hyperparametri θ ad 500,000: melius sustentationem pro longis contextibus

Clavis hyperparametri exemplaris in Tabula demonstratur 3. Secundum quantitatem datae et disciplinae computandi vim, magnitudo exemplaris ad potentiam computandi pervenit, quam Lex Scaling revelata est.

Parallel efficientiam

Ad exemplar 405B in 16000 GPUs instituendi, iam magnum propositum est quod parallelismum et culpam tractantem considerant.

Praeter ipsum exemplar, charta etiam rationem parallelizationis in processu formationis adhibendam explicat, necnon repositiones, retiaculum et alia infrastructura.

Disciplina Llama 3.1 utitur 4D parallelismo (tensor + pipeline + contextus + notitia).

Vitium tractans de Llama 3.1 botrum disciplinae etiam valde bona est, plus quam 90% temporis effectivae disciplinae attingens, sed hoc tamen significat saltem unum intermissionis cotidie per totum 54 dies praereparandi.

Charta culpae causas omnium 419 inopinatarum interpellationum in speciali recenset (Tabula 5), quae magni ponderis significationem habet ad futuram constructionem glomerorum GPU. Inter eos, 78% quaestionum confirmatarum vel suspectarum ad ferramenta referenda sunt.

Cum operatio et conservatio botri automated est secundum quid completum, cum multae delicta sint, plerique automatice tractari possunt. Per totum processum, tres tantum defectus interventus manuales requiruntur.

Improve observantia propriae capacitatis

code

Ut coding facultatem exemplaris emendare possit, Meta methodis utitur ut peritorum coding disciplina, synthetica notitia SFT generans, meliores formas dirigens per systema suadet, et Filtra qualitatem creans (mala exempla removens e notitia disciplinae).

Python codicem convertens (reliquit) ad PHP codicem (recte) utens Llama 3 ut SFT dataset augeret latius programmandi linguarum

Improve code quality by system improvements.Sinistra: Nulla ratio prompta.

multilingual

Ut multilinguales facultates Llama 3, Meta peculiariter eruditus est peritus qui plus multilingualis notitias tractare potest, ut eruditionis multilinguale multilingualis praeclarae notitias (ut Germanica, Gallica, Italica, Lusitana, Hindi ( Anglice Hispanica et Thai) et provocationes specificas in multilinguis in naves imponunt.

mathematicam rationem

Exemplaria instituendi, quae bona ad rationem mathematicam spectantia varia provocat, ut defectus innuit, defectus verae CoT, vestigia falsa intermedia, necessitatem docendi, exemplar instrumentorum externorum utendi, differentiae disciplinae et consequentiae, etc.

Ad hunc finem, Meta sequentes modos adoptat: quaestionem solvendo insufficiens ambages, processus gradatim ratiocinandi in disciplina data, percolando perversas ratiocinandi processus, componendo codicem et textum ratiocinationem, ac discendi ex opinione et erroribus.

longa contexta

In ultimo stadio praeexercitato, Meta contextus Llama 3 ab signis 8K ad 128K extendit.

In praxi, manipulus inventus est utens tantum breves notitias pro SFT ad notabilem degradationem duceret in capabilitates exemplaris longi contextus; et legendi longas contextus nimis longum est et tempus consumens, sic impossibilis est hominibus ad talia exempla depingere.

Ergo Meta synthetica notitia elegit ut hanc lacunam expleret.

Primam versionem Llama 3, generaverunt synthetica notitia ex clavibus longis contextus usui casuum: (multiplices circumeunt) interrogationem respondentem, documentum summarium longum, codicem basis illationis.

Instrumentum usus

Meta docta Llama 3 ut penitus inquisitiones, Python, interpretes, et mathematici calculi machinamenta.

In processu evolutionis, sicut Llama 3 paulatim auctus est, Meta quoque paulatim in protocollo annotationem manualem perplexa est. Incipe cum annotatione unius instrumenti usus, move ad instrumentum usus in colloquiis, et finem cum annotatione instrumenti multi-gradi usus et analysi.

Llama 3 multi-gradus consilio, ratiocinatione et instrumento invocationis ad opera solvenda peragit

Substructio in documento proviso, exemplar exquire ut lima contentum compendias, errores invenias et figas, codicem optimize, analysin vel visualizationem perficias, etc.

inesse

Pro problemate hallucinatio, provocatio agnita LLM, Meta hallucinationem primo adventu sumit.

Principium autem sequitur est quod post disciplinae exemplar debet "scire quod scit" magis quam scientiam addere.

Maneuverability

Nam Llama III, Meta manaeuvitatem suam auget per systema naturae cum instructionibus linguae, specie ad responsionem longitudinis, formati, soni et personae/personalitatis.

"Tu es benevolens, laetus AI chatbottus qui ministrat in refectione consilio assistentis familiis occupatae."

Suspendisse

Turma Llama 3 dici potest amplissimum, cum 220 nucleis fere solis et 312 aliis contributoribus.

Xiao Zha: Open fons AI futurum

Ut omnes novimus, Xiao Zha semper fons aperto pius fautor AI.

Hoc tempore non tam simplex est quam novum ac firmissimum exemplar solvens, sed etiam vovens ut fontem AI ante frontem aperiat.

In eius blog, Xiao Zha protinus lectiones ex historia hausit.

Proelii Unix acriter pugnavit, sed ille qui ultimum ridet patet fons Linux.

Linux initio tincidunt favebat quod tincidunt tincidunt ad nutum voluntatem mutare et plus parabilis erat.

Sed tempus temporis magis provectior, securior facta est, et plus functionis ecosystematis quam quaelibet clausa Unix fulta.

Hodie, Linux vexillum industriae est ad nubes computandi et maxime mobiles systemata operandi et omnes utilitates.

Xiao Zha credit progressionem trajectoriam AI etiam eandem esse, et digito monstrabit exemplar in fonte clauso "plurium societatum technologiae".

"Hodie multae societates technologiae clausae exempla explicant, sed fons apertus rapide hiatum claudit".

Xiao Zha audacia directe nominare est naturaliter audaciam eius viribus.

Hoc anno, Llama 3 certare potest cum aliis immanibus exemplaribus secundum effectus.

Llama 3.1 405B est prima acies aperta fons AI exemplar. Praeter signanter melior sumptus/perficiendi rationem relativam ad exempla clausa, apertio 405B exemplarium optimam electionem efficit ut bene-tunes et distillationes exempla parva.

Cur bonum tincidunt est apertum principium AI?

Pro tincidunt, quinque maioris beneficii sunt ut exemplar apertum fonti adhaereant;

Primum, fons aperta exempla, tincidunt libere instituendi, cantilena, et sua exempla distillant.

Singulae elit necessitates diversae sunt, cum inceptis muneribus ac muneribus classificationis parva exempla requirunt, dum plura opera multiplicia magna exempla requirunt.

Exemplaria publica de arte aperta fonte levantes, tincidunt pergere possunt cum sua notitia exercere, ad specimen magnitudinis destillatum.

Secundo, ne unum coarctari potes.

Tincidunt exemplo niti quod currere et regere nolunt, et supplementum mutare exemplar nolunt, condiciones usus mutare, vel servitium omnino prohibere.

Fons apertus exempla praebet ut facile flectatur et explicatur, ecosystem latum creans.

Tertio, custodiat data securitate.

Tincidunt ad securitatem notitiarum securitatem tractantes cum notitia sensitiva, quae requirit ut exempla fonti clausa per APIs mittere non possint.

Notum est fontem apertum esse plerumque securiorem ob processum evolutionis magis perspicuum.

Quarto, operatur efficaciter et minore sumptu.

Consequentia sumptus electronicarum currit Llama 3.1 405B dimidium tantum est quod GPT-4o, sive latus sive offline illationis negotium est.

Quinto, ex diuturno prospectu, fons apertus industria late vexillum fiet.

Re quidem vera fons apertus citius evolvitur quam fons clausus exempla, et tincidunt vis eorum systemata in architecturas longas utilitates habentium aedificare posse.

In conspectum Xiao Zha, emissio Llama 3.1 fiet discrimen in industria, fons aperta magis ac magis nequit.

Notae:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32

nuntium

Llama 3.1 natus est!fons apertus gigas victus primum fontem clausit, et tempus GPT-4 omnium venit

Introductio

mihi contactus notitia