nuntium

OpenAI immittit cruentum proelium cum parvis exemplaribus!Apple DCLM fortis debut facit, Mistral 7B aperto fonte plenum est comminuens

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Tao Zi Qiao Yang

[Introductio ad Novam Sapientiam]. Estne aetas parva exempla hic? OpenAI exemplar parvum proelii primum cum mini GPT-4o ingressus est. Hodie, Apple etiam 7 miliarda parametri exemplar parvum DCLM dimisit, quod Mistral-7B in effectu emittit.

Proelia parva exempla incipiet!

Post emissionem GPT-4o mini et NeMo Mistral, Apple etiam ludum intraverunt.

Exemplar DCLM parvum duas magnitudinum parametri - 7 sescenti et 1.4 sescenti continet, et fons emissio aperta est. Maximus parameter 7 miliarda Mistral-7B excedit, eiusque effectus prope Llama 3 et Gemma est.


Secundum Vaishaal Shankar, physicus inquisitionis in Apple ML team (etiam DCLM elit), hoc est optimum exemplar "vere apertum" exemplar modernum faciendo, quod non solum pondera et disciplinae codicem habet, sed etiam in aperto fundatur data pone DCLM-Baseline.


Cum exemplari perficientur, DCLM fons apertus verus est exemplar plus oculorum captans.

E contra, gigantes technologiae tantum in exemplaribus clausis fonte versantur, vel "usque ad pitam et faciem suam dimidia tegunt".


In addition, Shankar etiam praedixit exemplar intermedia checkpoints et status optimizer online in futuro futurum esse.


Fieri potest ut hic fons sit fons LLM apertus fons communitatis?


DCLM series plene aperta fons est

In praesenti, omnia exemplaria pondera in HuggingFace dimissa sunt, et exemplar chartarum fundamentalium notitias clavem retexit.


https://huggingface.co/apple/DCLM-7B

DCLM-7B etiam architecturae decoder solum adhibet ac rationibus PyTorch et OpenLM ad praestructuram adhibet.

DCLM-baseline notitiae copiae summae 4T signorum ex summa CCXLT DCLM, et DCLM-7B forma ulteriorum filorum 2.5T ex ea educandi sunt.


Contextus longitudo 2048 est, quae minor est quam 7B 8k longitudo Mistralis et Gemma 2 9B.

In terminis faciendis, auctor directe aestimationem suite LLM Foundry adhibuit ut exemplum scriptorum ustulo in 53 probationis imponeret.

Comparando cum aliis exemplaribus, praeter MMLU score, auctor etiam duos indices nativus - "core accurationem" et "curationem extensam" (extendam).

Illa mediocris centri accurationis 22 officiorum inter HellaSwag et ARC-E est, haec vero omnia 53 munera operit.

Quamvis maxima notitia non utatur, collatis cum aliis exemplaribus notitiae apertae eiusdem quantitatis (sive ponderum et notitiarum copiae fons apertae sunt), DCLM in omnibus tribus indicibus optimam observantiam consequitur.


Tres columnae probationis ustulo a sinistro ad dextrum sunt: ​​nucleus, MMLU, extensio

Praecedente exemplari SOTA MAP-Neo collato, DCLM-7B scriptorum 5 iactorum MMLU accuratio operis 63,7% pervenit, incrementa 6.6 cento punctorum, cum moles calculi ad formandum requisita 40% redacta est.

Attamen, si cum exemplaribus conferantur cum ponderibus apertis et fonte clauso datarum rerum, effectus non satisfacit.

Magnum intervallum inter DCLM et Phi-3 in variis indicibus est, et pereuntis fere aequiparantur Mistral-7B-v0.3 vel Gemma 8B.


Investigatores invenerunt cum exercitatio cum 100B notitiarum adiectis ex eisdem dataset et contextum longitudinem ad 8k extenderet, exemplar usorum in nucleo et signacularum extensa ulterius emendavit, sed MMLU eventus non mutavit.


Eventus hic omnino sexaginta Mistralis 7B-v0.3 excedit.

Praeter, HuggingFace etiam disciplinam pertractans versionem 7B exemplaris dimisit, quae magnam scalam perficiendi emendationem in munere mathematico ratiocinationis GSM8K consecutus est, cum ustulo ab originali 2.1 ad 52.5.


https://huggingface.co/apple/DCLM-7B-8k

Praeter versionem 7B, versio 1.4B simul est etiam online. Mirabiliter, copia notitiarum disciplinarum aucta est per 0.1T cum 7B versione comparata.


https://huggingface.co/TRI-ML/DCLM-1B

Comparatus cum HuggingFace nuper dimissus SmolLM, DCLM-1B effectus signanter melior est, praesertim cum viginti quinque MMLU score iactus, quod 11.9% SmolLM altior est.

Non solum quod DCLM-1B numerus MMLU 41.9 altior est quam Qwen-1.5B 37.87 et Phi-1.5B 35.90.


Exemplar 7B post cecidit, sed 1.4B exemplar illud consecutus est.

Notatu dignum est exemplar 7B tantum in promptu esse sub Apple's Sample Codice Licentiae (ASCL), sed 1.4B versio sub Apache 2.0 dimissa est, permittens usum commercialem, distributionem et modificationem.

Nunc quod loquimur de serierum DCLM exemplorum hoc tempore emisso, commemorare debemus eorum magni momenti fundamentum - Probatio DataComp.


Charta inscriptio: https://arxiv.org/pdf/2406.11794

Charta Compi Data primum die 17 Iunii evulgata est. Co-auctores Jeffrey Li, Alex Fang et auctor finalis Vaishaal Shankar sunt etiam tincidunt Apple DCLM.

Articulus non solum elaborat processum constructionis notitiae statutae, sed etiam nonnulla argumenta circa DCLM exemplar commemorat.

Vaishaal Shankar dixit renovatam versionem huius chartae mox emissam esse ut singula plura technica de exemplo prae-trationis praebeant.

Comparata cum modificatione exemplaris pro eadem notitia copiae, ideae DataComp contraria est - exemplar adhibitum aestimationis fixum est, et negotium est eliquare et processus optimas notitias ex summa CCXLT piscinae datae.

Dici potest hunc accessum valde consentaneum esse cum investigationibus et evolutionis notionibus gigantum technologiarum - ad LLM perficiendum, notitia prae- struendi maioris momenti factor quam exemplar architecturae et ponderum fit.

Post omnes, series "fontis aperti" sunt sicut Llama, Gemma, et Phi tantum pondera emittunt et data non edunt.

Utraque Scaling Lex et SLM requiruntur

Nam AI technologiae gigantes, interdum exemplar maius, melius.


Re vera, nulla semper inopia exemplorum parvarum in AI communitate fuit, sicut multiplices exemplaria seriei Phi Microsoft, et Gemma 2 7B modo renovata a Google exeunte Iunio.

Hac septimana, OpenAI subito GPT-4o mini dimisit, Mistral AI Nvidia cum Nvidia emisit ut Mistral NeMo, HuggingFace SmoLLM emitteret et alia parva exemplaria dimissa sunt, incendium ad campum exemplorum minorum denuo addens.

Cum indagator OpenAI dixit, "Dum magna exempla prae ceteris instituere malimus, OpenAI etiam exempla parva exercere novit".


Exemplaria parva utilitatem habent cum humilis sumptus, ieiunium et magis professio. Solent erudiri uti parva tantum notitiarum et ad operas specificas destinata.

Magna exempla minora facere et postea augere scalam potest esse una ex trends in futura evolutione.


Biduo abhinc, cum mini GPT-4o dimissus est, Andrej Karpathy etiam longum tweet sententiam similia exprimens.


Certamen in exemplaribus magnitudine credit fore "reverse augere", non maiora et maiora questus, sed certare videre qui minor et levior est.

Causa currentis LLM paulatim "behemoth" facta est, quia processus disciplinae adhuc nimis damnosus est. Plerumque rogamus exemplum ut reminiscamur argumenti totius interreti (et re vera, facultas memoria LLM satis bona est. et meliores sunt homines;

Sed in parvis exemplaribus proposita disciplina mutata est. Clavis quaestio est quomodo AI systemata plus ex minori notitia discere potest.

Exemplar opus est ut maiores primum ac deinde minores fiant, quia "behemoth" opus est ut notitias in synthetica forma componamus et informemus, paulatim "perfectam institutionem" adipiscendam, eamque ad parvum exemplar nutrimus.

Huic etiam sententiae Musk assentitur. Exemplar emendationis scalae Karpathy descriptae prorsus est semita Tesla in re sumpta.


Mense Aprili 2023, Sam Altman finem aetatis magnarum AI exemplorum nuntiavit. In recenti colloquio, etiam confirmavit qualitatem datam esse factorem praecipuorum successus ad ulteriorem AI disciplinam.


Microsoft inquisitores hanc assumptionem fecerunt cum exemplum Phi developing. AI investigatores apud Hugging Face etiam hanc hypothesim nuper confirmaverunt et notitias altae qualitatum instituendi dimisit.

Sumptus exempli gratia GPT-4, sumptus explicandi et utendi plus quam trillion parametris US$100 decies centena millia excedit.

Exemplar parvum, ut speciatim exercitatus in certa notitia legalis, minus quam X miliardis parametris uti potest et minus quam $10 decies centena millia constant.

Nadella dixit Phi parvam seriem exemplaris solum 1/100 magnitudinem exemplaris liberae post OpenAI esse, eiusque in multis operibus perficiendi propemodum bonum esse.


Praeterea Google et AI incepta Mistral, anthropica et Cohere etiam minora exempla hoc anno dimiserunt.

Mense Iunio, Apple AI progressionem roadmap suam propriam denuntiavit, parvis exemplaribus uti consilio ut programmata plane in telephonum currere possint, eam citius tutioremque reddant.

Multis muneribus, ut documenta summatim vel imagines gignens, magna exempla overkill possunt.

Illia Polosukhin, auctor post auctorem operis Transformatoris, dixit computare 2+2 opus quadriillionis operationibus non oportere.

Sed gigantes technologiae magnis exemplaribus non dederunt. In colloquio WWDC huius anni, Apple nuntiavit integrationem ChatGPT in adiutore Siri ad opera multiplicia facienda sicut electronicas componendas.

Post omnia, ducens ad ultimum AGI/ASI, expansio scalae parametri directe proportionalis est incrementi intelligentiae.


Notae:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-oblationes/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/