Apple hankki avoimen lähdekoodin 7B-mallin ja antoi koko harjoitusprosessin datajoukon kerralla. Netizens sanoi: Se on hyvin erilaista kuin Apple

Apple hankki avoimen lähdekoodin 7B-mallin ja antoi koko harjoitusprosessin datajoukon yhdellä kertaa. Netizens sanoi: Se on hyvin erilainen kuin Apple.

2024-07-22

Apple on viimeisin saapunut avoimen lähdekoodin suuren mallin taistelukentälle, ja se on avoimempi kuin muut yritykset.

levittää7B malli, ei vain vaikutus on sama kuinLaama 3 8BSe on melko hyvä, ja se on avoimen lähdekoodin kaikki kerralla.Kaikki koulutusprosessit ja resurssit。

Tiedätkö, ei kauan sitten Elizabeth Gibney, Nature-lehden toimittaja,Kritiikin kirjoittaminen：

Monet avoimen lähdekoodin väittävät tekoälymallit eivät itse asiassa ole läpinäkyviä datan ja koulutusmenetelmien suhteen, eivätkä ne voi vastata todellisen tieteellisen tutkimuksen tarpeita.

Mutta tällä kertaa Apple todella tuli totta! !

Jopa NLP-tutkija ja AutoAWQ:n luoja huudahti:

Apple julkaisi mallin, joka päihittää Mistral 7B:n, mutta mikä vielä parempaa on, että he ovat täysin avoimen lähdekoodin tuottamia.Sisältää esikoulutuksen tietojoukon

Se houkutteli myös nettilaisia pilkamaan verkossa:

Mitä tulee tämän avoimen lähdekoodin merkitykseen, jotkut innostuneet nettimiehet auttoivat myös tiivistämään sen:

Kaikille, jotka haluavat kouluttaa mallia tyhjästä tai hienosäätää olemassa olevaa mallia,tiedonhallintaprosessiSitä pitää tutkia.

Tietysti OpenAI:n ja Applen lisäksi Mistral AI ja Nvidia julkaisivat viime viikolla 12B-parametrin pienen mallin.

HuggingFacen perustaja sanoi,"Pieni malliviikko"tulossa!

rullaa! Jatka matkaa! Kuinka tehokas Applen julkaisema pieni malli on tällä kertaa?

Vaikutus on lähellä Llama 3 8B:tä

Puhumattakaan siitä, kuinka voimakas se on. Katsotaanpa, mitä Hugging Facen tekninen johtaja juuri "purki".Mallin peruskokoonpano。

Tehdä yhteenveto:

7B perusmalli, käytetään avoimissa tietosarjoissa2.5T tokenejasuorittaa koulutusta
Pääasiassa englanninkielistä dataa2048tokenien kontekstiikkuna
Tietojoukkoja ovat DCLM-BASELINE, StarCoder ja ProofPile2
MMLU-pisteet ovat lähellä Llama 3 8B
Koulutus PyTorchin ja OpenLM-kehyksen avulla

Erityisesti tutkimusryhmä ehdotti ensin kielimalliaUusi vertailukohta tietojen vertailulle——DCLM.

Tätä vertailuarvoa ehdotettiin, koska tiimi havaitsi:

suuremmista tietojoukoista koneoppimismalleilla (ML).Suodata ja valitse korkealaatuiset tiedot automaattisesti, voi olla avain laadukkaan harjoitussarjan rakentamiseen.

Siksi tiimi käyttää DCLM:ää korkealaatuisten tietojoukkojen suunnitteluun mallin suorituskyvyn parantamiseksi, erityisesti multimodaalisella alueella.

EttäIdeoitaSe on yksinkertaista: käytä standardoitua viitekehystä kokeiden suorittamiseen, mukaan lukien kiinteä malliarkkitehtuuri, opetuskoodi, hyperparametrit ja arviointi, ja lopuksi selvitä, mikä datan kiistan strategia on paras korkean suorituskyvyn mallien koulutukseen.

Yllä olevien ideoiden pohjalta tiimi rakensi aLaadukas tietojoukko DCLM-BASELINE, ja käytti sitä 7B-parametrimallin DCLM-7B opettamiseen tyhjästä.

Mikä on DCLM-7B:n erityinen suorituskyky?

Tulokset osoittavat, että se on 5-laukainen MMLU-vertailussaTarkkuus saavuttaa 64 %, verrattavissa Mistral-7B-v0.3:een (63 %) ja Llama 3 8B:hen (66 %), ja keskimääräinen suorituskyky 53 luonnollisen kielen ymmärtämistehtävässä on myös verrattavissa Llama 3 8B:hen, kun taas vaadittu laskenta Summa on vain 1; /6 jälkimmäisestä.

Verrattuna muihin samankokoisiin malleihin DCLM-7B:n MMLU-pistemäärä ylittää Mistral-7B:n ja on lähellä Llama 3 8B:tä.

Lopuksi vartenTestaa uuden tietojoukon vaikutus, jotkut sisäpiiriläiset käyttivät Kapasin llm.c:tä kouluttaakseen GPT-2 1.5B:tä vertaamaan kahta DCLM-Baseline- ja FineWeb-Edu-tietosarjaa.

Tulokset osoittavat, että DCLM-Baseline saavuttikorkeampi keskimääräinen pistemäärä, ja suoriutuu paremmin sellaisissa tehtävissä kuin ARC (alkeiskoululaisten tieteellinen ongelmapäättely), HellaSwag (terveen järjen päättely) ja MMLU.

"Pienistä" malleista tulee uusi trendi

Palatakseni alkuun, "pienistä" malleista on tullut uusi trendi viime aikoina.

Ensin HuggingFace lanseerasi pienten mallien perheen"SmolLM", joka sisältää 135M, 360M ja 1.7B mallit.

Ne ylittävät samankokoiset mallit useissa päätelmien ja terveen järjen vertailuissa.

Sitten yhtäkkiä OpenAI julkaisiGPT-4o mini, ei vain kyky ole lähellä GPT-4:ää, vaan hinta on laskenut merkittävästi.

Vain GPT-4o minissäJulkaistu samana päivänä, Mistral AI ja NVIDIA julkaisivat 12B parametrin pienen mallin——Mistral NeMo。

Yleisessä suorituskyvyssä Mistral NeMo voitti Gemma 2 9B:n ja Llama 3 8B:n useissa vertailutesteissä.

Joten miksi kaikki alkavat rullata pieniä malleja?

Syynä saattaa olla smol AI:n perustajaKustannukset vähentyneet huomattavasti。

Aivan kuten hänen toimittamassaan kuvassa, pienet mallit, joita edustavat GPT-4o mini, ovat yleensä halvempia kuin oikealla olevat.

Tässä suhteessa odotan meloneja syövien ihmisten olevan seuraavanlaisia:

Joten, kumpaa pidät enemmän?

uutiset

Apple hankki avoimen lähdekoodin 7B-mallin ja antoi koko harjoitusprosessin datajoukon yhdellä kertaa. Netizens sanoi: Se on hyvin erilainen kuin Apple.

Johdanto

yhteystietoni