uutiset

OpenAI käynnistää verisen taistelun pienten mallien kanssa!Applen DCLM tekee vahvan debyytin murskaamalla Mistral 7B:n täyden avoimen lähdekoodin

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Tao Zi Qiao Yang

[Johdatus uuteen viisauteen] Onko pienten mallien aika täällä? OpenAI astui pienten mallien taistelukentälle ensimmäistä kertaa GPT-4o minin kanssa, ja HuggingFace julkaisivat pieniä malleja peräkkäin tällä viikolla. Tänään Apple on myös julkaissut 7 miljardin parametrin pienen DCLM-mallin, joka on suorituskyvyltään parempi kuin Mistral-7B.

Pienten mallien taistelukenttä on alkamassa!

GPT-4o minin ja Mistral NeMon julkaisun jälkeen myös Apple tuli peliin.

Pieni DCLM-malli sisältää kaksi parametrikokoa - 7 miljardia ja 1,4 miljardia, ja se on avoimen lähdekoodin julkaisun jälkeen. Maksimiparametri 7 miljardia ylittää Mistral-7B:n, ja sen suorituskyky on lähellä Llama 3:a ja Gemmaa.


Applen ML-tiimin tutkijan Vaishaal Shankarin mukaan (myös DCLM-kehittäjä) tämä on tähän mennessä tehokkain "todella avoimen lähdekoodin" malli. Siinä ei ole vain painoja ja harjoituskoodia, vaan se perustuu myös avoimeen tietojoukko DCLM-Baseline.


Mallin suorituskykyyn verrattuna DCLM:n "oikea avoimen lähdekoodin" malli on enemmän huomiota herättävä.

Sitä vastoin useimmat teknologiajätit käyttävät vain suljetun lähdekoodin malleja tai "pitävät edelleen pipasta ja peittävät kasvonsa puoliksi".


Lisäksi Shankar ennusti myös mallin välitarkastuspisteiden ja optimoijan tilan lanseerauksen jatkossakin.


Voisiko olla, että tämä on avoimen lähdekoodin LLM-yhteisön kevät?


DCLM-sarja on täysin avoimen lähdekoodin

Tällä hetkellä kaikki mallipainot on julkaistu HuggingFacessa, ja mallikortit ovat periaatteessa peittäneet avaintiedot.


https://huggingface.co/apple/DCLM-7B

DCLM-7B ottaa käyttöön myös vain dekooderin arkkitehtuurin ja käyttää PyTorch- ja OpenLM-kehystä esikoulutukseen.

DCLM-perustietojoukko yhteensä 4T tokenista tulee yhteensä 240T DCLM:stä, ja malli DCLM-7B suodattaa siitä lisäksi 2,5T koulutusta varten.


Kontekstipituus on 2048, mikä on vähemmän kuin Mistral 7B:n ja Gemma 2 9B:n 8k pituus.

Suorituskyvyn suhteen kirjoittaja käytti suoraan LLM Foundry -arviointiohjelmistoa mallin pistemäärän testaamiseen 53 vertailutehtävässä.

Verrattaessa muihin malleihin kirjoittaja räätälöi MMLU-pisteiden lisäksi kaksi indikaattoria - "ydintarkkuus" (ydin) ja "laajennettu tarkkuus" (laajennettu).

Ensimmäinen on 22 tehtäväkeskuksen, mukaan lukien HellaSwag ja ARC-E, keskimääräinen tarkkuus, kun taas jälkimmäinen kattaa kaikki 53 tehtävää.

Vaikka se ei käytä eniten dataa, verrattuna muihin samankokoisiin avoimen datan malleihin (sekä painot että tietojoukot ovat avoimen lähdekoodin), DCLM saavuttaa parhaan suorituskyvyn kaikissa kolmessa indikaattorissa.


Vertailupisteiden kolme saraketta vasemmalta oikealle ovat: ydin, MMLU, laajennus

Edelliseen SOTA MAP-Neo -malliin verrattuna DCLM-7B:n 5 laukauksen MMLU-tehtävätarkkuus saavutti 63,7 %, kasvua 6,6 prosenttiyksikköä, kun taas harjoitteluun tarvittavan laskennan määrä väheni 40 %.

Kuitenkin, jos verrataan malleihin, joissa on avoimen lähdekoodin painot ja suljetun lähdekoodin tietojoukot, vaikutus ei ole tyydyttävä.

DCLM:n ja Phi-3:n välillä on suuri ero useissa indikaattoreissa, ja pisteet vastaavat suunnilleen Mistral-7B-v0.3:a tai Gemma 8B:tä.


Tutkijat havaitsivat, että kun harjoitteltiin 100 B:n lisädatalla samasta tietojoukosta ja laajennettiin kontekstin pituus 8 000:ksi, mallin pisteet ydin- ja laajennettujen vertailuarvojen osalta paranivat entisestään, mutta MMLU-tulokset eivät muuttuneet.


Tämä tulos ylittää täysin Mistral 7B-v0.3:n pistemäärän.

Lisäksi HuggingFace julkaisi myös ohjeen hienosäätöversion 7B-mallista, joka paransi matemaattisen päättelytehtävän GSM8K:n suorituskykyä laajasti pistemäärän noustessa alkuperäisestä 2.1:stä 52.5:een.


https://huggingface.co/apple/DCLM-7B-8k

Version 7B lisäksi myös versio 1.4B on verkossa samanaikaisesti. Harjoitteludatan määrä on ihmeen kaupalla kasvanut 0,1T verrattuna 7B-versioon.


https://huggingface.co/TRI-ML/DCLM-1B

Verrattuna HuggingFacen äskettäin julkaistuun SmolLM:ään, DCLM-1B:n suorituskyky on huomattavasti parempi, erityisesti 5 laukauksen MMLU-pistemäärä, joka on 11,9 % korkeampi kuin SmolLM.

Sen lisäksi, että DCLM-1B:n MMLU-pistemäärä 41,9 on korkeampi kuin Qwen-1,5B:n 37,87 ja Phi-1,5B:n 35,90.


7B-malli jäi jälkeen, mutta 1.4B-malli ohitti sen, kuten odotettiin, pienet mallit ovat Applen erikoisuus.

On syytä huomata, että 7B-malli on saatavilla vain Applen Sample Code License (ASCL) -lisenssillä, mutta 1.4B-versio julkaistaan ​​Apache 2.0:lla, mikä mahdollistaa kaupallisen käytön, jakelun ja muokkaamisen.

Nyt kun puhumme tällä kertaa julkaistuista DCLM-sarjan malleista, meidän on mainittava niiden tärkeä perusta - DataComp-benchmark.


Paperiosoite: https://arxiv.org/pdf/2406.11794

DataComp-paperi julkaistiin ensimmäisen kerran 17. kesäkuuta. Yhteiskirjoittajat Jeffrey Li, Alex Fang ja toinen kirjoittaja Vaishaal Shankar ovat myös Apple DCLM:n kehittäjiä.

Artikkeli ei ainoastaan ​​käsittele tietojoukon rakennusprosessia, vaan mainitsee myös jonkin verran sisältöä DCLM-mallista.

Vaishaal Shankar sanoi, että päivitetty versio tästä asiakirjasta julkaistaan ​​pian, jotta saadaan lisää teknisiä tietoja mallin esikoulutuksesta.

Verrattuna mallin muokkaamiseen samalle tietojoukolle DataCompin ajatus on päinvastainen - arvioinnissa käytetty malli on kiinteä ja tehtävänä on suodattaa ja käsitellä parasta dataa yhteensä 240T tietopankista.

Voidaan sanoa, että tämä lähestymistapa on hyvin sopusoinnussa teknologiajättiläisten tutkimus- ja kehitysideoiden kanssa - LLM:n suorituskyvyn kannalta esikoulutustiedoista on tulossa tärkeämpi tekijä kuin malliarkkitehtuuri ja painot.

Loppujen lopuksi joukko "avoimen lähdekoodin" malleja, kuten Llama, Gemma ja Phi, julkaisee vain painoja eivätkä julkaise tietoja.

Sekä skaalauslaki että SLM vaaditaan

Tekoälyteknologian jättiläisille toisinaan mitä suurempi malli, sitä parempi.


Itse asiassa AI-yhteisössä ei ole aina ollut pulaa pienistä malleista, kuten Microsoftin Phi-sarjan mallien useista iteraatioista ja Googlen juuri kesäkuun lopussa päivittämästä Gemma 2 7B:stä.

Tällä viikolla OpenAI julkaisi yllättäen GPT-4o minin, Mistral AI teki yhteistyötä Nvidian kanssa Mistral NeMo:n julkaisemiseksi, HuggingFacen SmoLLM ja muut pienet mallit julkaistiin, mikä lisäsi jälleen pienten mallien kenttään.

Kuten OpenAI-tutkija sanoi: "Vaikka koulutamme isoja malleja enemmän kuin kukaan muu, OpenAI osaa myös kouluttaa pieniä malleja."


Pienillä malleilla on se etu, että ne ovat edullisia, nopeita ja ammattimaisempia. Ne on yleensä koulutettu käyttämällä vain pientä tietomäärää ja ne on suunniteltu tiettyihin tehtäviin.

Isojen mallien pienentäminen ja sitten mittakaavan laajentaminen voi olla yksi tulevaisuuden kehitystrendeistä.


Kaksi päivää sitten, kun GPT-4o mini julkaistiin, Andrej Karpathy julkaisi myös pitkän twiitin, jossa ilmaisi samanlaisia ​​näkemyksiä.


Hän uskoo, että kilpailu mallikoosta "lisääntyy päinvastoin", ei kasva isommaksi ja isommaksi, vaan kilpailee siitä, kumpi on pienempi ja kevyempi.

Syy siihen, miksi nykyisestä LLM:stä on vähitellen tullut "behemotti", on se, että koulutusprosessi on edelleen erittäin tuhlaava. Pyydämme mallia muistamaan koko Internetin sisällön (ja itse asiassa LLM:n muistikyky on melko hyvä. , ja laatu on parempi kuin ihmiset ovat paljon parempia).

Mutta pienten mallien koulutustavoitteet ovat muuttuneet. Keskeinen kysymys on, kuinka tekoälyjärjestelmät voivat oppia enemmän pienemmästä datasta.

Tarvitsemme mallin ensin suuremmaksi ja sitten pienemmäksi, koska tarvitsemme "behemotin" rekonstruoimaan ja muotoilemaan datan ihanteelliseen synteettiseen muotoon, hankkimaan vähitellen "täydellisen harjoitussarjan" ja syöttämään sen sitten pieneen malliin.

Myös Musk yhtyi tähän näkemykseen. Karpathyn kuvaamat mallinparannustikkaat ovat juuri sitä polkua, jonka Tesla on todellisuudessa kulkenut.


Huhtikuussa 2023 Sam Altman ilmoitti suurten tekoälymallien aikakauden päättymisestä. Äskettäisessä haastattelussa hän vahvisti myös tietojen laadun olevan keskeinen menestystekijä tekoälykoulutuksen jatkokoulutuksessa.


Microsoftin tutkijat tekivät tämän oletuksen Phi-mallia kehittäessään. Hugging Facen tekoälytutkijat vahvistivat myös äskettäin tämän hypoteesin ja julkaisivat korkealaatuisen harjoitustietojoukon.

GPT-4 esimerkkinä yli biljoonan parametrin kehittämisen ja käytön kustannukset ylittävät 100 miljoonaa dollaria.

Pieni malli, joka on koulutettu erityisesti lailliseen tietojoukkoon, voi käyttää alle 10 miljardia parametria ja maksaa alle 10 miljoonaa dollaria. Se käyttää vähemmän laskentatehoa vastaamaan jokaiseen kyselyyn, joten kustannukset ovat alhaisemmat.

Nadella on sanonut, että Phi-pienmallisarja on vain 1/100 OpenAI:n takana olevan ilmaisen mallin kokoinen, ja sen suorituskyky monissa tehtävissä on lähes yhtä hyvä.


Lisäksi Googlen ja tekoälyn startupit Mistral, Anthropic ja Cohere julkaisivat myös pienempiä malleja tänä vuonna.

Kesäkuussa Apple julkisti oman tekoälykehityssuunnitelmansa, joka aikoo käyttää pieniä malleja, jotta ohjelmisto voisi toimia kokonaan puhelimissa, mikä tekee siitä nopeamman ja turvallisemman.

Moniin tehtäviin, kuten asiakirjojen yhteenvetoon tai kuvien luomiseen, suuret mallit voivat olla ylivoimaisia.

Transformerin uraauurtavan työn kirjoittaja Illia Polosukhin sanoi, että 2+2-laskennan ei pitäisi vaatia kvadriljoonaa operaatiota.

Teknologiajättiläiset eivät kuitenkaan ole luopuneet suurista malleista. Tämän vuoden WWDC-konferenssissa Apple ilmoitti ChatGPT:n integroimisesta Siri-avustajaan monimutkaisten tehtävien, kuten sähköpostien kirjoittamisen, suorittamiseksi.

Loppujen lopuksi, mikä johtaa lopulliseen AGI/ASI:hen, parametriasteikon laajeneminen on suoraan verrannollinen älykkyyden kasvuun.


Viitteet:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/