uutiset

Pieni malli nousi seisomaan, SOTA juoksi ulos selaimesta halaten kasvojani: synteettiset tiedot eivät ole tulevaisuutta

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Pieni SOTA-malli, joka voi toimia suoraan selaimessa, on täällä ja voitti Huahuanlianin tuottaman 200 miljoonan, 500 miljoonan ja 2 miljardin tasolla.



On vain kaksi salaisuutta:

  • Suodata tiedot aggressiivisesti
  • Harjoittele lujasti erittäin suodatettuja tietojoukkoja

Huaqiangin johtava tutkijaThomas Wolf, tiivistää tiimin kokemuksen pienten mallien kehittämisestä, uusien näkökulmien luomisesta ja alan huomion herättämisestä:

Synteettiset tiedot ovat tällä hetkellä hyödyllisiä vain tietyillä alueilla,Verkko on niin laaja ja monipuolinen, että todellisen datan potentiaalia ei ole vielä täysin hyödynnetty.



Tällä hetkellä 360M-malliversio on julkaistu demona ja sitä voi pelata verkossa (huomio liikenteessä).



Kutsu paikallinen grafiikkasuoritin toimimaan selaimessa, mukaan lukien mallipainot ja verkkokäyttöliittymä, ja se tehdään 400 megatavulla.



Suodata verkkotiedot tiukasti, ja suorituskyky nousee pilviin

Microsoft Phi -sarjan pienten mallien osalta väitetään, että puolet synteettisestä tiedosta käytetään ja vaikutus on erittäin hyvä, mutta tietoja ei julkisteta.

Avoimen lähdekoodin yhteisö ei kestä sitä enää, koska sitä on niin vaikea kestää:

Luo suuri synteettinen tietojoukko vertailua varten ja avoimen lähdekoodin se.

Lisäksi tiimi vihjasi epämääräisesti, että tämä siirto testaisi myös huhuja Microsoftin huijaamisesta testisarjassa ja onko tämä otettu huomioon.



Hugshuang rakennettiin käyttämällä Mixtral-8-7B:tä, joka oli tuolloin paras avoimen lähdekoodin malli.25BSynteettinen data.

Koulutettu malli toimii hyvin, mutta on silti hieman Phi-1:n ja Phi-1.5:n tason alapuolella.

He yrittivät saada suuret mallit selittämään erilaisia ​​​​aiheita yläkoulun tasolla, ja lopulta menestyivät vain huonosti MMLU-testissä, koska MMLU on tohtoritason kysymys.



Todellinen suorituskyvyn läpimurto tuli sivutehtävästä:

Sen lisäksi, että luot synteettisiä tietoja tyhjästä suurilla malleilla, yritäSuodata verkkotiedot suurilla mallisuodattimilla

Erityisesti luokitin kehitettiin käyttämällä Llama3-70B-Structin luomia huomautuksia.Säilytä FineWeb-tietojoukossa vain kaikkein koulutuksellisimmat verkkosivut

Tiukasti suodatettujen verkkotietojen avulla suorituskyky nousee pilviin ja ylittää kaikki muut samankokoiset mallit useimmissa vertailuissa, mukaan lukien Phi-1.5.



Huahuanglian-tiimi sanoi, että tämän kokeen tulokset olivat"Katkeransuloinen"’s: Vaikka mallin suorituskyky on ennennäkemättömän korkea, se osoittaa myös, että synteettinen data ei silti ole yhtä hyvä kuin todellinen data.

Myöhemmin he käyttivät samaa ideaa laajentaakseen luonnollisesta kielestä koodiin, ja myös suodatettu kooditietojoukko osoittautui erittäin tehokkaaksi.

Paranna HumanEvalin vertailupistemäärää suoraan noin 13 prosentista yli 20 prosenttiin.

Heidän muodostamassaan lopullisessa sekoitetussa datajoukossa suodatettu tietojoukko, josta on poistettu kaksoiskappaleet, muodosti suurimman osan, ja puhtaan synteettisen Cosmopedia v2:n datan osuus oli vain 15 %.



Joten yhteenvetona, onko synteettinen data edelleen hyödyllinen?

Tiimi uskoo, että se voi olla järkevämpää vain aloilla, joilla on todellinen puute todellisesta tiedosta, kuten päättelystä ja matematiikasta.



Pienetkin mallit vaativat biljoonia rahakkeita kouluttaakseen

Juuri kun he innostuivat näistä uusista löydöistä ja tuloksista, uusi harjoittelija, Elie Bakouch, liittyi mukaan.

Vaikka hän oli tuolloin vain harjoittelija, hän oli todellakin erilaisten koulutustekniikoiden asiantuntija.



Elien avulla tiimi pienensi mallin koon 1,7B:stä 360M tai jopa 170M, joka on vakiomalli GPT-1, GPT-2 ja BERT.

Toinen tärkeä löytö tehtiin tämän prosessin aikana: toisin kuin aikaisempi konsensus,Pienetkin mallit on koulutettava biljoonien rahakkeiden avulla, mitä pidempi sen parempi.

myösDatan hehkutus(Anneal the data) on myös osoittautunut tehokkaaksi, eli se säilyttää erityisen korkealaatuisen datan koulutuksen viimeistä osaa varten.

Viimeinen julkaistu mallisarja soveltuu käyttöön eri laitteilla älypuhelimista kannettaviin tietokoneisiin Suurin 1.7B-malli, BF16, vie vain 3G muistia tarkasti.

Viitteeksi, iPhone 15 -tuloversiossa on myös 6G, ja Android-puhelimissa on vielä enemmän.



Vaikka tällä kertaa koulutettu perusmalli oli riittävän hyvä, tiimi löysi silti ongelman.

Aiemmat kohdistus- ja hienosäätötekniikat, kuten SFT, DPO, PPO jne., ovat erittäin tehokkaita suurille malleille, mutta eivät ihanteellisia pienille malleille.

Tiimi analysoi, että kohdistustietojoukko sisälsi monia käsitteitä, jotka olivat liian monimutkaisia ​​pienelle mallille ja joista puuttui hyvin suunniteltuja yksinkertaisia ​​tehtäviä.

Seuraava uusi kuoppa on kaivettu, ja kiinnostuneet tiimit voivat alkaa työstää sitä ja heistä saattaa tulla pienten mallien pelastajia.

Verkkokokeilu:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

Viitelinkit:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857