Kuinka luoda avoimen lähdekoodin malli, joka voi voittaa GPT-4o:n. Kaikki Llama 3.1 405B:stä on kirjoitettu paperi

Kuinka luoda avoimen lähdekoodin malli, joka voi voittaa GPT-4o:n, kaikki Llama 3.1 405B:stä on kirjoitettu?

2024-07-24

Koneen sydänraportti

Machine Heart -toimitusosasto

Kaksi päivää aikaisemmin tapahtuneen "vahingossa tapahtuneen vuodon" jälkeen Llama 3.1 julkaistiin vihdoin virallisesti viime yönä.

Llama 3.1 laajentaa kontekstin pituuden 128 000:aan ja siitä on kolme versiota: 8B, 70B ja 405B, mikä nostaa jälleen yksinään suurten mallitelojen kilpailukykyä.

Tekoälyyhteisölle Llama 3.1 405B:n tärkein merkitys on, että se päivittää avoimen lähdekoodin perusmallin ominaisuuksien ylärajaa. Meta-virkailijat sanoivat, että sen suorituskyky on verrattavissa parhaaseen suljettuun lähdemalli.

Alla oleva taulukko näyttää, kuinka nykyiset Llama 3 -sarjan mallit toimivat tärkeimmissä vertailuarvoissa. Voidaan nähdä, että 405B-mallin suorituskyky on hyvin lähellä GPT-4o:n suorituskykyä.

Samaan aikaan Meta julkaisi paperin "The Llama 3 Herd of Models", joka paljastaa Llama 3 -sarjan mallien tähänastiset tutkimustiedot.

Paperin osoite: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Katsotaanpa seuraavaksi paperin sisältöä.

Llama3-paperin kohokohdat

1. Esiopetuksen jälkeen 8K-kontekstipituudella Llama 3.1 405B käyttää 128K kontekstin pituutta jatkuvaan harjoitteluun ja tukee useiden kielten ja työkalujen käyttöä.

2. Edelliseen Llama-malliin verrattuna Meta on vahvistanut esikäsittely- ja esikoulutusdatan Curationin putkia sekä koulutuksen jälkeisten tietojen laadunvarmistus- ja suodatusmenetelmiä.

Meta uskoo, että korkealaatuisten taustamallien kehittämisessä on kolme keskeistä vipua: data, mittakaava ja monimutkaisuuden hallinta.

Ensinnäkin, verrattuna aiempiin Llaman versioihin, Meta parantaa esi- ja jälkikoulutuksessa käytettyjä tietoja sekä määrällisesti että laadullisesti. Meta esikoulutti Llama 3:n noin 15 biljoonan monikielisen rahakkeen rungossa verrattuna Llama 2:een, joka käytti vain 1,8 biljoonaa rahakkeita.

Tällä kertaa koulutetun mallin mittakaava on paljon suurempi kuin aiemman Llama-mallin: lippulaivakielimalli käyttää 3,8 × 10²⁵ liukulukuoperaatioita (FLOPs) esikoulutukseen, mikä on lähes 50 kertaa suurempi kuin Llama 2:n suurin versio. .

Skaalauslain perusteella Metan koulutusbudjetin mukaan nykyinen lippulaivamalli on jo suunnilleen laskennallisesti optimaalisessa koossa, mutta pienempien mallien Metan harjoitusaika on ylittänyt laskennallisesti optimaalisen pituuden. Tulokset osoittavat, että nämä pienemmät mallit ovat parempia kuin laskennallisesti optimaaliset mallit samalla päättelybudjetilla. Harjoittelun jälkeisessä vaiheessa Meta käytti lippulaivamallia 405B parantaakseen edelleen pienempien mallien, kuten 70B- ja 8B-mallien, laatua.

3. Tukeakseen 405B-mallien massatuotannon päättelyä Meta kvantisoi 16-bittisen (BF16) 8-bittiseksi (FP8), mikä vähentää laskentavaatimuksia ja mahdollistaa mallin ajamisen yhdessä palvelinsolmussa.

4. 405B:n esiharjoittelu 15.6T-tunnisteilla (3.8x10²⁵ FLOP) on suuri haaste. Meta optimoi koko harjoituspinon ja käytti yli 16K H100 GPU:ta.

Kuten PyTorchin perustaja ja Meta Distinguished Engineer Soumith Chintala sanoi, Llama3-paperi paljastaa paljon hienoja yksityiskohtia, joista yksi on infrastruktuurin rakentaminen.

5. Harjoittelun jälkeen Meta parantaa Chat-mallia useiden kohdistuskierrosten avulla, mukaan lukien valvottu hienosäätö (SFT), hylkäysnäytteenotto ja suora preferenssien optimointi. Useimmat SFT-näytteet luodaan synteettisistä tiedoista.

Tutkijat tekivät useita valintoja suunnittelussa maksimoidakseen mallin kehitysprosessin skaalautuvuuden. Esimerkiksi tavallinen tiheä Transformer-malliarkkitehtuuri valittiin vain pienin muutoksin asiantuntijoiden mallin sijaan maksimoidaksesi harjoituksen vakauden. Samoin käytetään suhteellisen yksinkertaista koulutuksen jälkeistä menettelyä, joka perustuu valvottuun hienosäätöön (SFT), hylkäysnäytteenottoon (RS) ja suoran preferenssin optimointiin (DPO), eikä monimutkaisempiin vahvistusoppimisalgoritmeihin, jotka eivät yleensä ole yhtä vakaita. ja vaikeampi laajennus.

6. Osana Llama 3 -kehitysprosessia Meta-tiimi kehitti malliin myös multimodaalisia laajennuksia, jotka mahdollistavat kuvantunnistuksen, videontunnistuksen ja puheen ymmärtämisen. Näitä malleja kehitetään edelleen aktiivisesti, eivätkä ne ole vielä valmiita julkaisuun, mutta artikkelissa esitellään näiden multimodaalisten mallien alustavien kokeilujen tulokset.

7. Meta on päivittänyt lisenssinsä, jotta kehittäjät voivat käyttää Llama-mallin tulosteita muiden mallien parantamiseen.

Tämän artikkelin lopussa näemme myös pitkän luettelon kirjoittajista:

Tämä sarja tekijöitä loi lopulta Llama 3 -sarjan tänään.

Tavallisille kehittäjille 405B-mittakaavan mallien hyödyntäminen on tietysti haaste ja vaatii paljon laskentaresursseja ja asiantuntemusta.

Julkaisun jälkeen Llama 3.1:n ekosysteemi on valmis, ja yli 25 kumppania tarjoaa uusimman mallin kanssa toimivia palveluita, mukaan lukien Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud ja Snowflake.

Katso tarkemmat tekniset tiedot alkuperäisestä paperista.

uutiset

Kuinka luoda avoimen lähdekoodin malli, joka voi voittaa GPT-4o:n, kaikki Llama 3.1 405B:stä on kirjoitettu?

Johdanto

yhteystietoni