Ylitti GPT4o-tason avoimen lähdekoodin mallin Llama 3.1 vuoti: 405 miljardia parametria, latauslinkit ovat saatavilla

GPT4o-tason avoimen lähdekoodin mallin lisäksi vuotanut Llama 3.1: 405 miljardia parametria, latauslinkki on saatavilla

2024-07-23

Koneen sydänraportti

Machine Heart -toimitusosasto

Laita GPU valmiiksi!

Llama 3.1 ilmestyi vihdoin, mutta lähde ei ole Meta virallinen.

Tänään vuotanut uutinen uudesta Llama-mallista levisi Redditissä.Perusmallin lisäksi se sisältää myös benchmark-tulokset 8B, 70B ja suurimman parametrin 405B。

Alla oleva kuva näyttää kunkin Llama 3.1 -version vertailutulokset OpenAI GPT-4o:n ja Llama 3 8B/70B:n kanssa. voidaan nähdä,Jopa 70B-versio ylittää GPT-4o:n useissa vertailuissa。

Kuvan lähde: https://x.com/mattshumer_/status/1815444612414087294

Ilmeisesti version 3.1 8B- ja 70B-mallit on tislattu 405B:stä, joten suorituskyky on parantunut merkittävästi edelliseen sukupolveen verrattuna.

Jotkut nettimiehet sanoivat, että näin onEnsimmäistä kertaa avoimen lähdekoodin malli ohitti suljetun lähdekoodin mallit, kuten GPT4o ja Claude Sonnet 3.5, saavuttaen SOTA:n useilla vertailuarvoilla.。

Samaan aikaan Llama 3.1:n mallikortti vuoti, ja myös yksityiskohdat vuotivat (mallikorttiin merkitty päivämäärä osoittaa, että se perustuu heinäkuun 23. päivän julkaisuun).

Joku tiivisti seuraavat kohokohdat:

Malli käyttää koulutukseen 15T+ tokenia julkisista lähteistä, ja koulutusta edeltävän datan määräaika on joulukuu 2023;
Hienosäätötiedot sisältävät julkisesti saatavilla olevan käskyjen hienosäätötietojoukon (toisin kuin Llama 3:ssa) ja 15 miljoonaa synteettistä näytettä;
Malli tukee useita kieliä, mukaan lukien englanti, ranska, saksa, hindi, italia, portugali, espanja ja thai.

Kuvan lähde: https://x.com/iScienceLuvr/status/1815519917715730702

Vaikka vuotanut Github-linkki on tällä hetkellä 404, jotkut nettimiehet ovat antaneet latauslinkin (mutta turvallisuuden vuoksi suositellaan odottamaan virallista kanavailmoitusta tänä iltana):

Tämä on kuitenkin suuri malli, jonka mittakaava on satoja miljardeja, joten varaa riittävästi kiintolevytilaa ennen lataamista:

Seuraavassa on Llama 3.1 -mallikortin tärkeä sisältö:

Mallin perustiedot

Meta Llama 3.1 Multilingual Large Language Model (LLM) -kokonaisuus on joukko esikoulutettuja ja ohjeiden mukaan hienosäädettyjä generatiivisia malleja, joiden koko on 8B, 70B ja 405B (tekstinsyöttö/tekstin tulostus). Llama 3.1 -komennolla hienosäädetyt tekstimallit (8B, 70B, 405B) on optimoitu monikielisiin keskusteluihin, ja ne ovat tehokkaampia kuin monet avoimen lähdekoodin ja suljetun lähdekoodin chat-mallit yleisissä alan vertailuissa.

Malliarkkitehtuuri: Llama 3.1 on optimoitu Transformer-arkkitehtuurin autoregressiivinen kielimalli. Hienosäädetty versio käyttää SFT:tä ja RLHF:ää käytettävyys- ja suojausasetusten kohdistamiseen.

Tuetut kielet: englanti, saksa, ranska, italia, portugali, hindi, espanja ja thai.

Mallikortin tiedoista voidaan päätellä, ettäLlama 3.1 -sarjan mallien kontekstipituus on 128 kt . Kaikissa malliversioissa käytetään GQA (Grouped Query Attention) -toimintoa päätelmien skaalautuvuuden parantamiseksi.

odotettu käyttö

Käyttötarkoitukset. Llama 3.1 on tarkoitettu käytettäväksi monikielisissä yrityssovelluksissa ja tutkimuksessa. Ohjeistetut tekstimallit sopivat assistentin kaltaiseen chattiin, kun taas valmiiksi koulutetut mallit voidaan mukauttaa erilaisiin luonnollisen kielen luontitehtäviin.

Llama 3.1 -mallisarja tukee myös kykyä hyödyntää mallitulostaan muiden mallien parantamiseksi, mukaan lukien synteettisen tiedon luominen ja tislaus. Llama 3.1 -yhteisölisenssi sallii nämä käyttötapaukset.

Llama 3.1 harjoittelee useammilla kielillä kuin 8 tuettua kieltä. Kehittäjät voivat hienosäätää Llama 3.1 -malleja muille kielille kuin kahdeksalle tuetulle kielelle edellyttäen, että ne noudattavat Llama 3.1 -yhteisön lisenssisopimusta ja hyväksyttävän käytön käytäntöä, ja ovat tällaisissa tapauksissa vastuussa siitä, että muita kieliä käytetään turvallisella ja vastuullisella tavalla Kielilaama 3.1.

Ohjelmisto- ja laitteistoinfrastruktuuri

Ensimmäinen on koulutuselementti, Llama 3.1 käyttää mukautettua koulutuskirjastoa, Metan räätälöityä GPU-klusteria ja tuotantoinfrastruktuuria esikoulutukseen. Se on myös hienosäädettävä, merkitty ja arvioitu tuotantoinfrastruktuurissa.

Toinen on harjoituksen energiankulutus Llama 3.1 -harjoittelussa käytetään yhteensä 39,3 M GPU-tuntia H100-80GB (TDP on 700W) tyyppisellä laitteistolla. Tässä harjoitusaika on GPU:n kokonaisaika, joka tarvitaan kunkin mallin harjoittamiseen, ja virrankulutus on kunkin GPU-laitteen huipputeho, joka on säädetty tehotehokkuuteen.

Koulutus kasvihuonekaasupäästöistä. Kasvihuonekaasujen kokonaispäästöt maantieteellisten vertailuarvojen perusteella Llama 3.1 -koulutusjakson aikana ovat arviolta 11 390 hiilidioksidiekvivalenttitonnia. Vuodesta 2020 lähtien Meta on säilyttänyt kasvihuonekaasupäästöjen nettonolla kaikissa globaaleissa toiminnoissaan ja kohdistanut sähkönkulutuksestaan 100 % uusiutuvaan energiaan, mikä on johtanut markkinaehtoisten kasvihuonekaasupäästöjen kokonaismäärään 0 tonnia CO2e koulutusjakson aikana .

Koulutuksen energiankäytön ja kasvihuonekaasupäästöjen määrittämiseen käytetyt menetelmät löytyvät seuraavasta artikkelista. Koska Meta julkaisee nämä mallit julkisesti, muiden ei tarvitse kantaa koulutuksen energiankäytön ja kasvihuonekaasupäästöjen taakkaa.

Paperiosoite: https://arxiv.org/pdf/2204.05149

harjoitustiedot

Yleiskatsaus: Llama 3.1 on esikoulutettu käyttäen noin 15 biljoonaa token-dataa julkisista lähteistä. Hienosäätödata sisältää julkisesti saatavilla olevia käskytietojoukkoja ja yli 25 miljoonaa synteettisesti luotua esimerkkiä.

Datan tuoreus: Koulutusta edeltävän datan määräaika on joulukuu 2023.

Vertailupisteet

Tässä osiossa Meta raportoi Llama 3.1 -mallin pisteytystulokset annotaatiovertailulla. Kaikissa arvioinneissa Meta käyttää sisäisiä arviointikirjastoja.

Turvallisuusriskit

Llama-tutkimusryhmä on sitoutunut tarjoamaan tutkimusyhteisölle arvokkaita resursseja turvallisen hienosäädön kestävyyden tutkimiseen ja tarjoamaan kehittäjille turvallisia ja kestäviä valmiita malleja erilaisiin sovelluksiin, mikä vähentää turvallista tekoälyä käyttävien kehittäjien työtä. järjestelmien määrä.

Tutkimusryhmä käytti monitahoista tiedonkeruumenetelmää, joka yhdisti ihmisten tuottamat tiedot toimittajilta synteettiseen tietoon mahdollisten turvallisuusriskien vähentämiseksi. Tutkimusryhmä kehitti useita suuriin kielimalleihin (LLM) perustuvia luokittimia valitakseen harkitusti korkealaatuisia kehotteita ja vastauksia, mikä tehostaa tietojen laadun valvontaa.

On syytä mainita, että Llama 3.1 pitää erittäin tärkeänä mallin hyvänlaatuisten kehotteiden ja hylkäysäänen hylkäämistä. Tutkimusryhmä otti rajakehotteet ja kontradiktoriset kehotteet tietoturvatietokäytäntöön ja muokkasi tietoturvatietovastausta ääniohjeiden mukaiseksi.

Llama 3.1 -mallia ei ole suunniteltu käytettäväksi itsenäisenä, vaan se tulee ottaa käyttöön osana yleistä tekoälyjärjestelmää, ja tarvittaessa on lisättävä "turvakaiteet". Kehittäjien tulee ottaa käyttöön järjestelmän suojaustoimenpiteitä rakentaessaan agenttijärjestelmiä.

Huomaa, että tämä julkaisu sisältää uusia ominaisuuksia, kuten pidemmät kontekstiikkunat, monikielisen syöttö- ja tulosteen sekä mahdollisen kehittäjien integroinnin kolmannen osapuolen työkaluihin. Kun rakennat näillä uusilla ominaisuuksilla, sen lisäksi, että harkitset parhaita käytäntöjä, jotka yleensä koskevat kaikkia generatiivisia tekoälyn käyttötapauksia, sinun on kiinnitettävä erityistä huomiota myös seuraaviin seikkoihin:

Työkalun käyttö: Kuten tavallisen ohjelmistokehityksen yhteydessä, kehittäjät ovat vastuussa LLM:n integroimisesta valitsemiinsa työkaluihin ja palveluihin. Heidän tulee kehittää selkeät käytännöt käyttötapauksilleen ja arvioida käyttämiensä kolmannen osapuolen palveluiden eheys ymmärtääkseen turvallisuuden ja turvallisuuden rajoitukset, kun he käyttävät tätä toimintoa.

Monikielinen: Lama 3.1 tukee 7 kieltä englannin lisäksi: ranska, saksa, hindi, italia, portugali, espanja ja thai. Llama saattaa pystyä tulostamaan tekstiä muilla kielillä, mutta tämä teksti ei välttämättä täytä suojauksen ja avun suorituskyvyn kynnysarvoja.

Llama 3.1:n perusarvot ovat avoimuus, osallistaminen ja auttavaisuus. Se on suunniteltu palvelemaan kaikkia ja sopii monenlaisiin käyttötarkoituksiin. Siksi Llama 3.1 on suunniteltu kaikkien taustojen, kokemusten ja näkökulmien ulottuville. Llama 3.1 keskittyy käyttäjiin ja heidän tarpeisiinsa lisäämättä tarpeettomia tuomioita tai normeja, mutta heijastelee myös sitä, että jopa joissain yhteyksissä ongelmalliselta näyttävä sisältö voi olla hyödyllistä toisissa. Llama 3.1 kunnioittaa kaikkien käyttäjien ihmisarvoa ja autonomiaa ja kunnioittaa erityisesti vapaan ajattelun ja ilmaisun arvoja, jotka ruokkivat innovaatioita ja edistystä.

Mutta Llama 3.1 on uusi tekniikka, ja kuten minkä tahansa uuden tekniikan, sen käyttöön liittyy riskejä. Tähän mennessä suoritetut testaukset eivät ole eivätkä voi kattaa kaikkia tilanteita. Siksi, kuten kaikki LLM:t, Llama 3.1:n mahdollisia tuotoksia ei voida ennustaa etukäteen, ja joissain tapauksissa malli voi vastata käyttäjän kehotteisiin epätarkasti, puolueellisesti tai muuten vastenmielisesti. Siksi ennen minkään Llama 3.1 -mallin sovelluksen käyttöönottoa kehittäjien tulee suorittaa tietoturvatestaus ja hienosäätö mallin erityissovellusta varten.

Mallikortin lähde: https://pastebin.com/9jGkYbXY

Viitetiedot: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

uutiset

GPT4o-tason avoimen lähdekoodin mallin lisäksi vuotanut Llama 3.1: 405 miljardia parametria, latauslinkki on saatavilla

Johdanto

yhteystietoni