Vahvin malli Llama 3.1 405B on virallisesti julkaistu, Zuckerberg: Avoin lähdekoodi johtaa uuteen aikakauteen

2024-07-24

Koneen sydänraportti

Machine Heart -toimitusosasto

Juuri nyt kauan odotettu Llama 3.1 on virallisesti julkaistu!

Meta julkaisi virallisesti äänen, jonka mukaan "avoin lähdekoodi johtaa uuteen aikakauteen".

Virallisessa blogissa Meta sanoi: "Tähän päivään asti avoimen lähdekoodin suuret kielimallit ovat toiminnallisesti ja suorituskyvyltään enimmäkseen jääneet suljetuista malleista. Nyt aloitamme uuden aikakauden avoimen lähdekoodin johdolla. Olemme julkaisseet Meta Llaman. 3.1 405B Uskomme, että se on maailman suurin ja tehokkain avoimen lähdekoodin perusmalli, jolla on tähän mennessä yli 300 miljoonaa latausta kaikista Llama-versioista, ja olemme vasta aloittamassa.

Metan perustaja ja toimitusjohtaja Zuckerberg kirjoitti myös henkilökohtaisesti pitkän artikkelin "Open Source AI Is the Path Forward", joka selittää, miksi avoin lähdekoodi on hyvä asia kaikille kehittäjille, Metalle ja maailmalle.

Tämän julkaisun kohokohtia ovat:

Uusin mallisarja laajentaa kontekstin pituuden 128 kt:iin, lisää tuen kahdeksalle kielelle ja sisältää huippuluokan avoimen lähdekoodin mallin Llama 3.1 405B;
Llama 3.1 405B on omaa sarjaansa, ja Meta sanoo virallisesti olevansa parhaiden suljetun lähdekoodin mallien tasolla;
Tämä julkaisu sisältää myös lisää komponentteja (mukaan lukien referenssijärjestelmät), joita käytetään mallin kanssa Llaman rakentamiseen järjestelmänä;
Käyttäjät voivat kokea Llama 3.1 405B:n WhatsAppin ja meta.ai:n kautta.

Osoite: https://llama.meta.com/

Verkkokäyttäjät voivat ladata sen ja kokeilla sitä.

Laama 3.1 Johdanto

Llama 3.1 405B on ensimmäinen julkisesti saatavilla oleva malli, joka kilpailee parhaiden tekoälymallien kanssa terveen järjen, manipuloitavuuden, matematiikan, työkalujen käytön ja monikielisen käännöksen suhteen.

Meta sanoo, että Llaman uusin sukupolvi inspiroi uusia sovelluksia ja mallinnusparadigmoja, mukaan lukien synteettisen datan generoinnin hyödyntäminen pienempien mallien tehostamiseksi ja kouluttamiseksi sekä mallien tislaus – ominaisuus, jota ei ole koskaan aiemmin saavutettu avoimessa lähdekoodissa.

Samaan aikaan Meta julkaisi myös päivitetyt versiot 8B- ja 70B-malleista, jotka tukevat useita kieliä, joiden kontekstipituus on 128 kt ja vahvemmat päättelyominaisuudet. Uusimmat mallit tukevat edistyneitä käyttötapauksia, kuten pitkän muodon tekstin yhteenvetoa, monikielisiä keskusteluagentteja ja koodausavustajia.

Esimerkiksi Llama 3.1 voi kääntää tarinoita espanjaksi:

Kun käyttäjä kysyy: "On olemassa 3 paitaa, 5 paria shortseja ja 1 mekko. Oletetaan, että aiot matkustaa 10 päiväksi. Ovatko vaatteet tarpeeksi valmiita?"

Pitkä konteksti: Ladattujen asiakirjojen osalta Llama 3.1 pystyy analysoimaan ja tekemään yhteenvedon suurista dokumenteista, joissa on jopa 8 000 tokenia.

Coding Assistant voi käyttäjien tarpeisiin kirjoittaa nopeasti koodia:

Lisäksi Llama 3.1 405B:n kehittäjä twiittasi myös "spoilerin" sanoen, että GPT-4o:n kaltaisen ääni- ja visuaalisia ominaisuuksia yhdistävän mallin kehitys on vielä kesken.

Meta on myös tehnyt muutoksia avoimen lähdekoodin lisenssiin, jotta kehittäjät voivat käyttää Llama-mallien (mukaan lukien 405B) tuotoksia muiden mallien parantamiseen. Lisäksi avoimen lähdekoodin sitoumustensa mukaisesti Meta tarjoaa tästä päivästä alkaen nämä mallit yhteisön saataville ladattavaksi osoitteesta llama.meta.com ja Hugging Face.

lataa linkki:

https://huggingface.co/meta-llama
https://llama.meta.com/

Mallin arviointi

Meta arvioidaan yli 150 vertailutietojoukossa laajan ihmisen arvioinnin lisäksi.

Kokeelliset tulokset osoittavat, että lippulaivamalli Llama 3.1 405B on kilpailukykyinen johtavien perusmallien, kuten GPT-4, GPT-4o ja Claude 3.5 Sonnetin, kanssa useissa eri tehtävissä. Lisäksi pienet 8B- ja 70B-mallit ovat kilpailukykyisiä suljetun lähdekoodin ja avoimen lähdekoodin mallien kanssa, joilla on sama määrä parametreja.

Mallin arkkitehtuuri

Metan tähän mennessä suurimmana mallina Llama 3.1 405B:n kouluttaminen yli 15 biljoonalla rahakkeella on suuri haaste. Tämän mittakaavan harjoittelun mahdollistamiseksi Meta optimoi koko koulutuspinon ja harjoitteli yli 16 000 H100 GPU:lla, mikä teki tästä mallista ensimmäisen tässä mittakaavassa koulutetun Llama-mallin.

Tämän ongelman ratkaisemiseksi Meta teki seuraavat suunnitteluvalinnat keskittyen pitämään mallin kehitysprosessi skaalautuvana ja yksinkertaisena.

Harjoitteluvakauden maksimoimiseksi valittiin vakiodekooderin Transformer-malliarkkitehtuuri, jossa on vain pieniä muutoksia.
Käytetään jälkiiteraation harjoitusmenettelyä, jossa käytetään valvottua hienosäätöä ja suoraa preferenssien optimointia jokaisella kierroksella. Tämän ansiosta Meta voi luoda korkealaatuisinta synteettistä dataa jokaiselle kierrokselle ja parantaa jokaisen ominaisuuden suorituskykyä.

Verrattuna aikaisempiin Llaman versioihin Meta on parantanut esi- ja jälkikoulutuksessa käytetyn datan määrää ja laatua, kuten kehittänyt huolellisemman esikäsittely- ja hallintaprosessin esikoulutusta varten ja kehittänyt tiukempaa laadunvarmistusta. ja koulutuksen jälkeisten tietojen hallinta.

Kuten kielimallien skaalauslakien perusteella odotettiin, Metan uusi lippulaivamalli ylitti pienet mallit, jotka oli koulutettu samalla menettelyllä. Meta käyttää myös 405B-parametrimallia parantaakseen pienempien mallien harjoituksen jälkeistä laatua.

Tukeakseen 405B-mallin laajamittaista päättelytulosta Meta kvantisoi mallin 16 bitistä (BF16) 8 bittiin (FP8), mikä vähentää tehokkaasti vaadittuja laskentavaatimuksia ja salli mallin toimia yhdessä palvelinsolmussa.

Komento- ja chat-säädöt

Llama 3.1 405B pyrkii parantamaan mallien käyttökelpoisuutta, laatua ja yksityiskohtaista ohjeen seuraamista käyttäjän ohjeiden mukaisesti varmistaen samalla korkean turvallisuustason.

Koulutuksen jälkeisessä vaiheessa tutkimusryhmä rakensi lopullisen chat-mallin suorittamalla useita kohdistuskierroksia esikoulutetun mallin perusteella. Jokainen kierros sisältää valvotun hienosäädön (SFT), hylkäysnäytteenoton (RS) ja suoran preferenssin optimoinnin (DPO).

Tutkimusryhmä käyttää synteettistä tiedontuotantoa tuottaakseen suurimman osan SFT-esimerkeistä useilla iteraatioilla tuottaakseen yhä laadukkaampaa synteettistä dataa kaikista ominaisuuksista. Lisäksi tutkimusryhmä käytti useita tietojenkäsittelytekniikoita suodattaakseen nämä synteettiset tiedot korkeimpaan laatuun ja hienosäätääkseen datamäärää toiminnallisen skaalautuvuuden mukaan.

Laama järjestelmä

Llama-malli on aina ollut osa tekoälyjärjestelmää ja se voi koordinoida useita komponentteja, mukaan lukien ulkoisten työkalujen kutsuminen. Meta on suunniteltu menemään perusmallia pidemmälle ja antamaan kehittäjille joustavuutta suunnitella ja luoda räätälöityjä tuotteita, jotka sopivat heidän näkemykseensä.

Kehittääkseen tekoälyä vastuullisesti mallikerroksen ulkopuolelle Meta on julkaissut täydellisen viitejärjestelmän, joka sisältää useita esimerkkisovelluksia sekä uusia komponentteja, kuten Llama Guard 3, monikielinen suojausmalli ja Prompt Guard, nopea ruiskutussuodatin). Nämä esimerkkisovellukset ovat avoimen lähdekoodin, ja avoimen lähdekoodin yhteisö voi rakentaa ne.

Tehdäkseen laajempaa yhteistyötä teollisuuden, startup-yritysten ja avoimen lähdekoodin yhteisön kanssa ja auttaakseen määrittelemään paremmin komponenttien rajapintoja, Meta on julkaissut kommenttipyynnön "Llama Stackille" GitHubissa. Llama Stack on joukko standardoituja rajapintoja kanonisten työkaluketjukomponenttien (hienosäätö, synteettisten tietojen luominen) ja agenttisovellusten rakentamiseen. Tämä auttaa saavuttamaan yhteentoimivuuden helpommin.

Toisin kuin suljetut mallit, Llama-mallipainot ovat ladattavissa. Kehittäjät voivat mukauttaa mallin täysin tarpeisiinsa ja sovelluksiinsa, harjoitella uusia tietojoukkoja ja suorittaa muita hienosäätöjä.

Kehitetty Llama 3.1 405B:llä

Tavallisille kehittäjille suuren mittakaavan mallin, kuten 405B, käyttöönotto on epäilemättä haaste, ja se vaatii paljon laskentaresursseja ja ammattitaitoa. Kommunikoiessaan kehittäjäyhteisön kanssa Meta tajusi, että generatiivisen tekoälyn kehittäminen on enemmän kuin vain kehotteiden syöttämistä malliin. He odottavat kaikkien kehittäjien hyödyntävän täysin Llama 3.1 405B:n potentiaalia seuraavilla alueilla:

Reaaliaikainen ja eräpäätelmä
valvottua hienosäätöä
Testaa ja arvioi mallin suorituskykyä tietyissä sovelluksissa
Jatkuva esikoulutus
Retrieval Augmented Generation (RAG)
toimintokutsu
Synteettinen tiedon tuottaminen

Julkaisusta lähtien kaikki Llama 3.1 405B -mallin edistyneet ominaisuudet ovat kehittäjien käytettävissä, jotta he voivat aloittaa heti. Kehittäjät voivat myös tutkia korkeamman asteen työnkulkuja, kuten synteettisen tiedon generointia mallin tislaamiseen perustuen. Tässä päivityksessä Meta integroi saumattomasti myös kumppaneiden AWS:n, NVIDIA:n ja Databricksin tarjoamia ratkaisuja tehokkaamman haun lisäyksen generoinnin (RAG) saavuttamiseksi. Lisäksi Groq on optimoitu matalan viiveen päättelyä varten mallien käyttöönotossa pilvessä, ja vastaavia suorituskyvyn parannuksia on tehty paikallisiin järjestelmiin.

Meta on myös tällä kertaa sisäänrakennettu "työkalulahjapaketti" Llama 3.1 405B:lle, mukaan lukien avainprojektit, kuten vLLM, TensorRT ja PyTorch, mallinkehityksestä käyttöönottoon "pakkauksesta" yhdessä vaiheessa.

Viitelinkki: https://ai.meta.com/blog/meta-llama-3-1/

uutiset

Vahvin malli Llama 3.1 405B on virallisesti julkaistu, Zuckerberg: Avoin lähdekoodi johtaa uuteen aikakauteen

Johdanto

yhteystietoni