Avoin lähdekoodi = tehokkain malli! Llama3.1 julkaistu, 405B ylittää suljetun lähdekoodin GPT-4o, Zuckerberg: vedenjakaja moment

Avoin lähdekoodi = tehokkain malli! Llama 3.1 julkaistu, 405B ylittää suljetun lähdekoodin GPT-4o:n, Zuckerberg: vedenjakaja

2024-07-24

Baijiao tulee Aofein temppelistä

Qubits |. Julkinen tili QbitAI

LIama 3.1Virallisesti julkaistu, nousemassa suurten mallien valtaistuimelle!

Yli 150 vertailutestisarjassa version 405B suorituskyky vastaa tai jopa ylittää olemassa olevat SOTA-mallit.GPT-4oja Claude 3.5 Sonetti.

Toisin sanoen tällä kertaaVahvin avoimen lähdekoodin malli on vahvin malli。

Ennen tätä Llama 3.1 on paljastunut ja vuotanut monta kertaa, ja nyt voidaan sanoa, että se on odottanut pitkään.

Tästä päivästä alkaen mallia voi ladata ja käyttää virallisilla verkkosivuilla ja Meta AI -sovellusta voi kokeilla verkossa.

Tutkimusyhteisö arvostaa vielä enemmän, että on julkaistu lähes 100 sivua yksityiskohtaisia artikkeleita, jotka kattavat kaiken Llama 3.1:n luomisprosessissa: esikoulutustiedot, suodatus, hehkutus, synteettiset tiedot, skaalauslait, infrastruktuuri, rinnakkaisuus, koulutus reseptit, koulutuksen jälkeinen mukauttaminen , työkalujen käyttö, benchmarking, päättelystrategiat, kvantifiointi, visio, ääni, video...

HuggingFacen johtava tutkija kehui: Jos aloitat isojen mallien tutkimisen alusta alkaen, aloita tämän artikkelin lukeminen.

Xiao ZhaZuckerbergHän pilkkasi sitä myös viimeisimmässä Bloomberg-haastattelussaan.OpenAI。

Altmanin johtajuus on kiitettävää, mutta on hieman ironista, että OpenAI-nimisestä yrityksestä on tullut johtava suljettujen tekoälymallien rakentaja.

Xiao Zha kirjoitti myös pitkän artikkelin erityisesti tätä varten:Avoimen lähdekoodin tekoäly on tie eteenpäin。

Aiemmin avoimen lähdekoodin mallit jäivät enimmäkseen suljetun lähdekoodin malleista suorituskyvyn, toiminnallisuuden jne. suhteen, mutta nyt:

Aivan kuten avoimen lähdekoodin Linux, se on eronnut suljetun lähdekoodin järjestelmistä ja saavuttanut suosiota, kehittyen vähitellen edistyneemmäksi ja turvallisemmaksi, ja sillä on laajempi ekosysteemi kuin suljetun lähdekoodin järjestelmät.

Uskon, että Llama 3.1 tulee olemaan käännekohta alalla.

Tähän mennessä kaikkien Llama-versioiden kokonaislataukset ovat ylittäneet 300 miljoonaa kertaa, ja Meta esittää myös rohkeita väitteitä:

Tämä on vasta alkua.

Suuret pilvitoimittajat ovat myös käynnistäneet tuen Llama 3.1:lle mahdollisimman pian, ja hinta on Jiang-tädin hinta:

LIama 3.1 julkaistiin virallisesti

Katsotaanpa ensin mallin ominaisuuksia.

Llama 3.1 laajentaa kontekstin pituuden 128 kt:iin ja lisää tuen kahdeksalle kielelle.

Niiden joukossa Super Large Cup 405B -versio on sitonut ja ohittanut nykyiset huippumallit terveen järjen, ohjattavuuden, matematiikan, työkalujen käytön ja monikielisten käännösominaisuuksien suhteen.

Lisäksi 8B- ja 70B-malleista on julkaistu myös päivitettyjä versioita, joiden ominaisuudet ovat periaatteessa samat kuin samoilla parametreilla olevilla huippumalleilla.

Katsotaanpa uudestaanMallin arkkitehtuuri。

Virallisen esittelyn mukaan Llama 3.1 405B -mallin kouluttaminen yli 15 biljoonalla tokenilla on melkoinen haaste.

Tätä varten he optimoivat merkittävästi koko koulutuspinon ja laajensivat mallin laskentatehon asteikon yli 16 000 H100 GPU:hun ensimmäistä kertaa.

Tarkemmin sanottuna se käyttää edelleen vain tavallista dekooderiaMuuntajaarkkitehtuuri ja tehdä joitakin pieniä muutoksia ja ottaa käyttöön iteratiivinen post-traing prosessi, jossa SFT (valvottu hienosäätö) ja DPO (suora preferenssin optimointi) parantaa kunkin ominaisuuden suorituskykyä.

Verrattuna aikaisempiin Llaman versioihin ne ovat parantaneet esi- ja jälkikoulutuksessa käytetyn tiedon määrää ja laatua.

Tukeakseen 405B-koon mallien massatuotannon päättelyä Meta kvantisoi mallin 16-bittisistä (BF16) 8-bittisistä (FP8) arvoista, mikä vähentää tehokkaasti vaadittuja laskentavaatimuksia ja salli mallin toimia yhdessä palvelinsolmussa.

olla olemassaOhjeiden hienosäätöToisaalta Meta parantaa myös mallin kykyä reagoida käyttäjän ohjeisiin ja parantaa sen kykyä noudattaa yksityiskohtaisia ohjeita turvallisuuden varmistamiseksi.

Harjoittelun jälkeisessä vaiheessa Meta suorittaa useita kohdistuskierroksia esikoulutetun mallin perusteella.

Jokainen kierros sisältää valvotun hienosäädön (SFT), hylkäysnäytteenoton (RS) ja Direct Preference Optimization (DPO).

He loivat suurimman osan SFT-esimerkeistä käyttämällä synteettistä dataa ja toistivat useita kertoja.

Lisäksi käytetään erilaisia tietojenkäsittelytekniikoita näiden synteettisten tietojen suodattamiseksi korkeimpaan laatuun.

Yhteensä 15T tokenia puhdistetaan ja suodatetaan Llama 2 -mallilla, kun taas koodiin ja matematiikkaan liittyvät tiedonkäsittelyputket hyödyntävät pääosin Deepseekin menetelmiä.

Kehotussanojen mukaisen alkeellisimman vastauksen lisäksi Meta-virkailijat sanoivat, että kuka tahansa tavallinen kehittäjä voi käyttää sitä edistyneisiin asioihin, kuten:

Reaaliaikainen ja eräpäätelmä

Valvo hienosäätöä

Arvioi malleja tiettyjä sovelluksia varten

Jatkuva esikoulutus

Retrieval Augmented Generation (RAG)

toimintokutsu

Synteettinen tiedon tuottaminen

Ja tämän takana on vahvojen ekologisten kumppanien tuki.

Xiao Zha kirjoittaa pitkän artikkelin: Avoimen lähdekoodin tekoäly on tie eteenpäin

(Seuraava on Big Modelin kääntämä ja pääsisältö on purettu. Jos puutteita tai virheitä on, korjaa ne!)

Tehokkaan tietojenkäsittelyn alkuaikoina suuret teknologiayritykset investoivat voimakkaasti omien Unixin suljetun lähdekoodin versioiden kehittämiseen. Tuolloin oli vaikea kuvitella, että näin kehittyneitä ohjelmistoja voitaisiin tuottaa millään muulla tavalla kuin suljetun lähdekoodin avulla. Avoimen lähdekoodin Linux-käyttöjärjestelmä saavutti kuitenkin lopulta laajan suosion – alun perin koska se antoi kehittäjille mahdollisuuden muokata koodia vapaasti ja halvemmalla ajan mittaan, Linuxista ei tullut vain edistyneempää ja turvallisempaa, vaan se myös rakensi laajemman ekosysteemin kuin mikään suljetun lähdekoodin Unix; järjestelmä, joka tukee enemmän ominaisuuksia.Nykyään Linuxista on tullutpilvilaskentaja alan standardiperusta useimmille mobiililaitteiden käyttöjärjestelmille, minkä ansiosta me kaikki nautimme paremmista tuotteista.

Uskon, että tekoäly kehittyy samalla tavalla . Nykyään useat teknologiayritykset kehittävät johtavia suljetun lähdekoodin malleja. Mutta avoin lähdekoodi umpeutuu nopeasti. Viime vuonna Llama 2 oli verrattavissa vain sukupolven jäljessä oleviin malleihin. Tänä vuonna Llama 3 kilpailee edistyneimpien mallien kanssa ja johtaa joillakin alueilla. Ensi vuodesta alkaen odotamme tulevien Llama-mallien olevan alan edistyneimpiä. Mutta jo ennen sitä Llama oli edelläkävijä avoimuudessa, muunneltavuudessa ja kustannustehokkuudessa.

Tänään ollaan menossa kohti"Avoimen lähdekoodin tekoälystä tulee alan standardi" suunta. Julkaisimme Llama 3.1 405B:n, ensimmäisen huippuluokan avoimen lähdekoodin tekoälymallin, sekä parannetut Llama 3.1 70B- ja 8B -mallit. Sen lisäksi, että 405B-mallin avoimuus on huomattavasti parempi kustannus/suorituskykysuhde verrattuna suljetun lähdekoodin malleihin, se tekee siitä parhaan vaihtoehdon pienempien mallien hienosäätöön ja tislaamiseen.

Näiden mallien julkaisemisen lisäksi teemme yhteistyötä useiden yritysten kanssa laajentaaksemme laajempaa ekosysteemiä. Amazon, Databricks ja Nvidia lanseeraavat palvelusarjan, jonka avulla kehittäjät voivat hienosäätää ja tislata omia mallejaan. Innovaattorit, kuten Groq, ovat rakentaneet alhaisen latenssin ja edulliset päättelypalvelut kaikille uusille malleille. Nämä mallit ovat saatavilla kaikille tärkeimmille pilvialustoille, mukaan lukien AWS, Azure, Google, Oracle ja monet muut. Yritykset, kuten Scale.AI, Dell, Deloitte ja muut, ovat valmiita auttamaan yrityksiä ottamaan käyttöön Llaman ja kouluttamaan mukautettuja malleja omilla tiedoillaan. Yhteisön kasvaessa ja yhä useammat yritykset kehittävät uusia palveluita, voimme yhdessä tehdä Llamasta alan standardin, joka tuo tekoälyn edut kaikille.

Meta on omistettu avoimen lähdekoodin tekoälylle. Kerron, miksi mielestäni avoin lähdekoodi on paras kehityspino, miksi avoimen lähdekoodin Llama on hyvä Metalle ja miksi avoimen lähdekoodin tekoäly on hyvä maailmalle ja siksi pitkällä aikavälillä kestävä alusta.

Miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille

Kun puhun kehittäjien, toimitusjohtajien ja virkamiesten kanssa ympäri maailmaa, kuulen tyypillisesti muutaman teeman:

Meidän täytyy kouluttaa, hienosäätää ja tislata omia mallejamme . . Jokaisella organisaatiolla on omat ainutlaatuiset tarpeet, ja se soveltuu parhaiten käyttämään erikokoisia malleja, joita voidaan kouluttaa tai hienosäätää omien tietojensa perusteella. Laitteessa oleviin tehtäviin ja luokitustehtäviin pienet mallit riittävät monimutkaisempiin tehtäviin, tarvitaan suuria malleja. Nyt voit hyödyntää huippuluokan Llama-malleja, jatkaa niiden kouluttamista omilla tiedoillasi ja sitten tislata ne tarpeitasi parhaiten vastaavaan mallikokoon - antamatta meidän tai kenenkään muun nähdä tietojasi.

Meidän täytyy hallita omaa kohtaloamme, emmekä saa olla lukittuina suljetun lähdekoodin toimittajiin . Monet organisaatiot eivät halua luottaa malliin, jota he eivät voi johtaa ja hallita itse. He eivät halua, että suljetun lähdekoodin mallintarjoaja voi muuttaa mallia, muokata käyttöehtoja tai jopa lopettaa palvelun kokonaan. He eivät myöskään halua rajoittua mallien yksinomaiseen käyttöön vain yhdellä pilvialustalla. Avoimen lähdekoodin avulla laaja ekosysteemi yrityksiä voi käyttää yhteensopivia työkaluketjuja, jolloin voit helposti siirtyä niiden välillä.

Meidän on pidettävä tietomme turvassa . Monet organisaatiot käsittelevät arkaluontoisia tietoja, jotka on suojattava ja joita ei voida lähettää pilvisovellusliittymien kautta suljetun lähdekoodin mallissa. On myös organisaatioita, jotka eivät yksinkertaisesti luota tietoihinsa suljetun lähdekoodin mallien tarjoajiin. Avoin lähdekoodi ratkaisee nämä ongelmat sallimalla sinun käyttää malleja missä tahansa. On yleinen käsitys, että avoimen lähdekoodin ohjelmistot ovat yleensä turvallisempia, koska niiden kehitysprosessi on läpinäkyvämpi.

Tarvitsemme mallin, joka toimii tehokkaasti ja on edullinen . Kehittäjät voivat suorittaa Llama 3.1 405B -päätelmiä omassa infrastruktuurissaan, joko käyttäjäkohtaisia tai offline-johtotehtäviä varten, noin puolet suljetun lähdekoodin mallien, kuten GPT-4o:n, käytön kustannuksista.

Haluamme investoida ekosysteemeihin, joista tulee pitkän aikavälin standardeja . Monet ihmiset näkevät avoimen lähdekoodin liikkuvan nopeammin kuin suljetun lähdekoodin mallit, ja he haluavat rakentaa järjestelmänsä arkkitehtuurille, joka antaa heille suurimman pitkän aikavälin edun.

Miksi avoimen lähdekoodin tekoäly on hyvä Metalle

Metan liiketoimintamallina on luoda ihmisille parhaita kokemuksia ja palveluita. Tätä varten meidän on varmistettava, että meillä on aina pääsy parhaimpaan teknologiaan, emmekä ole lukittuina kilpailijoiden suljetun lähdekoodin ekosysteemeihin, mikä rajoittaa kykyämme innovoida.

Yksi tärkeimmistä kokemuksistani oli, että palveluitamme rajoittivat Applen rajoitukset sille, mitä voimme rakentaa heidän alustalleen. Tapa, jolla he verottavat kehittäjiä, sääntöjä, joita he soveltavat satunnaisesti, kaikkiin tuoteinnovaatioihin, joita he estävät julkaisemasta, on selvää, että jos pystymme rakentamaan parhaat versiot tuotteistamme, eivätkä kilpailijat voi rajoittaa innovaatioitamme, Meta ja monet muut yritykset voivat tarjota parempia palveluja ihmisille. Filosofisesti tämä on tärkein syy siihen, miksi uskon vahvasti avoimen ekosysteemin rakentamiseen seuraavan sukupolven tietojenkäsittelyä varten tekoälyssä ja AR/VR:ssä.

Ihmiset kysyvät minulta usein, olenko huolissani luopuvani teknisistä eduista avoimen Llaman kautta, mutta mielestäni tämä jättää huomiotta suuremman kuvan useista syistä:

Ensinnäkin varmistaaksemme, että meillä on pääsy parhaaseen teknologiaan emmekä ole pitkällä aikavälillä lukittuneena suljetun lähdekoodin ekosysteemiin, Llaman on kehitettävä täydellinen työkaluekosysteemi, mukaan lukien tehokkuuden parannukset, silikonin optimointi ja muut integraatiot. Jos olisimme ainoa Llamaa käyttävä yritys, ekosysteemi ei kasvaisi emmekä toimisi paremmin kuin Unixin suljetun lähdekoodin versiot.

Toiseksi odotan tekoälyn kehityksen jatkuvan erittäin kilpailukykyisenä, mikä tarkoittaa, että avoimen lähdekoodin käyttäminen minkään tietyn mallin ei anna suurempaa etua kuin tuolloin seuraavaksi paras malli. Llaman tie alan standardiksi on jatkamalla kilpailukyvyn, tehokkuuden ja avoimuuden säilyttämistä sukupolvelta toiselle kehittyen.

Kolmanneksi keskeinen ero Meta- ja suljetun lähdekoodin mallien tarjoajien välillä on se, että tekoälymallien käyttöoikeuden myyminen ei ole liiketoimintamallimme. Tämä tarkoittaa, että Llaman julkistaminen ei heikennä tulojamme, kestävyyttämme tai kykyämme investoida tutkimukseen, mikä ei pidä paikkaansa suljetun lähdekoodin tarjoajien tapauksessa.

Lopuksi Metalla on pitkä historia avoimen lähdekoodin projekteista ja menestyksestä. Olemme säästäneet miljardeja dollareita Open Compute -projektin kautta julkaisemalla palvelin-, verkko- ja datakeskusten malleja ja antamalla toimitusketjun standardoida suunnitelmiamme. Hyödymme ekosysteemiinnovaatioista avoimen lähdekoodin johtavien työkalujen, kuten PyTorchin, Reactin ja muiden, avulla. Tämä lähestymistapa on aina toiminut meillä pitkällä aikavälillä.

Miksi avoimen lähdekoodin tekoäly on hyväksi maailmalle

Uskon, että avoin lähdekoodi on ratkaisevan tärkeä positiivisen tekoälyn tulevaisuuden saavuttamiseksi. Tekoälyllä on suurempi potentiaali kuin millään muulla nykyaikaisella tekniikalla parantaa ihmisten tuottavuutta, luovuutta ja elämänlaatua – ja nopeuttaa talouskasvua samalla kun se edistää lääketieteen ja tieteellisen tutkimuksen kehitystä. Avoimen lähdekoodin avulla varmistetaan, että yhä useammat ihmiset ympäri maailmaa pääsevät hyödyntämään tekoälyn etuja ja mahdollisuuksia, valtaa ei keskity muutaman yrityksen käsiin ja teknologiaa voidaan levittää tasaisemmin ja turvallisemmin kaikkialla yhteiskunnassa.

Avoimen lähdekoodin tekoälymallien turvallisuudesta käydään jatkuvaa keskustelua, ja näkemykseni on, että avoimen lähdekoodin tekoäly on vaihtoehtoja turvallisempi.

Ymmärrän turvallisuuskehyksen olevan se, että meidän on suojauduttava kahdentyyppisiltä haitoilta: tahattomalta ja tahalliselta haitalta. Tahaton vahinko on silloin, kun tekoälyjärjestelmä voi aiheuttaa vahinkoa, vaikka sitä käyttävä henkilö ei olisi aikonut tehdä niin. Esimerkiksi nykyaikaiset tekoälymallit voivat vahingossa antaa huonoja terveysneuvoja. Tai futuristisemmassa skenaariossa jotkut ovat huolissaan siitä, että mallit voivat vahingossa toistaa itseään tai optimoida tavoitteita liikaa ihmisten vahingoksi. Tahallinen vahinko on sitä, kun huono näyttelijä käyttää tekoälymallia tarkoituksenaan aiheuttaa vahinkoa.

On syytä huomata, että tahattomat vahingot kattavat suurimman osan ihmisten huolista tekoälystä – siitä, millainen vaikutus tekoälyjärjestelmillä on miljardeihin niitä käyttäviin ihmisiin, useimpiin scifi-skenaarioihin, jotka ovat todella katastrofaalisia ihmiskunnalle. Tässä suhteessa avoimen lähdekoodin pitäisi olla turvallisempi, koska järjestelmä on läpinäkyvämpi ja sitä voidaan tarkastella laajasti. Historiallisesti avoimen lähdekoodin ohjelmistot ovat siksi olleet turvallisempia. Samoin Llaman ja sen turvajärjestelmien, kuten Llama Guard, käyttö on todennäköisesti turvallisempaa ja luotettavampaa kuin suljetun lähdekoodin malli. Tämän seurauksena useimmat keskustelut avoimen lähdekoodin tekoälyn turvallisuudesta keskittyvät tahalliseen vahingoittamiseen.

Turvallisuusprosessiimme kuuluu tiukka testaus ja punaiset ryhmät arvioimaan malliemme kykyä aiheuttaa merkittävää haittaa tavoitteenaan vähentää riskiä ennen julkaisua. Koska malli on avoin, kuka tahansa voi testata sitä itse. Meidän on muistettava, että nämä mallit on koulutettu tietoon, joka on jo verkossa, joten haittoja pohdittaessa tulee lähtökohtana olla, voiko malli aiheuttaa enemmän haittaa kuin Googlesta tai muista hakutuloksista nopeasti haettavissa oleva tieto.

Kun pohdit tulevaisuuden mahdollisuuksia, muista, että suurin osa nykyajan johtavista teknologiayrityksistä ja tieteellisestä tutkimuksesta on rakennettu avoimen lähdekoodin ohjelmistoille. Jos investoimme yhdessä, seuraavan sukupolven yritykset ja tutkimus käyttävät avoimen lähdekoodin tekoälyä.

Mikä tärkeintä, avoimen lähdekoodin tekoäly edustaa maailman parasta mahdollisuutta hyödyntää tätä tekniikkaa taloudellisen mahdollisuuden ja turvallisuuden maksimoimiseksi kaikille.

rakentakaamme yhdessä

Kuten aiemmissa Llama-malleissa, Meta kehitti ja julkaisi itsensä kiinnittämättä paljon huomiota laajemman ekosysteemin rakentamiseen. Otimme tämän lanseerauksen yhteydessä erilaisen lähestymistavan. Rakennamme tiimiä sisäisesti, jotta Llama olisi mahdollisimman monen kehittäjän ja kumppanin saatavilla, ja rakennamme myös aktiivisesti kumppanuuksia, jotta useammat ekosysteemin yritykset voivat tarjota asiakkailleen ainutlaatuisia ominaisuuksia.

minä uskonLlama 3.1:n julkaisu tulee olemaan käännekohta teollisuudelle , useimmat kehittäjät alkavat käyttää ensisijaisesti avointa lähdekoodia, ja odotan tämän lähestymistavan vain kasvavan tästä eteenpäin. Toivon, että liityt kanssamme matkallemme tuodaksemme tekoälyn edut kaikille maailmassa.

Linkki viimeisimpään haastatteluun:

https://x.com/rowancheung/status/1815763595197616155

Viitelinkit:

[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

[2]https://ai.meta.com/blog/meta-llama-3-1/

uutiset

Avoin lähdekoodi = tehokkain malli! Llama 3.1 julkaistu, 405B ylittää suljetun lähdekoodin GPT-4o:n, Zuckerberg: vedenjakaja

LIama 3.1 julkaistiin virallisesti

Xiao Zha kirjoittaa pitkän artikkelin: Avoimen lähdekoodin tekoäly on tie eteenpäin

Johdanto

yhteystietoni