Llama 3.1 virallisesti julkaistu: 405 miljardin parametrin malli avoimen lähdekoodin, Xiao Zha: Suorita avoimen lähdekoodin loppuun asti

Llama 3.1 virallisesti julkaistu: 405 miljardin parametrin malli avoimen lähdekoodin Xiao Zha: Suorita avoin lähdekoodi loppuun asti

2024-07-24

Teksti |. Deng Yongyi ja Zhou Xinyu

Toimittaja｜ Su Jianxun

GPT-4o:n valtaistuin ei ole vielä lämmin, Xiao Zha johti avoimen lähdekoodin armeijaa ja ryntäsi sinne...

Kuten aiemmin huhuttiin, Meta julkaisi virallisesti Llama 3.1:n heinäkuun 23. päivänä Tyynenmeren aikaa Yhdysvalloissa. Tämä on tällä hetkellä laajimmin käytetty ja tehokkain suuri mallisarja avoimen lähdekoodin alalla.

Sattumalta päivää ennen sen julkaisua Llama 3.1 "vuotettiin" kehittäjäyhteisöön. Mallitietojen lisäksi se sisälsi myös magneettilinkin 405B-malliin.

Myös virallisesti julkaistu tieto Llama 3.1:stä on yhdenmukainen uutisen kanssa: kokoja on kolme: 8B, 70B ja 405B, ja kontekstin pituus on kasvatettu 128K.

Metan toimittamien vertailutestitietojen mukaan suosituin 405B (405 miljardia parametria) on jo suorituskyvyltään verrattavissa GPT-4:ään ja Claude 3.5:een.

△Vertailu GPT-4:ään ja Claude 3.5:een

Yishuin nykyisten huippumallien edessä Llama 3.1 ei pelkää:

△Vertailu suljetun lähdekoodin malliin

△Vertailu avoimen lähdekoodin malliin

Voidaan sanoa, että Llama 3.1:n julkaisu on kirjoittanut virstanpylvään viimeaikaisessa kovassa taistelussa avoimen lähdekoodin ja suljetun lähdekoodin reittien välillä: parhaat avoimen lähdekoodin mallit ovat todella yhdistäneet voimansa huippuluokan suljetun lähdekoodin mallien kanssa.

"Toistaiseksi avoimen lähdekoodin laajamittaiset kielimallit ovat jääneet toiminnallisuudeltaan ja suorituskyvyltään enimmäkseen jälkeen suljetuista malleista. Nyt aloitamme uuden aikakauden avoimen lähdekoodin johdolla."

△Tekoälypiirissä viime aikoina suosituksi tullut kuva, avoimen lähdekoodin malli ottaa kiinni suljetun lähdekoodin mallin

Meta liitti myös viralliseen julkaisuun 92-sivuisen paperin, joka paljastaa koulutustiedot:

Llama 3.1 koulutettiin yli 15 biljoonan tokenin tiedoilla käyttäen 16 000 H100-lohkoa. Käytetyt esikoulutustiedot ovat joulukuulta 2023. Harjoittelun vakauden varmistamiseksi säätöön käytetään vain Transformer-malliarkkitehtuuria tällä hetkellä suositun Mixed Expert Model (MoE) -arkkitehtuurin sijaan.

Tämä johtaa myös siihen, että Llama 3.1 voi ylläpitää korkealaatuista tulosta lyhyistä kontekstiikkunoista, vaikka se laajennettaisiin 128K:n kontekstipituuteen. Se ei ole enää "pitkän tekstin erikois", vaan "pitkä ja lyhyt vapaasti".

Maailmassa ei tällä hetkellä ole yhtä suurta avoimen lähdekoodin mallia, joka olisi saavuttanut tällaisen koulutuksen mittakaavan.

Jos haluat lisätietoja, esittelimme sen yksityiskohtaisesti muutama tunti sitten. En mene yksityiskohtiin täällä.

Vuonna 2024, kun mallikoulutuksen mittakaava kasvaa ja laajenee, myös kehittäjät ihmettelevät: jatkavatko suuret koulutuskustannukset maksaneet suuret yritykset avoimen lähdekoodin käyttöä?

Loppujen lopuksi OpenAI on menneisyydestä opittu oppi – se noudatti avoimen lähdekoodin henkeä alkuaikoina, mutta GPT3.5:stä tuli suosittu ja kaupallistettiin, OpenAI ei ole enää avoimen lähdekoodin lähde ja sitä nauretaan suljetuksi tekoälyksi.

Mutta sillä hetkellä, kun Llama 3.1 julkaistiin, Zuckerberg korosti jälleen:

Suorita avoin lähdekoodi loppuun asti!

Mallin julkaisun lisäksi Xiao Zha julkaisi myös harkitun ja idealistisen avoimen lähdekoodin manifestin, joka selittää, miksi Metan tulisi olla avoimen lähdekoodin ja miksi avoimesta lähdekoodista on hyötyä kehittäjille.

On syytä huomata, että hän uskoo, että vaikka Yhdysvallat ja Kiina kohtaavat kovaa tekoälykilpailua, avoimen lähdekoodin reitin valinnalla on silti enemmän etuja kuin haittoja.

Okei, Llama 3.1 on jo tällainen, ja meidän on kysyttävä uudelleen: Milloin OpenAI ja GPT-5 tulevat?

Seuraava on Zuckerbergin avoin kirje, jonka on koonnut "Intelligent Emergence":

"Avoimen lähdekoodin tekoäly on tie eteenpäin"

Tehokkaan tietojenkäsittelyn alkuaikoina suurimmat teknologiayritykset investoivat voimakkaasti omien Unixin suljetun lähdekoodin versioiden kehittämiseen. Tuolloin oli vaikea kuvitella mitään muuta tapaa kehittää näin kehittyneitä ohjelmistoja.

Avoimen lähdekoodin Linux kuitenkin otti lopulta kiinni – alun perin, koska se antoi kehittäjille mahdollisuuden muokata koodiaan haluamallaan tavalla ja siitä tuli ajan myötä kehittyneempi, turvallisempi ja sillä on laajempi ekosysteemi kuin millään suljetun lähdekoodin Unixilla, mikä tukee enemmän ominaisuuksia; . Nykyään Linux on alan standardipohjainen pilvilaskenta ja käyttöjärjestelmä, joka käyttää useimpia mobiililaitteita – ja me kaikki hyödymme sen erinomaisuudesta.

Uskon, että tekoäly kehittyy samalla tavalla. Nykyään useat teknologiayritykset kehittävät johtavia suljetun lähdekoodin malleja. Mutta avoin lähdekoodi täyttää nopeasti tämän kuilun. Viime vuonna Llama 2 oli verrattavissa vain vanhemman sukupolven malleihin, jotka jäivät kärjestä jäljessä. Tänä vuonna Llama 3 kilpailee edistyneimpien mallien kanssa ja johtaa joillakin alueilla. Ensi vuodesta alkaen odotamme tulevan laaman olevan alan edistynein. Mutta ennen sitä Llama oli jo edelläkävijä avoimen lähdekoodin, muunnettavuuden ja kustannustehokkuuden suhteen.

Tänään otamme seuraavan askeleen kohti avoimen lähdekoodin tekoälyn tekemistä alan standardiksi. Julkaisemme Llama 3.1 405B:n, ensimmäisen alan johtavan avoimen lähdekoodin tekoälymallin, sekä uusia ja parannettuja Llama 3.1 70B- ja 8B -malleja. Sen lisäksi, että 405B-malli on suljetun lähdekoodin malleihin verrattuna parempi hinta/suorituskyky, se on avoimen lähdekoodin ansiosta paras valinta pienempien mallien hienosäätöön ja poimimiseen.

Näiden mallien julkaisemisen lisäksi teemme myös yhteistyötä useiden yritysten kanssa laajentaaksemme laajempaa ekosysteemiä. Amazon, Databricks ja Nvidia lanseeraavat täyden valikoiman palveluita, joiden avulla kehittäjät voivat hienosäätää ja jalostaa omia mallejaan. Innovatiiviset yritykset, kuten Groq (AI-sirujen käynnistys), ovat rakentaneet alhaisen latenssin ja edullisia päättelypalveluita kaikille uusille malleille.

Nämä mallit ovat saatavilla kaikissa suurimmissa pilvissä, mukaan lukien AWS, Azure, Google, Oracle ja monet muut. Scale.AI, Dell, Deloitte ja muut ovat valmiita auttamaan yrityksiä ottamaan Llaman käyttöön ja kouluttamaan mukautettuja malleja omien tietojensa avulla. Yhteisön kasvaessa ja yhä useammat yritykset kehittävät uusia palveluita, voimme yhdessä tehdä Llamasta alan standardin ja tuoda tekoälyn edut kaikkien ulottuville.

Meta on sitoutunut avoimen lähdekoodin tekoälyyn. Kerron, miksi mielestäni avoin lähdekoodi on paras kehityspino ihmisille, miksi avoimen lähdekoodin Llama on hyvä Metalle, miksi avoimen lähdekoodin tekoäly on hyväksi maailmalle, ja tämän vuoksi avoimen lähdekoodin yhteisö on tullut jäädäkseen.

Miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille

Kun puhun kehittäjien, toimitusjohtajien ja valtion virkamiesten kanssa eri puolilla maailmaa, kuulen yleensä muutaman aiheen:

Meidän on koulutettava, hienosäädettävä ja jalostettava omia mallejamme.

Jokaisella organisaatiolla on erilaiset tarpeet, joita parhaiten palvelevat erikokoiset mallit, jotka on koulutettu tai hienosäädetty tietyn datan avulla. Laitteessa tehtävät ja luokitustehtävät vaativat pienempiä malleja, kun taas monimutkaisemmat tehtävät vaativat suurempia malleja.

Nyt voit ottaa huippuluokan Llama-malleja, jatkaa niiden harjoittelua omilla tiedoillasi ja sitten tarkentaa niitä optimaalisen kokoiseksi malliksi ilman, että me tai kukaan muu näkee tietojasi.

Meidän täytyy hallita omaa kohtaloamme eikä olla sidottu suljetun lähdekoodin toimittajaan.

Monet organisaatiot eivät halua luottaa malliin, jota he eivät voi johtaa ja hallita. He eivät halua, että suljetun lähdekoodin mallien tarjoajat voivat muuttaa mallejaan, muuttaa käyttöehtojaan tai jopa lopettaa niiden tarjoamisen kokonaan. He eivät myöskään halua olla lukittuina yhteen pilveen, jolla on yksinoikeudet tiettyyn malliin. Avoin lähdekoodi tarjoaa yhteensopivia työkaluketjuja monille yritysekosysteemeille, ja voit helposti vaihtaa niiden välillä.

Meidän on suojeltava tietojamme.

Monet organisaatiot käsittelevät arkaluontoisia tietoja, jotka on suojattava ja joita ei voida siirtää pilvisovellusliittymien kautta suljetun lähdekoodin malliin. Muut organisaatiot eivät yksinkertaisesti luota tietojaan suljetun lähdekoodin mallien tarjoajiin. Avoin lähdekoodi ratkaisee nämä ongelmat mahdollistamalla mallin käyttämisen missä tahansa. On yleisesti hyväksyttyä, että avoimen lähdekoodin ohjelmistot ovat turvallisempia, koska niitä kehitetään avoimemmin.

Tarvitsemme tehokkaan ja edullisen toimintamallin.

Kehittäjät voivat tehdä päätelmiä Llama 3.1 405B:stä omassa infrastruktuurissaan noin 50 % kustannuksista, jotka aiheutuvat suljetun lähdekoodin mallien, kuten GPT-4o:n, käyttämisestä käyttäjäkohtaisiin ja offline-päättelytehtäviin.

Panostamme ekosysteemiin, josta voi tulla pitkän aikavälin standardi.

Monet ihmiset näkevät avoimen lähdekoodin liikkuvan nopeammin kuin suljetun lähdekoodin mallit, ja he haluavat arkkitehtuurin, johon heidän järjestelmänsä on rakennettu, antavan heille suurimman pitkän aikavälin edun.

Miksi avoimen lähdekoodin tekoäly on hyvä Metalle

Metan liiketoimintamallina on rakentaa ihmisille parhaita kokemuksia ja palveluita. Tätä varten meidän on varmistettava, että meillä on aina pääsy parhaimpaan teknologiaan sen sijaan, että olisimme lukittuina kilpailijan suljetun lähdekoodin ekosysteemiin, joka rajoittaa sitä, mitä voimme rakentaa.

Yksi kehittävistä kokemuksistani oli, että palveluitamme rajoitti se, mitä Apple antoi meidän rakentaa heidän alustalleen. Tapa, jolla he verottavat kehittäjiä, heidän soveltamansa mielivaltaiset säännöt ja kaikki tuoteinnovaatiot, joita he estävät julkaisemasta, on selvää, että jos pystymme rakentamaan parhaat versiot tuotteistamme ja kilpailijat eivät voi rajoittaa sitä, mitä voimme rakentaa, niin Meta ja monet muut yritykset voivat vapaasti rakentaa parempia palveluita ihmisille. Filosofisella tasolla tämä on tärkein syy, miksi uskon niin vahvasti avoimen lähdekoodin ekosysteemin rakentamiseen seuraavan sukupolven tietojenkäsittelyä varten tekoälyssä ja AR/VR:ssä.

Ihmiset kysyvät minulta usein, olenko huolissani siitä, että avoimen lähdekoodin Llama luopuu teknisistä eduista, mutta mielestäni tämä jättää huomiotta joitakin tärkeitä syitä:

Ensinnäkin varmistaaksemme, että meillä on pääsy parhaaseen teknologiaan, emmekä joutuisi sulkeutumaan suljetun lähdekoodin ekosysteemiin pitkiksi ajoiksi, Llaman on kehitettävä täydellinen ekosysteemi, joka sisältää työkalut, tehokkuuden parannukset, piioptimoinnin ja muut integraatiot. Jos olisimme ainoa Llamaa käyttävä yritys, ekosysteemi ei kasvaisi, emmekä olisi yhtään parempia kuin suljetun lähdekoodin Unix-versiot.

Toiseksi, odotan, että kilpailu kiristyy älykkyyden kehittyessä, mikä tarkoittaa, että siinä vaiheessa avoimen lähdekoodin missä tahansa mallissa ihmiset eivät luovu seuraavasta mallista, jolla on suurempi etu. Llaman tie alan standardiksi kulkee mallin johdonmukaisesta kilpailusta, tehokkuudesta ja avoimen lähdekoodin sukupolvesta toiseen.

Kolmanneksi keskeinen ero Meta- ja suljetun lähdekoodin mallien tarjoajien välillä on se, että tekoälymallien käyttöoikeuden myyminen ei ole liiketoimintamallimme. Tämä tarkoittaa, että Llaman julkistaminen ei heikennä tulojamme, kestävyyttämme tai kykyämme investoida tutkimukseen, kuten se tekee suljetun lähdekoodin toimittajilla. (Tämä on yksi syy siihen, miksi useat suljetun lähdekoodin palveluntarjoajat ovat lobbannut hallituksia avointa lähdekoodia vastaan.)

Lopuksi Metalla on pitkä historia ja menestys avoimen lähdekoodin projekteissa. Olemme säästäneet miljardeja dollareita julkaisemalla palvelin-, verkko- ja datakeskussuunnittelumme Open Source Compute Project -projektin kautta ja standardoimalla toimitusketjumme suunnitelmissamme. Hyödymme ekosysteemiinnovaatioista, avoimen lähdekoodin johtavista työkaluista, kuten PyTorch, React ja monet muut. Tämä lähestymistapa on aina toiminut meillä, kun olemme pitäneet siitä kiinni pitkällä aikavälillä.

Miksi avoimen lähdekoodin tekoäly on hyväksi maailmalle

Uskon, että avoin lähdekoodi on välttämätön positiiviselle tekoälyn tulevaisuudelle. Tekoälyllä on suurempi potentiaali kuin millään muulla nykyaikaisella tekniikalla lisätä ihmisen tuottavuutta, luovuutta ja elämänlaatua sekä edistää lääketieteellistä ja tieteellistä tutkimusta samalla kun se kiihdyttää talouskasvua.

Avoimen lähdekoodin avulla varmistetaan, että yhä useammat ihmiset ympäri maailmaa pääsevät hyödyntämään tekoälyn etuja ja mahdollisuuksia, valtaa ei keskity muutaman yrityksen käsiin ja teknologiaa voidaan levittää tasaisemmin ja turvallisemmin kaikkialla yhteiskunnassa.

Avoimen lähdekoodin tekoälymallien turvallisuudesta käydään jatkuvaa keskustelua, ja näkemykseni on, että avoimen lähdekoodin tekoäly on turvallisempi kuin vaihtoehdot. Luulen, että hallitukset tulevat päättelemään, että on niiden etujen mukaista tukea avointa lähdekoodia, koska se tekee maailmasta vauraamman ja turvallisemman.

Ymmärrykseni turvallisuudesta on, että meidän on suojauduttava kahdelta vahingolta: tahattomalta vahingolta ja tahalliselta vahingolta. Tahaton vahinko on silloin, kun tekoälyjärjestelmä voi aiheuttaa vahinkoa, vaikka sitä käyttävä henkilö ei aikonutkaan tehdä niin.

Esimerkiksi nykyaikaiset tekoälymallit voivat vahingossa antaa huonoja terveysneuvoja. Tai futuristisemmassa skenaariossa jotkut ovat huolissaan siitä, että mallit voivat vahingossa toistaa itseään tai optimoida tavoitteita liikaa ihmisten vahingoksi. Tahallinen vahinko on sitä, kun huono näyttelijä käyttää tekoälymallia tarkoituksenaan aiheuttaa vahinkoa.

On syytä huomata, että tahattomat vahingot kattavat suurimman osan ihmisten huolista tekoälystä – tekoälyjärjestelmien vaikutuksista miljardeihin niitä käyttäviin ihmisiin ja todella katastrofaalisiin tieteiskirjallisuuden skenaarioihin ihmiskunnalle. Tässä suhteessa avoimen lähdekoodin pitäisi olla paljon turvallisempi, koska järjestelmä on läpinäkyvämpi ja sitä voidaan tarkastaa laajasti.

Historiallisesti avoimen lähdekoodin ohjelmistot ovat olleet turvallisempia tästä syystä. Samoin Llaman ja sen turvajärjestelmien, kuten Llama Guard, käyttö voi olla turvallisempaa kuin suljetun lähdekoodin malli. Tämän seurauksena useimmat avoimen lähdekoodin tekoälyn turvallisuudesta käytävät keskustelut keskittyvät tahalliseen vahingoittamiseen.

Turvallisuusprosessiimme kuuluu tiukka testaus ja punaiset ryhmät, jotka arvioivat, pystyvätkö mallimme aiheuttamaan merkityksellistä haittaa. Tavoitteena on vähentää riskiä ennen julkaisua. Koska malli on avoimen lähdekoodin, kuka tahansa voi testata sitä itse.

Meidän on muistettava, että nämä mallit on koulutettu tietoon, joka on jo saatavilla Internetissä, joten haittoja harkittaessa lähtökohtamme tulee olla siitä, onko malli nopeampi kuin Googlesta tai muista hakutuloksista haettavissa olevat tiedot. Aiheuttaa todennäköisemmin vahinkoa.

Tarkoituksenmukaista vahinkoa pohdittaessa on hyödyllistä erottaa, mitä yksittäinen tai pienimuotoinen toimija voi tehdä ja mitä suuri toimija, kuten kansallisvaltio, jolla on valtavia resursseja, voi tehdä.

Jossain vaiheessa tulevaisuudessa yksittäiset huonot toimijat voivat valjastaa tekoälymallien älykkyyttä luodakseen täysin uudenlaisia haittoja Internetistä saatavasta tiedosta. Tässä vaiheessa voimatasapaino on kriittinen tekoälyn turvallisuuden kannalta.

Mielestäni olisi parempi elää maailmassa, jossa tekoäly on laajalti käytössä, jotta suuret pelaajat voivat tasapainottaa pienempien pahiksien voimaa. Näin hallitsemme sosiaalisten verkostojen turvallisuutta – tehokkaammat tekoälyjärjestelmämme tunnistavat ja estävät uhat vähemmän kehittyneiltä hyökkääjiltä, jotka käyttävät usein pienempiä tekoälyjärjestelmiä.

Laajemmin suuret instituutiot, jotka ottavat käyttöön tekoälyn laajassa mittakaavassa, edistävät koko yhteiskunnan turvallisuutta ja vakautta. Niin kauan kuin kaikilla on pääsy samanlaisiin malleihin – jotain avoimen lähdekoodin mahdollistamaa –, hallitukset ja virastot, joilla on enemmän laskentaresursseja, voivat tarkistaa huonot toimijat vähemmällä laskentatavalla.

Seuraava kysymys on, kuinka Yhdysvaltojen ja demokratioiden tulisi vastata uhkiin sellaisista maista, joilla on valtavat resurssit, kuten Kiina. Yhdysvaltojen etu on hajauttamisessa ja avoimen lähdekoodin innovaatioissa.

Jotkut ihmiset uskovat, että meidän on estettävä mallimme estääksemme Kiinaa saamasta niitä, mutta pointtini on, että tämä ei toimi ja vain asettaa Yhdysvallat ja sen liittolaiset epäedulliseen asemaan. Vastustajamme ovat erittäin hyviä vakoilussa USB-tikulla olevien mallien varastaminen on suhteellisen helppoa, eikä useimpien teknologiayritysten toiminta tee siitä paljon vaikeampaa.

Pelkän suljetun lähdekoodin mallien maailma näyttää todennäköisimmin johtavan siihen, että kourallinen suuria yrityksiä ja geopoliittisia vastustajiamme pääsevät käyttämään johtavia malleja, kun taas startupit, yliopistot ja pienyritykset jäävät paitsi.

Lisäksi Yhdysvaltojen innovaatioiden rajoittaminen suljetun lähdekoodin kehittämiseen lisää todennäköisyyttä, että emme yksinkertaisesti johda. Sen sijaan mielestäni paras strategiamme on rakentaa vahva avoimen lähdekoodin ekosysteemi ja saada johtavia yrityksiä työskentelemään tiiviissä yhteistyössä hallitustemme ja liittolaistemme kanssa varmistaakseen, että ne voivat parhaiten hyödyntää viimeisimpiä edistysaskeleita ja olla kestäviä pitkällä aikavälillä ensikävijän etu.

Kun pohdit tulevaisuuden mahdollisuuksia, muista, että suurin osa nykyajan johtavista teknologiayrityksistä ja tieteellisestä tutkimuksesta on rakennettu avoimen lähdekoodin ohjelmistoille. Jos investoimme yhdessä, seuraavan sukupolven yritykset ja tutkimus käyttävät avoimen lähdekoodin tekoälyä. Tämä koskee aloittelevia startup-yrityksiä sekä ihmisiä yliopistoissa ja maissa, joilla ei ehkä ole resursseja kehittää omaa uusinta tekoälyä tyhjästä.

Mikä tärkeintä, avoimen lähdekoodin tekoäly edustaa maailman parasta mahdollisuutta hyödyntää tätä teknologiaa parhaan taloudellisen mahdollisuuden ja turvallisuuden luomiseksi kaikille.

rakentakaamme yhdessä

Aiemmille Llama-malleille Meta kehitti ne itselleen ja julkaisi ne keskittymättä liikaa laajemman ekosysteemin rakentamiseen.

Käytämme erilaista lähestymistapaa tämän julkaisun kanssa. Rakennamme sisäisesti tiimejä, jotta Llama saataisiin mahdollisimman monen kehittäjän ja kumppanin käyttöön, ja rakennamme myös aktiivisesti kumppanuuksia, jotta useammat ekosysteemin yritykset voivat tarjota asiakkailleen ainutlaatuisia ominaisuuksia.

Uskon, että Llama 3.1:n julkaisu tulee olemaan käännekohta alalla, kun useimmat kehittäjät alkavat ensisijaisesti käyttää avointa lähdekoodia, ja toivon, että tämä lähestymistapa vain kasvaa täältä. Toivon, että liityt kanssamme matkallemme tuodaksemme tekoälyn edut kaikille maailmassa.

Linkki Llama 3.1:een on: https://llama.meta.com/

MZ (Mark Zuckerberg)

Tervetuloa kommunikoimaan

uutiset

Llama 3.1 virallisesti julkaistu: 405 miljardin parametrin malli avoimen lähdekoodin Xiao Zha: Suorita avoin lähdekoodi loppuun asti

Johdanto

yhteystietoni