Avoimen lähdekoodin malli ylittää vahvimman suljetun lähdekoodin mallin. Voiko Llama 3.1 horjuttaa tekoälyn ekosysteemiä?

Avoimen lähdekoodin malli ylittää vahvimman suljetun lähdekoodin mallin. Voiko Llama 3.1 horjuttaa tekoälyn ekosysteemiä? ｜ Jiazi Guangnian

2024-07-24

Zuckerberg lupaa jatkaa avoimen lähdekoodin käyttöä loppuun asti.

Kirjailija｜ Sukhoi

Toimittaja ｜ Zhao Jian

Llama 3.1 on vihdoin täällä.

Heinäkuun 23. päivänä paikallista aikaa Yhdysvalloissa Meta julkaisi virallisesti Llama 3.1:n. Se sisältää kolme kokoa: 8B, 70B ja 405B, ja enimmäiskonteksti on kasvanut 128 000:aan. Llama on tällä hetkellä yksi suurimmista mallisarjoista, jolla on eniten käyttäjiä ja tehokkain suorituskyky avoimen lähdekoodin alalla.

Tämän Llama 3.1:n pääkohdat ovat:

1. Versioita on kolme: 8B, 70B ja 405B, joista versio 405B on tällä hetkellä yksi suurimmista avoimen lähdekoodin malleista Pidempi kontekstiikkuna (jopa 128 000 merkkiä), joka pystyy käsittelemään monimutkaisempia tehtäviä ja keskusteluja monimutkaisia matemaattisia ongelmia ja sisällön tuottamista lennossa.

Meta kirjoitti virallisessa blogissaan: "Tänään on edelleen normaalia, että avoimen lähdekoodin suurten kielimallien suorituskyky jää jälkeen suljetun lähdekoodin malleista. Mutta nyt aloitamme uuden aikakauden avoimen lähdekoodin johdolla. Meta julkinen julkaisu Llama 3.1 405B on maailman ensimmäinen Markkinoiden suurin ja tehokkain avoimen lähdekoodin perusmalli, jolla on tähän mennessä yli 300 miljoonaa kumulatiivista latausta kaikista Llama-versioista, tämä on vasta alkua.

Avoimen ja suljetun lähdekoodin välinen keskustelu on aina ollut kuuma aihe teknologia-alalla.

Avoimen lähdekoodin ohjelmistot ovat avoimempia ja joustavampia, minkä ansiosta kehittäjät ympäri maailmaa voivat yhdessä tarkastella, muokata ja parantaa koodia, mikä edistää nopeaa innovaatiota ja teknologian kehitystä. Suljetun lähdekoodin malleja kehittää ja ylläpitää yleensä yksi yritys tai organisaatio, joka voi tarjota ammattimaista tukea ja palveluita varmistaakseen ohjelmiston turvallisuuden ja vakauden. Mutta tämä malli rajoittaa myös käyttäjän ohjaus- ja mukautusominaisuuksia.

Tähän asti suljetun lähdekoodin malli on aina ollut hieman parempi. Llama 3.1:n julkaisuun asti jatkuva kiihkeä avoimen lähdekoodin ja suljetun lähdekoodin keskustelu on ollut leimallista: avoimen lähdekoodin malli voi vihdoin kilpailla suljetun lähdekoodin mallin kanssa.

Metan toimittamien vertailutietojen mukaan 405B:n suosituin versio on jo suorituskyvyltään verrattavissa GPT-4:ään ja Claude 3:een. Niistä Human Evaluationia käytetään pääasiassa arvioimaan mallin kykyä ymmärtää ja generoida koodia sekä ratkaista abstrakteja logiikkaongelmia. Muiden suurten mallien kanssa kilpaileva Llama 3.1 405B näyttää olevan hieman parempi.

Llama 3.1 on samalla tasolla kuin GPT-4 ja Claude 3.5. Lähde: Meta

Andrew Ng, tietojenkäsittelytieteen ja sähkötekniikan apulaisprofessori ja Stanfordin yliopiston tekoälylaboratorion johtaja, kehui "Meta- ja Llama-tiimejä heidän valtavasta panoksestaan avoimen lähdekoodin kehittämiseen" sosiaalisessa mediassa. "Pidennetyn kontekstin pituuden ja parannetun toiminnallisuuden ansiosta Llama 3.1 on loistava lahja kaikille", hän sanoi ja toivoi, että "tyhmät määräykset, kuten Kalifornian ehdotettu SB1047, eivät estä tällaisia innovaatioita."

Ng Endan sosiaalinen media, lähde: X

Yann LeCun, Turing-palkinnon voittaja ja Metan tekoälyn päätutkija, lainasi The Vergen Llama 3.1:n suorituskykykuvausta – Meta on julkaissut tähän mennessä suurimman ja parhaan avoimen lähdekoodin tekoälymallin: Llama 3.1 toimii hyvin tietyissä mittareissa Testauksessa se ylitti OpenAI ja muut kilpailijat.

Yang Likunin sosiaalinen media, lähde: X

Mielenkiintoista on, että Llama 3.1:n 405B-version epäiltiin "varastetuksi" eilen HugginFacessa ja GitHubissa. Ilmoittajan lähettämät arviointitiedot ovat periaatteessa yhdenmukaisia tänään virallisesti julkaistujen versiotietojen kanssa.

Mark Zuckerberg, Metan perustaja ja toimitusjohtaja, kirjoitti henkilökohtaisesti pitkän artikkelin nimeltä "Open Source AI Is the Path Forward", jossa kerrottiin yksityiskohtaisesti avoimen lähdekoodin edut kehittäjille ja Metalle ja miksi sillä on merkitystä maailmanlaajuisesti.

Hän ennustaa, että tämän vuoden loppuun mennessä Meta AI ohittaa ChatGPT:n eniten käytettynä avustajana.

Hän sanoi myös:Lupa toteuttaa avoimen lähdekoodin loppuun asti.

Artikkelipala "Open Source AI Is the Path Forward", lähde Meta

1.Laman tekeminen 3.1

Malliarkkitehtuurin osalta, Metan tähän mennessä suurin malli, Llama 3.1 on koulutettu yli 15 biljoonan tokenin datalla, ja esikoulutustiedot ovat saatavilla joulukuuhun 2023 saakka.

Toteuttaakseen koulutuksen niin suuressa mittakaavassa kohtuullisessa ajassa ja saavuttaakseen halutut tulokset, Meta optimoi koko harjoituspinon käyttämällä yli 16 000 H100-lohkoa 405B on ensimmäinen tässä mittakaavassa koulutettu Llama-malli.

Muuntajamalliarkkitehtuuri Llama 3.1 -tekstin luontiprosessissa, lähde: Meta

Harjoittelun vakauden ja mukavuuden maksimoimiseksi Meta valitsi hienosäätöön tavallisen dekooderille tarkoitetun Transformer-malliarkkitehtuurin tällä hetkellä suositun Mixed Expert Model (MoE) -arkkitehtuurin sijaan.

Tämä päätös sallii Llama 3.1:n edelleen varmistaa lyhyen tekstin korkealaatuisen tulostuksen, kun se tukee jopa 128 kt:n kontekstin pituutta, mikä mahdollistaa pitkän ja lyhyen tekstin joustavan käsittelyn sen sijaan, että keskittyisi vain pitkään tekstiin.

Samaan aikaan tutkimusryhmä otti käyttöön iteratiivisen koulutuksen jälkeisen menetelmän tuottaakseen korkealaatuista synteettistä dataa ja parantaakseen mallin eri toimintoja jokaisella ohjatulla hienosäädöllä ja suoralla preferenssien optimoinnilla. Verrattuna aikaisempiin versioihin Llama 3.1 lisää koulutusta edeltävän ja koulutuksen jälkeisen tiedon määrää ja laatua, ottaa käyttöön yksityiskohtaisempia esikäsittely- ja hallintaprosesseja sekä tiukempia laadunvarmistus- ja suodatustekniikoita.

Kielimallien laajennuslain mukaan Llama 3.1 ohittaa aikaisemmat pienet mallit, jotka käyttävät samaa harjoitusmenettelyä suorituskyvyssä.

Selviytyäkseen suurten 405B-mallien käyttövaatimuksista Meta kvantisoi mallidatan 16-bittisestä (BF16) 8-bittiseksi (FP8), mikä vähensi huomattavasti laskentaresurssien kysyntää ja mahdollisti mallin toimimisen yksi palvelinsolmu.

Mitä tulee Llama 3.1 405B -mallin komentojen ja chat-hienosäätöön, kehitystiimi on sitoutunut parantamaan mallin reagointikykyä, käytännöllisyyttä ja laatua käyttäjän komentoihin varmistaen samalla korkean turvallisuustason.

Harjoittelun jälkeisessä vaiheessa joukkue teki useita säätökierroksia esiharjoittelun perusteella. Jokainen kierros sisältää valvotun hienosäädön (SFT), hylkäysnäytteenoton (RS) ja suoran preferenssin optimoinnin (DPO).Lisäksi tiimi käytti synteettistä tiedontuotantoa luodakseen suurimman osan SFT-esimerkeistä, mikä tarkoittaa, että he eivät luottaneet pelkästään reaalimaailman tietoihin vaan pikemminkin algoritmisesti luotuun dataan mallin kouluttamisessa.

Samaan aikaan tiimi käyttää myös erilaisia tietojenkäsittelymenetelmiä suodattaakseen nämä tiedot varmistaakseen parhaan laadun ja laajentaakseen hienosäädetyn tiedon sovellusvalikoimaa.

Meta tutkii myös uutta strategiaa, jossa 405B-mallia käytetään "opettajamallina" 70B- ja 8B-malleille, jolloin suurista malleista saadaan eri toimialojen tarpeisiin sopivia pieniä räätälöityjä malleja. Tämä lähestymistapa sopii yhteen GPT-4o minin strategian kanssa.Eli "tee ensin iso ja sitten pieni"。

Andrej Karpathy, yksi OpenAI:n entisistä perustajajäsenistä, kommentoi kerran GPT-4o Miniä: "Mallin on ensin suurennettava ennen kuin se voi pienentyä. Koska tarvitsemme niitä (automaattisesti) auttamaan harjoitustietojen rekonstruoinnissa, jotta se olisi ihanteellinen, synteettisessä muodossa." Hän huomautti, että tällä menetelmällä voidaan tehokkaasti siirtää suurten mallien tietämyksen syvyyttä ja laajuutta pienempiin malleihin, jotka ovat käytännöllisempiä ja halvempia.

Avoimen lähdekoodin mallireitin johtajana Meta on myös osoittanut vilpittömyyttä tukeessaan Llama-mallin toimintoja.

Llama-järjestelmä on suunniteltu kattavaksi kehykseksi, joka voi integroida useita komponentteja, mukaan lukien ulkoisten työkalujen kutsuminen. Metan tavoitteena on tarjota laajempi järjestelmä, jonka avulla kehittäjät voivat joustavasti suunnitella ja luoda räätälöityjä tuotteita, jotka vastaavat heidän tarpeitaan.

Kehittääkseen tekoälyä vastuullisesti mallikerroksen ulkopuolelle tutkimusryhmä julkaisi täydellisen vertailujärjestelmän, joka sisältää useita esimerkkisovelluksia ja uusia komponentteja, kuten monikielisen suojausmallin Llama Guard 3:n ja pikaruiskutussuodattimen Prompt Guard. Nämä sovellukset ovat avoimen lähdekoodin ja yhteisön jatkokehitettävissä.

Määrittääkseen paremmin komponenttien rajapintoja ja edistääkseen niiden standardointia teollisuudessa tutkijat tekivät yhteistyötä teollisuuden, startup-yritysten ja laajemman yhteisön kanssa ja julkaisivat "Llama Stack" -ehdotuksen GitHubissa. Tämä on joukko standardoituja rajapintoja, jotka yksinkertaistavat työkaluketjun komponenttien (kuten hienosäätö, synteettisen tiedon generointi) ja agenttisovellusten rakentamista.

Metan toimittamien vertailutestitietojen mukaan Llama 3.1 405B sai NIH/Multi-needle -vertailussa 98,1, mikä on verrattavissa GPT-4:ään ja Claude 3.5:een suoritusarvojen suhteen. 405B-versiolla on erinomainen kyky integroida massiivisia tekstitietoja, ja se on saanut pisteet 95,2 ZeroSCROLLS/QuALITY -vertailutestissä. Se on erittäin ystävällinen tekoälysovellusten kehittäjille, jotka ovat huolissaan RAG-suorituskyvystä.

Llama 3.1 verrattuna suljetun lähdekoodin malleihin, kuten GPT4, lähde: Meta

Llama 3.1 verrattuna avoimen lähdekoodin malleihin, kuten Mistral 7B Instruct, lähde: Meta

Llama 3.1 8B -versio on huomattavasti parempi kuin Gemma 2 9B 1T ja Mistral 7B Instruct, ja sen suorituskyky on parantunut merkittävästi edellisen sukupolven Llama 3 8B:hen verrattuna. Samaan aikaan Llama 3.1 70B -versio ylitti jopa GPT-3.5 Turbon.

Llama-tiimin virallisen raportin mukaan he suorittivat näiden mallien perusteellisen suorituskyvyn arvioinnin ja laajan manuaalisen testauksen yli 150 monikielisellä vertailutietojoukolla. Tulokset osoittavat, että Llaman huippumalli on verrattavissa markkinoiden huippuperusmalleihin, kuten GPT-4, GPT-4o ja Claude 3.5 Sonnet erilaisissa tehtävissä. Samaan aikaan verrattuna suljetun ja avoimen lähdekoodin malleihin, joilla on samanlainen parametriasteikko, Llaman pieni versio osoitti myös vahvaa kilpailukykyä.

2.Keskustelu avoimen lähdekoodin ja suljetun lähdekoodin mallien välillä

Voiko avoimen lähdekoodin malli ylittää suljetun lähdekoodin mallin?

Tämä kysymys on ollut kiistanalainen viime vuodesta lähtien. Molempien mallien kehityspolut edustavat erilaisia teknisiä filosofioita, ja kummallakin on omat puolensa teknologian kehityksen edistämisessä ja liiketoiminnan tarpeiden täyttämisessä.

Esimerkiksi Llama 3.1 on suuri avoimen lähdekoodin malli, jonka avulla tutkijat ja kehittäjät pääsevät käsiksi sen lähdekoodiin, ja ihmiset voivat vapaasti tutkia, muokata ja jopa parantaa mallia. Tämä avoimuus kannustaa laajaan yhteistyöhön ja innovaatioon, jolloin eri taustoista tulevat kehittäjät voivat työskennellä yhdessä ongelmien ratkaisemiseksi.

Sitä vastoin ChatGPT on OpenAI:n kehittämä suljetun lähdekoodin malli. Vaikka se tarjoaa API-yhteyden, sen ydinalgoritmia ja koulutustietoja ei paljasteta täysin. GPT-3:n suljetun lähdekoodin luonne tekee siitä kestävämmän kaupallistamispolulla. Samalla sen hallittavuus varmistaa tuotteen vakauden ja turvallisuuden, mikä tekee siitä luotettavamman arkaluonteisten tietojen käsittelyssä. Tämä sulkeutuminen rajoittaa kuitenkin myös ulkopuolisten tutkijoiden kykyä ymmärtää ja uudistaa mallia täysin.

Viime vuoden toukokuussa ulkomaiset tiedotusvälineet kertoivat, että Google oli vuotanut asiakirjan, jonka teema oli: "Meillä ei ole vallihautaa, eikä myöskään OpenAI. Vaikka kiistellään, avoin lähdekoodi on hiljaa varastanut työmme." Kun Meta julkaisi avoimen lähdekoodin suuren mallin Llama 2:n samana vuonna, Yang Likun sanoi, että Llama 2 muuttaisi suurten kielimallien markkinarakennetta.

Ihmiset odottavat innolla avoimen lähdekoodin yhteisöä, jota johtaa Llama-mallisarja. Aikaisemmin edistynein suljetun lähdekoodin malli GPT-4 oli aina hieman parempi, vaikka ero Llama 3:n välillä oli tuolloin jo hyvin pieni.

Suurten mallien alan arvovaltaisin lista on Large Model Arena (LLM Arena), joka on ottanut käyttöön ELO-pistejärjestelmän shakista. Sen perussääntö on antaa käyttäjien esittää mikä tahansa kysymys kahdelle nimettömälle mallille (esim. ChatGPT, Claude, Llama) ja äänestää sitä, jolla on parempi vastaus. Paremmat vastaukset saanut malli saa pisteitä, ja lopullinen sijoitus määräytyy kertyneiden pisteiden perusteella. Arean ELO keräsi äänestystiedot 500 000 ihmiseltä.

Yleiskatsaus suuriin mallien rankingeihin, lähde: LLM Arena

LLM Arenan rankingissa OpenAI:n GPT-4o on tällä hetkellä kärkipaikka. Kymmenen parasta mallia ovat kaikki suljettuja lähdekoodia. Vaikka suljetun lähdekoodin malli on vielä kaukana rankingissa, ero avoimen lähdekoodin ja suljetun lähdekoodin mallien välillä ei kasva, kuten Robin Li sanoi vuoden 2024 Baidu AI Developer Conference -konferenssissa, vaan on itse asiassa vähitellen kaventumassa.

WAIC:n aikana Robin Li sanoi: "Avoin lähdekoodi on itse asiassa eräänlainen IQ-vero."Lähde: Baidu

Kun Llama 3.1 julkaistaan tänään, avoimen lähdekoodin malli voi vihdoin kilpailla suljetun lähdekoodin mallin kanssa.

"Jiazi Guangnian" on keskustellut monien tekoälyalan toimijoiden kanssa siitä, kumpi avoimen lähdekoodin vai suljetun lähdekoodin malli on parempi. Teollisuus uskoo yleisesti, että:Se riippuu usein henkilökohtaisesta asenteesta, eikä se ole yksinkertainen mustavalkoinen asia.

Kysymys avoimesta lähdekoodista ja suljetusta lähdekoodista ei ole puhtaasti tekninen ero, vaan enemmänkin liiketoimintamallin valinta. Tällä hetkellä, olipa kyseessä avoimen lähdekoodin tai suljetun lähdekoodin suuri malli, täysin menestyvää liiketoimintamallia ei ole vielä löydetty.

Mitkä tekijät siis vaikuttavat avoimen lähdekoodin ja suljetun lähdekoodin mallien kykyeroihin?

Weibon uuden teknologian tutkimuksen ja kehityksen johtaja Zhang Junlin huomautti, että mallien ominaisuuksien kasvuvauhti on avaintekijä. Jos mallin kapasiteetti kasvaa nopeasti, se tarkoittaa, että lyhyessä ajassa tarvitaan suuri määrä laskentaresursseja. Päinvastoin, jos mallien ominaisuudet kasvavat hitaasti, avoimen lähdekoodin ja suljetun lähdekoodin välinen kuilu pienenee ja kiinniottonopeus kiihtyy.

Hän uskoo, että lähivuosina ero avoimen ja suljetun lähdekoodin mallien välillä riippuu "synteettisen datan" teknologian kehityksestä. Jos "synteettinen data" -tekniikka edistyy merkittävästi seuraavien kahden vuoden aikana, ero näiden kahden välillä voi kasvaa, jos läpimurtoa ei tapahdu, näiden kahden ominaisuudet ovat yleensä samanlaisia.

Kaiken kaikkiaan "synteettisestä datasta" tulee avainteknologia suurten kielimallien kehittämisessä tulevaisuudessa.

Avoin lähdekoodi tai suljettu lähdekoodi eivät itse määritä mallin suorituskykyä. Suljetun lähdekoodin mallit eivät johda, koska ne ovat suljettuja lähdekoodia, ja avoimen lähdekoodin mallit eivät jää jälkeen, koska ne ovat avoimen lähdekoodin. Päinvastoin, malli valitsee suljetun lähdekoodin, koska se on johtava, ja sen on valittava avoin lähdekoodi, koska se ei ole tarpeeksi johtava.

Jos yritys tekee erittäin suorituskykyisen mallin, se ei ehkä enää ole avoimen lähdekoodin.

Esimerkiksi ranskalainen tähti-startup Mistral, sen tehokkain avoimen lähdekoodin 7B-malli Mistral-7B ja ensimmäinen avoimen lähdekoodin MoE-malli 8x7B (MMLU 70) ovat yksi avoimen lähdekoodin yhteisön suosituimmista malleista. Kuitenkin Mistral-Medium (MMLU-75) ja Mistral-Large (MMLU-81), jotka Mistral on myöhemmin kouluttanut, ovat molemmat suljetun lähdekoodin malleja.

Tällä hetkellä parhaiten menestyvää suljetun lähdekoodin mallia ja parhaiten suoriutuvaa avoimen lähdekoodin mallia hallitsevat molemmat suuret yritykset, ja suurista yrityksistä Metalla on suurin avoimen lähdekoodin määrätietoisuus.Jos OpenAI ei ole avoimen lähdekoodin kaupallisen tuoton näkökulmasta, niin mikä on sen tarkoitus, että Meta valitsee avoimen lähdekoodin ja antaa käyttäjille mahdollisuuden kokeilla sitä ilmaiseksi?

Viimeisen vuosineljänneksen talousraportissa Zuckerberg vastasi tähän asiaan, että Metan tekoälyteknologian avoin lähde oli edistää teknologista innovaatiota, parantaa mallien laatua, luoda alan standardeja, houkutella kykyjä, lisätä läpinäkyvyyttä ja tukea pitkän aikavälin strategioita.

Tällä kertaa Zuckerberg selitti yksityiskohtaisesti "miksi avoimen lähdekoodin tekoäly on hyvä kehittäjille" artikkelissa "Open Source AI Is the Path Forward":

Keskustellessani kehittäjien, toimitusjohtajien ja valtion virkamiesten kanssa ympäri maailmaa kuulen usein heidän korostavan tarvetta kouluttaa, hienosäätää ja optimoida omia mallejaan.

Jokaisella organisaatiolla on ainutlaatuiset tarpeet, ja erikokoisia malleja voidaan optimoida näihin tarpeisiin, kouluttaa tai hienosäätää tietyillä tiedoilla. Yksinkertaiset laitteella tehtävät ja luokitustehtävät voivat vaatia pienempiä malleja, kun taas monimutkaisemmat tehtävät vaativat suurempia malleja.

Nyt voit käyttää huippuluokan Llama-malleja ja jatkaa niiden harjoittelua omilla tiedoillasi ja optimoida ne myöhemmin ihanteellisen mittakaavan mukaan – ilman, että meillä tai kenelläkään muulla olisi koskaan pääsyä tietoihisi.

Meidän täytyy hallita omaa kohtaloamme, ei olla suljetun lähdekoodin toimittajan omistuksessa.

Monet organisaatiot eivät halua luottaa malliin, jota he eivät voi johtaa ja hallita itse. He pelkäävät, että suljetun lähdekoodin mallien toimittajat voivat muuttaa mallia, käyttöehtoja tai jopa lopettaa palvelun kokonaan. He eivät myöskään halua olla lukittuina yhteen pilvialustaan, jolla on yksinoikeudet tiettyyn malliin. Avoin lähdekoodi tarjoaa monille yrityksille yhteensopivan työkaluketjun, mikä helpottaa vaihtamista eri järjestelmien välillä.

Meidän on suojeltava tietojamme.

Monet organisaatiot käsittelevät arkaluontoisia tietoja, ja niiden on suojattava nämä tiedot lähettämiseltä pilvisovellusliittymien kautta suljetun lähdekoodin malleihin. Muut organisaatiot eivät yksinkertaisesti luota suljetun lähdekoodin mallin tarjoajan lähestymistapaan tietojenkäsittelyssä. Avoin lähdekoodi ratkaisee nämä ongelmat antamalla sinun käyttää malleja missä haluat, ja sitä pidetään yleisesti turvallisempana kehitysprosessin läpinäkyvyyden vuoksi.

Tarvitsemme tehokkaan ja taloudellisen tavan toimia.

Kehittäjät voivat käyttää Llama 3.1 405B -malleja johtopäätösten tekemiseen omassa infrastruktuurissaan noin puolet halvemmalla, kun käytetään suljetun lähdekoodin malleja, kuten GPT-4o, jotka soveltuvat käyttäjäkohtaisiin ja offline-johtotehtäviin.

Panostamme ekosysteemistä, josta lupaa tulla pitkän aikavälin standardi.

Monet ihmiset näkevät avoimen lähdekoodin mallien kehittyvän nopeammin kuin suljetun lähdekoodin mallit, ja he toivovat, että heidän rakentamansa järjestelmäarkkitehtuuri tuo suurimmat pitkän aikavälin edut.

(Kansikuva Meta X -tililtä)

uutiset

Avoimen lähdekoodin malli ylittää vahvimman suljetun lähdekoodin mallin. Voiko Llama 3.1 horjuttaa tekoälyn ekosysteemiä? ｜ Jiazi Guangnian

Johdanto

yhteystietoni