ChatGPT-hetki avoimen lähdekoodin suurille malleille? Erittäin odotettu Llama 3 405B julkaistaan pian

ChatGPT-hetki avoimen lähdekoodin suurille malleille?Erittäin odotettu Llama 3 405B julkaistaan pian

2024-07-23

Kauan odotettu Llama 3 405B, joka oli alun perin tarkoitus julkaista 23. päivänä, on tulossa.

Llama 3 -sarjan huippumallina 405B-versiossa on 405 miljardia parametria ja se on yksi suurimmista avoimen lähdekoodin malleista tähän mennessä.

META vuoti eilisiltana yhtäkkiä Llama 3.1-405B -arviointitietoja Jotkut nettimiehet ennustivat, että Llama 3.1-70B -versio saattaa ilmestyä samaan aikaan, koska "(mallivuoto etukäteen) on META:n vanha perinne. Viime vuoden Llama-malli oli Did it Once."

Jotkut analyytikot uskovat, että Llama 3 405B ei ole vain yksi parannus tekoälyn ominaisuuksiin. Avoimen lähdekoodin tekoälylle tämä on potentiaaliaChatGPThetki”, jossa huipputekninen tekoäly todella demokratisoituu ja annetaan suoraan kehittäjien käsiin.

Kolme ennustetta tulevalle Llama 3 405B -ilmoitukselle

Jotkut analyytikot ennustivat tulevan Llama 3 405B -ilmoituksen kohokohtia kolmesta näkökulmasta: tiedon laadusta, malliekosysteemistä ja API-ratkaisuista.

Ensinnäkin Llama 3 405B voi mullistaa tietojen laadun erikoismalleissa.

Ammattimaisten tekoälymallien rakentamiseen keskittyneille kehittäjille pitkän aikavälin haaste on korkealaatuisen koulutusdatan saaminen. Pienemmät asiantuntijamallit (parametrit 1-10B) käyttävät usein tislaustekniikoita täydentämään koulutustietojoukkoaan suuremman mallin tuotoksella.Kuitenkin käyttämälläOpenAITällaiset suljetun lähdekoodin jättiläisiltä, kuten Google Cloudilta, saadut tiedot ovat ankarasti rajoitettuja, mikä rajoittaa kaupallisia sovelluksia.

Llama 3 405B syntyi. Avoimen lähdekoodin juggernauttina, joka kilpailee patentoitujen mallien kanssa, se tarjoaa kehittäjille uuden perustan rikkaiden, rajoittamattomien tietojoukkojen luomiseen. Tämä tarkoittaa, että kehittäjät voivat vapaasti käyttää Llama 3 405B:n tislattua tuotantoa erikoismallien kouluttamiseen, mikä nopeuttaa merkittävästi innovaatio- ja käyttöönottosyklejä ammattialoilla. Odotettavissa on voimakasta kehitystä korkean suorituskyvyn hienosäädettyjen mallien kehityksessä, jotka ovat sekä kestäviä että avoimen lähdekoodin eettisiä.

Toiseksi Llama 3 405B muodostaa uuden malliekosysteemin: perusmalleista asiantuntijayhdistelmiin

Llama 3 405B:n julkaisu voi määritellä tekoälyjärjestelmien arkkitehtuurin uudelleen. Mallin pelkkä koko (405 miljardia parametria) voi tarkoittaa yhden koon ratkaisua, mutta todellinen voima piilee sen integroinnissa hierarkkiseen mallijärjestelmään. Tämä lähestymistapa on erityisen kiinnostava kehittäjille, jotka työskentelevät tekoälyn kanssa eri mittakaavassa.

Odota siirtymistä dynaamisempaan malliekosysteemiin, jossa Llama 3 405B toimii selkärankana ja jota tukevat pienet ja keskikokoiset mallit. Nämä järjestelmät voivat käyttää tekniikoita, kuten spekulatiivista dekoodausta, jossa vähemmän monimutkaiset mallit käsittelevät suurimman osan prosessoinnista ja kutsuvat 405B-mallia vain silloin, kun se on tarpeen tarkistamista ja virheenkorjausta varten. Tämä ei ainoastaan maksimoi tehokkuutta, vaan avaa myös uusia mahdollisuuksia laskentaresurssien ja vasteaikojen optimointiin reaaliaikaisissa sovelluksissa, erityisesti käytettäessä SambaNova RDU:ita, jotka on optimoitu näihin tehtäviin.

Lopuksi Llama 3 405B kilpailee tehokkaimmasta API:sta

Suuren tehon mukana tulee suuri vastuu – ja Llama 3 405B:lle käyttöönotto on suuri haaste. Kehittäjien ja organisaatioiden on oltava varovaisia mallin monimutkaisuuden ja toiminnallisten vaatimusten suhteen. Tekoälypilvipalveluntarjoajat kilpailevat tehokkaimman ja kustannustehokkaimman API-ratkaisun tarjoamisesta Llama 3 405B:n käyttöönottoon.

Tämä tilanne tarjoaa kehittäjille ainutlaatuisen mahdollisuuden olla vuorovaikutuksessa eri alustojen kanssa ja verrata, miten eri sovellusliittymät käsittelevät niin suuria malleja.Voittajat tässä tilassa ovat ne, jotka pystyvät tarjoamaan sovellusliittymiä, jotka eivät pelkästään hallitse laskennallista kuormitusta tehokkaasti, mutta eivät uhraa mallin tarkkuutta tai lisää suhteettomastiHiilijalanjälki。

Yhteenvetona voidaan todeta, että Llama 3 405B ei ole vain yksi työkalu tekoälyarsenaalissa, vaan se on perustavanlaatuinen muutos kohti avointa, skaalautuvaa ja tehokasta tekoälyn kehitystä. Analyytikot uskovat, että olipa kyseessä niche-mallien hienosäätö, monimutkaisten tekoälyjärjestelmien rakentaminen tai käyttöönottostrategioiden optimointi, Llama 3 405B:n saapuminen avaa käyttäjille uusia näköaloja.

Mitä mieltä netilaiset ovat?

Netizens julkaisi LocalLLaMA-aliredditissä ja jakoi tietoa Meta Llama 3.1:stä 405 miljardilla parametrilla. Tämän tekoälymallin tuloksista päätellen useissa keskeisissä tekoälyvertailuissa sen suorituskyky ylitti nykyisen johtajan, nimittäin OpenAI:n.GPT-4o, joka on ensimmäinen kerta, kun avoimen lähdekoodin malli voi voittaa nykyisen uusimman suljetun lähdekoodinLLMMalli.

Kuten vertailuarvoista näkyy, Meta Llama 3.1 ylittää GPT-4o:n useissa testeissä, kuten GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem ja winograd. Kuitenkin se ylittää GPT-4o:n HumanEval- ja MMLU-testissä. sosiaalinen Tieteellisesti se on jäljessä GPT-4o:sta.

Ethan Mollick, Pennsylvanian yliopiston Wharton Schoolin apulaisprofessori, kirjoittaa:

Jos nämä tilastot pitävät paikkansa, on turvallista sanoa, että Al-huippumallit ovat kaikkien saatavilla ilmaiseksi tästä viikosta alkaen.

Hallitukset, organisaatiot ja yritykset kaikissa maissa ympäri maailmaa voivat käyttää samoja tekoälyominaisuuksia kuin kaikki muutkin. Tästä tulee hauskaa.

Jotkut nettimiehet tiivistivät useita Llama 3.1 -mallin kohokohtia:

Malli käyttää koulutukseen 15T+ tokenia julkisista lähteistä, ja koulutusta edeltävän datan määräaika on joulukuu 2023;

Hienosäätödata sisältää julkisesti saatavilla olevien ohjeiden hienosäätötietojoukon (toisin kuin Llama 3) ja 15 miljoonaa synteettistä näytettä;

Malli tukee useita kieliä, mukaan lukien englanti, ranska, saksa, hindi, italia, portugali, espanja ja thai.

Jotkut verkkokäyttäjät sanoivat, että tämä on ensimmäinen kerta, kun avoimen lähdekoodin malli on ohittanut suljetun lähdekoodin mallit, kuten GPT4o ja Claude Sonnet 3.5, ja saavuttanut SOTA:n useilla vertailuarvoilla.

uutiset